Come si integra la tecnologia Cloud in un futuro data driven?
Il Cloud porta con sé una serie di vantaggi oggettivi che ne fanno, ad oggi, una delle principali chiavi dello sviluppo tecnologico. Parliamo di riduzione dei costi IT, accessibilità da ogni parte del globo e scalabilità, il tutto applicabile tanto in ambito aziendale quanto in quello personale,
Ma che cos'è davvero il Cloud? Come si integra alla realtà che conosciamo? E, soprattutto, nell'ottica di rincorrere un Futuro sempre più governato dai dati (data-driven), quale ruolo andrà a ricoprire la sua tecnologia?
Nel rispondere a queste e più domande, la 6° lezione della Moxoff Academy tenuta dal Prof. Paolo Bellavista, Professore ordinario di sistemi distribuiti e mobili, Dipartimento di Informatica - Scienza e Ingegneria (DISI) presso l'Università di Bologna, ci aiuta a fare chiarezza presentando il valore intrinseco del Cloud, come strettamente connesso ai concetti emergenti di big-data processing, distributed computing e Cloud Continuum.
Big Data (e IoT)
L'IoT, o Internet of Things, è un campo di sviluppo in incredibile espansione. Sempre più dispositivi connessi accompagnano la nostra quotidianità, con l'obiettivo di generare e trasmettere dati relativi a quanto ci circonda e alle caratteristiche delle nostre azioni. Immense quantità di informazioni, i Big Data, sono così in continua partenza dai nostri device. Si tratta di dati generati in grandi quantità (volume), trasmessi rapidamente (velocità), e disponibili in diversi formati come video, immagini, testi.. (varietà).
Ad oggi, gran parte dei dati generati è direttamente trasportata a partire dalla propria sorgente (ad esempio, come detto, un dispositivo IoT) fino allo spazio Cloud di destinazione, e solo a questo punto processata (big-data processing). È facile intuire come questa prassi generi un continuo, gravoso e oneroso traffico di dati energy-consuming, la cui massa concorre a un rallentamento del sistema di processo e di risposta e a una diminuzione della sostenibilità complessiva delle soluzioni.
Distributed Computing
Alla luce di queste nuove tecnologie e ai fini di rendere il processo di elaborazione più efficiente, è oggi raccomandato spostare le operazioni di preprocessing dei dati (ad esempio le operazioni di pulizia da eventuali outliers) il più vicino possibile alla sorgente che li ha generati. Si parla sempre più spesso, infatti, di calcolo distribuito (o edge computing).
Un sistema si dice distribuito, quando numerosi centri di calcolo autonomi eseguono uno o più compiti specifici, al fine di raggiungere progressivamente un obiettivo comune. La distribuzione è perciò da intendersi come relativa alla suddivisione di task, i quali verranno poi affidati ai diversi operatori di calcolo, il più vicino possibile a dove il dato risulta generato. Via via che il dato fluirà nel sistema verranno eseguiti i diversi compiti, così da alleggerire il flusso generale di dati in movimento verso il Cloud e migliorare l'efficienza del processo.
Cloud Continuum (e 5G)
Il concetto di Cloud Continuum, nato proprio in risposta all'esigenza di minimizzare il flusso di dati trasportati verso il Cloud, viene utilizzato per descrivere la catena di intermediari, posizionati tra la sorgente del dato e lo spazio Cloud, all'interno della quale muovere i diversi step del pre-processing. Lavorare in Cloud Continuum, applicando le tecniche di virtualizzazione e orchestrazione tipiche del Cloud "tradizionale", permette di elaborare immense quantità di informazioni con tempistiche più efficienti, andando a ridurre drasticamente i tempi di latenza.
Un esempio pratico? La guida collaborativa
Ridurre i tempi di latenza amplia le possibilità di veri e propri business innovativi, come ad esempio nell'ambito della object recognition (cioè, a partire da un'immagine acquisita, il riconoscimento di un oggetto in totale autonomia da parte di un calcolatore). Un caso è quello della guida collaborativa, della condivisione cioè di informazioni tra vetture a guida autonoma, con l'obiettivo di convergere nell'interpretazione di immagini acquisite da prospettive differenti. Si pensi a un cono d'ombra in carreggiata. In questo caso sarà fondamentale valutare le immagini riprese da più punti di vista (vetture che giungono in senso contrario), così che, confrontandole, si possa arrivare in pochi millisecondi ad una conclusione comune circa la presenza o meno di un ostacolo. La chiave, come abbiamo visto, si sostanzia nella possibilità di eseguire l'elaborazione del calcolo in prossimità della sorgente che ha generato il dato (l'automobile), così da garantire tempi di latenza minimi e un output immediato nel determinare l'azione di risposta del veicolo.
Nuovi e ulteriori passi avanti in questo senso saranno sicuramente portati dalla tecnologia 5G. Il 5G, se confrontato al precedente 4G, non si traduce infatti unicamente in una superiore larghezza della banda e nella capacità di lavorare a frequenze più elevate. Nelle infrastrutture 5G, alcune antenne potrebbero infatti essere affiancate da un nodo MEC (Multi-access Edge Computing), cioè un nodo con ruolo attivo nel Cloud Continuum sotto forma di micro-data center locale.
Questo permetterà una totale proximity nel preprocessing dei dati (nel caso delle vetture a guida collaborativa, ad esempio, permetterebbe di processare l'informazione in un nodo MEC posto all'altezza del singolo incrocio o nella base station 5G più vicina), riducendo radicalmente i tempi di latenza. Darà inoltre la possibilità di creare reti locali, fruibili da parte di imprese private. Si parla di Edge Cloud, proprio riferendosi al concetto di Cloud Continuum attuato all'ultimo bordo della rete Internet, in mano al gestore stesso delle telecomunicazioni.
Affidabilità del Cloud e Teorema CAP
Terminiamo l'excursus sullo stato dell'arte del Cloud con un'ultima considerazione, non trascurabile, relativa all'affidabilità e alla sicurezza delle informazioni conservate nel Cloud. Risale al 2000 un'intuizione di Eric Brewer, congettura conosciuta come Teorema CAP (ad oggi mai smentita nel mondo reale). Il Teorema CAP si declina su tre caratteristiche fondamentali del Cloud: Consistency (consistenza), Availability (disponibilità), Partition (partizione).
Il teorema afferma che, nel mondo reale, sia vano ogni tentativo di massimizzare in contemporanea le tre direzioni/proprietà. È pertanto imprescindibile valutare un trade off tra la Consistency (la qualità per cui i diversi fruitori ricevono in risposta dal sistema il medesimo dato), l'Availability (intesa come la garanzia di accessibilità al dato, indipendentemente dal numero di utenti che desiderino consultarlo in un momento specifico) e la Partition (cioè la sicurezza circa la salute del dato, qualora dovessero accadere eventi avversi alle reti che lo ospitano). La scelta che guida, oggi, ogni implementazione e architettura Cloud mira alla replica degli elementi quale unico modo conosciuto per garantire l'impossibilità di perdita dell'informazione. Si massimizza pertanto l'Availability insieme con la Partition-Tolerance, anche a scapito della Consistenza del dato in fase di fruizione.
Che cos'è la Moxoff Academy?
Un luogo di alta formazione rivolto a chi proviene dal mondo accademico e desidera cimentarsi con sfide industriali e a chi, avendo già esperienza in azienda, vuole aggiornarsi su nuove tecniche, metodologie e competenze ormai fondamentali per fare innovazione in un mondo data-driven, come modellistica matematica, statistica, deep learning, distributed computing.
Big Data (e IoT)
L'IoT, o Internet of Things, è un campo di sviluppo in incredibile espansione. Sempre più dispositivi connessi accompagnano la nostra quotidianità, con l'obiettivo di generare e trasmettere dati relativi a quanto ci circonda e alle caratteristiche delle nostre azioni. Immense quantità di informazioni, i Big Data, sono così in continua partenza dai nostri device. Si tratta di dati generati in grandi quantità (volume), trasmessi rapidamente (velocità), e disponibili in diversi formati come video, immagini, testi.. (varietà).
Ad oggi, gran parte dei dati generati è direttamente trasportata a partire dalla propria sorgente (ad esempio, come detto, un dispositivo IoT) fino allo spazio Cloud di destinazione, e solo a questo punto processata (big-data processing). È facile intuire come questa prassi generi un continuo, gravoso e oneroso traffico di dati energy-consuming, la cui massa concorre a un rallentamento del sistema di processo e di risposta e a una diminuzione della sostenibilità complessiva delle soluzioni.
Distributed Computing
Alla luce di queste nuove tecnologie e ai fini di rendere il processo di elaborazione più efficiente, è oggi raccomandato spostare le operazioni di preprocessing dei dati (ad esempio le operazioni di pulizia da eventuali outliers) il più vicino possibile alla sorgente che li ha generati. Si parla sempre più spesso, infatti, di calcolo distribuito (o edge computing).
Un sistema si dice distribuito, quando numerosi centri di calcolo autonomi eseguono uno o più compiti specifici, al fine di raggiungere progressivamente un obiettivo comune. La distribuzione è perciò da intendersi come relativa alla suddivisione di task, i quali verranno poi affidati ai diversi operatori di calcolo, il più vicino possibile a dove il dato risulta generato. Via via che il dato fluirà nel sistema verranno eseguiti i diversi compiti, così da alleggerire il flusso generale di dati in movimento verso il Cloud e migliorare l'efficienza del processo.
Cloud Continuum (e 5G)
Il concetto di Cloud Continuum, nato proprio in risposta all'esigenza di minimizzare il flusso di dati trasportati verso il Cloud, viene utilizzato per descrivere la catena di intermediari, posizionati tra la sorgente del dato e lo spazio Cloud, all'interno della quale muovere i diversi step del pre-processing. Lavorare in Cloud Continuum, applicando le tecniche di virtualizzazione e orchestrazione tipiche del Cloud "tradizionale", permette di elaborare immense quantità di informazioni con tempistiche più efficienti, andando a ridurre drasticamente i tempi di latenza.
Un esempio pratico? La guida collaborativa
Ridurre i tempi di latenza amplia le possibilità di veri e propri business innovativi, come ad esempio nell'ambito della object recognition (cioè, a partire da un'immagine acquisita, il riconoscimento di un oggetto in totale autonomia da parte di un calcolatore). Un caso è quello della guida collaborativa, della condivisione cioè di informazioni tra vetture a guida autonoma, con l'obiettivo di convergere nell'interpretazione di immagini acquisite da prospettive differenti. Si pensi a un cono d'ombra in carreggiata. In questo caso sarà fondamentale valutare le immagini riprese da più punti di vista (vetture che giungono in senso contrario), così che, confrontandole, si possa arrivare in pochi millisecondi ad una conclusione comune circa la presenza o meno di un ostacolo. La chiave, come abbiamo visto, si sostanzia nella possibilità di eseguire l'elaborazione del calcolo in prossimità della sorgente che ha generato il dato (l'automobile), così da garantire tempi di latenza minimi e un output immediato nel determinare l'azione di risposta del veicolo.
Nuovi e ulteriori passi avanti in questo senso saranno sicuramente portati dalla tecnologia 5G. Il 5G, se confrontato al precedente 4G, non si traduce infatti unicamente in una superiore larghezza della banda e nella capacità di lavorare a frequenze più elevate. Nelle infrastrutture 5G, alcune antenne potrebbero infatti essere affiancate da un nodo MEC (Multi-access Edge Computing), cioè un nodo con ruolo attivo nel Cloud Continuum sotto forma di micro-data center locale.
Questo permetterà una totale proximity nel preprocessing dei dati (nel caso delle vetture a guida collaborativa, ad esempio, permetterebbe di processare l'informazione in un nodo MEC posto all'altezza del singolo incrocio o nella base station 5G più vicina), riducendo radicalmente i tempi di latenza. Darà inoltre la possibilità di creare reti locali, fruibili da parte di imprese private. Si parla di Edge Cloud, proprio riferendosi al concetto di Cloud Continuum attuato all'ultimo bordo della rete Internet, in mano al gestore stesso delle telecomunicazioni.
Affidabilità del Cloud e Teorema CAP
Terminiamo l'excursus sullo stato dell'arte del Cloud con un'ultima considerazione, non trascurabile, relativa all'affidabilità e alla sicurezza delle informazioni conservate nel Cloud. Risale al 2000 un'intuizione di Eric Brewer, congettura conosciuta come Teorema CAP (ad oggi mai smentita nel mondo reale). Il Teorema CAP si declina su tre caratteristiche fondamentali del Cloud: Consistency (consistenza), Availability (disponibilità), Partition (partizione).
Il teorema afferma che, nel mondo reale, sia vano ogni tentativo di massimizzare in contemporanea le tre direzioni/proprietà. È pertanto imprescindibile valutare un trade off tra la Consistency (la qualità per cui i diversi fruitori ricevono in risposta dal sistema il medesimo dato), l'Availability (intesa come la garanzia di accessibilità al dato, indipendentemente dal numero di utenti che desiderino consultarlo in un momento specifico) e la Partition (cioè la sicurezza circa la salute del dato, qualora dovessero accadere eventi avversi alle reti che lo ospitano). La scelta che guida, oggi, ogni implementazione e architettura Cloud mira alla replica degli elementi quale unico modo conosciuto per garantire l'impossibilità di perdita dell'informazione. Si massimizza pertanto l'Availability insieme con la Partition-Tolerance, anche a scapito della Consistenza del dato in fase di fruizione.
Che cos'è la Moxoff Academy?
Un luogo di alta formazione rivolto a chi proviene dal mondo accademico e desidera cimentarsi con sfide industriali e a chi, avendo già esperienza in azienda, vuole aggiornarsi su nuove tecniche, metodologie e competenze ormai fondamentali per fare innovazione in un mondo data-driven, come modellistica matematica, statistica, deep learning, distributed computing.
Parole chiave: Cloud Computing, Data Science
- Chiara Pratesi
- Trans Audio Video
- UNI Ente Nazionale Italiano di Normazione