Quando si parla di Big Data si vogliono rappresentare tutte le nuove tecnologie capaci di acquisire, gestire e trattare grandi volumi di dati diversi tra loro.
Sin dalla nascita, i Big Data venivano caratterizzati da tre “V”
1. Volume :
Tutti i giorni le organizzazioni raccolgono dati da diverse fonti, come ad esempio transazioni commerciali, dispositivi intelligenti (IoT), apparecchiature industriali, video, social media, e-mail e altro ancora. Al di là delle possibilità di riuscire a gestire nello stesso posto dati così diversi tra loro, i costi e la complessità delle infrastrutture per l’archiviazione e la governance di questo enorme e sempre crescente volume di dati sarebbero stati un vero problema; oggi, grazie a tecnologie proprie dei Big Data, come i data Lake e tecnologie come Hadoop, queste operazione diventano realizzabili, accessibili e funzionali
2. Velocità :
Con la crescita dell’Internet of things (IoT), i flussi di dati verso le imprese devono essere gestiti in modo tempestivo e a una velocità senza precedenti. Tag RFID, sensori e contatori intelligenti, oltre all’accesso e all’utilizzo dei dati dei Social media o dalle mail, o ancora, l’utilizzo massivo del digitale nelle transazioni Bancarie e commerciali, hanno portato la necessità di gestire questi continui fiumi di dati in tempo quasi reale.
3. Varietà :
I dati provenienti dalle più svariate fonti, sono disponibili in tutti i tipi di formati, dai dati strutturati e numerici nei database tradizionali, ai documenti di testo non strutturati (e-mail, video, audio, dati di stock e transazioni finanziarie). Pertanto, questa varietà di formati possono essere gestiti grazie alle caratteristiche dei Big Data, che non necessitano di un preciso schema dei dati, come nelle basi dati tradizionali. Infatti, si parla di strutture NO-Sql per far convivere e governare dati strutturati e non strutturati e trarre da essi valore (Big Data Analytics).
Col tempo sono state introdotte altre due “V”, quasi per un’esigenza nata dopo i primi progetti di Big Data, con risultati non proprio entusiasmanti.
4. Veridicità :
Nei primi progetti di Big Data, molte aziende si sono talmente entusiasmate dalla quantità e varietà dei dati disponibili, da finire con il prestare poca attenzione a questo aspetto, salvo poi trovarsi con dati talmente sporchi da rendere le analisi non solo inattendibili, ma addirittura pericolose. Infatti, bisogna tenere conto che a differenza dei sistemi tradizionali, i dati essendo di natura completamente diversa tra loro, confluiscono spesso (ma non solo) direttamente dalle fonti che lo producono (sensori, transazioni, documenti, social, ecc.), per essere poi analizzate anche in near real time, ma senza un adeguato processo di pulizia e certificazione. Ecco, quindi, che ci si è resi rapidamente conto, che la “veridicità” doveva essere considerata una caratteristica intrinseca del dato da inserire nel processo di analisi.
5. Valore :
Ci si riferisce alla capacità di trasformare i dati in valore. Anche questo è un concetto di per sé ovvio e che è alla base già della business intelligence, ma sul quale è necessario rimettere l’accento. Questo perché, la continua crescita dei big data, lo aveva fatto perdere un po’ di vista. Nel concetto di Valore deve essere considerato l’elemento oggettivo del dato, che implica un problema concettuale, che se non attentamente affrontato, inquina i risultati di ogni analisi. La concettualizzazione di business che sta dietro a un qualsiasi progetto di analytics, si riassume con il bisogno di definire con chiarezza, in stretta relazione con il business owner del processo che genererà un determinato dato, quali sono gli elementi che caratterizzano il dato stesso. È così che l’analytics porterà poi veramente valore al business e che questo valore sarà misurabile.
La Big data Analytics, può essere considerata un’estensione del data Analytics a infrastrutture NO-SQL, spesso in cloud, dove il fine ultimo è creare ed estrapolare dati estremamente diversi tra loro, che cambiano e crescono velocemente, informazioni di business nascoste.
I Big Data Analytics, quindi, analizzano grandi quantità di dati, per scoprire modelli nascosti, correlazioni e altri insight, con la possibilità di creare analisi predittive, anche da dati storicamente non digitalmente analizzabili in near real time.
Inoltre, grazie allo sfruttamento delle capalities di tutta una serie di prodotti e tecnologie, come ad esempio la velocità di Hadoop e degli analytics in-memory, combinata con la capacità di analizzare le nuove fonti di dati, le aziende sono in grado di estrarre informazioni utili immediatamente e di prendere decisioni in base a ciò che hanno appreso e ai più probabili e possibili scenari futuri.