Per big data, si intende un’enorme mole di informazioni (dataset), talmente grande da necessitare l’utilizzo di programmi e calcoli appositi per gestirli e darci un chiaro significato. Immaginate che lo spazio di archiviazione sia come il cassetto della vostra scrivania ed i big data i libri della British Library (circa 170.000.000 volumi). Ciò avviene perché le fonti e le dimensioni dei dati stessi stanno aumentando molto più velocemente  della tecnologia necessaria alla loro catalogazione.

shutterstock_5vs_big_data

 

Il primo aspetto determinante dei big data è la mole di byte cioè l’unità di misura della quantità di informazione contenuta al suo interno. Sono big data i set di dati che contiamo in Petabyte (circa un biliardo di byte 1.125.899.906.842.624 byte = 10245 = 250 byte = 1 pebibyte).

 

big-data-blog-image

 

Secondo Merriem-Webster Online i dati sono informazioni relative a fatti effettivi utilizzati come base per una discussione, un ragionamento o un calcolo. Possono diventare informazioni i dati rilevati da dispositivi appositi, che includono anche quelli irrilevanti o ripetitivi, che necessitano di un’elaborazione.

L’intera Internet, all’agosto 2013, fa transitare 1826 petabyte di dati ogni giorno. Probabilmente tra qualche anno, saranno big data quelli che si misurano in exabyte ovvero trilioni di byte. Numeri che fan girare la testa…

Tra le fonti principali di grandi dimensioni di dati ci sono:

  • sistemi gestionali aziendali (gestione delle relazioni con i clienti, gestione della fatturazione, la pianificazione aziendale e l’interfaccia web)
  • Data Management System (o DMS, come il classico foglio Excel o Word), gli archivi (gestione del magazzino oppure delle operazioni e delle transazioni),
  • dispositivi elettronici (smartphone, contatori),
  • fornitori di dati aggregati (aggregatori di dati specializzati da varie fonti), le informazioni geografiche (mappe, dettagli regionali o locali),
  • contenuti generati dall’uomo (twitter è considerato la migliore fonte di dati tra i social network, blog, email, informazioni online) ,
  • dati dei sensori (ambientali, elettrici, termali, di prossimità, ottici, chimici, pressione, forza e tanti altri).

immaginepo

Nel 2013, Frank Ohlhorst definisce il concetto di big data con 4 V:  volume in riferimento alla mole di informazioni; varietà cioè dati diversificati per natura (audio, testo, immagini etc.); velocità con la quale le informazioni sono diffuse ma anche di archiviazione; veridicità un’ulteriore qualifica che si aggiunge alle precedenti riguarda la qualità dei dati. I big data hanno molti riferimenti: Business Intelligence (BI), l’applicazione statistica, l’analisi predittiva , il data mining.

Le informazioni non sono nient’altro che dati diversamente riportati. Sappiamo che la scrittura ha iniziato a diffondersi attorno al 3500 a.C.. All’epoca erano incise su tavole di pietra, oggi le informazioni sono registrate negli hard disk (la memoria dei computer). Se gli uomini leggono e scrivono parole, le macchine analizzano e generano dati.

Viviamo in un mondo dove il signor Amazon.com ci suggerisce cosa acquistare, Mr. Facebook.com ci consiglia gli amici da aggiungere e la dottoressa Google.com cerca parole e siti per conto nostro. Vi siete mai chiesti con quali diavolerie queste personcine riescano certe volte addirittura ad anticiparci?

Ad esempio, una peculiarità di Google che esiste dalla sua nascita è il tasto “mi sento fortunato” diventato negli anni sempre più preciso. Oppure la funzione “amici che potresti conoscere” di Facebook.

Cosa hanno in comune un programmatore, un responsabile marketing, un ricercatore ed un analista? Tutti utilizzano tecnologie analitiche per giungere alle loro conclusioni. Una corretta analisi dei big data aggiunge un quinto elemento alla descrizione citata in precedenza, ovvero il valore.

Chiunque è in grado di analizzare i big data ha la capacità di anticipare trend e comprendere le dinamiche del mondo.