Ciao, cosa vuoi cercare?

Tecnologia

Le 5 + 3 V del Big Data

Si sente sempre più spesso parlare di Big Data e analisi dei dati. È infatti vero che i dati sono il nuovo petrolio, ma…facciamo chiarezza. Quali sono i fondamentali del Big Data per le statistiche ufficiali? Scopriamo insieme le 5+3 V del Big Data.

big data - le 5 + 3 V

Sempre più spesso si sente parlare di statistica e di Big Data. Ma cosa si intende per Big Data? Nelle Scienze dei Dati si intende tutto l’insieme delle tecniche, delle tecnologie e dei metodi che si utilizzano per reperire, analizzare, trasformare e modellare grandi quantità di dati con lo scopo di realizzare, attraverso di essi, delle evoluzioni in campo scientifico, delle innovazioni e per molte aziende aumentare i loro profitti.

Ovvio che questa definizione di Big Data è riduttiva, generalista e semplicistica, ma i dati (tanti) sono ormai nascosti ovunque e le applicazioni che se ne fanno possono essere più o meno nobili. Questo millennio ci ha insegnato che i dati rappresentano il nuovo petrolio e chi li possiede ha una fortissima influenza sui mercati e sul pensiero comune. Possono citarsi gli scandali di Cambridge Analytica o le continue “scaramucce” tra grandi superpotenze mondiali.

Questo articolo vuole però sorvolare sulle questioni etiche e morali e sul diritto della privacy, vuole analizzare il Big Data in una delle sue applicazioni più “bianche”: le statistiche ufficiali.

Lo scopo delle statistiche ufficiali

Lo scopo delle statistiche ufficiali, dall’inglese (più usato) Official Statistics, è quello di assistere le aziende, siano esse pubbliche o private, nel processo di compimento dell’azienda delle proprie decisioni e il conseguente miglioramento delle situazioni future sulla base delle statistiche effettuate. Vien da sé essere d’accordo sull’importanza che l’affidabilità e l’obiettività di tali statistiche deve esserne il baluardo, rendendole uno strumento esauriente e scientificamente documentato in modo trasparente.

Le statistiche ufficiali devono essere pubbliche e mai private, quindi alla portata di tutti. La loro divulgazione dovrebbe essere fatta in modo sensibile e fruibile in modo disaggregato. Esse devono poter proteggere la riservatezza e la privacy di tutta le persone coinvolte.

A livello pubblico gli stati possono avere comportamenti diversi a riguardo. Infatti, questi possono essere uffici o istituti autonomi, godendo, quest’ultimi, di maggiore autonomia e governati da un presidente. Un classico esempio è la differenza che c’è tra Germania e Italia. In Italia l’ISTAT è un vero e proprio istituto autonomo.

La qualità del dato è al centro dell’analisi

Come anticipato gli esiti devono essere i più affidabili ed esaurienti possibile e devono quindi soddisfare tutti i requisiti di qualità. Standard necessari per evitare di incorrere in modelli e/o analisi con bias e varianza spropositati.

Con qualità dei dati si intende un insieme ampio di specifiche diverse e di gradienti diversi ai quali i vari uffici e istituti devono far fede. Le aziende devono massimizzare la resa della gestione dei propri dati e della loro raccolta. Un buon dato oggi può significare grande profitto domani.

Le dimensioni che la qualità dei dati può assumere sono molteplici. L’integrità di formato che assicura che il dato sia collezionato sempre nello stesso modo. La convalida dei dati che deve prevedere delle modalità di certificazione di integrità del dato. La correzione del dato per quei casi in cui la convalida abbia evidenziato delle lacune. Oppure la proliferazione dei dati, più complessa e audace da perseguire.

I fondamentali del Big Data: le 5 V

Come si è solito dire nel settore: Big Data = Big Problem. I fondamentali (grandi) che devono essere tenuti sotto controllo sono variegati ed orizzontalmente diversi nella scienza dei dati.

Varietà

Il più ovvio di tutti è la varietà. Le aziende possono ricavare i dati da svariati fonti diverse. Queste possono raccoglierlo nelle forme più variegate. Alcuni esempi potrebbero essere i sensori dello smartphone, il GPS dell’auto, il decoder televisivo o addirittura il frigo smart. L’IoT (Internet of Things – Internet delle Cose) ha allargato a dismisura la capacità di raccolta dei dati nei più disparati ambiti e scenari d’uso.

La provenienza del dato influisce non di poco sulla sua accuratezza e sull’attenzione che vi si pondera. Una società che immette nel mercato un bene di consumo ha maggiore interesse nel consultare i dati provenienti dai social network rispetto ad un’impresa industriale. Chi vende scarpe avrà bisogno di attingere dati da luoghi diversi rispetto a chi vende piloni industriali.

Volume

Spesso nel Data Science si rappresenta il Big Data come una piramide e il volume è alla base di essa. Infatti, maggiori sono le informazioni alle quali si può attingere e maggiori saranno le probabilità che le analisi si avvicinino alla realtà.

La mole di dati che le aziende gestiscono è veramente smisurata. Dal 2012 questi valori crescono smisuratamente. È stato stimato che da quell’anno, in cui sono stati raccolti più di tre milioni di dati, questi raddoppiano ogni 40 mesi.

Veracità

Per veracità si intende qualità. Si può disporre di grandi quantità di dati ma se essi sono verificati e di qualità questi sono maggiormente spendibili. Molte aziende hanno dati non strutturati e illeggibili quindi praticamente inutilizzabili.

Ogni azienda dovrebbe chiedersi se i dati sono puliti e se sono stati raccolti in modo corretto. Deve chiedersi se sono spendibili e possono essere offerti per qualche scopo.

Velocità

La velocità in alcuni ambiti può essere più importante del volume. Infatti, questa può offrire una maggiore competitività.

Spesso è molto più utile avere dati limitati ed accreditati in tempo reale che avere grosse quantità di informazione in un lasso di tempo maggiore. In alcuni settori, come ad esempio quello economico, si rischiano di perdere treni molto importanti se si prende il rischio di aspettare troppo tempo. Insomma, i dati devono essere disponibili al momento giusto, per fare in modo che prendano, le aziende, le decisioni più giuste e più appropriate nel minor tempo possibile.

Valore

Qual è il valore di un dato? Si riferisce alla sua capacità di generare profitti. Quindi sì, il suo aspetto più venale ed economico. Per le aziende è fondamentale riuscire a trovare il modo migliore per spendere e sfruttare i dati acquisiti.

Come detto all’inizio dell’articolo, i dati sono il nuovo petrolio e le aziende non vedono l’ora di trasformare la loro materia prima in prodotti ad elevato profitto. Come si guadagna dai dati?

Un esempio classico è spendere i propri dati per vendere spazi pubblicitari altamente indirizzati alle aziende di settore. Facebook, Google e altri colossi basano i loro più famosi modelli di business sulla pubblicità. Molti li definiscono più agenzie pubblicitarie che produttori di software e prodotti tecnologici.

Facebook grazie ai loro social network conoscono molto bene gli spazi d’interesse delle persone e mettono a disposizione delle aziende questo sapere attraverso spazi pubblicitari di inserzione altamente customizzatili e redditizi.

Google fa lo stesso, grazie al suo motore di ricerca sa perfettamente cosa cercano e di cosa hanno bisogno i suoi utenti e può sfruttare queste nozioni per reindirizzare gli annunci nel modo più pertinente ed attendibile possibile.

Le 3 extra V del Big Data

Alle cinque funzionalità principali ne sono state aggiunte tre che sono poi strettamente correlate agli sviluppi che i grossi brand della tecnologia hanno apportato al mercato dei dati. I citati social network hanno dato la possibilità alle aziende di entrare nelle case dei consumatori e di insidiarsi nelle loro menti e di scovare i loro desideri più intimi.

Visualizzazione

Ci si riferisce alla visualizzazione quando si determinano le intuizioni in base alla visualizzazione dei dati e alle sue raffigurazioni visive, come le svariate tipologie di grafi e grafici realizzabili.

Questa V è, recentemente, diventata la più blasonata e richiesta. Il mestiere del Data Scientist richiede sempre più competenze orizzontali. Esso deve interfacciarsi anche con personale senza competenze tecniche e una buona capacità di visualizzazione dei dati permette loro di abbattere le barriere comunicative. Parlare la stessa lingua tra divisioni diverse significa massimizzare la resa e questo si traduce in maggiori profitti per le aziende.

Viscosità

La viscosità misura la resistenza al flusso nel volume dei dati. La resistenza però avere molteplici fonti. Può provenire dall’attrito sviluppato da flussi di integrazioni di sorgenti diverse o dall’elaborazione di risorse su richiesta in modo estremamente dettagliato e complesso.

Per fronteggiare queste incombenze e risolvere le problematiche relative alla viscosità è necessario migliorare lo streaming dei dati, sviluppare modelli di analisi flessibili e agili (leggi il nostro articolo sullo sviluppo software agile cliccando qui), adattare ed integrare i flussi senza generare ridondanze ed elaborare in modo leggero eventi complessi, estraendo solo le informazioni necessarie.

Viralità

La viralità descrive la velocità con la quale le informazioni vengono sparse e diffuse all’interno di una rete sociale. Le reti sociali non sono altro che delle reti (dense o sparse) di individui che hanno come nodi le persone e come archi tra questi le connessioni tra di essi.

Con l’avvento dei social network e la loro diffusione ampia e capillare si sta sviluppando una branca delle scienze informatiche che mira all’analisi e all’interpretazione di questi dati. Settore in cui i grandi della tecnologia mondiale vanno veramente molto forti e in cui la comunità scientifica deve ancora allinearsi.

Insieme alla blockchain e al movimento crypto che ne segue (come detto in questo nostro articolo), uno dei lavori che sicuramente prenderà piede nel futuro e quello dell’analista di reti sociali.

La viralità misura, quindi, la velocità con la quale i dati vengono diffusi e distribuiti da ciascun nodo univoco. Il tempo e il tasso di diffusione (che esprime quanto un elemento viene condiviso) sono i fattori determinanti dell’analisi.

Conclusioni

Le otto caratteristiche citate in questo articolo non sono altro che la punta dell’iceberg che forma il Big Data. In questi anni si è grattata solo la superficie di questo emisfero digitale e negli anni a venire sarà sempre più centrale, per ogni azienda e per ogni Paese, la figura dell’analista.

Nessuno può permettersi di perdere il treno del Big Data, tantomeno chi è appassionato di statistica, tecnologia, economia e dell’analisi e modellazione della realtà.

Commenta

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Potrebbe interessarti...

Economia

Tutti noi, almeno una volta nella vita, abbiamo sentito dire da qualcuno la frase "I soldi non fanno la felicità". Ma quanto c'è di...

Economia

Quante volte abbiamo sentito dire la frase "i ricchi sono sempre più ricchi e i poveri sempre più poveri"? Ma se da un lato...

Scienza

Dall'Unità d'Italia al 2015, la popolazione italiana è cresciuta ininterrottamente. Poi, il declino. Quali sono le cause e cosa possiamo aspettarci sull'evolversi della situazione...

Tecnologia

Quali sono state le parole, i personaggi, gli avvenimenti più cercati su Google dagli italiani in questo 2021? Il motore di ricerca, per il...