Big data: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
intro
Etichette: Annullato Vandalismo quasi certo Modifica visuale
m Correggo dei wikilink.
 
(25 versioni intermedie di 18 utenti non mostrate)
Riga 1:
[[File:BigData_2267x1146_trasparent.png|thumb|upright=1.4|Raffigurazione classica dei ''big data'']]
In [[statistica]] e [[informatica]], la locuzione [[lingua inglese|inglese]] '''''big data''''' ("grandi [masse di] dati") o talvolta l'[[lingua italiana|italiana]] '''megadati'''<ref>[https://iate.europa.eu/entry/result/3551299/en-es-fr-it-la-mul Voce 3551299] nella [[IATE]].</ref><ref>{{Cita web|url=https://cordis.europa.eu/article/id/231842-big-data-analytics-for-dummies/it|titolo=Analisi dei megadati per principianti
ma
|sito=[[CORDIS]]|lingua=it|data=26 giugno 2018 |accesso=26 marzo 2024}}</ref><ref>{{cita web|url=https://cordis.europa.eu/article/id/428905-bridging-the-divide-between-big-data-innovation-and-privacy-aware-data-protection/it|titolo=Colmare il divario tra l’innovazione nel campo dei megadati e la protezione dei dati attenta alla privacy| sito=[[CORDIS]]|accesso=26 marzo 2024| data=3 febbraio 2021| lingua=it}}</ref> indicano genericamente una raccolta di [[dati informatici]] così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o [[conoscenza]]<ref>{{cita pubblicazione|autore1=Andrea De Mauro|autore2=Marco Greco|autore3=Michele Grimaldi|lingua=EN|anno=2016|titolo=A Formal definition of Big Data based on its essential features|rivista=Library Review|volume=65|numero=3|pp=122-135|doi=10.1108/LR-06-2015-0061|url=https://dx.doi.org/10.1108/LR-06-2015-0061|accesso=2017-06-25}}</ref>. Il termine è utilizzato dunque in riferimento alla capacità (propria della [[scienza dei dati]]) di analizzare ovvero estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati (grazie a sofisticati metodi statistici e informatici di [[Elaborazione dati|elaborazione]]), al fine di scoprire i legami tra fenomeni diversi (ad esempio [[correlazione (statistica)|correlazioni]]) e prevedere quelli futuri. I big data possono essere utilizzati per diversi scopi tra cui quello di misurare le prestazioni di un'organizzazione nonché di un processo aziendale.<ref>{{Cita pubblicazione|autore=Alberto Sardi|nome=|cognome=|autore2=Enrico Sorano|autore3=Valter Cantino|nome2=|cognome2=|nome3=|cognome3=|coautori=Patrizia Garengo|data=2020|titolo=Big data and performance measurement research: trends, evolution and future opportunities|rivista=Measuring Business Excellence|volume=|numero=|accesso=|doi=10.1108/MBE-06-2019-0053|url=https://doi.org/10.1108/MBE-06-2019-0053}}</ref>
 
== Descrizione ==
[[File:DARPA_Big_Data.jpg|thumb|upright=1.1|Illustrazione simbolico-artistica del flusso di una gran mole di dati digitali]]
{{vedi anche|Scienza dei dati|Data mining|Datawarehouse}}
 
Malgrado non esista una separazione rigorosa tra big data e altri dati (non classificabili come ''big''), sono stati proposti diversi approcci per descriverne le peculiarità. Nel 2011 [[Teradata]] afferma che «Un sistema di big data eccede/sorpassa/supera i sistemi [[hardware]] e [[software]] comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva». Un'ulteriore proposta di caratterizzazione dei big data è stata data dal McKinsey Global Institute: «Un sistema di Big Data si riferisce a [[dataset]] la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare».
 
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate, quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni al secondo che il sistema deve poter acquisire e gestire per secondo. Negli ultimi due anni c'è stato infatti un incremento del 90% dei dati prodotti nel mondo e le aziende potrebbero arrivare a produrre [[zettabyte]] di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.
 
Il progressivo aumento della dimensione dei [[dataset]] è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei [[mercato|mercati]] e del [[commercio]], e quindi del [[Analisi delle serie storiche|trend]] complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso [[Internet]]. Con i big data la mole dei dati è dell'ordine degli [[zettabyte]], ovvero miliardi di [[terabyte]],<ref>{{cita web |cognome=Russo |nome=Marco |coautori=Luca De Biase |titolo=Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono? |url=http://blog.debiase.com/2013/05/che-cosa-pensereste-se-vi-dicessero-che-in-italia-i-big-data-non-esistono |accesso=28 ottobre 2014}}</ref> quindi si richiede una potenza di [[calcolo parallelo]] e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di [[server]].<ref>{{cita web |autore=Jacobs, A. |titolo=The Pathologies of Big Data |lingua=inglese |data=6 luglio 2009 |editore=ACMQueue |url=http://queue.acm.org/detail.cfm?id=1563874 |accesso=21 ottobre 2013}}</ref><ref>{{cita web |autore=Gianluca Ferrari |data=14 giugno 2011 |titolo=Il vero significato dei "Big data" |url=http://searchcio.techtarget.it/il-vero-significato-dei-big-data/0,1254,17_ART_142572,00.html |accesso=21 ottobre 2013}}</ref>
I Big data comportano anche l'interrelazione di dati provenienti da fonti potenzialmente eterogenee, cioè non soltanto i dati strutturati (come quelli provenienti dai [[database]]) ma anche non strutturati ([[immagine digitale|immagini]], [[email]], dati [[GPS]], informazioni derivanti dai [[social network]], ecc.).
 
=== Definizione e caratteristiche ===
[[File:Big_Data.png|thumb|upright=1.1|Le cosiddette 3V dei ''big data'']]
Non esiste una soglia di riferimento prestabilita in termini di dimensione oltre la quale è lecito parlare di Big Data: in genere si parla di big data quando l'insieme di dati è talmente grande e complesso che richiede la definizione di nuovi strumenti e metodologie per estrapolare, gestire e processare informazioni entro un tempo ragionevole.<ref name="Editorial">Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. ''International Journal of Internet Science, 7'', 1-5. [http://www.ijis.net/ijis7_1/ijis7_1_editorial.html International Journal of Internet Science, Volume 7, Issue 1] {{Webarchive|url=https://web.archive.org/web/20191123051001/http://www.ijis.net/ijis7_1/ijis7_1_editorial.html |date=23 novembre 2019 }}</ref> Infatti, come enunciato dalla [[legge di Moore]], l'evoluzione tecnologica permette la memorizzazione e la gestione di [[dataset]] di dimensioni continuamente crescenti<ref>{{Cita libro|cognome=De Mauro, Andrea.|titolo=Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning|url=https://www.worldcat.org/oclc/1065010076|accesso=2019-11-10|data=2019|editore=Apogeo|OCLC=1065010076|ISBN=9788850334780}}</ref>.
In uno studio del 2001<ref>{{Cita web |nome=Douglas |cognome=Laney |titolo=3D Data Management: Controlling Data Volume, Velocity and Variety |url=http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |editore=Gartner |accesso= 6 febbraio 2001 |dataarchivio=23 luglio 2013 |urlarchivio=https://web.archive.org/web/20130723080959/http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |urlmorto=sì }}</ref>, l'analista Douglas Laney aveva definito il modello di crescita come tridimensionale (modello delle «3V»<ref>{{Cita web |cognome=Beyer |nome=Mark |titolo=Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data |url=http://www.gartner.com/it/page.jsp?id=1731916 |editore=Gartner |accesso=13 luglio 2011 |urlarchivio=https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916 |dataarchivio=10 luglio 2011 |urlmorto=no }}</ref><ref name="Gartner" />): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante esso sia stato successivamente esteso<ref name=":1">{{Cita web|url=http://www.villanovau.com/university-online-programs/what-is-big-data/|titolo=What is Big Data?|editore=[[Villanova University]]|lingua=inglese}}</ref><ref name="IBM" /><ref name=":0" /><ref name=":2" />.
 
Nel primo modello di Douglas Laney, chiamato delle «3V»<ref name="Gartner">{{Cita web|autore=Mark Beyer|titolo=Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data|url=http://www.gartner.com/it/page.jsp?id=1731916|editore=gartner.com|lingua=EN|data=2011-06-27|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916|dataarchivio=10 luglio 2011|urlmorto=no}}</ref>, le tre parole chiave hanno il seguente significato:
Riga 22 ⟶ 24:
** a) dati non strutturati (ad esempio file di testo generati dalle macchine industriali o log di [[Server web|web server]] o dei [[firewall]]);
** b) dati semi strutturati (ad esempio un atto notarile con frasi fisse e frasi variabili) oltre a quelli strutturati (ad esempio la tabella di un database);
 
*''Velocità'': si riferisce alla velocità con cui i nuovi dati vengono generati. Sono importanti non solo la celerità nella generazione dei dati, ma anche la necessità che questi dati/informazioni arrivino in [[sistema real-time]] al fine di effettuare analisi su di essi.
[[File:Big Data ITMI model with topics.jpg|thumb|upright=1.1|Modello ITMI (Informazione, Tecnologia, Metodi, Impatto) sui ''big data'']]
 
Con il tempo, sono state introdotte una quarta V<ref name=":1" /><ref name="IBM">{{Cita web|autore=IBM|titolo=The Four V's of Big Data|url=http://www.ibmbigdatahub.com/infographic/four-vs-big-data|lingua=EN|data=2012-08-24|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20170713122538/http://www.ibmbigdatahub.com/infographic/four-vs-big-data|editore=ibm|dataarchivio=13 luglio 2017|urlmorto=sì}}</ref>, quella di veridicità, e poi una quinta, quella di Valore<ref name=":0">{{Cita news|lingua=en|url=http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters|titolo=Why only one of the 5 Vs of big data really matters|pubblicazione=IBM Big Data & Analytics Hub|accesso=2017-08-18}}</ref><ref name=":2">{{Cita news|lingua=en-US|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|titolo=The 5 Vs of Big Data - Watson Health Perspectives|pubblicazione=Watson Health Perspectives|data=2016-09-17|accesso=2017-08-18}}</ref>.
 
* ''Veridicità'': considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di [[Extract, transform, load|ETL]] tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità<ref>{{Cita web|url=http://www.datasciencecentral.com/profiles/blogs/data-veracity|titolo=Data Veracity|lingua=en|accesso=2017-08-16|dataarchivio=17 agosto 2017|urlarchivio=https://web.archive.org/web/20170817075339/http://www.datasciencecentral.com/profiles/blogs/data-veracity|urlmorto=sì}}</ref>.
Riga 49 ⟶ 50:
 
=== Differenze con la business intelligence ===
{{Vedi anche|Business intelligence|Data mart}}
[[File:Datawarehouse_reference_architecture.jpg|thumb|upright=1.1|Schema di organizzazione e funzionamento di un processo di ''[[business intelligence]]'' su [[data warehouse]]]]
La crescente maturità del concetto di Big Data mette in evidenza le differenze con la ''[[business intelligence]]'', in materia di dati e del loro utilizzo:
Riga 62 ⟶ 64:
* ''[[Analisi predittiva]]'', strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (''forecasting''), modelli predittivi, ecc.);
* ''[[Analisi prescrittiva]]'', strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
* ''Automated Analytics'', strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.<ref>{{Cita news|lingua=it-it|nome=Alessandro|cognome=Piva|url=https://blog.osservatori.net/it_it/progetti-big-data-analytics|titolo=Come impostare un progetto di Big Data Analytics?|accesso=2018-06-21}}</ref>
 
=== Tecnologie di immagazzinamento ed elaborazione ===
Riga 137 ⟶ 139:
 
== Controversie ==
Il recente sviluppo di metodologie di acquisizione e di elaborazione di grandi masse di dati tramite algoritmi coinvolge tutti i settori economici ed ha sollevato dubbi sulla loro applicazione in mancanza di adeguate normative e controlli. Nel [[2008]], in seguito alla [[Crisi del 2008|crisi economica mondiale]], due ingegneri finanziari, Emanuel Derman e Paul Wilmott, hanno elaborato un manifesto etico per gli [[Scienza dei dati|scienziati dei dati]], sul modello del [[Giuramento di Ippocrate]] per i medici<ref>https://www.uio.no/studier/emner/sv/oekonomi/ECON4135/h09/undervisningsmateriale/FinancialModelersManifesto.pdf</ref>. Nel [[2017]] la ''data scientist'' Cathy O'Neil ha esposto in un libro le varie problematiche sorte con l'uso dei modelli basati su Big Data. Molti dei quali, lungi dall'essere equi ed obiettivi, si sono dimostrati codificazioni di pregiudizi umani che hanno portato ad errori sistemici senza possibilità di appello nei software che controllano le nostre vite in diversi ambiti, da quello legale a quello lavorativo e politico<ref>Cathy O'Neill, ''Weapons of Math destruction'', Penguins Book, 2016; ''Armi di distruzione matematica, Come i Big Data aumentano la disuguaglianza e minacciano la democrazia'', Bompiani, 2016, ISBN 978-88-452-9421-1.</ref>. Il pericolo di rendere la vita delle persone "calcolabile" sulla base delle tracce che ciascuno lascia in rete, è affrontato in un saggio di [[Domenico Talia]], che discute più in generale dei rischi e delle relazioni tra l’uso dei Big Data, la privacy dei cittadini e l’esercizio della democrazia.<ref> Domenico Talia, ''La società calcolabile e i Big Data'', Rubbettino, 2018, ISBN 978-8849851823</ref>
 
A differenza dell'[[America Settentrionale]], il [[Parlamento Europeo]] ha già varato un [[Regolamento generale sulla protezione dei dati]]<ref>http://www.lsoft.com/resources/optinlaws.asp</ref>. Secondo [[Kevin Kelly]], «se si vuole modificare il comportamento in Rete delle persone, basta semplicemente alterare sullo schermo gli [[algoritmi]] che lo governano, che di fatto regolano il comportamento collettivo o spingono le persone in una direzione preferenziale»<ref>[[Kevin Kelly]], ''The Inevitable'' (2016), ''L'inevitabile, le tendenze tecnologiche che rivoluzioneranno il nostro futuro'' (2017) Milano, Il Saggiatore, trad. Alberto Locca, ISBN 978-88-428-2376-6, pag. 94.</ref><ref>{{Cita news|nome=Yuval Noah|cognome=Harari|url=https://www.theatlantic.com/magazine/archive/2018/10/yuval-noah-harari-technology-tyranny/568330/|titolo=Why Technology Favors Tyranny|pubblicazione=The Atlantic|data=2018-10|accesso=2019-03-11}}</ref>.
Riga 144 ⟶ 146:
 
== Virtualizzazione dei Big Data ==
La virtualizzazione dei Big Data è un modo per raccogliere dati da poche fonti in un singolo livello. Il livello dati raccolto è virtuale. A differenza di altri metodi, la maggior parte dei dati rimane sul posto e viene presa su richiesta direttamente dai sistemi di origine.<ref>{{Cita web|url=https://www.datawerks.com/data-virtualization/|titolo=What is Data Virtualization?|lingua=en-US|accesso=2018-04-27|urlarchivio=https://web.archive.org/web/20180410201808/https://www.datawerks.com/data-virtualization/|dataarchivio=10 aprile 2018|urlmorto=sì}}</ref>
 
== Note ==
Riga 162 ⟶ 164:
* [[Big data analytics]]
* [[Data warehouse]]
* [[Etica dei dati]]
* [[Business intelligence]]
* [[Data mining]]
Riga 178 ⟶ 181:
 
== Altri progetti ==
{{interprogetto|preposizione=sui|wikt=big data}}
 
== Collegamenti esterni ==
* {{Collegamenti esterni}}
* [https://web.archive.org/web/20170717184312/http://technoidentity.com/trainings/big-data/ Big Data Analytics Training Institute in Hyderabad, India | TechnoIdentity]