Big data: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Annullate le modifiche di 93.39.55.66 (discussione), riportata alla versione precedente di InternetArchiveBot Etichetta: Rollback |
m Correggo dei wikilink. |
||
(26 versioni intermedie di 19 utenti non mostrate) | |||
Riga 1:
[[File:BigData_2267x1146_trasparent.png|thumb|upright=1.4|Raffigurazione classica dei ''big data'']]
In [[statistica]] e [[informatica]], la locuzione [[lingua inglese|inglese]] '''''big data''''' ("grandi [masse di] dati") o talvolta l'[[lingua italiana|italiana]] '''megadati'''<ref>[https://iate.europa.eu/entry/result/3551299/en-es-fr-it-la-mul Voce 3551299] nella [[IATE]].</ref><ref>{{Cita web|url=https://
|sito=[[CORDIS]]|lingua=it|data=26 giugno 2018 |accesso=26 marzo 2024}}</ref><ref>{{cita web|url=https://cordis. == Descrizione ==
[[File:DARPA_Big_Data.jpg|thumb|upright=1.1|Illustrazione simbolico-artistica del flusso di una gran mole di dati digitali]]
{{vedi anche|Scienza dei dati|Data mining|Datawarehouse}}
Malgrado non esista una separazione rigorosa tra big data e altri dati (non classificabili come ''big''), sono stati proposti diversi approcci per descriverne le peculiarità. Nel 2011 [[Teradata]] afferma che «Un sistema di big data eccede/sorpassa/supera i sistemi [[hardware]] e [[software]] comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva». Un'ulteriore proposta di caratterizzazione dei big data è stata data dal McKinsey Global Institute: «Un sistema di Big Data si riferisce a [[dataset]] la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare».
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate, quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni al secondo che il sistema deve poter acquisire e gestire
Il progressivo aumento della dimensione dei [[dataset]] è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei [[mercato|mercati]] e del [[commercio]], e quindi del [[Analisi delle serie storiche|trend]] complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso [[Internet]]. Con i big data la mole dei dati è dell'ordine degli [[zettabyte]], ovvero miliardi di [[terabyte]],<ref>{{cita web |cognome=Russo |nome=Marco |coautori=Luca De Biase |titolo=Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono? |url=http://blog.debiase.com/2013/05/che-cosa-pensereste-se-vi-dicessero-che-in-italia-i-big-data-non-esistono |accesso=28 ottobre 2014}}</ref> quindi si richiede una potenza di [[calcolo parallelo]] e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di [[server]].<ref>{{cita web |autore=Jacobs, A. |titolo=The Pathologies of Big Data |lingua=inglese |data=6 luglio 2009 |editore=ACMQueue |url=http://queue.acm.org/detail.cfm?id=1563874 |accesso=21 ottobre 2013}}</ref><ref>{{cita web |autore=Gianluca Ferrari |data=14 giugno 2011 |titolo=Il vero significato dei "Big data" |url=http://searchcio.techtarget.it/il-vero-significato-dei-big-data/0,1254,17_ART_142572,00.html |accesso=21 ottobre 2013}}</ref>
I Big data comportano anche l'interrelazione di dati provenienti da fonti potenzialmente eterogenee, cioè non soltanto i dati strutturati (come quelli provenienti dai [[database]]) ma anche non strutturati ([[immagine digitale|immagini]], [[email]], dati [[GPS]], informazioni derivanti dai [[social network]], ecc.).
=== Definizione e caratteristiche ===
[[File:Big_Data.png|thumb|upright=1.1|Le cosiddette 3V dei ''big data'']]
Non esiste una soglia di riferimento prestabilita in termini di dimensione oltre la quale è lecito parlare di Big Data: in genere si parla di big data quando l'insieme di dati è talmente grande e complesso che richiede la definizione di nuovi strumenti e metodologie per estrapolare, gestire e processare informazioni entro un tempo ragionevole.<ref name="Editorial">Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. ''International Journal of Internet Science, 7'', 1-5. [http://www.ijis.net/ijis7_1/ijis7_1_editorial.html International Journal of Internet Science, Volume 7, Issue 1] {{Webarchive|url=https://web.archive.org/web/20191123051001/http://www.ijis.net/ijis7_1/ijis7_1_editorial.html |date=23 novembre 2019 }}</ref> Infatti, come enunciato dalla [[legge di Moore]], l'evoluzione tecnologica permette la memorizzazione e la gestione di [[dataset]] di dimensioni continuamente crescenti<ref>{{Cita libro|cognome=De Mauro, Andrea.|titolo=Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning|url=https://www.worldcat.org/oclc/1065010076|accesso=2019-11-10|data=2019|editore=Apogeo|OCLC=1065010076|ISBN=9788850334780}}</ref>.
In uno studio del 2001<ref>{{Cita web |nome=Douglas |cognome=Laney |titolo=3D Data Management: Controlling Data Volume, Velocity and Variety |url=http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |editore=Gartner |accesso=
Nel primo modello di Douglas Laney, chiamato delle «3V»<ref name="Gartner">{{Cita web|autore=Mark Beyer|titolo=Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data|url=http://www.gartner.com/it/page.jsp?id=1731916|editore=gartner.com|lingua=EN|data=2011-06-27|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916|dataarchivio=10 luglio 2011|urlmorto=no}}</ref>, le tre parole chiave hanno il seguente significato:
Riga 22 ⟶ 24:
** a) dati non strutturati (ad esempio file di testo generati dalle macchine industriali o log di [[Server web|web server]] o dei [[firewall]]);
** b) dati semi strutturati (ad esempio un atto notarile con frasi fisse e frasi variabili) oltre a quelli strutturati (ad esempio la tabella di un database);
*''Velocità'': si riferisce alla velocità con cui i nuovi dati vengono generati. Sono importanti non solo la celerità nella generazione dei dati, ma anche la necessità che questi dati/informazioni arrivino in [[sistema real-time]] al fine di effettuare analisi su di essi.
[[File:Big Data ITMI model with topics.jpg|thumb|upright=1.1|Modello ITMI (Informazione, Tecnologia, Metodi, Impatto) sui ''big data'']]
Con il tempo, sono state introdotte una quarta V<ref name=":1" /><ref name="IBM">{{Cita web|autore=IBM|titolo=The Four V's of Big Data|url=http://www.ibmbigdatahub.com/infographic/four-vs-big-data|lingua=EN|data=2012-08-24|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20170713122538/http://www.ibmbigdatahub.com/infographic/four-vs-big-data|editore=ibm|dataarchivio=13 luglio 2017|urlmorto=sì}}</ref>, quella di veridicità, e poi una quinta, quella di Valore<ref name=":0">{{Cita news|lingua=en|url=http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters|titolo=Why only one of the 5 Vs of big data really matters|pubblicazione=IBM Big Data & Analytics Hub|accesso=2017-08-18}}</ref><ref name=":2">{{Cita news|lingua=en
* ''Veridicità'': considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di [[Extract, transform, load|ETL]] tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità<ref>{{Cita web|url=http://www.datasciencecentral.com/profiles/blogs/data-veracity|titolo=Data Veracity|lingua=en|accesso=2017-08-16|dataarchivio=17 agosto 2017|urlarchivio=https://web.archive.org/web/20170817075339/http://www.datasciencecentral.com/profiles/blogs/data-veracity|urlmorto=sì}}</ref>.
Riga 49 ⟶ 50:
=== Differenze con la business intelligence ===
{{Vedi anche|Business intelligence|Data mart}}
[[File:Datawarehouse_reference_architecture.jpg|thumb|upright=1.1|Schema di organizzazione e funzionamento di un processo di ''[[business intelligence]]'' su [[data warehouse]]]]
La crescente maturità del concetto di Big Data mette in evidenza le differenze con la ''[[business intelligence]]'', in materia di dati e del loro utilizzo:
Riga 62 ⟶ 64:
* ''[[Analisi predittiva]]'', strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (''forecasting''), modelli predittivi, ecc.);
* ''[[Analisi prescrittiva]]'', strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
* ''Automated Analytics'', strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.<ref>{{Cita news
=== Tecnologie di immagazzinamento ed elaborazione ===
Riga 137 ⟶ 139:
== Controversie ==
Il recente sviluppo di metodologie di acquisizione e di elaborazione di grandi masse di dati tramite algoritmi coinvolge tutti i settori economici ed ha sollevato dubbi sulla loro applicazione in mancanza di adeguate normative e controlli. Nel [[2008]], in seguito alla [[Crisi del 2008|crisi economica mondiale]], due ingegneri finanziari, Emanuel Derman e Paul Wilmott, hanno elaborato un manifesto etico per gli [[Scienza dei dati|scienziati dei dati]], sul modello del [[Giuramento di Ippocrate]] per i medici<ref>https://www.uio.no/studier/emner/sv/oekonomi/ECON4135/h09/undervisningsmateriale/FinancialModelersManifesto.pdf</ref>. Nel [[2017]] la ''data scientist'' Cathy O'Neil ha esposto in un libro le varie problematiche sorte con l'uso dei modelli basati su Big Data. Molti dei quali, lungi dall'essere equi ed obiettivi, si sono dimostrati codificazioni di pregiudizi umani che hanno portato ad errori sistemici senza possibilità di appello nei software che controllano le nostre vite in diversi ambiti, da quello legale a quello lavorativo e politico<ref>Cathy O'Neill, ''Weapons of Math destruction'', Penguins Book, 2016; ''Armi di distruzione matematica, Come i Big Data aumentano la disuguaglianza e minacciano la democrazia'', Bompiani, 2016, ISBN 978-88-452-9421-1.</ref>. Il pericolo di rendere la vita delle persone "calcolabile" sulla base delle tracce che ciascuno lascia in rete, è affrontato in un saggio di [[Domenico Talia]], che discute più in generale dei rischi e delle relazioni tra l’uso dei Big Data, la privacy dei cittadini e l’esercizio della democrazia.<ref>
A differenza dell'[[America Settentrionale]], il [[Parlamento Europeo]] ha già varato un [[Regolamento generale sulla protezione dei dati]]<ref>http://www.lsoft.com/resources/optinlaws.asp</ref>. Secondo [[Kevin Kelly]], «se si vuole modificare il comportamento in Rete delle persone, basta semplicemente alterare sullo schermo gli [[algoritmi]] che lo governano, che di fatto regolano il comportamento collettivo o spingono le persone in una direzione preferenziale»<ref>[[Kevin Kelly]], ''The Inevitable'' (2016), ''L'inevitabile, le tendenze tecnologiche che rivoluzioneranno il nostro futuro'' (2017) Milano, Il Saggiatore, trad. Alberto Locca, ISBN 978-88-428-2376-6, pag. 94.</ref><ref>{{Cita news|nome=Yuval Noah|cognome=Harari|url=https://www.theatlantic.com/magazine/archive/2018/10/yuval-noah-harari-technology-tyranny/568330/|titolo=Why Technology Favors Tyranny|pubblicazione=The Atlantic|data=2018-10|accesso=2019-03-11}}</ref>.
Riga 144 ⟶ 146:
== Virtualizzazione dei Big Data ==
La virtualizzazione dei Big Data è un modo per raccogliere dati da poche fonti in un singolo livello. Il livello dati raccolto è virtuale. A differenza di altri metodi, la maggior parte dei dati rimane sul posto e viene presa su richiesta direttamente dai sistemi di origine.<ref>{{Cita web|url=https://www.datawerks.com/data-virtualization/|titolo=What is Data Virtualization?|lingua=en
== Note ==
Riga 162 ⟶ 164:
* [[Big data analytics]]
* [[Data warehouse]]
* [[Etica dei dati]]
* [[Business intelligence]]
* [[Data mining]]
Riga 178 ⟶ 181:
== Altri progetti ==
{{interprogetto|preposizione=sui|wikt=big data}}
== Collegamenti esterni ==
* {{Collegamenti esterni}}
* [https://web.archive.org/web/20170717184312/http://technoidentity.com/trainings/big-data/ Big Data Analytics Training Institute in Hyderabad, India | TechnoIdentity]
|