Big data: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Etichette: Annullato Modifica da mobile Modifica da web per mobile
m Correggo dei wikilink.
 
(13 versioni intermedie di 11 utenti non mostrate)
Riga 1:
[[File:BigData_2267x1146_trasparent.png|thumb|upright=1.4|Raffigurazione classica dei ''big data'']]
In [[statistica]] e [[informatica]], la locuzione [[lingua inglese|inglese]] '''''big data''''' ("grandi [masse di] dati") o talvolta l'[[lingua italiana|italiana]] '''megadati'''<ref>[https://iate.europa.eu/entry/result/3551299/en-es-fr-it-la-mul Voce 3551299] nella [[IATE]].</ref><ref>{{Cita web|url=https://wwwcordis.techdicoeuropa.comeu/translationarticle/italianid/231842-big-data-analytics-for-englishdummies/it|titolo=Analisi dei megadati per principianti
|sito=[[CORDIS]]|lingua=it|data=26 giugno 2018 |accesso=26 marzo 2024}}</ref><ref>{{cita web|url=https://cordis.htmleuropa.eu/article/id/428905-bridging-the-divide-between-big-data-innovation-and-privacy-aware-data-protection/it|titolo=Colmare il divario tra l’innovazione nel campo dei megadati -e Translationla inprotezione Englishdei dati TechDicoattenta alla privacy| sito=TechDico[[CORDIS]]|linguaaccesso=en26 marzo 2024|accesso data=2019-07-193 febbraio 2021| lingua=it}}</ref> indicaindicano genericamente una raccolta di [[dati informatici]] così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o [[conoscenza]]<ref>{{cita pubblicazione|autore1=Andrea De Mauro|autore2=Marco Greco|autore3=Michele Grimaldi|lingua=EN|anno=2016|titolo=A Formal definition of Big Data based on its essential features|rivista=Library Review|volume=65|numero=3|pp=122-135|doi=10.1108/LR-06-2015-0061|url=https://dx.doi.org/10.1108/LR-06-2015-0061|accesso=2017-06-25}}</ref>. Il termine è utilizzato dunque in riferimento alla capacità (propria della [[scienza dei dati]]) di analizzare ovvero estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati (grazie a sofisticati metodi statistici e informatici di [[Elaborazione dati|elaborazione]]), al fine di scoprire i legami tra fenomeni diversi (ad esempio [[correlazione (statistica)|correlazioni]]) e prevedere quelli futuri. I big data possono essere utilizzati per diversi scopi tra cui quello di misurare le prestazioni di un'organizzazione nonché di un processo aziendale.<ref>{{Cita pubblicazione|autore=Alberto Sardi|nome=|cognome=|autore2=Enrico Sorano|autore3=Valter Cantino|nome2=|cognome2=|nome3=|cognome3=|coautori=Patrizia Garengo|data=2020|titolo=Big data and performance measurement research: trends, evolution and future opportunities|rivista=Measuring Business Excellence|volume=|numero=|accesso=|doi=10.1108/MBE-06-2019-0053|url=https://doi.org/10.1108/MBE-06-2019-0053}}</ref>
 
== Descrizione ==
Riga 10 ⟶ 11:
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate, quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni al secondo che il sistema deve poter acquisire e gestire. Negli ultimi due anni c'è stato infatti un incremento del 90% dei dati prodotti nel mondo e le aziende potrebbero arrivare a produrre [[zettabyte]] di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.
 
Il progressivo aumento della dimensione dei [[dataset]] è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei [[mercato|mercati]] e del [[commercio]], e quindi del [[Analisi delle serie storiche|trend]] complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso [[Internet]]. Con i big data la mole dei dati è dell'ordine degli [[zettabyte]], ovvero miliardi di [[terabyte]],<ref>{{cita web |cognome=Russo |nome=Marco |coautori=Luca De Biase |titolo=Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono? |url=http://blog.debiase.com/2013/05/che-cosa-pensereste-se-vi-dicessero-che-in-italia-i-big-data-non-esistono |accesso=28 ottobre 2014}}</ref> quindi si richiede una potenza di [[calcolo parallelo]] e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di [[server]].<ref>{{cita web |autore=Jacobs, A. |titolo=The Pathologies of Big Data |lingua=inglese |data=6 luglio 2009 |editore=ACMQueue |url=http://queue.acm.org/detail.cfm?id=1563874 |accesso=21 ottobre 2013}}</ref><ref>{{cita web |autore=Gianluca Ferrari |data=14 giugno 2011 |titolo=Il vero significato dei "Big data" |url=http://searchcio.techtarget.it/il-vero-significato-dei-big-data/0,1254,17_ART_142572,00.html |accesso=21 ottobre 2013}}</ref>
I Big data comportano anche l'interrelazione di dati provenienti da fonti potenzialmente eterogenee, cioè non soltanto i dati strutturati (come quelli provenienti dai [[database]]) ma anche non strutturati ([[immagine digitale|immagini]], [[email]], dati [[GPS]], informazioni derivanti dai [[social network]], ecc.).
 
Riga 23 ⟶ 24:
** a) dati non strutturati (ad esempio file di testo generati dalle macchine industriali o log di [[Server web|web server]] o dei [[firewall]]);
** b) dati semi strutturati (ad esempio un atto notarile con frasi fisse e frasi variabili) oltre a quelli strutturati (ad esempio la tabella di un database);
 
*''Velocità'': si riferisce alla velocità con cui i nuovi dati vengono generati. Sono importanti non solo la celerità nella generazione dei dati, ma anche la necessità che questi dati/informazioni arrivino in [[sistema real-time]] al fine di effettuare analisi su di essi.
[[File:Big Data ITMI model with topics.jpg|thumb|upright=1.1|Modello ITMI (Informazione, Tecnologia, Metodi, Impatto) sui ''big data'']]
 
Con il tempo, sono state introdotte una quarta V<ref name=":1" /><ref name="IBM">{{Cita web|autore=IBM|titolo=The Four V's of Big Data|url=http://www.ibmbigdatahub.com/infographic/four-vs-big-data|lingua=EN|data=2012-08-24|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20170713122538/http://www.ibmbigdatahub.com/infographic/four-vs-big-data|editore=ibm|dataarchivio=13 luglio 2017|urlmorto=sì}}</ref>, quella di veridicità, e poi una quinta, quella di Valore<ref name=":0">{{Cita news|lingua=en|url=http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters|titolo=Why only one of the 5 Vs of big data really matters|pubblicazione=IBM Big Data & Analytics Hub|accesso=2017-08-18}}</ref><ref name=":2">{{Cita news|lingua=en-US|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|titolo=The 5 Vs of Big Data - Watson Health Perspectives|pubblicazione=Watson Health Perspectives|data=2016-09-17|accesso=2017-08-18}}</ref>.
 
* ''Veridicità'': considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di [[Extract, transform, load|ETL]] tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità<ref>{{Cita web|url=http://www.datasciencecentral.com/profiles/blogs/data-veracity|titolo=Data Veracity|lingua=en|accesso=2017-08-16|dataarchivio=17 agosto 2017|urlarchivio=https://web.archive.org/web/20170817075339/http://www.datasciencecentral.com/profiles/blogs/data-veracity|urlmorto=sì}}</ref>.
Riga 64:
* ''[[Analisi predittiva]]'', strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (''forecasting''), modelli predittivi, ecc.);
* ''[[Analisi prescrittiva]]'', strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
* ''Automated Analytics'', strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.<ref>{{Cita news|lingua=it-it|nome=Alessandro|cognome=Piva|url=https://blog.osservatori.net/it_it/progetti-big-data-analytics|titolo=Come impostare un progetto di Big Data Analytics?|accesso=2018-06-21}}</ref>
 
=== Tecnologie di immagazzinamento ed elaborazione ===
Riga 114:
=== Immagazzinamento e integrazione ===
{{vedi anche|Data integration|File system distribuito}}
[[File:DataWarehouse.png|thumb|right|Figura 1: Semplice diagramma di un data warehouse. Il processo [[Extract, transform, load|ETL]] estrae informazioni dai database sorgenti, le trasforma e le carica nel data warehouse.]]
 
[[File:DataIntegration.png|thumb|right|Figura 2: Semplice diagramma di una soluzione di data-integration. Un progettista di sistema costruisce uno schema mediato attraverso cui gli utenti possono eseguire le query. Il database virtuale si interfaccia con i database sorgenti attraverso un [[wrapper]], se necessario.]]
L’immagazzinamento dei Big Data è un problema che deriva da due necessità: memorizzare ed organizzare enormi dataset non strutturati o semi-strutturati ed allo stesso tempo garantire la loro disponibilità e la capacità di interazione con essi in modo affidabile, veloce e sicuro.
Per rispondere a questi bisogni è stato unito allo sviluppo di infrastrutture hardware per l’archiviazione, anche la creazione di meccanismi per la gestione di questi dati, in particolare file system distribuiti e nuove tipologie di database.
Riga 132 ⟶ 129:
* ''Analisi di testi'': l’estrazione di informazioni e conoscenza a partire da testo non strutturato contenuto in documenti, email, pagine Web e post su blog e social network, nota anche come text mining, fa principalmente uso di tecniche di [[Natural language processing]] (NLP), [[machine learning]] ed analisi statistica. Grazie ad esse sono stati sviluppati algoritmi per il riconoscimento di argomenti (topic modeling), la ricerca delle migliori risposte ad una domanda (question answering), l’individuazione delle opinioni degli utenti su determinate notizie (opinion mining) ed altri ancora;
* ''Analisi di dati multimediali'': la natura non strutturata di contenuti multimediali quali immagini, video ed audio, la loro dimensione, eterogeneità ed il fatto di essere prodotti molto rapidamente rendono idonea la loro trattazione con sistemi di Big Data Analytics. Algoritmi di machine learning permettono di estrarre informazioni di basso ed alto livello utili alla descrizione semantica dei file multimediali. L’annotazione automatica tramite etichette testuali (multimedia annotation) e l’estrazione di feature visive o sonore (feature extraction) sono attività alla base di algoritmi d’indicizzazione (multimedia indexing) e raccomandazione (multimedia recommendation) di questi contenuti.
[[File:BDA.png|BDA|destra]]
* ''Analisi del Web'': è possibile ricavare informazioni e conoscenza sui contenuti, la struttura e l’utilizzo del Web analizzando in maniera automatica pagine e collegamenti ipertestuali. L’analisi dei contenuti testuali e multimediali viene svolta facendo uso delle tecniche sopra citate. La topologia può essere ricostruita mediante algoritmi di crawling che seguono i collegamenti ipertestuali per rivelare relazioni tra pagine o siti Web. Uno degli algoritmi più noti che si ispira a tale meccanismo è il PageRank di Google. Il profiling dell’utilizzo del Web da parte di un'utenza sempre più diversificata viene eseguito esaminando un numero elevato di log di server, sessioni, transazioni, ricerche e visite al fine di personalizzare le esperienze individuali degli utenti.
Le tecniche di data mining, machine learning e di analisi statistica come clustering, correlazione e regressione, vengono applicate ai Big Data mediante l’uso di modelli di programmazione e framework di elaborazione distribuita che permettono di ottenere in tempi rapidi aggregati di informazioni dai database NoSQL o da altre fonti, analogamente a ciò che accade per il linguaggio SQL con i database relazionali.
Riga 143 ⟶ 139:
 
== Controversie ==
Il recente sviluppo di metodologie di acquisizione e di elaborazione di grandi masse di dati tramite algoritmi coinvolge tutti i settori economici ed ha sollevato dubbi sulla loro applicazione in mancanza di adeguate normative e controlli. Nel [[2008]], in seguito alla [[Crisi del 2008|crisi economica mondiale]], due ingegneri finanziari, Emanuel Derman e Paul Wilmott, hanno elaborato un manifesto etico per gli [[Scienza dei dati|scienziati dei dati]], sul modello del [[Giuramento di Ippocrate]] per i medici<ref>https://www.uio.no/studier/emner/sv/oekonomi/ECON4135/h09/undervisningsmateriale/FinancialModelersManifesto.pdf</ref>. Nel [[2017]] la ''data scientist'' Cathy O'Neil ha esposto in un libro le varie problematiche sorte con l'uso dei modelli basati su Big Data. Molti dei quali, lungi dall'essere equi ed obiettivi, si sono dimostrati codificazioni di pregiudizi umani che hanno portato ad errori sistemici senza possibilità di appello nei software che controllano le nostre vite in diversi ambiti, da quello legale a quello lavorativo e politico<ref>Cathy O'Neill, ''Weapons of Math destruction'', Penguins Book, 2016; ''Armi di distruzione matematica, Come i Big Data aumentano la disuguaglianza e minacciano la democrazia'', Bompiani, 2016, ISBN 978-88-452-9421-1.</ref>. Il pericolo di rendere la vita delle persone "calcolabile" sulla base delle tracce che ciascuno lascia in rete, è affrontato in un saggio di [[Domenico Talia]], che discute più in generale dei rischi e delle relazioni tra l’uso dei Big Data, la privacy dei cittadini e l’esercizio della democrazia.<ref> Domenico Talia, ''La società calcolabile e i Big Data'', Rubbettino, 2018, ISBN 978-8849851823</ref>
 
A differenza dell'[[America Settentrionale]], il [[Parlamento Europeo]] ha già varato un [[Regolamento generale sulla protezione dei dati]]<ref>http://www.lsoft.com/resources/optinlaws.asp</ref>. Secondo [[Kevin Kelly]], «se si vuole modificare il comportamento in Rete delle persone, basta semplicemente alterare sullo schermo gli [[algoritmi]] che lo governano, che di fatto regolano il comportamento collettivo o spingono le persone in una direzione preferenziale»<ref>[[Kevin Kelly]], ''The Inevitable'' (2016), ''L'inevitabile, le tendenze tecnologiche che rivoluzioneranno il nostro futuro'' (2017) Milano, Il Saggiatore, trad. Alberto Locca, ISBN 978-88-428-2376-6, pag. 94.</ref><ref>{{Cita news|nome=Yuval Noah|cognome=Harari|url=https://www.theatlantic.com/magazine/archive/2018/10/yuval-noah-harari-technology-tyranny/568330/|titolo=Why Technology Favors Tyranny|pubblicazione=The Atlantic|data=2018-10|accesso=2019-03-11}}</ref>.
Riga 150 ⟶ 146:
 
== Virtualizzazione dei Big Data ==
La virtualizzazione dei Big Data è un modo per raccogliere dati da poche fonti in un singolo livello. Il livello dati raccolto è virtuale. A differenza di altri metodi, la maggior parte dei dati rimane sul posto e viene presa su richiesta direttamente dai sistemi di origine.<ref>{{Cita web|url=https://www.datawerks.com/data-virtualization/|titolo=What is Data Virtualization?|lingua=en-US|accesso=2018-04-27|urlarchivio=https://web.archive.org/web/20180410201808/https://www.datawerks.com/data-virtualization/|dataarchivio=10 aprile 2018|urlmorto=sì}}</ref>
 
== Note ==
Riga 168 ⟶ 164:
* [[Big data analytics]]
* [[Data warehouse]]
* [[Etica dei dati]]
* [[Business intelligence]]
* [[Data mining]]
Riga 184 ⟶ 181:
 
== Altri progetti ==
{{interprogetto|preposizione=sui|wikt=big data}}
 
== Collegamenti esterni ==