[[File:BigData_2267x1146_trasparent.png|thumb|upright=1.4|Raffigurazione classica dei ''big data'']]
In [[statistica]] e [[informatica]], la locuzione [[lingua inglese|inglese]] '''''big data''''' ("grandi [masse di] dati") o talvolta l'[[lingua italiana|italiana]] '''megadati'''<ref>[https://iate.europa.eu/entry/result/3551299/en-es-fr-it-la-mul Voce 3551299] nella [[IATE]].</ref><ref>{{Cita web|url=https://cordis.europa.eu/article/id/231842-big-data-analytics-for-dummies/it|titolo=Analisi dei megadati per principianti
|sito=[[CORDIS]]|lingua=it|data=26 giugno 2018 |accesso=26 marzo 2024}}</ref><ref>{{cita web|url=https://cordis.europa.eu/article/id/428905-bridging-the-divide-between-big-data-innovation-and-privacy-aware-data-protection/it|titolo=Colmare il divario tra l’innovazione nel campo dei megadati e la protezione dei dati attenta alla privacy| sito=[[CORDIS]]|accesso=26 marzo 2024| data=3 febbraio 2021| lingua=it}}</ref> indicano genericamente una raccolta di [[dati informatici]] così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o [[conoscenza]]<ref>{{cita pubblicazione|autore1=Andrea De Mauro|autore2=Marco Greco|autore3=Michele Grimaldi|lingua=EN|anno=2016|titolo=A Formal definition of Big Data based on its essential features|rivista=Library Review|volume=65|numero=3|pp=122-135|doi=10.1108/LR-06-2015-0061|url=https://dx.doi.org/10.1108/LR-06-2015-0061|accesso=2017-06-25}}</ref>. Il termine è utilizzato dunque in riferimento alla capacità (propria della [[scienza dei dati]]) di analizzare ovvero estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati (grazie a sofisticati metodi statistici e informatici di [[Elaborazione dati|elaborazione]]), al fine di scoprire i legami tra fenomeni diversi (ad esempio [[correlazione (statistica)|correlazioni]]) e prevedere quelli futuri. I big data possono essere utilizzati per diversi scopi tra cui quello di misurare le prestazioni di un'organizzazione nonché di un processo aziendale.<ref>{{Cita pubblicazione|autore=Alberto Sardi|nome=|cognome=|autore2=Enrico Sorano|autore3=Valter Cantino|nome2=|cognome2=|nome3=|cognome3=|coautori=Patrizia Garengo|data=2020|titolo=Big data and performance measurement research: trends, evolution and future opportunities|rivista=Measuring Business Excellence|volume=|numero=|accesso=|doi=10.1108/MBE-06-2019-0053|url=https://doi.org/10.1108/MBE-06-2019-0053}}</ref>
== Descrizione ==
[[File:DARPA_Big_Data.jpg|thumb|upright=1.1|Illustrazione simbolico-artistica del flusso di una gran mole di dati digitali]]
{{vedi anche|Scienza dei dati|Data mining|Datawarehouse}}
Malgrado non esista una separazione rigorosa tra big data e altri dati (non classificabili come ''big''), sono stati proposti diversi approcci per descriverne le peculiarità. Nel 2011 [[Teradata]] afferma che «Un sistema di big data eccede/sorpassa/supera i sistemi [[hardware]] e [[software]] comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva». Un'ulteriore proposta di caratterizzazione dei big data è stata data dal McKinsey Global Institute: «Un sistema di Big Data si riferisce a [[dataset]] la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare».
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate, quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni al secondo che il sistema deve poter acquisire e gestire. Negli ultimi due anni c'è stato infatti un incremento del 90% dei dati prodotti nel mondo e le aziende potrebbero arrivare a produrre [[zettabyte]] di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.
Il progressivo aumento della dimensione dei [[dataset]] è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei [[mercato|mercati]] e del [[commercio]], e quindi del [[trend]] complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso [[Internet]]. Con i big data la mole dei dati è dell'ordine degli [[zettabyte]], ovvero miliardi di [[terabyte]],<ref>{{cita web |cognome=Russo |nome=Marco |coautori=Luca De Biase |titolo=Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono? |url=http://blog.debiase.com/2013/05/che-cosa-pensereste-se-vi-dicessero-che-in-italia-i-big-data-non-esistono |accesso=28 ottobre 2014}}</ref> quindi si richiede una potenza di [[calcolo parallelo]] e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di [[server]].<ref>{{cita web |autore=Jacobs, A. |titolo=The Pathologies of Big Data |lingua=inglese |data=6 luglio 2009 |editore=ACMQueue |url=http://queue.acm.org/detail.cfm?id=1563874 |accesso=21 ottobre 2013}}</ref><ref>{{cita web |autore=Gianluca Ferrari |data=14 giugno 2011 |titolo=Il vero significato dei "Big data" |url=http://searchcio.techtarget.it/il-vero-significato-dei-big-data/0,1254,17_ART_142572,00.html |accesso=21 ottobre 2013}}</ref>
I Big data comportano anche l'interrelazione di dati provenienti da fonti potenzialmente eterogenee, cioè non soltanto i dati strutturati (come quelli provenienti dai [[database]]) ma anche non strutturati ([[immagine digitale|immagini]], [[email]], dati [[GPS]], informazioni derivanti dai [[social network]], ecc.).
=== Definizione e caratteristiche ===
[[File:Big_Data.png|thumb|upright=1.1|Le cosiddette 3V dei ''big data'']]
Non esiste una soglia di riferimento prestabilita in termini di dimensione oltre la quale è lecito parlare di Big Data: in genere si parla di big data quando l'insieme di dati è talmente grande e complesso che richiede la definizione di nuovi strumenti e metodologie per estrapolare, gestire e processare informazioni entro un tempo ragionevole.<ref name="Editorial">Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. ''International Journal of Internet Science, 7'', 1-5. [http://www.ijis.net/ijis7_1/ijis7_1_editorial.html International Journal of Internet Science, Volume 7, Issue 1] {{Webarchive|url=https://web.archive.org/web/20191123051001/http://www.ijis.net/ijis7_1/ijis7_1_editorial.html |date=23 novembre 2019 }}</ref> Infatti, come enunciato dalla [[legge di Moore]], l'evoluzione tecnologica permette la memorizzazione e la gestione di [[dataset]] di dimensioni continuamente crescenti<ref>{{Cita libro|cognome=De Mauro, Andrea.|titolo=Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning|url=https://www.worldcat.org/oclc/1065010076|accesso=2019-11-10|data=2019|editore=Apogeo|OCLC=1065010076|ISBN=9788850334780}}</ref>.
In uno studio del 2001<ref>{{Cita web |nome=Douglas |cognome=Laney |titolo=3D Data Management: Controlling Data Volume, Velocity and Variety |url=http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |editore=Gartner |accesso=6 febbraio 2001 |dataarchivio=23 luglio 2013 |urlarchivio=https://web.archive.org/web/20130723080959/http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf |urlmorto=sì }}</ref>, l'analista Douglas Laney aveva definito il modello di crescita come tridimensionale (modello delle «3V»<ref>{{Cita web |cognome=Beyer |nome=Mark |titolo=Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data |url=http://www.gartner.com/it/page.jsp?id=1731916 |editore=Gartner |accesso=13 luglio 2011 |urlarchivio=https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916 |dataarchivio=10 luglio 2011 |urlmorto=no }}</ref><ref name="Gartner" />): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante esso sia stato successivamente esteso<ref name=":1">{{Cita web|url=http://www.villanovau.com/university-online-programs/what-is-big-data/|titolo=What is Big Data?|editore=[[Villanova University]]|lingua=inglese}}</ref><ref name="IBM" /><ref name=":0" /><ref name=":2" />.
Nel primo modello di Douglas Laney, chiamato delle «3V»<ref name="Gartner">{{Cita web|autore=Mark Beyer|titolo=Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data|url=http://www.gartner.com/it/page.jsp?id=1731916|editore=gartner.com|lingua=EN|data=2011-06-27|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916|dataarchivio=10 luglio 2011|urlmorto=no}}</ref>, le tre parole chiave hanno il seguente significato:
* ''Volume'': si riferisce alla quantità di dati (strutturati o non strutturati) generati ogni secondo. Tali dati sono generati da sorgenti eterogenee, quali: sensori, log, {{chiarire|eventi}}, email, social media e database tradizionali;
* ''Varietà'': si riferisce alla differente tipologia dei dati che vengono generati, accumulati ed utilizzati. Prima dell'epoca dei Big Data si prendevano in considerazione per le analisi principalmente dati strutturati; la loro manipolazione veniva eseguita mediante l'uso di database relazionali. Per avere analisi più accurate e più profonde, oggi è necessario prendere in considerazione anche:
** a) dati non strutturati (ad esempio file di testo generati dalle macchine industriali o log di [[Server web|web server]] o dei [[firewall]]);
** b) dati semi strutturati (ad esempio un atto notarile con frasi fisse e frasi variabili) oltre a quelli strutturati (ad esempio la tabella di un database);
*''Velocità'': si riferisce alla velocità con cui i nuovi dati vengono generati. Sono importanti non solo la celerità nella generazione dei dati, ma anche la necessità che questi dati/informazioni arrivino in [[sistema real-time]] al fine di effettuare analisi su di essi.
[[File:Big Data ITMI model with topics.jpg|thumb|upright=1.1|Modello ITMI (Informazione, Tecnologia, Metodi, Impatto) sui ''big data'']]
Con il tempo, sono state introdotte una quarta V<ref name=":1" /><ref name="IBM">{{Cita web|autore=IBM|titolo=The Four V's of Big Data|url=http://www.ibmbigdatahub.com/infographic/four-vs-big-data|lingua=EN|data=2012-08-24|accesso=2017-06-25|urlarchivio=https://web.archive.org/web/20170713122538/http://www.ibmbigdatahub.com/infographic/four-vs-big-data|editore=ibm|dataarchivio=13 luglio 2017|urlmorto=sì}}</ref>, quella di veridicità, e poi una quinta, quella di Valore<ref name=":0">{{Cita news|lingua=en|url=http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters|titolo=Why only one of the 5 Vs of big data really matters|pubblicazione=IBM Big Data & Analytics Hub|accesso=2017-08-18}}</ref><ref name=":2">{{Cita news|lingua=en|url=https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/|titolo=The 5 Vs of Big Data - Watson Health Perspectives|pubblicazione=Watson Health Perspectives|data=2016-09-17|accesso=2017-08-18}}</ref>.
* ''Veridicità'': considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di [[Extract, transform, load|ETL]] tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità<ref>{{Cita web|url=http://www.datasciencecentral.com/profiles/blogs/data-veracity|titolo=Data Veracity|lingua=en|accesso=2017-08-16|dataarchivio=17 agosto 2017|urlarchivio=https://web.archive.org/web/20170817075339/http://www.datasciencecentral.com/profiles/blogs/data-veracity|urlmorto=sì}}</ref>.
* ''Valore'': si riferisce alla capacità di trasformare i dati in valore. Un progetto Big Data necessita di investimenti, anche importanti, per la raccolta granulare dei dati e la loro analisi. Prima di avviare un'iniziativa è importante valutare e documentare quale sia il valore effettivo portato al business<ref name=":0" />.
Con il passare del tempo, ulteriori caratteristiche si sono aggiunte al modello, quali ad esempio:
* {{senza fonte|variabilità: questa caratteristica può essere un problema e si riferisce alla possibilità di inconsistenza dei dati;
* complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire.}}<ref>{{Cita web |url = http://www.assoknowledge.org/knowledge-tank/big-data |titolo = Big Data
|editore = ASSOKNOWLEDGE Confindustria Servizi Innovativi e Tecnologici |accesso = 9 giugno 2018|urlarchivio = https://web.archive.org/web/20180609094632/http://www.assoknowledge.org/knowledge-tank/big-data|dataarchivio=9 giugno 2018|urlmorto=no}}</ref><ref>{{Cita web |url = https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |titolo = BIG DATA |editore = LogisticaEfficiente.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609094945/https://www.logisticaefficiente.it/wiki-logistica/supply-chain/big-data.html |dataarchivio = 9 giugno 2018 |urlmorto =no}}</ref><ref>{{Cita web |url = http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |titolo = Big Data |editore = multimac.it |accesso = 9 giugno 2018 |urlarchivio = https://web.archive.org/web/20180609101129/http://www.multimac.it/soluzioni_scheda_ita.php/nomeProdotto=Big_Data/idcat=3/idsottocat=154/idprodotto=1223 |dataarchivio = 9 giugno 2018 |urlmorto = no }}</ref>
Altri modelli concettuali, come il [[Modello ITMI]] (Informazione, Tecnologia, Metodi, Impatto)<ref>{{Cita pubblicazione|nome=Andrea|cognome=De Mauro|data=2019-7|titolo=Understanding Big Data Through a Systematic Literature Review: The ITMI Model|rivista=International Journal of Information Technology & Decision Making|volume=18|numero=04|pp=1433-1461|lingua=en|accesso=2019-11-10|doi=10.1142/S0219622019300040|url=https://www.worldscientific.com/doi/abs/10.1142/S0219622019300040|nome2=Marco|cognome2=Greco|nome3=Michele|cognome3=Grimaldi}}</ref><ref>{{Cita pubblicazione|nome=Allard J.|cognome=van Altena|data=2016-11-15|titolo=Understanding big data themes from scientific biomedical literature through topic modeling|rivista=Journal of Big Data|volume=3|numero=1|p=23|accesso=2019-11-10|doi=10.1186/s40537-016-0057-0|url=https://doi.org/10.1186/s40537-016-0057-0|nome2=Perry D.|cognome2=Moerland|nome3=Aeilko H.|cognome3=Zwinderman}}</ref>, hanno cercato di rappresentare in maniera sintetica i vari aspetti che caratterizzano il fenomeno dei big data nella sua complessità, andando oltre le caratteristiche del dato, come avviene per i modelli basati sulle "V".
=== Crescita del volume dei dati ===
[[File:BigDataGrowth.png|thumb|upright=1.1|Crescita [[esponenziale]] dei dati nel tempo]]
I Big Data sono un argomento interessante per molte [[azienda|aziende]]<ref>{{Cita pubblicazione|nome=Elisabetta|cognome=Raguseo|data=2018-2|titolo=Big data technologies: An empirical investigation on their adoption, benefits and risks for companies|rivista=International Journal of Information Management|volume=38|numero=1|pp=187-195|lingua=en|accesso=2019-10-23|doi=10.1016/j.ijinfomgt.2017.07.008|url=https://linkinghub.elsevier.com/retrieve/pii/S0268401217300063}}</ref>, le quali negli ultimi anni hanno investito su questa tecnologia più di 15 miliardi di dollari, finanziando lo sviluppo di [[software]] per la gestione e l'analisi dei dati.
Questo è accaduto perché le economie più forti sono molto motivate all'analisi di enormi quantità di dati: basti pensare che ci sono oltre 4,6 miliardi di [[smartphone]] attivi e circa 2 miliardi di persone hanno accesso a [[Internet]]. Dal 1986 ad oggi il volume dei dati in circolazione è aumentato in maniera esponenziale:
* nel 1986 i dati erano 281 [[Petabyte]];
* nel 1993 i dati erano 471 PetaByte;
* nel 2000 i dati erano 2,2 [[Exabyte]];
* nel 2007 i dati erano 65 ExaByte;
* per il 2014 si era previsto uno scambio di oltre 650 ExaByte<ref>{{cita web |autore= Economist |url=https://www.economist.com/node/15557443 |titolo=Data, data everywhere |lingua=inglese}}</ref><ref>{{Cita pubblicazione|nome=M.|cognome=Hilbert|data=2011-04-01|titolo=The World's Technological Capacity to Store, Communicate, and Compute Information|rivista=Science|volume=332|numero=6025|pp=60-65|lingua=en|accesso=2019-11-10|doi=10.1126/science.1200970|url=http://www.sciencemag.org/cgi/doi/10.1126/science.1200970|nome2=P.|cognome2=Lopez}}</ref>.
=== Differenze con la business intelligence ===
{{Vedi anche|Business intelligence|Data mart}}
[[File:Datawarehouse_reference_architecture.jpg|thumb|upright=1.1|Schema di organizzazione e funzionamento di un processo di ''[[business intelligence]]'' su [[data warehouse]]]]
La crescente maturità del concetto di Big Data mette in evidenza le differenze con la ''[[business intelligence]]'', in materia di dati e del loro utilizzo:
* La ''business intelligence'' utilizza la [[statistica descrittiva]] con dati ad alta densità d'informazione per misurare cose, rilevare tendenze, ecc., cioè utilizza [[dataset]] limitati, dati puliti e modelli semplici;<ref name="EMC">{{cita web| titolo=I Big Data vi parlano. Li state ascoltando? |anno=2012 |editore=[[EMC Corporation|EMC]] |url=http://italy.emc.com/microsites/cio/articles/big-data-pwf/pwf.pdf |accesso=22 ottobre 2013}}</ref>
* ''Big Data'' utilizza la [[statistica inferenziale]] e concetti di identificazione di [[Sistema non lineare|sistemi non lineari]]<ref name="SAB1">{{en}} Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013</ref>, per dedurre leggi (come [[Analisi della regressione|regressioni]], relazioni non lineari, ed effetti [[Causalità naturale|causali]]) da grandi insiemi di dati<ref>{{fr}} [http://www.andsi.fr/tag/dsi-big-data/ Delort P., Big data Paris 2013]</ref>; per rivelare rapporti e dipendenze tra essi ed anche per effettuare previsioni di risultati e comportamenti,<ref name="SAB1" /><ref>{{fr}} [http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com Delort P., Big Data car Low-Density Data? La faible densité en information comme facteur discriminant]</ref> cioè utilizza dataset eterogenei (non [[Correlazione (statistica)|correlati]] tra loro), dati grezzi e modelli predittivi complessi.<ref name="EMC" /><ref>{{en}} Rasetti M., Merelli E., [http://iopscience.iop.org/article/10.1088/1742-6596/626/1/012005/pdf The Topological Field Theory of Data: a program towards a novel strategy for data mining through data language]</ref>
=== Modelli di analisi dei dati ===
Come è stato detto in precedenza, il volume di dati dei Big Data e l'ampio uso di dati non strutturati non permette l'utilizzo dei tradizionali sistemi per la gestione di [[database|basi di dati]] relazionali ([[RDBMS]]), se non attraverso tecniche di strutturazione del dato. Un dato strutturato archiviato nei tradizionali sistemi RDBMS permette di avere prestazioni infinitamente migliori, nella ricerca, rispetto ai sistemi [[NoSQL]], garantendo la consistenza del dato, che in sistemi Big Data generalmente non è garantita. I sistemi Big Data pertanto non sono da considerarsi complementari alle basi di dati, bensì un insieme di tecniche di [[Extract, transform, load|ETL]] su dati non strutturati e {{chiarire|generati in maniera geograficamente molto distribuita}}.
Gli operatori di mercato utilizzano piuttosto sistemi con elevata scalabilità e soluzioni basate sulla NoSQL. Nell'ambito della ''business analytics'' sono nati nuovi modelli di rappresentazione in grado di gestire tale mole di dati con elaborazioni in parallelo dei database. Architetture di elaborazione distribuita di grandi insiemi di dati sono offerte da [[MapReduce]] di [[Google]] e dalla controparte open source [[Apache Hadoop]]. In base agli strumenti e ai modelli utilizzati per l'analisi e la gestione dei dati è possibile distinguere quattro metodologie (o tipologie) di Big Data Analytics:
[[File:Three_Phases_of_Analytics.png|thumb|upright=1.1|Analisi prescrittiva estesa oltre l'analisi predittiva specificando sia le azioni necessarie per raggiungere i risultati predetti, sia gli effetti correlati di ogni decisione]]
* ''[[Analisi descrittiva]]'', l’insieme di strumenti orientati a descrivere la situazione attuale e passata dei processi aziendali e/o aree funzionali. Tali strumenti permettono di accedere ai dati in maniera interattiva (inserendo ad esempio filtri o effettuando operazioni di [[drill-down]]) e di visualizzare in modo sintetico e grafico i principali indicatori di prestazione (la totalità delle grandi organizzazioni si serve questa tipologia);
* ''[[Analisi predittiva]]'', strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (''forecasting''), modelli predittivi, ecc.);
* ''[[Analisi prescrittiva]]'', strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
* ''Automated Analytics'', strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.<ref>{{Cita news|nome=Alessandro|cognome=Piva|url=https://blog.osservatori.net/it_it/progetti-big-data-analytics|titolo=Come impostare un progetto di Big Data Analytics?|accesso=2018-06-21}}</ref>
=== Tecnologie di immagazzinamento ed elaborazione ===
[[File:Big-data-concepts-20-638.jpg|thumb|upright=1.1|Architettura di elaborazione distribuita [[Hadoop]] di [[Apache]]]]
La crescente mole di dati generati da sorgenti di dati eterogenei ha posto l'attenzione su come estrarli, archiviarli ed utilizzarli al fine di ottenerne un profitto. Il problema che si riscontra è dovuto principalmente alla difficoltà di gestire i Big Data con database tradizionali, sia in termini di costi, sia in termini di volume. L'insieme di questi elementi ha portato allo sviluppo di nuovi modelli di elaborazione, che hanno permesso alle aziende di diventare più competitive, sia attraverso una riduzione dei costi, sia perché i nuovi sistemi sono in grado di archiviare, trasferire e combinare i dati con maggiore velocità e in maniera agile. Per poter gestire il sistema di Big Data si adoperano sistemi che distribuiscono sia risorse che servizi:
* [[Sistema distribuito|Architetture distribuite]]: utilizzo di [[Computer cluster|cluster di computer]] connessi tra loro al fine di cooperare al raggiungimento di un obiettivo comune realizzando la [[scalabilità]] orizzontale (non verticale).
* [[Tolleranza ai guasti]]: le architetture/piattaforme proposte devono essere progettate per essere tolleranti ai guasti, per questo le risorse sono replicate sulle differenti macchine che compongono il cluster.
* [[Calcolo distribuito]]: il modello di elaborazione è distribuito in modo da poter sfruttare la potenza elaborativa del cluster progettato.
Per gestire grandi quantitativi di dati sono state proposte nuove metodologie nei seguenti campi:
* [[Basi di dati]];
* [[Data mining]];
* [[Apprendimento automatico]];
A supporto di queste metodologie sono state proposte le seguenti tecnologie e linguaggi di programmazione:
* [[NoSQL]]
* [[Hadoop]] Framework ([[HDFS]], [[MapReduce]], [[Apache Hive|Hive]], [[HBase|Hbase]], [[Apache Spark|Spark]], Tez, Storm, [[Apache Mahout|Mahout]], etc.);
* [[R (linguaggio)|R]] e [[Python]].
== Ciclo di vita ==
[[File:Big Data Life Cycle.png|upright=1.1|thumb|alt=Ciclo di vita dei Big Data|Ciclo di vita dei ''big data'']]
L’estrazione di conoscenza dai Big Data e l’impiego della stessa per il miglioramento delle attività decisionali sono subordinati alla definizione di processi che consentano di gestire e trasformare in modo efficiente dataset che crescono rapidamente in volume e varietà. Ogni fase di ciascun processo modifica lo stato ed il contenuto degli stessi, contribuendo a convertire moli di dati ancora grezzi in valore e dunque ad arricchire il modello analitico dei dati<ref>{{cita pubblicazione|autore1=Han Hu|autore2=Yonggang Wen|autore3=Tat-Seng Chua|autore4=Xuelong Li|lingua=EN|anno=2014|titolo=Toward Scalable Systems for Big Data Analytics: A Technology Tutorial|rivista=IEEE Access|volume=2|pp=652-687|doi=10.1109/ACCESS.2014.2332453|url=http://ieeexplore.ieee.org/document/6842585/}}</ref>
<ref>{{cita pubblicazione|autore1=Chen|autore2= Min and Mao|autore3=Shiwen and Liu|autore4=Yunhao|lingua=EN|anno=2014|titolo=Big Data: A Survey|rivista=Mobile Networks and Applications|volume=19|pp=171-209|doi=10.1007/s11036-013-0489-0|url=https://dx.doi.org/10.1007/s11036-013-0489-0}}</ref>
<ref>{{cita pubblicazione|autore1=Nasser Thabet|autore2=Tariq Rahim Soomro|lingua=EN|anno=2015|titolo=Big Data Challenges|rivista=Journal of Computer Engineering & Information Technology}|doi=10.4172/2324-9307.1000133|url=https://www.researchgate.net/publication/282281171}}</ref>. Tali processi costituiscono un riferimento per la scelta o la creazione di un’architettura, ovvero di una struttura logica e fisica che determina come i Big Data devono essere memorizzati, acceduti e gestiti all’interno di un'organizzazione. In essa vengono specificate, inoltre, le soluzioni da mettere in campo per far fronte ai problemi che possono derivare dal trattamento dei Big Data, quali ad esempio la scarsa qualità dei dati o la scalabilità delle infrastrutture, le componenti hardware e software come framework e database, il flusso delle informazioni, la privacy e la sicurezza dei dati e molto altro.
I processi principali che compongono il ciclo di vita dei Big Data possono essere raggruppati in due macro-aree:
* ''Big Data Management'': racchiude i processi e le tecnologie per l’acquisizione e la memorizzazione dei Big Data e la preparazione ed il recupero degli stessi;
* ''[[Big data analytics|Big Data Analytics]]'': racchiude i processi utilizzati per analizzare e acquisire informazioni utili da grandi dataset allo scopo di interpretare e descrivere il passato (''descriptive analytics''), predire il futuro (''predictive analytics'') o consigliare azioni (''prescriptive analytics'')<ref>{{Cita pubblicazione|autore1=James R. Evans|autore2=Carl H. Lindner|lingua=EN|titolo=Business Analytics: The Next Frontier for Decision Sciences|rivista=Decision Lines|volume=43|numero=2|accesso=|url=http://www.cbpp.uaa.alaska.edu/afef/business_analytics.htm}}</ref>.
=== Generazione e acquisizione ===
Oltre alla varietà dei formati e strutture, i Big Data presentano anche una varietà di fonti. I dati generati da queste spesso sono classificati in:
*''human generated'': si trovano e derivano in particolare da piattaforme di social network ([[Facebook]], [[LinkedIn]]), blogging ([[Blogger (piattaforma)|Blogger]], [[Wordpress]]) e micro-blogging ([[Twitter]], [[Tumblr]]), social news ([[Digg]], [[Reddit]]), social bookmarking ([[Delicious]], [[StumbleUpon]]), multimedia sharing ([[Instagram]], [[Flickr]], [[YouTube]]), le wiki ([[Wikipedia]]), i siti di domande e risposte ([[Yahoo Answers]]), i siti di recensioni ([[Yelp]], [[TripAdvisor]]), i portali di e-commerce ([[eBay]], [[Amazon]]), {{chiarire|click stream}} da siti web ecc, generalmente gestiti tramite [[cookie]].
*''machine generated'': sono prodotti da sorgenti quali sensori [[GPS]], [[Internet of Things|IoT]], [[RFID]], centrali di monitoraggio di eventi meteorologici, strumenti scientifici, sistemi di ''High Frequency Trading'' dei mercati finanziari, dispositivi biomedicali ed altri.
*''business generated'': si intendono tutti quei dati, ''human o machine generated,'' generati internamente ad un’azienda che registrano tutte le attività ''data-driven'' dei processi di business aziendali. Molti di essi sono dati storici, memorizzati staticamente in base di dati relazionali, che rappresentano pagamenti, ordini, dati di produzione, d'inventario, vendite e dati finanziari. La crescente produzione di questa tipologia di dati ha reso necessario l’utilizzo di tecnologie e strumenti di analisi in tempo reale affinché le aziende possano sfruttare a pieno il loro potenziale.
[[File:Applications-database.svg|thumb|upright=1.1|Rappresentazione di una base dati composta di strati (''layer'') diversi]]
L’acquisizione dei Big Data da questi canali d’informazione può avvenire con diverse modalità:
* Accedendo ad API messe a disposizione dai servizi Web, grazie alle quali è possibile interfacciarsi ad essi per esaminarne i contenuti. Un esempio sono le Twitter API, Facebook Graph API e le API fornite da motori di ricerca come [[Google]] e [[Bing]];
* Utilizzando software di [[web scraping]] che eseguono operazioni di ''crawling'', ''parsing'' ed ''entity extraction'' per la raccolta automatica di dati da documenti presenti in Internet. Il ''framework'' Apache Tika, ad esempio, automatizza tali operazioni per metadati e testo provenienti da diverse tipologie di documenti, arrivando ad identificarne persino la lingua;
* Importando i dati da database relazionali, non relazionali o da altre sorgenti con strumenti di [[Extract, Transform, Load|ETL]], già usati ampiamente per la movimentazione di dati in sistemi di [[Data warehouse|Data Warehousing]] e [[Data mart]]. Uno degli strumenti di ETL più usati nell’ottica dei Big Data è [[Apache Sqoop]] che consente di importare ed esportare grandi quantità di dati da database relazionali e non verso la piattaforma Apache Hadoop e viceversa;
* Acquisendo flussi continui di dati, rapidamente generati, tramite sistemi capaci di catturare eventi, elaborarli e salvarli su un database in modo efficiente. Tra le tecnologie più diffuse ci sono [[Apache Flume]], [[Apache Kafka]] e [[Microsoft StreamInsight]].
In seguito all’acquisizione dalle sorgenti, i dataset sono trasferiti a sistemi di archiviazione locali o remoti attraverso mezzi di trasmissione ad alta velocità. L'insieme di dati grezzi, strutturati e non strutturati, è detto [[data lake]], pronto per l'elaborazione<ref>https://www.mdirector.com/it/marketing-digitale/cos-e-un-data-lake.html</ref>. Inoltre è fondamentale che su di essi vengano eseguite ulteriori operazioni di precompilazione, il cui scopo è filtrare i dati da informazioni ridondanti, inaccurate o incomplete al fine di diminuirne l’[[entropia (teoria dell'informazione)|entropia]] (cioè il disordine), migliorando così l’accuratezza delle analisi e riducendo lo spazio necessario alla memorizzazione degli stessi.
=== Estrazione e pulizia delle informazioni ===
{{vedi anche|Extract, transform, load|Data cleaning}}
La maggior parte dei dati raccolti non sono disponibili nel formato richiesto per la successiva fase di elaborazione. Ad esempio, il fascicolo informatico di un paziente di un ospedale, nella maggior parte dei casi è costituito da rapporti medici, prescrizioni, letture acquisite da sensori e/o macchine di monitoraggio e dati di immagine come i raggi x. In questo contesto, non è possibile utilizzare questi dati in modo efficace quando ognuno di essi ha una propria rappresentazione. Pertanto, bisogna creare un processo di estrazione che prelevi le informazioni richieste dalla grande fonte dei dati e le rappresenti in una forma standard e strutturata pronta per l'analisi. La progettazione del processo di estrazione dipende principalmente dall'area di applicazione; ad esempio i dati che si estraggono dai supporti utilizzati per la risonanza magnetica sono differenti da quelli utilizzati per le immagini delle stelle. I Big Data, inoltre, possono contenere alcune informazioni false. Ad esempio, i pazienti possono nascondere intenzionalmente alcuni sintomi che possono portare il medico a diagnosticare erroneamente la loro condizione. È necessario, pertanto, utilizzare tecniche di pulizia dei dati che comprendono vincoli per il controllo della validità dei dati e modelli di errore per garantire la loro qualità.
=== Immagazzinamento e integrazione ===
{{vedi anche|Data integration|File system distribuito}}
L’immagazzinamento dei Big Data è un problema che deriva da due necessità: memorizzare ed organizzare enormi dataset non strutturati o semi-strutturati ed allo stesso tempo garantire la loro disponibilità e la capacità di interazione con essi in modo affidabile, veloce e sicuro.
|