Data mining: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m smistamento lavoro sporco e fix vari |
Nessun oggetto della modifica |
||
Riga 1:
Il '''''data mining''''' (letteralmente dall'[[Lingua inglese|inglese]] ''estrazione di dati''<ref>Il termine inglese ''mining'' si può tradurre con "scavo", "estrazione", come per le [[miniere]].</ref>) è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di [[informazione|informazioni]] utili da grandi quantità di dati (es. [[banche dati]], [[
== Descrizione ==
Per caratterizzare il ''data mining'' può essere utile considerare la [[statistica]], la quale può essere definita altrimenti come ''estrazione di [[informazione]] utile da insiemi di dati''.
Il concetto di ''data mining'' è analogo, ma con una differenza sostanziale: la statistica permette di elaborare informazioni generali riguardo ad una [[campione (statistica)|popolazione]] (es. percentuali di [[disoccupazione]], [[natalità|nascite]]), mentre il ''data mining ''viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui; ad esempio, conoscendo il comportamento medio dei clienti di una compagnia telefonica,
In sostanza il data mining è ''l'analisi, da un punto di vista matematico, eseguita su [[banche dati]] di grandi dimensioni'', preceduta tipicamente da altre fasi di preparazione
* estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
* esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire ''[[riconoscimento di pattern|pattern]]'' (schemi o regolarità) significativi.
In entrambi i casi, i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining
Questo tipo di attività è cruciale in molti ambiti della [[ricerca scientifica]], ma anche in altri settori (per esempio in quello delle [[ricerca di mercato|ricerche di mercato]]). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti ([[Customer relationship management|CRM]]), all'individuazione di comportamenti fraudolenti, fino all'ottimizzazione di [[sito web|siti web]].<ref>{{Cita web|titolo=Daniele Medri: Big Data & Business: An on-going revolution|url=http://www.statisticsviews.com/details/feature/5393251/Big-Data--Business-An-on-going-revolution.html|editore=[[Statistics Views]]|data=21 ottobre 2013|accesso=21 giugno 2015|urlarchivio=https://web.archive.org/web/20150617211645/http://www.statisticsviews.com/details/feature/5393251/Big-Data--Business-An-on-going-revolution.html|urlmorto=sì}}</ref>
Riga 39:
Vi sono diverse proposte e tecniche aventi ognuna specifiche caratteristiche e vantaggi.
* [[Albero di decisione|Alberi di
* Analisi logica e programmazione intera: classificazione, apprendimento di regole (es. LAD).
* [[Teoria dei grafi]]: clustering, classificazione (es. B&C).
Riga 48:
===Pre-elaborazione (Pre-Processing)===
Prima di poter utilizzare gli [[Algoritmo|algoritmi]] di data mining, è necessario assemblare un set di dati di destinazione. Poiché il data mining può solo scoprire modelli effettivamente presenti nei dati, il set di dati di destinazione deve essere abbastanza grande da contenere questi modelli, pur rimanendo abbastanza conciso da essere estratto entro un limite di tempo accettabile.<ref>{{Cita libro|titolo=Data Science from Scratch. First Principles with Python|url=https://python.engineering/data-science-from-scratch-first-principles-with-python/|editore=O'Reilly|data=2019|ISBN=9781492041139|}}</ref> Una fonte comune per i dati è un data mart o un data warehouse. La pre-elaborazione è essenziale per analizzare i set di dati multivariati prima del data mining. Il set di obiettivi viene quindi pulito. La pulizia dei dati rimuove le osservazioni contenenti rumore e quelle con dati mancanti.
=== Esempi ===
Riga 60:
=== Text mining ===
È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale
Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] (NLP in inglese), della disponibilità di applicazioni complesse attraverso gli ''[[Application service provider]]'' (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei [[motore di ricerca|motori di ricerca]].
|