Data mining: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
LametinoWiki (discussione | contributi)
Etichette: Modifica da mobile Modifica da applicazione mobile Modifica da applicazione Android
Nessun oggetto della modifica
Riga 1:
Il '''''data mining''''' (letteralmente dall'[[Lingua inglese|inglese]] ''estrazione di dati''<ref>Il termine inglese ''mining'' si può tradurre con "scavo", "estrazione", come per le [[miniere]].</ref>) è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di [[informazione|informazioni]] utili da grandi quantità di dati (es. [[banche dati]], [[datawarehouse]], ecc...), attraverso metodi automatici o semi-automatici (es. [[apprendimento automatico]]) e l'utilizzo scientifico, aziendale/, industriale o operativo delle stesse.
 
== Descrizione ==
La [[statistica]] può essere definita altrimenti come "''estrazione di [[informazione]] utile da insiemi di dati''".
 
Il concetto di ''data mining'' è simile, ma con una sostanziale differenza: la statistica permette di elaborare informazioni generali riguardo ad una [[campione (statistica)|popolazione]] (es. percentuali di [[disoccupazione]], [[natalità|nascite]]), mentre il ''data mining ''viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui; ad esempio conoscendo il comportamento medio dei clienti di una compagnia telefonica cerco di prevedere quanto spenderà il cliente medio nell'immediato futuro.
 
In sostanza il data mining è "''l'analisi, da un punto di vista matematico, eseguita su [[banche dati]] di grandi dimensioni''", preceduta tipicamente da altre fasi di preparazione/trasformazione/filtraggio dei dati come il [[data cleaning]]. Il termine ''data mining'' è diventato popolare nei tardi anni novanta come versione abbreviata della definizione appena esposta; oggi il ''data mining'' ha una duplice valenza:
 
* estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
Riga 25:
Le tecniche di data mining sono fondate su specifici [[algoritmo|algoritmi]]. I pattern identificati possono essere, a loro volta, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
 
Un concetto correlato al data mining è quello di [[apprendimento automatico]] (''Machinemachine learning''); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli [[algoritmo euristico|algoritmi euristici]] e dell'[[intelligenza artificiale]]. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di rivelare relazioni causali che poi si rivelano inesistenti.
 
=== Tecniche ===
Riga 70:
* [[Microsoft SQL Server]]: strumenti di data mining del DBMS prodotto da Microsoft
* [[Weka]], datamining in Java
* [[RapidMiner]]
 
=== Sviluppi recenti ===
Una delle evoluzioni più recenti del data mining è la '''visualizzazione di dati''' (in inglese ''data visualisation''). Settore specialistico dell'[[infografica]], la visualizzazione di dati si occupa non solamente di rendere graficamente intelligibile un testo, ma entra in relazione più diretta con la strutturazione delle banche dati e l'esportazione di grafici dai dati.
 
Un'altra nuova frontiera è il «''social data mining»:'', ovvero l'analisi di informazioni generate dalle [[rete sociale|reti sociali]] online, come ad esempio l'[[analisi del sentiment|analisi del ''sentiment'']].
 
== Applicazioni ==
Riga 87:
In questo contesto, un pattern (schema) non è altro che la rappresentazione delle relazioni chiave che vengono scoperte durante il processo di estrazione dati: sequenze ripetute, omogeneità, emergenza di regole, ecc. Per esempio, se un pattern mostra che i clienti di una certa area demografica sono molto propensi ad acquistare uno specifico prodotto, allora un'interrogazione (''query'') selettiva ad un data warehouse di probabili compratori può essere usata per generare un elenco di indirizzi promozionali.
 
L'esempio classico spesso usato nei corsi universitari è quello di una catena non meglio specificata di supermercati (probabilmente statunitense) che avrebbe scoperto, analizzando gli scontrini, qualcosa altrimenti difficilmente immaginabile: le persone che acquistavano pannolini spesso compravano più birra degli altri, per cui mettendo la birra più costosa non lontano dai pannolini, poteva incrementarne le vendite. Infatti, quelle persone che avevano figli piccoli passavano più serate in casa a guardare la TV bevendo birra in casa, non potendo uscire con gli amici. È doveroso tuttavia precisare che non è chiaro quale sia la catena di supermercati in questione, e l'esempio, seppur ottimo per scopi didattici e largamente utilizzato anche in ambito giornalistico, potrebbe essere stato inventato così come potrebbe essere vero.
 
== Note ==