Data mining: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m +stub (IMHO non è molto comprensibile)
integrato con materiale estratto da albero di decisione, decisamente puo' essere arricchito ancora
Riga 1:
In informatica, il '''data mining''' (letteralmente: ''estrazione da una miniera di dati'') è l'estrazione di informazione utile, eseguita in modo automatico o semiautomatico, da grandi quantità di dati. Questo tipo di attività è cruciale in molti ambiti della [[ricerca scientifica]], ma anche in altri settori (per esempio in quello delle [[ricerca di mercato|ricerche di mercato]]).
{{stub}}
 
Il '''data mining''' è un processo iterativo che estrae da un [[database]] informazione e conoscenza che devono essere corrette, utili, originali e comprensibili per gli utilizzatori. La comprensibilità non è necessaria sempre. Essa si riferisce al fatto che le soluzioni siano condivisibili per gli analisti, ma è comunque subordinata ad una miglior efficienza del modello, perchè questa permette una maggior efficacia di marketing. E ovviamente una maggior efficacia è più importante della comprensibilità.
Le tecniche e gli [[algoritmo|algoritmi]] di data mining hanno lo scopo di analizzare vasti campioni di dati, allo scopo di identificare interessanti regolarità dette [[pattern]]. I pattern così identificati possono essere, nella ricerca scientifica, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso [[statistica|statistico]] per formulare previsioni su nuovi insiemi di dati.
 
Un concetto correlato al "data mining" è quello di [[machine learning]] (''apprendimento automatico''); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli [[algoritmo euristico|algoritmi euristici]] e della [[intelligenza artificiale]]. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di "rivelare" relazioni causali ''inesistenti''.
 
Una tecnica molto diffusa per il data mining è l'''apprendimento mediante classificazione''. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto ''con supervisione'' (''supervised''), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti ''training examples'', ovvero ''esempi per l’addestramento''. La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con [[alberi di decisione]].
 
== Articoli correlati ==
* [[Rete neurale]]
* [[Clustering]]
 
[[Categoria:Economia]]
 
[[de:Data-Mining]]