Data mining

insieme di tecniche e metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati

Il data mining (in italiano: estrazione di dati) può essere definito come:

  • Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, sconosciuta e potenzialmente utile da dati conosciuti;
  • Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.

Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato).

Esempi

Che cosa non è estrazione di dati?

  • Cercare un numero di telefono nell'elenco;
  • Fare una ricerca in Internet su "vacanze alle Maldive".

Che cosa è estrazione di dati?

  • Scoprire che alcuni cognomi (Benetton, Troncon, Cavasin,) sono molto comuni in specifiche aree dell'Italia;
  • Fare una ricerca nel web su una parola chiave e classificare i documenti trovati secondo un criterio semantico (p. es. "corriere": nome di giornale, professione, plurale di corriera, ecc.)

Tecniche di data mining

I fattori principali che hanno contribuito allo sviluppo del data mining sono:

  • le grandi accumulazioni di dati in formato elettronico,
  • il data storage poco costoso, e
  • i nuovi metodi e tecniche di analisi.

Le tecniche di data mining sono fondate su specifici algoritmi. I pattern identificati possono essere, nella ricerca scientifica, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.

Un concetto correlato al "data mining" è quello di machine learning (apprendimento automatico); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli algoritmi euristici e della intelligenza artificiale. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di "rivelare" relazioni causali inesistenti.

Una tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto con supervisione (supervised), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti training examples, ovvero esempi per l’addestramento. La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con alberi di decisione.

Strumenti per il data mining

  • R Software statistico Open Source
  • Oracle
  • Weka il datamining in Java

Voci correlate