Data mining: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica Etichetta: Link a pagina di disambiguazione |
ref |
||
(24 versioni intermedie di 13 utenti non mostrate) | |||
Riga 1:
== Descrizione ==
Per caratterizzare il ''data mining'' può essere utile considerare la [[statistica]], la quale può essere definita altrimenti come ''estrazione di [[informazione]] utile da insiemi di dati''.
Il concetto di ''data mining'' è analogo, ma con una differenza sostanziale: la statistica permette di elaborare informazioni generali riguardo ad una [[campione (statistica)|popolazione]] (es. percentuali di [[disoccupazione]], [[natalità|nascite]]), mentre il ''data mining ''viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui; ad esempio, conoscendo il comportamento medio dei clienti di una compagnia telefonica,
In sostanza il data mining è ''l'analisi, da un punto di vista matematico, eseguita su [[banche dati]] di grandi dimensioni'', preceduta tipicamente da altre fasi di preparazione
* estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
* esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire ''[[riconoscimento di pattern|pattern]]'' (schemi o regolarità) significativi.
In entrambi i casi, i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining
Questo tipo di attività è cruciale in molti ambiti della [[ricerca scientifica]], ma anche in altri settori (per esempio in quello delle [[ricerca di mercato|ricerche di mercato]]). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla [[gestione delle relazioni con i clienti]] (
=== Premesse ===
Riga 39:
Vi sono diverse proposte e tecniche aventi ognuna specifiche caratteristiche e vantaggi.
* [[Albero di decisione|Alberi di
* Analisi logica e programmazione intera: classificazione, apprendimento di regole (es. LAD).
* [[Teoria dei grafi]]: clustering, classificazione (es. B&C).
* [[Rete neurale artificiale|Reti neurali]] (ANN): classificazione (es. Perceptron, a singolo strato, multi-strato, backpropagation, radial-basis function R&F networks come SNNS e Nevprop).
* Metodi Bayesiani: regressione, classificazione, bayesian learning, bayesian belief network, bayesian classifiers, maximum likelihood.
* Support Vector Machines (SVM): classificazione, pattern recognition (es. RSVM).
Riga 48:
===Pre-elaborazione (Pre-Processing)===
Prima di poter utilizzare gli [[Algoritmo|algoritmi]] di data mining, è necessario assemblare un set di dati di destinazione. Poiché il data mining può solo scoprire modelli effettivamente presenti nei dati, il set di dati di destinazione deve essere abbastanza grande da contenere questi modelli, pur rimanendo abbastanza conciso da essere estratto entro un limite di tempo accettabile.<ref>{{
=== Esempi ===
Riga 60:
=== Text mining ===
È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale
Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] ({{Inglese|NLP
=== Software utilizzati ===
Riga 72:
* [[Oracle Database|Oracle Data Miner]]
* [[Microsoft SQL Server]]: strumenti di data mining del DBMS prodotto da Microsoft
* [[Weka (software)|Weka]], datamining in Java
* RapidMiner
=== Sviluppi recenti ===
Una delle evoluzioni più recenti del data mining è la
Un'altra nuova frontiera è il ''social data mining'', ovvero l'analisi di informazioni generate dalle [[rete sociale|reti sociali]] online, come ad esempio l'[[analisi del sentiment|analisi del ''sentiment'']].
Riga 94:
==Legge sul copyright==
===Situazione in Europa===
In base alle leggi europee sul [[copyright]] e sui [[database]], l'estrazione di opere protette da copyright (ad esempio tramite il web mining) senza l'autorizzazione del titolare del copyright non è legale. Laddove un database è costituito da dati puri in Europa, può darsi che non vi sia alcun diritto d'autore, ma possono esistere diritti di database in modo che il data mining diventi soggetto ai diritti dei proprietari di [[proprietà intellettuale]] protetti dalla Direttiva sui database. Su raccomandazione della revisione di
La [[Commissione europea]] ha facilitato la discussione delle parti interessate sull'estrazione di testo e dati nel 2013, sotto il titolo di Licenze per l'Europa<ref>{{cite web|title=Licences for Europe – Structured Stakeholder Dialogue 2013|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site|website=European Commission|access-date=14 November 2014}}</ref>. L'attenzione alla soluzione di questo problema legale, come la concessione di licenze piuttosto che limitazioni ed eccezioni, ha portato rappresentanti di università, ricercatori, biblioteche, gruppi della società civile ed editori ad accesso aperto a lasciare il dialogo con le parti interessate nel maggio 2013.<ref>{{cite web|title=Text and Data Mining:Its importance and the need for change in Europe|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/|website=Association of European Research Libraries|access-date=14 November 2014}}</ref>▼
▲La [[Commissione europea]] ha facilitato la discussione delle parti interessate sull'estrazione di testo e dati nel 2013, sotto il titolo di Licenze per l'Europa<ref>{{
== Note ==
Line 104 ⟶ 103:
== Bibliografia ==
* P. Cabena; P. Hadjinian; R. Stadler; J. Verhees; A. Zanasi. ''Discovering data mining from concept to implementation'', [[Prentice Hall]] PTR 1997
* Dulli Susi; Furini Sara; Peron Edmondo. ''
* Shoshana Zuboff, ''Il capitalismo della sorveglianza'', trad. Paolo Bassotti, Luiss University Press, Roma, 2019, ISBN 978 88 6105 409 7
== Voci correlate ==
{{Div col}}
* [[Analisi dei gruppi]]
* [[Data cleaning]]
Line 121 ⟶ 122:
* [[Intelligenza competitiva]]
* [[Overfitting]]
* [[Problemi di privacy nei siti di social network]]
* [[Thesaurus]]
* [[Web sommerso]]
Line 126 ⟶ 128:
* [[Apprendimento automatico]]
* [[Regole di associazione]]
{{Div col end}}
== Altri progetti ==
{{interprogetto|preposizione=sul|wikt=data mining}}
== Collegamenti esterni ==
* {{Collegamenti esterni}}
*
* {{cita testo|url=https://archive.ics.uci.edu/ml *
▲* [https://web.archive.org/web/20111117233958/http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html (IT)One Minute Dictionary]: Il data mining in un video di un minuto
{{Controllo di autorità}}
|