Data mining: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m Situazione in Europa: Eliminato un collegamento in quanto portava a una "pagina di disambiguazione"
Blablato (discussione | contributi)
ref
 
(11 versioni intermedie di 7 utenti non mostrate)
Riga 1:
L{{'}}'''estrazione di dati''' o '''''data mining'''''<ref>{{Cita web|url=https://iate.europa.eu/entry/result/917359/en-en-it|titolo=Entry ID 917359|accesso=15 luglio 2022}}</ref> è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di [[informazione|informazioni]] utili da grandi quantità di dati (es. [[banche dati]], [[data warehouse]], ecc.), attraverso metodi automatici o semi-automatici (es. [[apprendimento automatico]]) e l'utilizzo scientifico, aziendale, industriale o operativo delle stesse<ref>Shoshana Zuboff, ''Il capitalismo della sorveglianza'', trad. Paolo Bassotti, Luiss University Press, Roma, 2019, ISBN 978 88 6105 409 7</ref>.
 
== Descrizione ==
Riga 48:
 
===Pre-elaborazione (Pre-Processing)===
Prima di poter utilizzare gli [[Algoritmo|algoritmi]] di data mining, è necessario assemblare un set di dati di destinazione. Poiché il data mining può solo scoprire modelli effettivamente presenti nei dati, il set di dati di destinazione deve essere abbastanza grande da contenere questi modelli, pur rimanendo abbastanza conciso da essere estratto entro un limite di tempo accettabile.<ref>{{Cita libro|titolo=Data Science from Scratch. First Principles with Python|url=https://python.engineering/data-science-from-scratch-first-principles-with-python/|editore=O'Reilly|data=2019|ISBN=9781492041139|6=|accesso=18 ottobre 2021|dataarchivio=17 agosto 2021|urlarchivio=https://web.archive.org/web/20210817121416/https://python.engineering/data-science-from-scratch-first-principles-with-python/|urlmorto=sì}}</ref> Una fonte comune per i dati è un [[data mart]] o un data warehouse. La pre-elaborazione è essenziale per analizzare i set di dati multivariati prima del data mining. Il set di obiettivi viene quindi pulito. La pulizia dei dati rimuove le osservazioni contenenti rumore e quelle con dati mancanti.
 
=== Esempi ===
Riga 62:
È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale: in altre parole, documenti "destrutturati". Il text mining unisce la tecnologia della lingua con gli algoritmi del data mining. L'obiettivo è sempre lo stesso: l'estrazione di informazione implicita contenuta in un insieme di documenti.
 
Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] ({{Inglese|NLP in inglese}}), della disponibilità di applicazioni complesse attraverso gli ''[[Application service provider]]'' (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei [[motore di ricerca|motori di ricerca]].
 
=== Software utilizzati ===
Riga 72:
* [[Oracle Database|Oracle Data Miner]]
* [[Microsoft SQL Server]]: strumenti di data mining del DBMS prodotto da Microsoft
* [[Weka (software)|Weka]], datamining in Java
* RapidMiner
 
=== Sviluppi recenti ===
Una delle evoluzioni più recenti del data mining è la '''visualizzazione di dati''' (in inglese ''{{Inglese|data visualization''}}). Settore specialistico dell'[[infografica]], la visualizzazione di dati si occupa non solamente di rendere graficamente intelligibile un testo, ma entra in relazione più diretta con la strutturazione delle banche dati e l'esportazione di grafici dai dati.
 
Un'altra nuova frontiera è il ''social data mining'', ovvero l'analisi di informazioni generate dalle [[rete sociale|reti sociali]] online, come ad esempio l'[[analisi del sentiment|analisi del ''sentiment'']].
Riga 104:
* P. Cabena; P. Hadjinian; R. Stadler; J. Verhees; A. Zanasi. ''Discovering data mining from concept to implementation'', [[Prentice Hall]] PTR 1997
* Dulli Susi; Furini Sara; Peron Edmondo. ''{{cita testo|url=https://www.springer.com/computer/database+management+&+information+retrieval/book/978-88-470-1162-5?detailsPage=otherBooks&CIPageCounter=CI_MORE_BOOKS_BY_AUTHOR1|titolo=Data Mining}}'', [[Springer Verlag]], 2009
* Shoshana Zuboff, ''Il capitalismo della sorveglianza'', trad. Paolo Bassotti, Luiss University Press, Roma, 2019, ISBN 978 88 6105 409 7
 
== Voci correlate ==
{{Div col}}
* [[Analisi dei gruppi]]
* [[Data cleaning]]
Line 120 ⟶ 122:
* [[Intelligenza competitiva]]
* [[Overfitting]]
* [[Problemi di privacy nei siti di social network]]
* [[Thesaurus]]
* [[Web sommerso]]
Line 125 ⟶ 128:
* [[Apprendimento automatico]]
* [[Regole di associazione]]
{{Div col end}}
 
== Altri progetti ==
Line 131 ⟶ 135:
== Collegamenti esterni ==
* {{Collegamenti esterni}}
* {{FOLDOC||data mining}}
* {{cita testo|url=https://archive.ics.uci.edu/ml|titolo=Archivio UCI}}: Archivio di dati di pubblico dominio per esperimenti di data mining
* {{cita testo|url=http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html|titolo=(IT)One Minute Dictionary|accesso=2 ottobre 2019|dataarchivio=17 novembre 2011|urlarchivio=https://web.archive.org/web/20111117233958/http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html|urlmorto=sì}}: Il data mining in un video di un minuto