Data mining: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 20:38, 25 gen 2021 modifica Truman Burbank (discussione \| contributi) Utenti autoverificati 10 590 modifiche →Descrizione: rivedo frasi iniziali ← Differenza precedente		Versione attuale delle 23:23, 3 feb 2025 modifica annulla Blablato (discussione \| contributi) 9 973 modifiche ref
(28 versioni intermedie di 16 utenti non mostrate)
Riga 1: Il L{{'}}'''estrazione di dati'''~~data~~ ~~mining~~o '''''data ~~(letteralmente dall~~mining'~~[[Lingua inglese\|inglese]]~~ ''~~estrazione di dati~~''<ref>Il{{Cita ~~termine~~web\|url=https://iate.europa.eu/entry/result/917359/en-en-it\|titolo=Entry ~~inglese~~ID ~~''mining''~~917359\|accesso=15 siluglio ~~può tradurre con "scavo", "estrazione", come per le [[miniere]].~~2022}}</ref>) è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di [[informazione\|informazioni]] utili da grandi quantità di dati (es. [[banche dati]], [[~~datawarehouse~~data warehouse]], ecc.), attraverso metodi automatici o semi-automatici (es. [[apprendimento automatico]]) e l'utilizzo scientifico, aziendale, industriale o operativo delle stesse<ref>Shoshana Zuboff, ''Il capitalismo della sorveglianza'', trad. Paolo Bassotti, Luiss University Press, Roma, 2019, ISBN 978 88 6105 409 7</ref>. == Descrizione == Per caratterizzare il ''data mining'' può essere utile considerare la [[statistica]], la quale può essere definita altrimenti come ''estrazione di [[informazione]] utile da insiemi di dati''. Il concetto di ''data mining'' è analogo, ma con una differenza sostanziale: la statistica permette di elaborare informazioni generali riguardo ad una [[campione (statistica)\|popolazione]] (es. percentuali di [[disoccupazione]], [[natalità\|nascite]]), mentre il ''data mining ''viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui; ad esempio, conoscendo il comportamento medio dei clienti di una compagnia telefonica, ~~cerco~~si cerca di prevedere quanto spenderà il cliente medio nell'immediato futuro. In sostanza il data mining è ''l'analisi, da un punto di vista matematico, eseguita su [[banche dati]] di grandi dimensioni'', preceduta tipicamente da altre fasi di preparazione/, trasformazione/ o filtraggio dei dati come il [[data cleaning]]. Il termine ''data mining'' è diventato popolare nei tardi anni novanta come versione abbreviata della definizione appena esposta; oggi il ''data mining'' ha una duplice valenza: * estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; * esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire ''[[riconoscimento di pattern\|pattern]]'' (schemi o regolarità) significativi. In entrambi i casi, i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining,; in altre parole, un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si opera. Questo tipo di attività è cruciale in molti ambiti della [[ricerca scientifica]], ma anche in altri settori (per esempio in quello delle [[ricerca di mercato\|ricerche di mercato]]). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla [[gestione delle relazioni con i clienti]] (~~[[Customer relationship management\|~~CRM]]), all'individuazione di comportamenti fraudolenti, fino all'ottimizzazione di [[sito web\|siti web]].<ref>{{Cita web\|titolo=Daniele Medri: Big Data & Business: An on-going revolution\|url=http://www.statisticsviews.com/details/feature/5393251/Big-Data--Business-An-on-going-revolution.html\|editore=[[Statistics Views]]\|data=21 ottobre 2013\|accesso=21 giugno 2015\|urlarchivio=https://web.archive.org/web/20150617211645/http://www.statisticsviews.com/details/feature/5393251/Big-Data--Business-An-on-going-revolution.html\|urlmorto=sì}}</ref> === Premesse === Riga 39: Vi sono diverse proposte e tecniche aventi ognuna specifiche caratteristiche e vantaggi. * [[Albero di decisione\|Alberi di ~~Decisione~~decisione]]: classificazione, sommatorizzazione (es. mediante gli algoritmi C4.5, CART, [[Algoritmo ID3\|ID3]], [[Entropia (teoria dell'informazione)\|Entropia]], CHAID). * Analisi logica e programmazione intera: classificazione, apprendimento di regole (es. LAD). * [[Teoria dei grafi]]: clustering, classificazione (es. B&C). * [[Rete neurale artificiale\|Reti neurali]] (ANN): classificazione (es. Perceptron, a singolo strato, multi-strato, backpropagation, radial-basis function R&F networks come SNNS e Nevprop). * Metodi Bayesiani: regressione, classificazione, bayesian learning, bayesian belief network, bayesian classifiers, maximum likelihood. * Support Vector Machines (SVM): classificazione, pattern recognition (es. RSVM). * Association/pattern discovery: regole di associazione e dipendenze, partner sequenziali (es. CN2). ===Pre-elaborazione (Pre-Processing)=== Prima di poter utilizzare gli [[Algoritmo\|algoritmi]] di data mining, è necessario assemblare un set di dati di destinazione. Poiché il data mining può solo scoprire modelli effettivamente presenti nei dati, il set di dati di destinazione deve essere abbastanza grande da contenere questi modelli, pur rimanendo abbastanza conciso da essere estratto entro un limite di tempo accettabile.<ref>{{Cita libro\|titolo=Data Science from Scratch. First Principles with Python\|url=https://python.engineering/data-science-from-scratch-first-principles-with-python/\|editore=O'Reilly\|data=2019\|ISBN=9781492041139\|6=\|accesso=18 ottobre 2021\|dataarchivio=17 agosto 2021\|urlarchivio=https://web.archive.org/web/20210817121416/https://python.engineering/data-science-from-scratch-first-principles-with-python/\|urlmorto=sì}}</ref> Una fonte comune per i dati è un [[data mart]] o un data warehouse. La pre-elaborazione è essenziale per analizzare i set di dati multivariati prima del data mining. Il set di obiettivi viene quindi pulito. La pulizia dei dati rimuove le osservazioni contenenti rumore e quelle con dati mancanti. === Esempi === Riga 57 ⟶ 60: === Text mining === È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale,: in altre parole, documenti "destrutturati". Il text mining unisce la tecnologia della lingua con gli algoritmi del data mining. L'obiettivo è sempre lo stesso: l'estrazione di informazione implicita contenuta in un insieme di documenti. Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] ({{Inglese\|NLP ~~in inglese~~}}), della disponibilità di applicazioni complesse attraverso gli ''[[Application service provider]]'' (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei [[motore di ricerca\|motori di ricerca]]. === Software utilizzati === Riga 69 ⟶ 72: * [[Oracle Database\|Oracle Data Miner]] * [[Microsoft SQL Server]]: strumenti di data mining del DBMS prodotto da Microsoft * [[Weka (software)\|Weka]], datamining in Java * RapidMiner === Sviluppi recenti === Una delle evoluzioni più recenti del data mining è la ~~'''~~visualizzazione di dati~~'''~~ (~~in inglese ''~~{{Inglese\|data visualization''}}). Settore specialistico dell'[[infografica]], la visualizzazione di dati si occupa non solamente di rendere graficamente intelligibile un testo, ma entra in relazione più diretta con la strutturazione delle banche dati e l'esportazione di grafici dai dati. Un'altra nuova frontiera è il ''social data mining'', ovvero l'analisi di informazioni generate dalle [[rete sociale\|reti sociali]] online, come ad esempio l'[[analisi del sentiment\|analisi del ''sentiment'']]. Riga 88 ⟶ 91: L'esempio classico spesso usato nei corsi universitari è quello di una catena non meglio specificata di supermercati (probabilmente statunitense) che avrebbe scoperto, analizzando gli scontrini, qualcosa altrimenti difficilmente immaginabile: le persone che acquistavano pannolini spesso compravano più birra degli altri, per cui mettendo la birra più costosa non lontano dai pannolini, poteva incrementarne le vendite. Infatti, quelle persone che avevano figli piccoli passavano più serate in casa a guardare TV bevendo birra, non potendo uscire con gli amici. È doveroso tuttavia precisare che non è chiaro quale sia la catena di supermercati in questione, e l'esempio, seppur ottimo per scopi didattici e largamente utilizzato anche in ambito giornalistico, potrebbe essere stato inventato così come potrebbe essere vero. ==Legge sul copyright== ===Situazione in Europa=== In base alle leggi europee sul [[copyright]] e sui [[database]], l'estrazione di opere protette da copyright (ad esempio tramite il web mining) senza l'autorizzazione del titolare del copyright non è legale. Laddove un database è costituito da dati puri in Europa, può darsi che non vi sia alcun diritto d'autore, ma possono esistere diritti di database in modo che il data mining diventi soggetto ai diritti dei proprietari di [[proprietà intellettuale]] protetti dalla Direttiva sui database. Su raccomandazione della revisione di Hargreaves, ciò ha portato il [[governo del Regno Unito]] a modificare la sua legge sul copyright nel 2014 per consentire l'estrazione di contenuti come limitazione ed eccezione.<ref>{{cita testo\|url=http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/\|titolo=UK Researchers Given Data Mining Right Under New UK Copyright Laws.\|urlarchivio=https://web.archive.org/web/20140609020315/http://www.out-law.com/en/articles/2014/june/researchers-given-data-mining-right-under-new-uk-copyright-laws/ }} ''Out-Law.com.'' Retrieved 14 November 2014</ref> Il [[Regno Unito]] è stato il secondo paese al mondo a farlo dopo il [[Giappone]], che ha introdotto un'eccezione nel 2009 per il data mining. Tuttavia, a causa della restrizione della direttiva sulla società dell'informazione (2001), l'eccezione del Regno Unito consente l'estrazione di contenuti solo per scopi non commerciali. La legge sul copyright del Regno Unito inoltre non consente che questa disposizione sia sovrascritta dai termini e condizioni contrattuali. La [[Commissione europea]] ha facilitato la discussione delle parti interessate sull'estrazione di testo e dati nel 2013, sotto il titolo di Licenze per l'Europa<ref>{{cita web\|titolo=Licences for Europe – Structured Stakeholder Dialogue 2013\|url=http://ec.europa.eu/licences-for-europe-dialogue/en/content/about-site\|sito=European Commission\|accesso=14 novembre 2014}}</ref>. L'attenzione alla soluzione di questo problema legale, come la concessione di licenze piuttosto che limitazioni ed eccezioni, ha portato rappresentanti di università, ricercatori, biblioteche, gruppi della [[società civile]] ed editori ad accesso aperto a lasciare il dialogo con le parti interessate nel maggio 2013.<ref>{{cita web\|titolo=Text and Data Mining:Its importance and the need for change in Europe\|url=http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/\|sito=Association of European Research Libraries\|accesso=14 novembre 2014\|urlarchivio=https://web.archive.org/web/20141129021244/http://libereurope.eu/news/text-and-data-mining-its-importance-and-the-need-for-change-in-europe/\|urlmorto=sì}}</ref> == Note == Riga 94 ⟶ 103: == Bibliografia == * P. Cabena; P. Hadjinian; R. Stadler; J. Verhees; A. Zanasi. ''Discovering data mining from concept to implementation'', [[Prentice Hall]] PTR 1997 * Dulli Susi; Furini Sara; Peron Edmondo. ''[{{cita testo\|url=https://www.springer.com/computer/database+management+&+information+retrieval/book/978-88-470-1162-5?detailsPage=otherBooks&CIPageCounter=CI_MORE_BOOKS_BY_AUTHOR1 \|titolo=Data Mining]}}'', [[Springer Verlag]], 2009 * Shoshana Zuboff, ''Il capitalismo della sorveglianza'', trad. Paolo Bassotti, Luiss University Press, Roma, 2019, ISBN 978 88 6105 409 7 == Voci correlate == {{Div col}} * [[Analisi dei gruppi]] * [[Data cleaning]] Riga 111 ⟶ 122: * [[Intelligenza competitiva]] * [[Overfitting]] * [[Problemi di privacy nei siti di social network]] * [[Thesaurus]] * [[Web sommerso]] Riga 116 ⟶ 128: * [[Apprendimento automatico]] * [[Regole di associazione]] {{Div col end}} == Altri progetti == {{interprogetto\|preposizione=sul\|wikt=data mining}} == Collegamenti esterni == * {{Collegamenti esterni}} * [{{FOLDOC\|\|data mining}} * {{cita testo\|url=https://archive.ics.uci.edu/ml \|titolo=Archivio UCI]}}: Archivio di dati di pubblico dominio per esperimenti di data mining * [{{cita testo\|url=http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html\|titolo=(IT)One Minute Dictionary\|accesso=2 ottobre 2019\|dataarchivio=17 novembre 2011\|urlarchivio=https://web.archive.org/web/20111117233958/http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html ~~(IT)One Minute Dictionary]~~\|urlmorto=sì}}: Il data mining in un video di un minuto▼ * [http://www.dmg.org/ Data Mining Group]: Consorzio di produttori di software per lo sviluppo di standard per il data mining * {{cita web\|http://dbdmg.polito.it\|Data Base & Data Mining Group website}} * {{cita web\|http://www.matematicamente.it/rivista-il-magazine/numero-9-aprile-2009/112-data-mining-esplorando-le-miniere-alla-ricerca-della-conoscenza-nascosta-clustering/\|(IT) Articolo divulgativo su Data Mining e Clustering}} ▲* [https://web.archive.org/web/20111117233958/http://tv.bitmat.it/view/576/578/0000000269/Data_mining.html (IT)One Minute Dictionary]: Il data mining in un video di un minuto {{Controllo di autorità}}