Versione delle 10:28, 8 mag 2004 modifica Sbisolo (discussione \| contributi) Utenti autoverificati 40 587 modifiche m typos ← Differenza precedente		Versione delle 23:22, 23 mag 2004 modifica annulla StWA (discussione \| contributi) 46 modifiche mNessun oggetto della modifica Differenza successiva →
Riga 1: Il '''Clustering''' è una tecnica di analisi dei dati volta alla selezione e raggruppamento di elementi omogenei in un insieme di dati. Tutte le tecniche di ''clustering'' si basano sul concetto di [[distanza]] tra due elementi. Infatti la bontà delle analisi ottenute dagli algoritmi di ''clustering'' dipende essenzialmente da quanto è significativa la [[metrica]] e quindi da come è stata definita la [[distanza]]. La [[distanza]] è un concetto fondamentale dato che gli [[algoritmi]] di ''clustering'' raggruppano gli elementi a seconda della [[distanza]] e quindi l'apparteneza o meno ad un [[insieme]] dipende da quanto l'elemento preso in esame è distante dall'[[insieme]]. Le tecniche di ''clustering'' si possono basare principalmente su due filosofie. Dal basso verso l'alto :Questa filosofia prevede che inizialmente tutti gli elementi siano considerati ''cluster'' a sesé ede poi l'algoritmo provvede ad unire i ''cluster'' più vicini. L'algoritmo continua ad unire elementi al ''cluster'' fino ad ottenere un numero prefissato di ''cluster'' oppure fino a che la distanza minima tra i ''cluster'' non supera un certo valore. Dall'alto verso il basso :All'inizio tutti gli elementi sono un unico ''cluster'' e poi l'algoritmo inizia a dividere il ''cluster'' in tanti ''cluster'' di dimensioni inferiori. Il criterio che guida la divisione è sempre quello di cercare di ottenere elementi omogenei. L'algoritmo procede fino a che non ha raggiunto un numero prefissato di ''cluster''. La tecniche di ''clustering'' vengono utlizzate generalmente quando si hanno tanti dati eterogenei e si è alla ricerca di elementi anomali. Per esempio le compagnie telefoniche utilizzano le tecniche di ''clustering'' per cercare di individuare in anticipo gli utenti che diventeranno morosi. Normalente questi utenti hanno un comportamento nettamente diverso rispetto alla maggioranza degli utenti telefonici e le tecniche di ''clustering'' riescono soventemente ad individuarli o comunque definisco un ''cluster'' dove vengono concentrati tutti gli utenti che hanno un'elevata probabilità di diventare utenti morosi.

Clustering: differenze tra le versioni