Clustering: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m typos |
mNessun oggetto della modifica |
||
Riga 1:
Il '''Clustering''' è una tecnica di analisi dei dati volta alla selezione e raggruppamento di elementi omogenei in un insieme di dati. Tutte le tecniche di ''clustering'' si basano sul concetto di [[distanza]] tra due elementi. Infatti la bontà delle analisi ottenute dagli algoritmi di ''clustering'' dipende essenzialmente da quanto è significativa la [[metrica]] e quindi da come è stata definita la [[distanza]]. La [[distanza]] è un concetto fondamentale dato che gli [[algoritmi]] di ''clustering'' raggruppano gli elementi a seconda della [[distanza]] e quindi l'apparteneza o meno ad un [[insieme]] dipende da quanto l'elemento preso in esame è distante dall'[[insieme]]. Le tecniche di ''clustering'' si possono basare principalmente su due filosofie.
*Dal basso verso l'alto
:Questa filosofia prevede che inizialmente tutti gli elementi siano considerati ''cluster'' a
*Dall'alto verso il basso
:All'inizio tutti gli elementi sono un unico ''cluster'' e poi l'algoritmo inizia a dividere il ''cluster'' in tanti ''cluster'' di dimensioni inferiori. Il criterio che guida la divisione è sempre quello di cercare di ottenere elementi omogenei. L'algoritmo procede fino a che non ha raggiunto un numero prefissato di ''cluster''.
La tecniche di ''clustering'' vengono utlizzate generalmente quando si hanno tanti dati eterogenei e si è alla ricerca di elementi anomali. Per esempio le compagnie telefoniche utilizzano le tecniche di ''clustering'' per cercare di individuare in anticipo gli utenti che diventeranno morosi. Normalente questi utenti hanno un comportamento nettamente diverso rispetto alla maggioranza degli utenti telefonici e le tecniche di ''clustering'' riescono soventemente ad individuarli o comunque definisco un ''cluster'' dove vengono concentrati tutti gli utenti che hanno un'elevata probabilità di diventare utenti morosi.
|