Clustering: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Botcrux (discussione | contributi)
m Bot: correggo ordine e/o titoli e/o formattazione delle sezioni predefinite
m Ho corretto lo spelling di "k-medoids" e aggiunto un link alla pagina Wikipedia di riferimento.
 
(5 versioni intermedie di 3 utenti non mostrate)
Riga 16:
 
Un'altra suddivisione delle tecniche di clustering tiene conto del tipo di algoritmo utilizzato per dividere lo spazio:
* ''clustering partizionale (detto anche non gerarchico, o k-clustering)'', in cui per definire l'appartenenza ad un gruppo viene utilizzata una distanza da un punto rappresentativo del cluster (centroide, medioide, ecc...), avendo prefissato il numero di gruppi della partizione risultato. Si tratta di derivazioni del più noto algoritmo di clustering, quello detto delle [[k-means]], introdotto da MacQueen nel 1967.
* ''Clustering gerarchico'', in cui viene costruita una gerarchia di partizioni caratterizzate da un numero (de)crescente di gruppi, visualizzabile mediante una rappresentazione ad albero (dendrogramma), in cui sono rappresentati i passi di accorpamento/divisione dei gruppi.
 
Riga 24:
Gli algoritmi di clustering di questa famiglia creano una [[Partizione (teoria degli insiemi)|partizione]] delle osservazioni minimizzando una certa funzione di costo:
:<math>\sum_{j=1}^k E( C_j ),</math>
dove <math>k</math> è il numero dei cluster, <math>C_j</math> è il <math>j</math>-esimo cluster e <math>E\colon C \rightarrow \R^{+}</math> è la funzione di costo associata al singolo cluster. L'algoritmo più famoso appartenente a questa famiglia è il [[k-means]], proposto da MacQueen nel [[1967]]. Un altro algoritmo abbastanza conosciuto appartenente a questa classe è il [[K-medoids|Partitioning Around MedioidMedoids]] (PAM).
 
=== Clustering gerarchico ===
Riga 53:
 
* ''Dunn Index''
:L'indice di Dunn mira a identificare cluster densi e ben separati. È definito come il rapporto tra la minima distanza inter-cluster e la massima distanza intra-cluster. Per ogni partizione del cluster, l'indice di Dunn può essere calcolato con la seguente formula:<ref>{{Cita pubblicazione|cognome= Dunn |nome=J.|titolo=Well separated clusters and optimal fuzzy partitions|rivista=Journal of Cybernetics|anno=1974| volume = 4|pp=95–10495-104| doi = 10.1080/01969727408546059}}</ref>
 
::<math>
Riga 107:
 
== Altri progetti ==
{{interprogetto|preposizione=sul|wikt=clustering}}
*[[b:Esempi di Business Analytics/Gruppi di clienti|Wikibooks - Identificazione gruppi o clusters di clienti tramite Business Analytics]]
 
== Collegamenti esterni ==