Clustering gerarchico: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Ho aggiunto il criterio di collegamento di Ward, che mancava
 
(34 versioni intermedie di 23 utenti non mostrate)
Riga 1:
In [[statistica]] e [[apprendimento automatico]], il '''clustering gerarchico''' è un approccio di [[clustering]] che mira a costruire una [[gerarchia]] di [[Computer cluster|cluster]]. Le strategie per il clustering gerarchico sono tipicamente di due tipi:
 
*'''Agglomerativo''': si tratta di un approccio "bottom up" (dal basso verso l'alto) in cui si parte dall'inserimento di ciascun elemento in un cluster differente e si procede quindi all'accorpamento graduale di cluster a due a due.
Riga 7:
 
== Dissimilarità tra cluster ==
 
Per decidere quali cluster devono essere combinati (approccio agglomerativo) o quale cluster deve essere suddiviso (approccio divisivo) è necessario definire una misura di dissimilarità tra cluster. Nella maggior parte dei metodi di clustering gerarchico si fa uso di [[metrica (matematica)|metriche]] specifiche che quantificano la distanza tra coppie di elementi e di un criterio di collegamento che specifica la dissimilarità di due insiemi di elementi (cluster) come funzione della distanza a coppie tra elementi nei due insiemi.
 
Riga 15 ⟶ 14:
La scelta di una metrica appropriata influenza la forma dei cluster, poiché alcuni elementi possono essere più "vicini" utilizzando una distanza e più "lontani" utilizzandone un'altra. Per esempio, in uno spazio a 2 dimensioni, la distanza tra il punto (1, 1) e l'origine (0, 0) è 2, <math>\sqrt{2}</math> or 1 se si utilizzando rispettivamente le norme 1, 2 o infinito.
 
Metriche comuni sono le seguenti:<ref>{{en}}{{citecita web |lingua=en title|titolo=The DISTANCE Procedure: Proximity Measures | url=httphttps://support.sas.com/documentation/cdl/en/statug/59654/HTML/default/statug_distance_sect016.htm | worksito=SAS/STAT 9.2 Users Guide | publishereditore= [[SAS Institute]] | datedata= | accessdateaccesso=2009-04-26 aprile 2009 |urlmorto=sì }}</ref>
* La [[distanza euclidea]] (chiamata anche norma 2)
* La [[distanza di Manhattan]] (chiamata anche norma 1)
* La [[norma uniforme]]
Riga 26 ⟶ 25:
Il criterio di collegamento (''linkage criterion'') specifica la distanza tra insiemi di elementi come funzione di distanze tra gli elementi negli insiemi.
 
Dati due insiemi di elementi ''A'' e ''B'' alcuni criteri comunemente utilizzati sono:<ref>{{en}}{{citecita web |lingua=en title|titolo=The CLUSTER Procedure: Clustering Methods | url=httphttps://support.sas.com/documentation/cdl/en/statug/59654/HTML/default/statug_cluster_sect012.htm | worksito=SAS/STAT 9.2 Users Guide | publishereditore= [[SAS Institute]] |data= date|accesso=26 aprile 2009 |urlarchivio=https://web.archive.org/web/20080707081702/http://support.sas.com/documentation/cdl/en/statug/59654/HTML/default/statug_cluster_sect012.htm accessdate|dataarchivio=2009-04-267 luglio 2008 |urlmorto=sì }}</ref>
{|class="wikitable"
! Nome del criterio
Riga 43 ⟶ 42:
dove ''d'' è la metrica prescelta per determinare la similarità tra coppie di elementi.
 
Vi è anche il criterio di Ward, che valuta il cambiamento di varianza intra-cluster quando questi si uniscono e seleziona la coppia che dà luogo a un cluster avente la minima varianza al suo interno. Questo criterio punta a creare cluster compatti e omogenei, con una dispersione simile.<ref>{{Cita web|url=http://www.r-project.it/_book/clustering-gerarchico-agglomerativo-hc.html|titolo=Clustering Gerarchico}}</ref>
 
==Voci correlateNote==
<references />
 
==Bibliografia==
*{{en}}Cita {{cite booklibro|last1autore-capitolo-cognome=Hastie|first1autore-capitolo-nome=Trevor|last2autore-capitolo-cognome2=Tibshirani|first2autore-capitolo-nome2=Robert|last3autore-capitolo-cognome3=Friedman|first3autore-capitolo-nome3=Jerome |yearanno=2001 |titletitolo=The Elements of Statistical Learning |url=https://archive.org/details/elementsofstatis0000hast|ISBN=0-387-95284-5 |publishereditore=Springer |___locationcittà=New York |chaptercapitolo=14.3.12 Hierarchical clustering |pagespagine=272&ndash;280272–280|lingua=en}}
 
== Voci correlate ==
* [[Clustering]]
* [[Dendrogramma]]
 
== Altri progetti ==
==Note==
{{interprogetto|preposizione=sul}}
<references />
 
== Collegamenti esterni ==
*{{cita web |1=https://www.unirc.it/documentazione/materiale_didattico/599_2008_93_1623.pdf |2=(IT) Articolo Il Clustering dell'Unirc |accesso=21 febbraio 2023 }}
*[http://www.matematicamente.it/il_magazine/numero_9%3a_aprile_2009/112._data_mining%3a_esplorando_le_miniere_alla_ricerca_della_conoscenza_nascosta_clustering_200905305380/ (IT) Articolo divulgativo sul Clustering]
 
{{Apprendimento automatico}}
==Bibliografia==
{{Controllo di autorità}}
 
{{Portale|statistica|informatica}}
*{{en}} {{cite book|last1=Hastie|first1=Trevor|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome |year=2001 |title=The Elements of Statistical Learning |ISBN=0-387-95284-5 |publisher=Springer |___location=New York |chapter=14.3.12 Hierarchical clustering |pages=272&ndash;280}}
 
[[Categoria:Apprendimento automatico]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Analisi dei cluster]]
 
[[en:Hierarchical clustering]]