Versione delle 01:03, 20 dic 2018 modifica Botcrux (discussione \| contributi) Bot 3 672 053 modifiche m Bot: aggiungo sortkey " " per categoria principale ← Differenza precedente		Versione delle 10:35, 8 gen 2019 modifica annulla Folto82 (discussione \| contributi) 20 747 modifiche m sistemo formattazione... Differenza successiva →
Riga 1: In [[statistica]], il '''clustering''' o '''analisi dei gruppi''' (dal termine [[lingua inglese\|inglese]] ''cluster analysis'' introdotto da [[Robert Tryon]] nel [[1939]]) è un insieme di tecniche di [[statistica multivariata\|analisi multivariata dei dati]] volte alla selezione e raggruppamento di elementi omogenei in un insieme di dati. Le tecniche di ''clustering'' si basano su misure relative alla somiglianza tra gli elementi. In molti approcci questa similarità, o meglio, dissimilarità, è concepita in termini di distanza in uno spazio multidimensionale. La bontà delle analisi ottenute dagli algoritmi di ''clustering'' dipende molto dalla scelta della [[metrica]], e quindi da come è calcolata la distanza. Gli [[algoritmo\|algoritmi]] di ''clustering'' raggruppano gli elementi sulla base della loro distanza reciproca, e quindi l'appartenenza o meno ad un [[insieme]] dipende da quanto l'elemento preso in esame è distante dall'insieme stesso. == Tecniche ~~di clustering~~ ==▼ Le tecniche di ''clustering'' si possono basare principalmente su due "filosofie": Riga 8 ⟶ 9: :All'inizio tutti gli elementi sono un unico ''cluster'', e poi l'algoritmo inizia a dividere il ''cluster'' in tanti ''cluster'' di dimensioni inferiori. Il criterio che guida la divisione è naturalmente quello di ottenere gruppi sempre più omogenei. L'algoritmo procede fino a che non viene soddisfatta una regola di arresto generalmente legata al raggiungimento di un numero prefissato di ''cluster''. ▲== Tecniche di clustering == Esistono varie classificazioni delle tecniche di clustering comunemente utilizzate. Una prima categorizzazione dipende dalla possibilità che un elemento possa o meno essere assegnato a più cluster: * ''clustering esclusivo'': ogni elemento può essere assegnato ad uno e ad un solo gruppo. Quindi i cluster risultanti non possono avere elementi in comune. Questo approccio è detto anche ''hard clustering''.

Clustering: differenze tra le versioni