Modello di mistura

modello statistico gerarchico costituito da componenti

In statistica, un modello di mistura (o miscela) è un modello probabilistico utile a rappresentare la presenza di sotto-popolazioni all'interno di una popolazione complessiva, senza richiedere che l'insieme di dati osservati identifichi la sotto-popolazione a cui appartiene una singola osservazione. Formalmente, un modello di mistura corrisponde alla distribuzione di mistura che rappresenta la distribuzione di probabilità delle osservazioni nella popolazione complessiva. Tuttavia, mentre i problemi associati alle "distribuzioni di mistura" riguardano la derivazione delle proprietà della popolazione complessiva da quelle delle sotto-popolazioni, i "modelli di mistura" vengono utilizzati per effettuare inferenze statistiche sulle proprietà delle sotto-popolazioni, date solo osservazioni sulla popolazione complessiva, senza informazioni sull'identità delle sotto-popolazioni. I modelli di mistura sono utilizzati per il clustering, con tecniche di clustering basato su modello, e anche per la stima di densità.

I modelli di mistura non devono essere confusi con i modelli per dati composizionali, ovvero dati i cui componenti sono vincolati a sommarsi a un valore costante (1, 100%, ecc.). Tuttavia, i modelli composizionali possono essere considerati come modelli di mistura, in cui i membri della popolazione vengono campionati casualmente. Al contrario, i modelli di mistura possono essere considerati come modelli composizionali, in cui la popolazione totale di riferimento è stata normalizzata a 1.

Struttura

modifica

Modello di mistura generale

modifica

Un tipico modello di mistura di dimensione finita è un modello gerarchico costituito dai seguenti componenti:

  • N variabili casuali osservate, ciascuna distribuita secondo una mistura di K componenti, con le componenti appartenenti alla stessa famiglia parametrica di distribuzioni (ad esempio, tutte normali, tutte Zipfiane, ecc.) ma con parametri diversi. Tuttavia, è anche possibile avere un modello di mistura finita in cui ogni componente appartiene a una diversa famiglia parametrica di distribuzioni, [1] ad esempio, una mistura di una distribuzione normale multivariata e una distribuzione iperbolica generalizzata .
  • N variabili casuali latenti che specificano l'identità del componente della mistura di ciascuna osservazione, ciascuna distribuita secondo una distribuzione categorica K -dimensionale
  • Un insieme di K pesi di mistura, che sono probabilità la cui somma è 1.
  • Un insieme di K parametri, ciascuno dei quali specifica il parametro del componente della mistura corrispondente. In molti casi, ogni "parametro" è in realtà un insieme di parametri. Ad esempio, se i componenti della mistura sono distribuzioni gaussiane, ci saranno una media e una varianza per ciascun componente. Se i componenti della mistura sono distribuzioni categoriche (ad esempio, quando ogni osservazione è un token di un alfabeto finito di dimensione V ), ci sarà un vettore di V probabilità la cui somma è 1.

Inoltre, in un contesto bayesiano, i pesi e i parametri della mistura saranno essi stessi variabili casuali e le si imporranno distribuzioni a priori su di esse. In tal caso, i pesi sono tipicamente visti come un vettore casuale K-dimensionale estratto da una distribuzione di Dirichlet (la distribuzione a priori coniugata della distribuzione categorica) e i parametri saranno distribuiti in base alle rispettive distribuzioni a priori coniugate.

Da un punto di vista matematico, un semplice modello di mistura parametrico può essere descritto come segue:

 

In un contesto bayesiano, ogni parametro è associato a una variabile aleatoria, come mostrato di seguito:

 

Questa caratterizzazione utilizza F e H per descrivere distribuzioni arbitrarie su osservazioni e parametri, rispettivamente. Tipicamente H sarà la distribuzione a priori coniugata di F. Le due scelte più comuni di F sono la gaussiana, detta anche "normale" (per osservazioni a valori reali) e la categorica (per osservazioni discrete). Altre tipiche distribuzioni dei componenti della mistura sono:

  • Distribuzione binomiale, per il numero di "occorrenze positive" (ad esempio, successi, voti favorevoli, ecc.) dato un numero fisso di occorrenze totali
  • Distribuzione multinomiale, simile alla distribuzione binomiale, ma per conteggi di occorrenze molteplici (ad esempio, sì/no/forse in un sondaggio)
  • Distribuzione binomiale negativa, per osservazioni di tipo binomiale ma in cui la quantità di interesse è il numero di fallimenti prima che si verifichi un dato numero di successi
  • Distribuzione di Poisson, per il numero di occorrenze di un evento in un dato periodo di tempo, per un evento caratterizzato da un tasso fisso di occorrenza
  • Distribuzione esponenziale, per il tempo prima che si verifichi l'evento successivo, per un evento caratterizzato da un tasso fisso di occorrenza
  • Distribuzione log-normale, per numeri reali positivi che si presume crescano esponenzialmente, come redditi o prezzi
  • Distribuzione normale multivariata (nota anche come distribuzione gaussiana multivariata), per vettori di risultati correlati che sono distribuiti individualmente in modo gaussiano
  • Distribuzione t di Student multivariata, per vettori di risultati correlati a coda pesante [2]
  • Un vettore di valori distribuiti secondo Bernoulli, corrispondente, ad esempio, a un'immagine in bianco e nero, con ciascun valore che rappresenta un pixel; vedere l'esempio di riconoscimento della scrittura a mano di seguito

Esempi specifici

modifica

modello di mistura gaussiana

modifica
 
Modello di mistura gaussiana non bayesiana che utilizza la notazione a piastre . I quadrati più piccoli indicano parametri fissi; i cerchi più grandi indicano variabili casuali. Le forme piene indicano valori noti. L'indicazione [K] indica un vettore di dimensione K.

Un tipico modello di mistura gaussiana non bayesiano si presenta così:

 
 
Modello di mistura gaussiana bayesiana che utilizza la notazione a plate. I quadrati più piccoli indicano parametri fissi; i cerchi più grandi indicano variabili casuali. Le forme piene indicano valori noti. L'indicazione [K] indica un vettore di dimensione K.

Una versione bayesiana di un modello mistura di gaussiane è la seguente:

 
Animazione del processo di clustering per dati unidimensionali utilizzando un modello di mistura gaussiana bayesiana in cui le distribuzioni normali vengono ricavate da un processo di Dirichlet. Gli istogrammi dei cluster sono mostrati in diversi colori. Durante il processo di stima dei parametri, vengono creati nuovi cluster che crescono in base ai dati. La legenda mostra i colori dei cluster e il numero di punti dati assegnati a ciascun cluster.

Modello di mistura gaussiana multivariata

modifica

Un modello di mistura gaussiana bayesiana viene tipicamente esteso per adattare un vettore (indicato in grassetto) di parametri sconosciuti o distribuzioni normali multivariate. In una distribuzione multivariata (ossia per un vettore   di N variabili casuali) si può modellare un vettore di parametri (come diverse osservazioni di un segnale o un patch all'interno di un'immagine) utilizzando una distribuzione a priori del modello di mistura gaussiana sul vettore di stime date da  dove la componente i-esima del vettore è caratterizzata da distribuzioni normali con pesi  , medie   e matrici di covarianza  . Per incorporare questa stima a priori in una stima bayesiana, quella a priori viene moltiplicata per la distribuzione nota  delle   condizionata sui parametri   da stimare. Con questa formulazione, la distribuzione a posteriori   è anche un modello di mistura gaussiana della forma  con nuovi parametri   E   che vengono aggiornati utilizzando l'algoritmo EM. [3] Sebbene l'uso di aggiornamenti basati su EM sia ampiamente consolidato, la scelta delle stime iniziali da fornire per questi parametri è attualmente un'area di ricerca attiva. Si noti che questa formulazione produce una soluzione in forma chiusa per la distribuzione a posteriori completa. Stime per la variabile casuale   possono essere ottenute tramite uno dei vari stimatori, come la media o il massimo della distribuzione a posteriori.

Tali distribuzioni sono utili, ad esempio, per fare assunzioni su forme a patch di immagini e cluster. Nel caso della rappresentazione di immagini, ogni gaussiana può essere inclinata, espansa e deformata in base alle matrici di covarianza  . Viene adattata una distribuzione gaussiana a ciascuna patch (solitamente di dimensioni 8×8 pixel) dell'immagine. Da notare che qualunque distribuzione di punti attorno a un cluster (si veda k-means) può essere accuratamente dotata di un numero sufficiente di componenti gaussiane, ma sono necessarie poco più di K = 20 componenti per modellare accuratamente una data distribuzione relativa a un'immagine o un cluster di dati.

Modello di mistura categorico

modifica
 
Modello di mistura categorico non bayesiano che utilizza la notazione con plate. I quadrati più piccoli indicano parametri fissi; i cerchi più grandi indicano variabili casuali. Le forme più scure indicano valori noti. L'indicazione [K] indica un vettore di dimensione K ; lo stesso vale per [V].

Un tipico modello di mistura non bayesiano con osservazioni categoriche si presenta nel modo seguente:

  •   come sopra
  •   come sopra
  •   come sopra
  •   dimensione delle osservazioni categoriche, e.g., dim. di un vocabolario di parole
  •   probabilità per la componente   di osservare l'elemento  
  •   vettore di dim.   composto da   a somma unitaria

Le variabili casuali:

 
 
Modello di mistura categorico bayesiano che utilizza la notazione a plate. I quadrati più piccoli indicano parametri fissi; i cerchi più grandi indicano variabili casuali. Le forme scure indicano valori noti. L'indicazione [K] indica un vettore di dimensione K ; lo stesso vale per [V].

Un tipico modello di mistura bayesiano con osservazioni categoriche si definisce come segue:

  •   come sopra
  •   come sopra
  •   come sopra
  •   dimensione delle osservazioni categoriche, e.g., le dim. di un vocabolario di parole
  •   probabilità per la componente   di osservare l'elemento  
  •   vettore di dim.   composto da   a somma unitaria
  •   iperparametro condiviso di concentrazione di   per ciascuna componente
  •   iperparametro di concentrazione di  
 

Stima dei parametri

modifica

I modelli di mistura parametrici sono spesso impiegati quando si conosce la distribuzione di Y e si può campionare da X, ma si intendono determinare u valori di ai e θi. Tali situazioni si verificano in studi nei quali si campiona da una popolazione che è composta da diverse sotto-popolazioni distinte.

È comune pensare alla modellizzazione delle miscele di probabilità come a un problema di dati mancanti. Per comprenderlo si supponga che i dati in esame abbiano una “appartenenza” a una delle distribuzioni che si stanno utilizzando per modellizzare i dati. All'inizio, questa appartenenza è sconosciuta o mancante. Il compito della stima è quello di trovare parametri appropriati per le funzioni del modello che si sceglie, collegate ai dati attraverso la loro appartenenza alle singole distribuzioni del modello.

Sono stati proposti diversi approcci al problema della decomposizione delle miscele, molti dei quali si concentrano su metodi di massima verosimiglianza come la massimizzazione dell'aspettativa (EM) o la stima massima a posteriori (MAP). In generale, questi metodi considerano separatamente le questioni dell'identificazione e della stima dei parametri; i metodi per determinare il numero e la forma funzionale dei componenti all'interno di una mistura si distinguono dai metodi per stimare i valori dei parametri corrispondenti. Altri approcci notevoli che si discostano da questi metodi sono rappresentati dai metodi grafici (cfr. trattazione in Tarter [4]) e più recedente dalle tecniche MML (minimum message length) [5] e, in parte, dalle routine per la moment matching pattern analysis.[6]

Markov chain Monte Carlo

modifica

Estensioni

modifica

In un contesto bayesiano, è possibile aggiungere altri livelli al modello grafico che definisce il modello di mistura. Ad esempio, nel popolare modello per argomenti (topic model) LDA (Latent Dirichlet Allocation), le osservazioni sono insiemi di parole tratte da D documenti diversi e le K componenti della mistura rappresentano argomenti condivisi tra i documenti. Ogni documento ha un diverso insieme di pesi della mistura, che specificano gli argomenti prevalenti in quel documento. Tutti gli insiemi di pesi della mistura condividono iperparametri comuni.

Un'estensione molto comune consiste nel collegare le variabili latenti che definiscono le identità dei componenti della mistura in una catena di Markov, invece di presumere che siano variabili casuali indipendenti e identicamente distribuite. Il modello risultante è definito modello di Markov nascosto (HMM) ed è uno dei modelli gerarchici sequenziali più comuni. Sono state sviluppate numerose estensioni degli HMM (cfr. articoli specifici nella letteratura correlata).

Le distribuzioni di mistura e il problema della decomposizione delle misture, ovvero l'identificazione delle sue componenti costituenti e dei relativi parametri, sono citati in letteratura già nel 1846 (cfr. Quetelet in McLachlan, [7] 2000), sebbene si faccia comunemente riferimento a Karl Pearson (1894) [8] come il primo autore ad aver affrontato esplicitamente il problema della decomposizione nella caratterizzazione di attributi non normali dei rapporti tra lunghezza della fronte e lunghezza del corpo nelle popolazioni di granchi. La motivazione per questo lavoro fu fornita dallo zoologo Walter Frank Raphael Weldon che aveva ipotizzato nel 1893 (cfr. in Tarter e Lock [9]) che l'asimmetria nell'istogramma di questi rapporti potesse segnalare una divergenza evolutiva. L'approccio di Pearson consisteva nell'adattare ai dati una mistura univariata di due normali scegliendo i cinque parametri di mistura in modo tale che i momenti empirici corrispondessero a quelli del modello.

Sebbene il suo lavoro avesse avuto successo nell'identificare due sotto-popolazioni potenzialmente distinte e nel dimostrare la flessibilità delle misture come strumento di abbinamento dei momenti, la formulazione richiedeva la soluzione di un polinomio di nono grado (nonico), problema che all'epoca rappresentava una sfida significativa dal punto di vista computazionale.

I lavori successivi si sono concentrati sull'affrontare questi problemi, ma è stato solo con l'avvento dei moderni computer e la diffusione delle tecniche di parametrizzazione della massima verosimiglianza (MLE) che la ricerca ha realmente preso piede.[10] Da allora c'è stata una gran mole di ricerca sull'argomento, comprendendo ambiti come la pesca, l'agricoltura, la botanica, l'economia, la medicina, la genetica, la psicologia, la paleontologia, l'elettroforesi, la finanza, la geologia e la zoologia. [11]

Voci correlate

modifica
  1. ^ Samyajoy Pal e Christian Heumann, Flexible Multivariate Mixture Models: A Comprehensive Approach for Modeling Mixtures of Non-Identical Distributions, in International Statistical Review, 2024, DOI:10.1111/insr.12593.
  2. ^ Chatzis, Sotirios P., Kosmopoulos, Dimitrios I. e Varvarigou, Theodora A., Signal Modeling and Classification Using a Robust Latent Space Model Based on t Distributions, in IEEE Transactions on Signal Processing, vol. 56, 2008, pp. 949–963, Bibcode:2008ITSP...56..949C, DOI:10.1109/TSP.2007.907912.
  3. ^ Yu, Guoshen, Sapiro, Guillermo e Mallat, Stéphane, Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity, in IEEE Transactions on Image Processing, vol. 21, 2012, pp. 2481–2499, Bibcode:2012ITIP...21.2481G, DOI:10.1109/tip.2011.2176743, PMID 22180506, arXiv:1006.3056.
  4. ^ Tarter, Michael E., Model Free Curve Estimation, Chapman and Hall, 1993.
  5. ^ M.A.T. Figueiredo e A.K. Jain, Unsupervised learning of finite mixture models, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, n. 3, 2002-03, pp. 381–396, DOI:10.1109/34.990138.
  6. ^ McWilliam, N.; Loh, K., Incorporating Multidimensional Tail-Dependencies in the Valuation of Credit Derivatives (Working Paper), 2008.
  7. ^ (EN) Geoffrey McLachlan e David Peel, Finite Mixture Models, collana Wiley Series in Probability and Statistics, Wiley, 18 settembre 2000, DOI:10.1002/0471721182, ISBN 978-0-471-00626-8.
  8. ^ Améndola, Carlos, Faugère, Jean-Charles e Sturmfels, Bernd, Moment varieties of Gaussian mixtures, in Journal of Algebraic Statistics, vol. 7, 2015, Bibcode:2015arXiv151004654A, DOI:10.18409/jas.v7i1.42, arXiv:1510.04654.
  9. ^ Tarter, Michael E., & Michael D. Lock, Model-free curve estimation, collana Monographs on Statistics and Applied Probability, vol. 56, Chapman & Hall, 1993.
  10. ^ (EN) McLachlan, Geoffrey J. e Basford, Kaye E., Mixture models. Inference and applications to clustering, collana Statistics: Textbooks and Monographs, Dekker, NY, 1988.
  11. ^ David M. Titterington, Adrian F. M. Smith e U. E. Makov, Statistical analysis of finite mixture distributions, collana Wiley series in probability and mathematical statistics Applied probability and statistics, Reprint, Wiley, 1995, ISBN 978-0-471-90763-3.

Bibliografia

modifica

Modelli di mistura

modifica

Applicazioni dei modelli di mistura gaussiani

modifica
modifica
  Portale Statistica: accedi alle voci di Wikipedia che trattano di Statistica