Modello di mistura
In statistica, un modello di mistura (o miscela) è un modello probabilistico utile a rappresentare la presenza di sotto-popolazioni all'interno di una popolazione complessiva, senza richiedere che l'insieme di dati osservati identifichi la sotto-popolazione a cui appartiene una singola osservazione. Formalmente, un modello di mistura corrisponde alla distribuzione di mistura che rappresenta la distribuzione di probabilità delle osservazioni nella popolazione complessiva. Tuttavia, mentre i problemi associati alle "distribuzioni di mistura" riguardano la derivazione delle proprietà della popolazione complessiva da quelle delle sotto-popolazioni, i "modelli di mistura" vengono utilizzati per effettuare inferenze statistiche sulle proprietà delle sotto-popolazioni, date solo osservazioni sulla popolazione complessiva, senza informazioni sull'identità delle sotto-popolazioni. I modelli di mistura sono utilizzati per il clustering, con tecniche di clustering basato su modello, e anche per la stima di densità.
I modelli di mistura non devono essere confusi con i modelli per dati composizionali, ovvero dati i cui componenti sono vincolati a sommarsi a un valore costante (1, 100%, ecc.). Tuttavia, i modelli composizionali possono essere considerati come modelli di mistura, in cui i membri della popolazione vengono campionati casualmente. Al contrario, i modelli di mistura possono essere considerati come modelli composizionali, in cui la popolazione totale di riferimento è stata normalizzata a 1.
Struttura
modificaModello di mistura generale
modificaUn tipico modello di mistura di dimensione finita è un modello gerarchico costituito dai seguenti componenti:
- N variabili casuali osservate, ciascuna distribuita secondo una mistura di K componenti, con le componenti appartenenti alla stessa famiglia parametrica di distribuzioni (ad esempio, tutte normali, tutte Zipfiane, ecc.) ma con parametri diversi. Tuttavia, è anche possibile avere un modello di mistura finita in cui ogni componente appartiene a una diversa famiglia parametrica di distribuzioni, [1] ad esempio, una mistura di una distribuzione normale multivariata e una distribuzione iperbolica generalizzata .
- N variabili casuali latenti che specificano l'identità del componente della mistura di ciascuna osservazione, ciascuna distribuita secondo una distribuzione categorica K -dimensionale
- Un insieme di K pesi di mistura, che sono probabilità la cui somma è 1.
- Un insieme di K parametri, ciascuno dei quali specifica il parametro del componente della mistura corrispondente. In molti casi, ogni "parametro" è in realtà un insieme di parametri. Ad esempio, se i componenti della mistura sono distribuzioni gaussiane, ci saranno una media e una varianza per ciascun componente. Se i componenti della mistura sono distribuzioni categoriche (ad esempio, quando ogni osservazione è un token di un alfabeto finito di dimensione V ), ci sarà un vettore di V probabilità la cui somma è 1.
Inoltre, in un contesto bayesiano, i pesi e i parametri della mistura saranno essi stessi variabili casuali e le si imporranno distribuzioni a priori su di esse. In tal caso, i pesi sono tipicamente visti come un vettore casuale K-dimensionale estratto da una distribuzione di Dirichlet (la distribuzione a priori coniugata della distribuzione categorica) e i parametri saranno distribuiti in base alle rispettive distribuzioni a priori coniugate.
Da un punto di vista matematico, un semplice modello di mistura parametrico può essere descritto come segue:
In un contesto bayesiano, ogni parametro è associato a una variabile aleatoria, come mostrato di seguito:
Questa caratterizzazione utilizza F e H per descrivere distribuzioni arbitrarie su osservazioni e parametri, rispettivamente. Tipicamente H sarà la distribuzione a priori coniugata di F. Le due scelte più comuni di F sono la gaussiana, detta anche "normale" (per osservazioni a valori reali) e la categorica (per osservazioni discrete). Altre tipiche distribuzioni dei componenti della mistura sono:
- Distribuzione binomiale, per il numero di "occorrenze positive" (ad esempio, successi, voti favorevoli, ecc.) dato un numero fisso di occorrenze totali
- Distribuzione multinomiale, simile alla distribuzione binomiale, ma per conteggi di occorrenze molteplici (ad esempio, sì/no/forse in un sondaggio)
- Distribuzione binomiale negativa, per osservazioni di tipo binomiale ma in cui la quantità di interesse è il numero di fallimenti prima che si verifichi un dato numero di successi
- Distribuzione di Poisson, per il numero di occorrenze di un evento in un dato periodo di tempo, per un evento caratterizzato da un tasso fisso di occorrenza
- Distribuzione esponenziale, per il tempo prima che si verifichi l'evento successivo, per un evento caratterizzato da un tasso fisso di occorrenza
- Distribuzione log-normale, per numeri reali positivi che si presume crescano esponenzialmente, come redditi o prezzi
- Distribuzione normale multivariata (nota anche come distribuzione gaussiana multivariata), per vettori di risultati correlati che sono distribuiti individualmente in modo gaussiano
- Distribuzione t di Student multivariata, per vettori di risultati correlati a coda pesante [2]
- Un vettore di valori distribuiti secondo Bernoulli, corrispondente, ad esempio, a un'immagine in bianco e nero, con ciascun valore che rappresenta un pixel; vedere l'esempio di riconoscimento della scrittura a mano di seguito
Esempi specifici
modificamodello di mistura gaussiana
modificaUn tipico modello di mistura gaussiana non bayesiano si presenta così:
Una versione bayesiana di un modello mistura di gaussiane è la seguente:
Modello di mistura gaussiana multivariata
modificaUn modello di mistura gaussiana bayesiana viene tipicamente esteso per adattare un vettore (indicato in grassetto) di parametri sconosciuti o distribuzioni normali multivariate. In una distribuzione multivariata (ossia per un vettore di N variabili casuali) si può modellare un vettore di parametri (come diverse osservazioni di un segnale o un patch all'interno di un'immagine) utilizzando una distribuzione a priori del modello di mistura gaussiana sul vettore di stime date da dove la componente i-esima del vettore è caratterizzata da distribuzioni normali con pesi , medie e matrici di covarianza . Per incorporare questa stima a priori in una stima bayesiana, quella a priori viene moltiplicata per la distribuzione nota delle condizionata sui parametri da stimare. Con questa formulazione, la distribuzione a posteriori è anche un modello di mistura gaussiana della forma con nuovi parametri E che vengono aggiornati utilizzando l'algoritmo EM. [3] Sebbene l'uso di aggiornamenti basati su EM sia ampiamente consolidato, la scelta delle stime iniziali da fornire per questi parametri è attualmente un'area di ricerca attiva. Si noti che questa formulazione produce una soluzione in forma chiusa per la distribuzione a posteriori completa. Stime per la variabile casuale possono essere ottenute tramite uno dei vari stimatori, come la media o il massimo della distribuzione a posteriori.
Tali distribuzioni sono utili, ad esempio, per fare assunzioni su forme a patch di immagini e cluster. Nel caso della rappresentazione di immagini, ogni gaussiana può essere inclinata, espansa e deformata in base alle matrici di covarianza . Viene adattata una distribuzione gaussiana a ciascuna patch (solitamente di dimensioni 8×8 pixel) dell'immagine. Da notare che qualunque distribuzione di punti attorno a un cluster (si veda k-means) può essere accuratamente dotata di un numero sufficiente di componenti gaussiane, ma sono necessarie poco più di K = 20 componenti per modellare accuratamente una data distribuzione relativa a un'immagine o un cluster di dati.
Modello di mistura categorico
modificaUn tipico modello di mistura non bayesiano con osservazioni categoriche si presenta nel modo seguente:
- come sopra
- come sopra
- come sopra
- dimensione delle osservazioni categoriche, e.g., dim. di un vocabolario di parole
- probabilità per la componente di osservare l'elemento
- vettore di dim. composto da a somma unitaria
Le variabili casuali:
Un tipico modello di mistura bayesiano con osservazioni categoriche si definisce come segue:
- come sopra
- come sopra
- come sopra
- dimensione delle osservazioni categoriche, e.g., le dim. di un vocabolario di parole
- probabilità per la componente di osservare l'elemento
- vettore di dim. composto da a somma unitaria
- iperparametro condiviso di concentrazione di per ciascuna componente
- iperparametro di concentrazione di
Stima dei parametri
modificaI modelli di mistura parametrici sono spesso impiegati quando si conosce la distribuzione di Y e si può campionare da X, ma si intendono determinare u valori di ai e θi. Tali situazioni si verificano in studi nei quali si campiona da una popolazione che è composta da diverse sotto-popolazioni distinte.
È comune pensare alla modellizzazione delle miscele di probabilità come a un problema di dati mancanti. Per comprenderlo si supponga che i dati in esame abbiano una “appartenenza” a una delle distribuzioni che si stanno utilizzando per modellizzare i dati. All'inizio, questa appartenenza è sconosciuta o mancante. Il compito della stima è quello di trovare parametri appropriati per le funzioni del modello che si sceglie, collegate ai dati attraverso la loro appartenenza alle singole distribuzioni del modello.
Sono stati proposti diversi approcci al problema della decomposizione delle miscele, molti dei quali si concentrano su metodi di massima verosimiglianza come la massimizzazione dell'aspettativa (EM) o la stima massima a posteriori (MAP). In generale, questi metodi considerano separatamente le questioni dell'identificazione e della stima dei parametri; i metodi per determinare il numero e la forma funzionale dei componenti all'interno di una mistura si distinguono dai metodi per stimare i valori dei parametri corrispondenti. Altri approcci notevoli che si discostano da questi metodi sono rappresentati dai metodi grafici (cfr. trattazione in Tarter [4]) e più recedente dalle tecniche MML (minimum message length) [5] e, in parte, dalle routine per la moment matching pattern analysis.[6]
EM
modificaMarkov chain Monte Carlo
modificaEstensioni
modificaIn un contesto bayesiano, è possibile aggiungere altri livelli al modello grafico che definisce il modello di mistura. Ad esempio, nel popolare modello per argomenti (topic model) LDA (Latent Dirichlet Allocation), le osservazioni sono insiemi di parole tratte da D documenti diversi e le K componenti della mistura rappresentano argomenti condivisi tra i documenti. Ogni documento ha un diverso insieme di pesi della mistura, che specificano gli argomenti prevalenti in quel documento. Tutti gli insiemi di pesi della mistura condividono iperparametri comuni.
Un'estensione molto comune consiste nel collegare le variabili latenti che definiscono le identità dei componenti della mistura in una catena di Markov, invece di presumere che siano variabili casuali indipendenti e identicamente distribuite. Il modello risultante è definito modello di Markov nascosto (HMM) ed è uno dei modelli gerarchici sequenziali più comuni. Sono state sviluppate numerose estensioni degli HMM (cfr. articoli specifici nella letteratura correlata).
Storia
modificaLe distribuzioni di mistura e il problema della decomposizione delle misture, ovvero l'identificazione delle sue componenti costituenti e dei relativi parametri, sono citati in letteratura già nel 1846 (cfr. Quetelet in McLachlan, [7] 2000), sebbene si faccia comunemente riferimento a Karl Pearson (1894) [8] come il primo autore ad aver affrontato esplicitamente il problema della decomposizione nella caratterizzazione di attributi non normali dei rapporti tra lunghezza della fronte e lunghezza del corpo nelle popolazioni di granchi. La motivazione per questo lavoro fu fornita dallo zoologo Walter Frank Raphael Weldon che aveva ipotizzato nel 1893 (cfr. in Tarter e Lock [9]) che l'asimmetria nell'istogramma di questi rapporti potesse segnalare una divergenza evolutiva. L'approccio di Pearson consisteva nell'adattare ai dati una mistura univariata di due normali scegliendo i cinque parametri di mistura in modo tale che i momenti empirici corrispondessero a quelli del modello.
Sebbene il suo lavoro avesse avuto successo nell'identificare due sotto-popolazioni potenzialmente distinte e nel dimostrare la flessibilità delle misture come strumento di abbinamento dei momenti, la formulazione richiedeva la soluzione di un polinomio di nono grado (nonico), problema che all'epoca rappresentava una sfida significativa dal punto di vista computazionale.
I lavori successivi si sono concentrati sull'affrontare questi problemi, ma è stato solo con l'avvento dei moderni computer e la diffusione delle tecniche di parametrizzazione della massima verosimiglianza (MLE) che la ricerca ha realmente preso piede.[10] Da allora c'è stata una gran mole di ricerca sull'argomento, comprendendo ambiti come la pesca, l'agricoltura, la botanica, l'economia, la medicina, la genetica, la psicologia, la paleontologia, l'elettroforesi, la finanza, la geologia e la zoologia. [11]
Voci correlate
modifica- Mistura di distribuzioni (probabilità)
Note
modifica- ^ Samyajoy Pal e Christian Heumann, Flexible Multivariate Mixture Models: A Comprehensive Approach for Modeling Mixtures of Non-Identical Distributions, in International Statistical Review, 2024, DOI:10.1111/insr.12593.
- ^ Chatzis, Sotirios P., Kosmopoulos, Dimitrios I. e Varvarigou, Theodora A., Signal Modeling and Classification Using a Robust Latent Space Model Based on t Distributions, in IEEE Transactions on Signal Processing, vol. 56, 2008, pp. 949–963, Bibcode:2008ITSP...56..949C, DOI:10.1109/TSP.2007.907912.
- ^ Yu, Guoshen, Sapiro, Guillermo e Mallat, Stéphane, Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity, in IEEE Transactions on Image Processing, vol. 21, 2012, pp. 2481–2499, Bibcode:2012ITIP...21.2481G, DOI:10.1109/tip.2011.2176743, PMID 22180506, arXiv:1006.3056.
- ^ Tarter, Michael E., Model Free Curve Estimation, Chapman and Hall, 1993.
- ^ M.A.T. Figueiredo e A.K. Jain, Unsupervised learning of finite mixture models, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, n. 3, 2002-03, pp. 381–396, DOI:10.1109/34.990138.
- ^ McWilliam, N.; Loh, K., Incorporating Multidimensional Tail-Dependencies in the Valuation of Credit Derivatives (Working Paper), 2008.
- ^ (EN) Geoffrey McLachlan e David Peel, Finite Mixture Models, collana Wiley Series in Probability and Statistics, Wiley, 18 settembre 2000, DOI:10.1002/0471721182, ISBN 978-0-471-00626-8.
- ^ Améndola, Carlos, Faugère, Jean-Charles e Sturmfels, Bernd, Moment varieties of Gaussian mixtures, in Journal of Algebraic Statistics, vol. 7, 2015, Bibcode:2015arXiv151004654A, DOI:10.18409/jas.v7i1.42, arXiv:1510.04654.
- ^ Tarter, Michael E., & Michael D. Lock, Model-free curve estimation, collana Monographs on Statistics and Applied Probability, vol. 56, Chapman & Hall, 1993.
- ^ (EN) McLachlan, Geoffrey J. e Basford, Kaye E., Mixture models. Inference and applications to clustering, collana Statistics: Textbooks and Monographs, Dekker, NY, 1988.
- ^ David M. Titterington, Adrian F. M. Smith e U. E. Makov, Statistical analysis of finite mixture distributions, collana Wiley series in probability and mathematical statistics Applied probability and statistics, Reprint, Wiley, 1995, ISBN 978-0-471-90763-3.
Bibliografia
modificaModelli di mistura
modifica- B.S. Everitt e D.J. Hand, Finite mixture distributions, Chapman & Hall, 1981, ISBN 978-0-412-22420-1.
- B. G. Lindsay, Mixture Models: Theory, Geometry, and Applications, NSF-CBMS Regional Conference Series in Probability and Statistics, vol. 5, Institute of Mathematical Statistics, 1995.
- J.M. Marin, K. Mengersen e C. P. Robert, Essential Bayesian models, Handbook of statistics: Bayesian thinking - modeling and computation, vol. 25, Elsevier, 2011, ISBN 9780444537324.
- G.J. McLachlan e D. Peel, Finite Mixture Models, Wiley, 2000, ISBN 978-0-471-00626-8.
- WH Press, SA Teukolsky e WT Vetterling, Numerical Recipes: The Art of Scientific Computing, 3rd, Cambridge University Press, 2007, ISBN 978-0-521-88068-8.
- D. Titterington, A. Smith e U. Makov, Statistical Analysis of Finite Mixture Distributions, Wiley, 1985, ISBN 978-0-471-90763-3.
- W. Yao e S. Xiang, Mixture Models: Parametric, Semiparametric, and New Directions, Chapman & Hall/CRC Press, 2024, ISBN 978-0367481827.
Applicazioni dei modelli di mistura gaussiani
modifica- Reynolds, D.A. e Rose, R.C., Robust text-independent speaker identification using Gaussian mixture speaker models, in IEEE Transactions on Speech and Audio Processing, vol. 3, January 1995, pp. 72–83, DOI:10.1109/89.365379.
- Permuter, H., Francos, J. e Jermyn, I.H., Gaussian mixture models of texture and colour for image database retrieval, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003, DOI:10.1109/ICASSP.2003.1199538.
- Permuter H, Francos e Jermyn, I.H., A study of Gaussian mixture models of color and texture features for image classification and segmentation (PDF), in Pattern Recognition, vol. 39, 2006, pp. 695–706, Bibcode:2006PatRe..39..695P, DOI:10.1016/j.patcog.2005.10.028.
- Wolfgang Lemke, Term Structure Modeling and Estimation in a State Space Framework, Springer Verlag, 2005, ISBN 978-3-540-28342-3.
- Brigo, D. e Mercurio, F., Lognormal-mixture dynamics and calibration to market volatility smiles, in International Journal of Theoretical and Applied Finance, vol. 5, June 2002, p. 427, DOI:10.1142/S0219024902001511.
- Spall, J. C. e Maryak, J. L., A feasible Bayesian estimator of quantiles for projectile accuracy from non-i.i.d. data, in Journal of the American Statistical Association, vol. 87, 1992, pp. 676–681, DOI:10.1080/01621459.1992.10475269.
- Carol Alexander, Normal mixture diffusion with uncertain volatility: Modelling short- and long-term smile effects (PDF), in Journal of Banking & Finance, vol. 28, December 2004, pp. 2957–80, DOI:10.1016/j.jbankfin.2003.10.017.
- Stylianou, Y et al., GMM-Based Multimodal Biometric Verification (PDF), Enterface'05 workshop, Mons, Belgium, 2005.
- Chen, J.; Adebomi, 0.E.; Olusayo, O.S.; Kulesza, W., Adebomi, 0.E., Olusayo, O.S. e Kulesza, W., The Evaluation of the Gaussian Mixture Probability Hypothesis Density approach for multi-target tracking, IEEE International Conference on Imaging Systems and Techniques, 2010, DOI:10.1109/IST.2010.5548541.{{
Link esterni
modifica- Frank Nielsen, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 23 March 2012, pp. 869–872, DOI:10.1109/ICASSP.2012.6288022, ISBN 978-1-4673-0046-9.
- The SOCR demonstrations of EM and Mixture Modeling
- Mixture modelling page (e Snob implementazione Minimum Message Length (MML) applicata a modelli di mistura finiti), curato da D.L. Dowe.
- PyMix – Python Mixture Package, algoritmi e str. dati in Python per un'ampia varietà di applicazioni del Data Mining basate su modelli di mistura
- sklearn.mixture – Modulo scikit-learn per l'apprendimento di GMM (e relativo campionamento), inizialmente in SciPy e ora in SciKit
- GMM.m Implementazione Matlab dei GMM
- GPUmix Implementazione C++ dei Bayesian Mixture Model con EM e MCMC (accelerazione 100x tramite GPGPU).
- em4gmm - Implementazione C molto velode dell'Expectation Maximization (EM) per la stima di GMM.
- mclust - pacchetto R per il mixture modeling.
- dpgmm Implementazione Python del modello di mistura di processi Dirichlet / Gaussiane (approccio variazionale) .
- Gaussian Mixture Models - Post sui GMM addestrati tramite Expectation Maximization, con implementazione Python.