Algoritmo EM

In statistica, un algoritmo expectation–maximization (EM)^[1] è un metodo iterativo per trovare stime (locali) di massima verosimiglianza (o le stime maximum a posteriori) di parametri di modelli statistici, in cui il modello dipende da variabili latenti (non osservate). L' iterazione di EM alterna l'esecuzione di un passo expectation (E), che crea una funzione per il valore atteso della log-likelihood calcolata usando la stima dei parametri corrente, e un passo maximization (M), che calcola i parametri massimizzando la funzione di log-likelihood attesa trovata al passo E. Tali stime di parametri possono poi essere usate per determinare la distribuzione delle variabili latenti al prossimo passo E step.

Descrizione

Dato il modello statistico che genera un insieme $\mathbf {X}$ di dati osservati, un insieme di dati latenti non osservati o dati mancanti $\mathbf {Z}$ e un vettore di parametri incogniti ${\boldsymbol {\theta }}$ assieme a una funzione di verosimiglianza $L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})$ , la stima di massima verosimiglianza (MLE) dei parametri sconosciuti viene determinata massimizzando la likelihood marginale dei dati osservati

L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }})p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z}

Tuttavia questa quantità è spesso intrattabile dato che $\mathbf {Z}$ non è osservato e la distribuzione di $\mathbf {Z}$ è sconosciuta prima di determinare ${\boldsymbol {\theta }}$ .

L'algoritmo EM cerca di trovare la MLE della likelihood marginale eseguendo iterativamente questi passi:

Expectation step (E step): Definire

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})

come il valore atteso della funzione di log-likelihood per

{\boldsymbol {\theta }}

, rispetto alla distribuzione di probabilità condizionata corrente di

\mathbf {Z}

dati

\mathbf {X}

e le stime correnti dei parametri

{\boldsymbol {\theta }}^{(t)}

:

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)}}\left[\log L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )\right]\,

Maximization step (M step): Trovare i parametri che massimizzino questa quantità:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,

Tipici modelli cui si applica EM indicano con $\mathbf {Z}$ la variabile latente che indica l'appartenenza a un gruppo in un insieme di gruppi:

I punti osservati $\mathbf {X}$ possono essere discreti o continui a seconda che assumano valori da un dominio finito (o infinito numerabile) o infinito non numerabile. Si può associare a ogni punto un vettore di osservazioni. I valori mancanti (e quindi le variabili latenti $\mathbf {Z}$ ) sono discreti, tratti da un numero prefissato di valori e con una variabile latente per ogni unità osservata. I parametri sono continui e di due tipi: parametri associati a tutti i punti e parametri associati con uno specifico valore di una variabile latente (ossia associati a tutti i punti con quel valore per la corrispondente variabile latente).

Note

^ A. P. Dempster, N. M. Laird e D. B. Rubin, Maximum Likelihood from Incomplete Data Via theEMAlgorithm, in Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, n. 1, 1977-09, pp. 1–22, DOI:10.1111/j.2517-6161.1977.tb01600.x. URL consultato il 20 marzo 2022.

Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

[1] A. P. Dempster, N. M. Laird e D. B. Rubin, Maximum Likelihood from Incomplete Data Via theEMAlgorithm, in Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, n. 1, 1977-09, pp. 1–22, DOI:10.1111/j.2517-6161.1977.tb01600.x. URL consultato il 20 marzo 2022.

[1]