In statistica, un algoritmo expectation–maximization (EM)[1] è un metodo iterativo per trovare stime (locali) di massima verosimiglianza (o le stime maximum a posteriori) di parametri di modelli statistici, in cui il modello dipende da variabili latenti (non osservate). L' iterazione di EM alterna l'esecuzione di un passo expectation (E), che crea una funzione per il valore atteso della log-likelihood calcolata usando la stima dei parametri corrente, e un passo maximization (M), che calcola i parametri massimizzando la funzione di log-likelihood attesa trovata al passo E. Tali stime di parametri possono poi essere usate per determinare la distribuzione delle variabili latenti al prossimo passo E step.

Descrizione

Dato il modello statistico che genera un insieme   di dati osservati, un insieme di dati latenti non osservati o dati mancanti   e un vettore di parametri incogniti   assieme a una funzione di verosimiglianza  , la stima di massima verosimiglianza (MLE) dei parametri sconosciuti viene determinata massimizzando la likelihood marginale dei dati osservati

 

Tuttavia questa quantità è spesso intrattabile dato che   non è osservato e la distribuzione di   è sconosciuta prima di determinare  .

L'algoritmo EM cerca di trovare la MLE della likelihood marginale eseguendo iterativamente questi passi:

Expectation step (E step): Definire   come il valore atteso della funzione di log-likelihood per  , rispetto alla distribuzione di probabilità condizionata corrente di   dati   e le stime correnti dei parametri  :
 
Maximization step (M step): Trovare i parametri che massimizzino questa quantità:
 


Note

  1. ^ A. P. Dempster, N. M. Laird e D. B. Rubin, Maximum Likelihood from Incomplete Data Via theEMAlgorithm, in Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, n. 1, 1977-09, pp. 1–22, DOI:10.1111/j.2517-6161.1977.tb01600.x. URL consultato il 20 marzo 2022.
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

Categoria:Statistica