Algoritmo EM: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
+titolo sez. riferimenti |
ita |
||
(17 versioni intermedie di 11 utenti non mostrate) | |||
Riga 1:
In [[statistica]], un '''algoritmo
L'iterazione dell'algoritmo EM alterna l'esecuzione di un passo detto aspettazione (E), che crea una funzione per il [[valore atteso]] della verosimiglianza logaritmica calcolata usando la stima dei parametri corrente, e un passo detto massimizzazione (M), che calcola nuove stime dei parametri massimizzando la [[Funzione di verosimiglianza|funzione di verosimiglianza logaritmica]] attesa trovata al passo ''E''. Tali stime dei parametri possono poi essere usate per determinare la distribuzione delle variabili latenti al passo E dell'iterata successiva.
== Descrizione ==
Dato il modello statistico che genera un insieme <math>\mathbf{X}</math> di dati osservati, un insieme <math>\mathbf{Z}</math> di dati latenti non osservati o dati mancanti, e un vettore di parametri incogniti <math>\boldsymbol\theta</math> assieme a una funzione di verosimiglianza <math>L(\boldsymbol\theta; \mathbf{X}, \mathbf{Z}) = p(\mathbf{X}, \mathbf{Z}\mid\boldsymbol\theta)</math>, la [[Metodo della massima verosimiglianza|stima di massima verosimiglianza]] dei parametri sconosciuti viene determinata massimizzando la verosimiglianza marginale dei dati osservati
:<math>L(\boldsymbol\theta; \mathbf{X}) = p(\mathbf{X}\mid\boldsymbol\theta) = \int p(\mathbf{X},\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} = \int p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol\theta) p(\mathbf{Z} \mid \boldsymbol\theta) \, d\mathbf{Z} </math>
Tuttavia determinare questa quantità è spesso impossibile dato che <math>\mathbf{Z}</math> non è osservato e la sua distribuzione è sconosciuta prima di determinare <math>\boldsymbol\theta</math>.
L'algoritmo EM cerca di trovare la stima della massima verosimiglianza marginale eseguendo iterativamente questi passi:
* ''Aspettazione'': Definire <math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)})</math> come il valore atteso della funzione di verosimiglianza logaritmica per <math>\boldsymbol\theta</math>, rispetto alla distribuzione di [[probabilità condizionata]] corrente di <math>\mathbf{Z}</math> dati <math>\mathbf{X}</math> e le stime correnti dei parametri <math>\boldsymbol\theta^{(t)}</math>:
::<math>Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) = \operatorname{E}_{\mathbf{Z}\mid\mathbf{X},\boldsymbol\theta^{(t)}}\left[ \log L (\boldsymbol\theta; \mathbf{X},\mathbf{Z}) \right] \,</math>
* ''Massimizzazione'': Trovare i parametri che massimizzino questa quantità:
::<math>\boldsymbol\theta^{(t+1)} = \underset{\boldsymbol\theta}{\operatorname{arg\,max}} \ Q(\boldsymbol\theta\mid\boldsymbol\theta^{(t)}) \, </math>
Tipici modelli cui si applica EM designano con <math>\mathbf{Z}</math> la variabile latente che indica l'appartenenza a un gruppo in un insieme di gruppi:
I punti osservati <math>\mathbf{X}</math> possono essere discreti o continui a seconda che assumano valori da un dominio [[Insieme finito|finito]] (o [[Insieme infinito|infinito]] [[Insieme numerabile|numerabile]]) o infinito non numerabile. Si può associare a ogni punto un vettore di osservazioni.
I valori mancanti (e quindi le variabili latenti <math>\mathbf{Z}</math>) sono discreti, tratti da un numero prefissato di valori e con una variabile latente per ogni unità osservata.
I parametri sono continui e di due tipi: parametri associati a tutti i punti e parametri associati a uno specifico valore di una variabile latente (ossia associati a tutti i punti con quel valore per la corrispondente variabile).
== Note ==
<references/>
{{Apprendimento automatico}}
{{Portale|statistica}}
[[Categoria:Statistica multivariata]]
[[Categoria:Apprendimento automatico]]
|