Conditional random field: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
+C |
Funzionalità collegamenti suggeriti: 2 collegamenti inseriti. |
||
(17 versioni intermedie di 3 utenti non mostrate) | |||
Riga 1:
{{C|Da controllare la correttezza della traduzione dalla versione inglese della voce. Alcune frasi non sono sintatticamente corrette in italiano.|Informatica|agosto 2024}}
'''I Conditional Random Field'''<ref name="Laf:McC:Per01">{{Cita conferenza|titolo=Conditional random fields: Probabilistic models for segmenting and labeling sequence data|conferenza=ICML 2001: 18th International Conf. on Machine Learning|autore=Lafferty, J. McCallum, A., Pereira, F.|data=2001|pagine=282–289|url=http://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers|editore=Morgan Kaufmann}}
▲</ref>, il [[Analisi grammaticale|POS tagging]], l'analisi superficiale<ref>{{Cita conferenza|url=http://portal.acm.org/ft_gateway.cfm?id=1073473&type=pdf&CFID=4684435&CFTOKEN=39459323}}</ref>, il [[Risoluzione all'identità|riconoscimento di entità]], <ref>{{Cita conferenza|autore=Settles, B.|url=http://www.aclweb.org/anthology/W04-1221.pdf}}</ref> la ricerca di geni, la ricerca di regioni funzionali critiche del peptide<ref>{{Cita pubblicazione|volume=10|doi=10.1371/journal.pone.0119490|bibcode=2015PLoSO..1019490C|PMID=25803302}}</ref>, il [[Object recognition|riconoscimento di oggetti]] <ref name="Rui:Gal:Gon15">{{Cita conferenza|url=https://www.researchgate.net/publication/281620302}}</ref> e la [[Segmentazione di immagini|segmentazione delle immagini]] nella [[visione artificiale]]<ref>{{Cita news|linkautore=Xuming He}}</ref>.
== Descrizione ==
Lafferty, McCallum e Pereira<ref name="Laf:McC:Per01"></ref> definiscono un CRF sulle osservazioni <math>\boldsymbol{X}</math> e le [[Variabile casuale|variabili casuali]] <math>\boldsymbol{Y}</math> (di output) come segue:<blockquote>Sia <math>G = (V, E)</math> un grafo tale che <math>\boldsymbol{Y} = (\boldsymbol{Y}_v)_{v\in V}</math>, in modo che <math>\boldsymbol{Y}</math> sia indicizzato dai vertici (nodi) di <math>G</math>
▲</ref> definiscono un CRF sulle osservazioni <math>\boldsymbol{X}</math> e [[Variabile casuale|variabili casuali]] <math>\boldsymbol{Y}</math> come segue:<blockquote>Sia <math>G = (V, E)</math> un grafo tale che <math>\boldsymbol{Y} = (\boldsymbol{Y}_v)_{v\in V}</math>, in modo che <math>\boldsymbol{Y}</math> sia indicizzato dai vertici di <math>G</math> .
<math>(\boldsymbol{X}, \boldsymbol{Y})</math> è un
dove <math>\mathit{w} \sim v</math> denota il fatto che <math>w</math> e <math>v</math> sono vicini in <math>G</math>.</blockquote>Ciò vuol dire che un CRF è un [[Modello grafico|modello grafico non orientato]] i cui nodi possono essere separati esattamente in due insiemi disgiunti <math>\boldsymbol{X}</math> e <math>\boldsymbol{Y}</math>, comprendenti, rispettivamente, le variabili osservate e quelle di output; ne discende un modello <math>p(\boldsymbol{Y}|\boldsymbol{X})</math> della distribuzione condizionata.
Per i grafi generali, il problema dell'inferenza esatta nelle CRF è intrattabile. Il problema di inferenza per un CRF è fondamentalmente lo stesso di un MRF e valgono gli stessi argomenti. Tuttavia, esistono casi speciali per i quali è possibile un'inferenza esatta:▼
=== Inferenza ===
* Se il grafico è una catena o un albero, gli algoritmi di passaggio dei messaggi forniscono soluzioni esatte. Gli algoritmi utilizzati in questi casi sono analoghi all'algoritmo [[Algoritmo forward-backward|forward-backward]] e [[Algoritmo di Viterbi|all'algoritmo di Viterbi]] per il caso degli HMM.▼
▲Per
* Se il CRF contiene solo potenziali a coppie e l'energia è submodulare, gli algoritmi combinatori min cut/max flow forniscono soluzioni esatte.▼
▲* Se il
Se l'inferenza esatta è impossibile, si possono utilizzare diversi algoritmi per ottenere soluzioni approssimative. Questi includono:▼
▲* Se il CRF contiene solo potenziali a coppie e l'energia è
▲Se l'inferenza esatta non è
* Espansione Alpha▼
* Rilassamenti della programmazione lineare▼
* [[Belief propagation]]
Apprendimento dei parametri <math>\theta</math> di solito viene fatto tramite apprendimento [[Metodo della massima verosimiglianza|di massima verosimiglianza]] per <math>p(Y_i|X_i; \theta)</math> . Se tutti i nodi hanno distribuzioni familiari esponenziali e tutti i nodi vengono osservati durante l'addestramento, questa [[Ottimizzazione (matematica)|ottimizzazione]] è convessa. Può essere risolto ad esempio utilizzando algoritmi [[Discesa del gradiente|di discesa del gradiente]] o metodi Quasi-Newton come l'algoritmo L-BFGS . D'altro canto, se alcune variabili non sono osservate, il problema di inferenza deve essere risolto per queste variabili. Nei grafici generali l'inferenza esatta è impossibile, quindi è necessario ricorrere alle approssimazioni.▼
▲* [[Espansione Alpha]]
* [[Mean field inference]]
▲* Rilassamenti della [[programmazione lineare]]
=== Apprendimento dei parametri ===
Nella modellazione sequenziale, il grafico di interesse è solitamente un grafico a catena. Una sequenza di input di variabili osservate <math>X</math> rappresenta una sequenza di osservazioni e <math>Y</math> rappresenta una variabile di stato nascosta (o sconosciuta) che deve essere dedotta in base alle osservazioni. IL <math>Y_{i}</math> sono strutturati in modo da formare una catena, con un bordo tra ciascuna <math>Y_{i-1}</math> E <math>Y_{i}</math> . Oltre ad avere una semplice interpretazione del <math>Y_{i}</math> come "etichette" per ogni elemento nella sequenza di input, questo layout ammette algoritmi efficienti per:▼
▲
=== Esempi ===
* ''addestramento'' del modello, apprendimento delle distribuzioni condizionali tra i <math>Y_{i}</math> e funzioni caratteristiche da un corpus di dati di addestramento.▼
▲Nella modellazione
* ''decodifica'', determinazione della probabilità di una data sequenza di etichette <math>Y</math> dato <math>X</math> .▼
* ''inferenza'', determinazione della sequenza di etichette ''più probabile'' <math>Y</math> dato <math>X</math> .▼
Oltre a una semplice interpretazione dei <math>Y_{i}</math> come "etichette" per ogni elemento nella sequenza di input, questo tipo di layout ammette algoritmi efficienti per:
La dipendenza condizionale di ciascuno <math>Y_{i}</math> SU <math>X</math> è definito attraverso un insieme fisso di ''funzioni caratteristiche'' della forma <math>f(i, Y_{i-1}, Y_{i}, X)</math>, che possono essere pensate come misurazioni sulla sequenza di input che determinano parzialmente la [[Funzione di verosimiglianza|probabilità]] di ogni possibile valore per <math>Y_{i}</math> . Il modello assegna a ciascuna caratteristica un peso numerico e li combina per determinare la probabilità di un certo valore per <math>Y_{i}</math> .▼
▲* l{{'}}''addestramento'' del modello, apprendimento delle distribuzioni condizionali tra
I CRF a catena lineare hanno molte delle stesse applicazioni dei modelli di Markov nascosti (HMM) concettualmente più semplici, ma allentano alcune ipotesi sulle distribuzioni delle sequenze di input e output. Un HMM può essere inteso in senso lato come un CRF con funzioni caratteristiche molto specifiche che utilizzano probabilità costanti per modellare le transizioni di stato e le emissioni. Al contrario, un CRF può essere inteso in senso lato come una generalizzazione di un HMM che trasforma le probabilità di transizione costanti in funzioni arbitrarie che variano attraverso le posizioni nella sequenza di stati nascosti, a seconda della sequenza di input.▼
▲* la ''decodifica'',
▲* l{{'}}''inferenza'',
▲La dipendenza
In particolare, a differenza degli HMM, i CRF possono contenere un numero qualsiasi di funzioni di caratteristiche, tali funzioni possono ispezionare l'intera sequenza di input <math>X</math> in qualsiasi momento durante l'inferenza e l'intervallo delle funzioni caratteristiche non deve necessariamente avere un'interpretazione probabilistica.▼
▲I CRF a catena lineare hanno molte
▲In particolare, a differenza degli HMM, i CRF possono contenere un numero qualsiasi di funzioni
* Modello di Markov a massima entropia (MEMM)▼
==
<references />
== Voci correlate ==
▲* [[Modello di Markov a massima entropia]] (MEMM)
* [[Campo casuale di Markov]]
[[Categoria:Apprendimento automatico]]
[[Categoria:Modelli grafici]]▼
[[Categoria:Pagine con traduzioni non revisionate]]
|