Conditional random field: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
mNessun oggetto della modifica
Nessun oggetto della modifica
Riga 1:
{{C|Da controllare la correttezza della traduzione dalla versione inglese della voce. Alcune frasi non sono sintatticamente corrette in italiano.|Informatica|agosto 2024}}
 
'''I Conditional Random Field''' ( '''CRF''' ) sono una classe di metodi di [[Modello statistico|modellazione statistica]] spesso applicati nel [[riconoscimento di pattern]] e [[Apprendimento automatico|nell'apprendimento automatico]] e utilizzati per predizioni strutturate. Mentre un [[Classificazione statistica|classificatore]] prevede un'etichetta per un singolo campione senza considerare i campioni "vicini", un CRF può tenere conto del contesto. A tale scopo, le previsioni vengono basate su un [[modello grafico|modello grafo]], che rappresenta la presenza di dipendenze tra le variabili in gioco. Il tipo di graficografo utilizzato dipende dall'applicazione. Ad esempio, nell'[[elaborazione del linguaggio naturale]] sono diffuse le CRF "a catena lineare", nelle quali ogni variabile dipende solo dai suoi vicini immediati. Nell'[[elaborazione delle immagini]], il grafo in genere collega le posizioni a posizioni vicine e/o simili per garantire che ricevano previsioni simili.
 
Altri esempi di applicazione dei CRF sono: l'etichettatura o [[Parsing|analisi]] di dati sequenziali per l'[[elaborazione del linguaggio naturale]] o di [[Bioinformatica|sequenze biologiche]], il [[Analisi grammaticale|POS tagging]], l'analisi superficiale<ref>{{Cita conferenza|url=http://portal.acm.org/ft_gateway.cfm?id=1073473&type=pdf&CFID=4684435&CFTOKEN=39459323}}</ref>, il [[Risoluzione all'identità|riconoscimento di entità]], <ref>{{Cita conferenza|autore=Settles, B.|url=http://www.aclweb.org/anthology/W04-1221.pdf}}</ref> la ricerca di geni, la ricerca di regioni funzionali critiche del peptide<ref>{{Cita pubblicazione|volume=10|doi=10.1371/journal.pone.0119490|bibcode=2015PLoSO..1019490C|PMID=25803302}}</ref>, il [[Object recognition|riconoscimento di oggetti]] <ref name="Rui:Gal:Gon15">{{Cita conferenza|url=https://www.researchgate.net/publication/281620302}}</ref> e la [[Segmentazione di immagini|segmentazione delle immagini]] nella [[visione artificiale]]<ref>{{Cita news|linkautore=Xuming He}}</ref>.
 
== Descrizione ==
I CRF sono un tipo di [[modello grafico|modello grafo]] probabilistico discriminativo non orientato .
 
Lafferty, McCallum e Pereira <ref name="Laf:McC:Per01">{{Cita conferenza|titolo=Conditional random fields: Probabilistic models for segmenting and labeling sequence data|conferenza=ICML 2001: 18th International Conf. on Machine Learning|autore=Lafferty, J. McCallum, A., Pereira, F.|data=2001|pagine=282–289|url=http://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers|editore=Morgan Kaufmann}}
Riga 15:
<math>P(\boldsymbol{Y}_v |\boldsymbol{X}, \{\boldsymbol{Y}_w: w \neq v\}) = P(\boldsymbol{Y}_v |\boldsymbol{X}, \{\boldsymbol{Y}_w: w \sim v\})</math>
 
dove <math>\mathit{w} \sim v</math> significa che <math>w</math> e <math>v</math> sono vicini in <math>G</math> .</blockquote>Ciò significa che un CRF è un [[Modello grafico|modello graficografo non orientato]] i cui nodi possono essere divisi esattamente in due insiemi disgiunti <math>\boldsymbol{X}</math> e <math>\boldsymbol{Y}</math>, comprendenti, rispettivamente, le variabili osservate e quelle di output; ne discende un modello <math>p(\boldsymbol{Y}|\boldsymbol{X})</math> della distribuzione condizionale.
 
Per i grafi generali, il problema dell'inferenza esatta nelle CRF è intrattabile. Il problema di inferenza per un CRF è fondamentalmente lo stesso di un MRF e valgono gli stessi argomenti. Tuttavia, esistono casi speciali per i quali è possibile un'inferenza esatta:
 
* Se il graficografo è una catena o un albero, gli algoritmi di passaggio dei messaggi forniscono soluzioni esatte. Gli algoritmi utilizzati in questi casi sono analoghi all'algoritmo [[Algoritmo forward-backward|forward-backward]] e [[Algoritmo di Viterbi|all'algoritmo di Viterbi]] per il caso degli HMM.
* Se il CRF contiene solo potenziali a coppie e l'energia è submodulare, gli algoritmi combinatori min cut/max flow forniscono soluzioni esatte.
 
Se l'inferenza esatta è impossibile, si possono utilizzare diversi algoritmi per ottenere soluzioni approssimative. Questi includono:
 
* Propagazione di credenze strampalateerrate
* Espansione Alpha
* Inferenza del campo medio
* Rilassamenti della programmazione lineare
 
ApprendimentoL'apprendimento dei parametri <math>\theta</math> di solito viene fattooperato tramite apprendimento [[Metodo della massima verosimiglianza|di massima verosimiglianza]] perdi <math>p(Y_i|X_i; \theta)</math> . Se tutti i nodi hanno distribuzioni familiari esponenziali e tutti i nodi vengono osservati durante l'addestramento, questa [[Ottimizzazione (matematica)|ottimizzazione]] è convessa. Può essere risolto ad esempio utilizzando algoritmi [[Discesa del gradiente|di discesa del gradiente]] o metodi Quasi-Newton come l'algoritmo L-BFGS . D'altro canto, se alcune variabili non sono osservate, il problema di inferenza deve essere risolto per queste variabili. Nei graficigrafi generali l'inferenza esatta è impossibile, quindi è necessario ricorrere alle approssimazioni.
 
Nella modellazione sequenziale, il graficografo di interesse è solitamente un graficografo a catena. Una sequenza di input di variabili osservate <math>X</math> rappresenta una sequenza di osservazioni e <math>Y</math> rappresenta una variabile di stato nascosta (o sconosciuta) che deve essere dedotta in base alle osservazioni. IL <math>Y_{i}</math> sono strutturati in modo da formare una catena, con un bordo tra ciascuna <math>Y_{i-1}</math> E <math>Y_{i}</math> . Oltre ad avere una semplice interpretazione del <math>Y_{i}</math> come "etichette" per ogni elemento nella sequenza di input, questo layout ammette algoritmi efficienti per:
 
* ''addestramento'' del modello, apprendimento delle distribuzioni condizionali tra i <math>Y_{i}</math> e funzioni caratteristiche da un corpus di dati di addestramento.
Riga 51:
{{References|30em}}
 
 
*
[[Categoria:Apprendimento automatico]]
[[Categoria:Modelli grafici]]