Conditional random field: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica Etichette: Modifica visuale Link a pagina di disambiguazione |
Funzionalità collegamenti suggeriti: 2 collegamenti inseriti. |
||
(10 versioni intermedie di 3 utenti non mostrate) | |||
Riga 1:
{{C|Da controllare la correttezza della traduzione dalla versione inglese della voce. Alcune frasi non sono sintatticamente corrette in italiano.|Informatica|agosto 2024}}
Altri esempi di applicazione dei CRF sono: l'etichettatura o [[Parsing|analisi]] di dati sequenziali per l'[[elaborazione del linguaggio naturale]] o di [[Bioinformatica|sequenze biologiche]], il [[Analisi grammaticale|POS tagging]], l'analisi superficiale<ref>{{Cita conferenza|autore=Sha, F.; Pereira, F.|titolo=Shallow parsing with conditional random fields.|url=http://portal.acm.org/ft_gateway.cfm?id=1073473&type=pdf&CFID=4684435&CFTOKEN=39459323}}</ref>, il [[Risoluzione all'identità|riconoscimento di entità]]<ref>{{Cita conferenza|titolo=Biomedical named entity recognition using conditional random fields and rich feature sets|conferenza=Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications|autore=Settles, B.|pagine=104–107|url=http://www.aclweb.org/anthology/W04-1221.pdf}}</ref>,
== Descrizione ==
Lafferty, McCallum e Pereira<ref name="Laf:McC:Per01"></ref> definiscono un CRF sulle osservazioni <math>\boldsymbol{X}</math> e le [[Variabile casuale|variabili casuali]] <math>\boldsymbol{Y}</math> (di output) come segue:<blockquote>Sia <math>G = (V, E)</math> un grafo tale che <math>\boldsymbol{Y} = (\boldsymbol{Y}_v)_{v\in V}</math>, in modo che <math>\boldsymbol{Y}</math> sia indicizzato dai vertici (nodi) di <math>G</math>
▲Lafferty, McCallum e Pereira <ref name="Laf:McC:Per01">{{Cita conferenza|titolo=Conditional random fields: Probabilistic models for segmenting and labeling sequence data|conferenza=ICML 2001: 18th International Conf. on Machine Learning|autore=Lafferty, J. McCallum, A., Pereira, F.|data=2001|pagine=282–289|url=http://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers|editore=Morgan Kaufmann}}
▲</ref> definiscono un CRF sulle osservazioni <math>\boldsymbol{X}</math> e [[Variabile casuale|variabili casuali]] <math>\boldsymbol{Y}</math> come segue:<blockquote>Sia <math>G = (V, E)</math> un grafo tale che <math>\boldsymbol{Y} = (\boldsymbol{Y}_v)_{v\in V}</math>, in modo che <math>\boldsymbol{Y}</math> sia indicizzato dai vertici di <math>G</math> .
<math>(\boldsymbol{X}, \boldsymbol{Y})</math> è un ''conditional random field'' se ogni variabile casuale <math>\boldsymbol{Y}_v</math>, condizionata su <math>\boldsymbol{X}</math>, gode della [[proprietà di Markov]] rispetto al grafo ossia se la sua probabilità dipende solo dai suoi vicini in <math>G</math>:
<math>P(\boldsymbol{Y}_v |\boldsymbol{X}, \{\boldsymbol{Y}_w: w \neq v\}) = P(\boldsymbol{Y}_v |\boldsymbol{X}, \{\boldsymbol{Y}_w: w \sim v\})</math>
dove <math>\mathit{w} \sim v</math>
Per
* Se il grafo è una catena o un albero, gli algoritmi
* Se il CRF contiene solo potenziali a coppie e l'energia è
Se l'inferenza esatta non è
* [[
* [[Espansione Alpha]]
* [[Mean field inference]]
* Rilassamenti della [[programmazione lineare]]
L'apprendimento dei parametri <math>\theta</math> di solito viene svolto tramite stima [[Metodo della massima verosimiglianza|di massima verosimiglianza]] di <math>p(Y_i|X_i; \theta)</math>. Se tutti i nodi, ossia le relative variabili, hanno distribuzioni della famiglia esponenziale e
Nella modellazione
Oltre a una semplice interpretazione dei <math>Y_{i}</math> come "etichette" per ogni elemento nella sequenza di input, questo tipo di layout ammette algoritmi efficienti per:
* l'''addestramento'' del modello, apprendimento delle distribuzioni condizionali tra le <math>Y_{i}</math> e funzioni caratteristiche da un corpus di dati di addestramento.▼
* la ''decodifica'', determinazione della probabilità di una certa sequenza di etichette <math>Y</math> dato <math>X</math> .▼
* l'''inferenza'', determinazione della sequenza di etichette ''più probabile'' <math>Y</math> dato <math>X</math> .▼
▲* l{{'}}''addestramento'' del modello, apprendimento delle distribuzioni condizionali tra le <math>Y_{i}</math> e funzioni caratteristiche da un corpus di dati di addestramento.
La dipendenza condizionale di ciascun <math>Y_{i}</math> da <math>X</math> è definita attraverso un insieme fisso di ''funzioni caratteristiche'' della forma <math>f(i, Y_{i-1}, Y_{i}, X)</math>, che possono essere viste come misurazioni sulla sequenza di input che determinano parzialmente la [[Funzione di verosimiglianza|probabilità]] di ogni possibile valore per <math>Y_{i}</math>. Il modello assegna a ciascuna caratteristica un peso numerico e li combina per determinare la probabilità di un certo valore per <math>Y_{i}</math>.▼
▲* la ''decodifica'',
▲* l{{'}}''inferenza'',
▲La dipendenza
I CRF a catena lineare hanno molte applicazioni in comune con i modelli di Markov nascosti (HMM) concettualmente più semplici, ma rilassano alcune ipotesi sulle distribuzioni delle sequenze di input e output. Un HMM può essere inteso in senso lato come un CRF con funzioni caratteristiche molto specifiche che utilizzano probabilità costanti per modellare le transizioni di stato e gli output. Al contrario, un CRF può essere inteso in senso lato come una generalizzazione di un HMM che trasforma le probabilità di transizione costanti in funzioni arbitrarie che variano attraverso le posizioni nella sequenza di stati nascosti, a seconda della sequenza di input.▼
▲I CRF a catena lineare hanno molte applicazioni in comune con i modelli di Markov nascosti (HMM) concettualmente più semplici, ma rilassano alcune ipotesi sulle distribuzioni delle sequenze di input e output. Un HMM può essere inteso in senso lato come un CRF con funzioni caratteristiche molto specifiche che utilizzano probabilità costanti per modellare le transizioni di stato e gli output. Al contrario, un CRF può essere inteso in senso lato come una generalizzazione di un HMM che trasforma le [[probabilità di transizione]] costanti in funzioni arbitrarie che variano attraverso le posizioni nella sequenza di stati nascosti, a seconda della sequenza di input.
In particolare, a differenza degli HMM, i CRF possono contenere un numero qualsiasi di funzioni di caratteristiche, tali funzioni possono ispezionare l'intera sequenza di input <math>X</math> in qualsiasi momento durante l'inferenza e il loro codominio non deve necessariamente avere un'interpretazione probabilistica.▼
▲In particolare, a differenza degli HMM, i CRF possono contenere un numero qualsiasi di funzioni
== Note ==
<references />
* Modello di Markov a massima entropia (MEMM)▼
==
▲* [[Modello di Markov a massima entropia]] (MEMM)
* [[Campo casuale di Markov]]
[[Categoria:Apprendimento automatico]]
[[Categoria:Modelli grafici]]▼
[[Categoria:Pagine con traduzioni non revisionate]]
|