Topic model: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
+ wikilink |
|||
(3 versioni intermedie di 3 utenti non mostrate) | |||
Riga 2:
Nell'[[apprendimento automatico]] e nell'[[elaborazione del linguaggio naturale]], un '''topic model''' è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento che parla del 10% di gatti e del 90% di cani, ci sarebbero probabilmente circa 9 volte più parole di cane rispetto a parole di gatto. Questi algoritmi cercano gruppi di parole simili. Un modello di argomento cattura questa intuizione in un quadro matematico, che consente di esaminare una serie di documenti e scoprire, sulla base delle statistiche delle parole in ciascuno, quali potrebbero essere gli argomenti e qual è l'equilibrio degli argomenti di ciascun documento.
I topic models sono considerati probabilistici, considerato che si riferiscono ad algoritmi statistici per scoprire le strutture latenti. I topic models sono stati utilizzati per rilevare strutture istruttive in dati come informazioni genetiche, immagini e reti. Hanno anche applicazioni in altri campi come la [[bioinformatica]]<ref>{{Cita pubblicazione|autore=Blei|nome=David|data=April 2012|titolo=Probabilistic Topic Models|rivista=Communications of the ACM|volume=55|numero=4|pp=
[[File:Topic_model_scheme.webm|start=1|end=24|thumbtime=24|miniatura|600x600px|Animazione del processo di scoperta dei topic. Ogni colonna è un testo, ogni riga una parola. Ogni cella rappresenta la frequenza di una parola in un testo. Le celle scure rappresentano frequenze alte. I topic models raggruppano parole simili e documenti simili allo stesso tempo.]]
== Topic model per le scienze della vita ==
I topic models vengono utilizzati anche in altri contesti. Ad esempio, sono emersi utilizzi di topic models in biologia e bioinformatica<ref>{{Cita pubblicazione|autore=Liu, L.|autore2=Tang, L.|anno=2016|titolo=An overview of topic modeling and its current applications in bioinformatics|rivista=SpringerPlus|volume=5|p=1608|doi=10.1186/s40064-016-3252-8|PMID=27652181}}</ref>. In questo caso gli argomenti da inferire sono variabili biologiche, come funzioni o processi cellulari. Recentemente è stato proposto di utilizzare topic model per studiare dati di RNA-Sequencing di sample di tumori.<ref>{{Cita pubblicazione|nome=Filippo|cognome=Valle|nome2=Matteo|cognome2=Osella|nome3=Michele|cognome3=Caselle|data=2020-10-21|titolo=A
== Note ==
|