Word embedding
Il word embedding (tradotto letteralmente immersione di parole) anche conosciuto come rappresentazione distribuita delle parole[1] permette di memorizzare le informazioni sia semantiche che sintattiche delle parole partendo da un corpus non taggato[2] e costruendo uno spazio vettoriale in cui i vettori delle parole sono più vicini se le parole occorrono negli stessi contesti linguistici, cioè se sono riconosciute come semanticamente più simili (secondo l'ipotesi della semantica distribuzionale).
Definizione
In una definizione più rigorosa il word embedding è un termine complessivo che indica, nell'elaborazione del linguaggio naturale, un insieme di tecniche di modellazione in cui parole o frasi di un vocabolario vengono mappate in vettori di numeri reali. Concettualmente consiste in un'operazione matematica di immersione in conseguenza della quale uno spazio costituito da una dimensione per parola viene trasformato in uno spazio vettoriale continuo di dimensione molto inferiore. Queste tecniche trovano applicazione nello studio della vicinanza semantica del discorso, in particolare nel mondo della semantica distribuzionale.
Metodi
I metodi per generare questa mappatura comprendono le reti neurali,[3] la riduzione dimensionale sulla matrice di co-occorrenza della parola,[4][5][6] modelli probabilistici,[7] e rappresentazione esplicita in base al contesto in cui la parola appare.[8]. Molte delle nuove tecniche di word embedding sono realizzati con l'architettura delle reti neurali invece che con le più tradizionali tecniche ad n-grammi e di apprendimento supervisionato.
I thought vector (letteralmente vettori di pensiero) sono un'estensione delle word embedding per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.[9] [10]
Applicazioni
I software per l'apprendimento e l'uso del word embedding sono: Word2vec sviluppato da Tomas Mikolov[11]; GloVe, sviluppato dalla Stanford University[12]; Gensim[13] e Deeplearning4j. Principal Component Analysis (PCA) e T-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole e visualizzare le word embedding e i cluster.[14]
Note
- ^ Turian, Joseph, Lev Ratinov, and Yoshua Bengio. "Word representations: a simple and general method for semi-supervised learning." Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010.
- ^ Mikolov, Tomas, Wen-tau Yih, and Geoffrey Zweig. "Linguistic Regularities in Continuous Space Word Representations." Hlt-naacl. Vol. 13. 2013.
- ^ (EN) Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado e Jeffrey Dean, Distributed Representations of Words and Phrases and their Compositionality, su arxiv.org/archive/cs.CL, 2013.
- ^ Conference of the European Chapter of the Association for Computational Linguistics (EACL), vol. 2014, 2013.
- ^ NIPS, 2014, http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf .
- ^ Int'l J. Conf. on Artificial Intelligence (IJCAI), 2015, http://ijcai.org/papers15/Papers/IJCAI15-513.pdf .
- ^ Journal of Machine learning research, 2007, http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34951.pdf .
- ^ Template:Cita conference
- ^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.
- ^ (EN) Thoughtvectors, su deeplearning4j.org.
- ^ MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
- ^ (EN) GloVe, su nlp.stanford.edu.
- ^ Gensim, su radimrehurek.com.
- ^ (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.