Word embedding
Il word embedding (tradotto letteralmente immersione di parole) è un termine complessivo che indica, nell'elaborazione del linguaggio naturale, un insieme di tecniche di modellazione in cui parole o frasi di un vocabolario vengono mappate in vettori di numeri reali. Concettualmente consiste in un'operazione matematica di immersione in conseguenza della quale uno spazio costituito da una dimensione per parola viene trasformato in uno spazio vettoriale continuo di dimensione molto inferiore. Queste tecniche trovano applicazione nello studio della vicinanza semantica del discorso.
I thought vector (letteralmente vettori di pensiero) sono un'estensione delle word embedding per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.[1] [2]
Software
I software per l'apprendimento e l'uso del word embedding sono: Word2vec sviluppato da Tomas Mikolov; GloVe, sviluppato dalla Stanford University[3]; Gensim[4] e Deeplearning4j. Principal Component Analysis (PCA) e T-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole e visualizzare le word embedding e i cluster.[5]
Note
- ^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.
- ^ (EN) Thoughtvectors, su deeplearning4j.org.
- ^ (EN) GloVe, su nlp.stanford.edu.
- ^ Gensim, su radimrehurek.com.
- ^ (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.