Word embedding

Il word embedding (tradotto letteralmente immersione di parole) è un termine complessivo che indica, nell'elaborazione del linguaggio naturale, un insieme di tecniche di modellazione in cui parole o frasi di un vocabolario vengono mappate in vettori di numeri reali. Queste tecniche trovano applicazione nello studio della vicinanza semantica del discorso.

I thought vector (letteralmente vettori di pensiero) sono un'estensione delle word embedding per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.^[1] ^[2]

Software

I software per l'apprendimento e l'uso del word embedding sono: Word2vec sviluppato da Tomas Mikolov; GloVe, sviluppato dalla Stanford University^[3]; Gensim^[4] e Deeplearning4j. Principal Component Analysis (PCA) e T-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole e visualizzare le word embedding e i cluster.^[5]

Note

^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.
^ (EN) Thoughtvectors, su deeplearning4j.org.
^ (EN) GloVe, su nlp.stanford.edu.
^ Gensim, su radimrehurek.com.
^ (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.

Voci correlate

[1] (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.

[2] (EN) Thoughtvectors, su deeplearning4j.org.

[3] (EN) GloVe, su nlp.stanford.edu.

[4] Gensim, su radimrehurek.com.

[5] (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.

[1]

[2]

[3]

[4]

[5]