Word embedding

tecnica di elaborazione del linguaggio naturale
Versione del 6 mar 2017 alle 15:46 di Superspritz (discussione | contributi) (i termini inglesi diventano indeclinabili al plurale quando usati in un contesto di lingua italiana)

Il word embedding (tradotto letteralmente incorporazione di parole) è, nell'elaborazione del linguaggio naturale, un sistema di mappatura in vettori di parole o frasi per lo studio della vicinanza semantica del discorso.

I thought vector (letteralmente vettori di pensiero) sono un'estensione delle word embedding per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.[1] [2]

Software

I software per addestrare e usare le word embedding sono: Word2vec sviluppato da Tomas Mikolov; GloVe, sviluppato dalla Stanford University[3]; Gensim[4] e Deeplearning4j. Principal Component Analysis (PCA) e T-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole e visualizzare le word embedding e i cluster.[5]

Note

  1. ^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.
  2. ^ (EN) Thoughtvectors, su deeplearning4j.org.
  3. ^ (EN) GloVe, su nlp.stanford.edu.
  4. ^ Gensim, su radimrehurek.com.
  5. ^ (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.

Voci correlate