Word embedding

tecnica di elaborazione del linguaggio naturale

Le word embedding sono, nell'elaborazione del linguaggio naturale, dei sistemi di mappatura in vettori di parole o frasi per lo studio della vicinanza semantica del discorso.

I thought vectors sono un estensione delle word embedding per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.[1] [2]

Software

I software per addestrare e usare le word embeddings sono: Word2vec sviluppato da Tomas Mikolov; GloVe, sviluppato dalla Stanford University[3]; Gensim[4] e Deeplearning4j. Principal Component Analysis (PCA) e T-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole e visualizzare le word embedding e i cluster.[5]

Note

  1. ^ (EN) Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler, Skip-thought vectors, su arxiv.org/archive/cs.CL, 2015.
  2. ^ (EN) Thoughtvectors, su deeplearning4j.org.
  3. ^ (EN) GloVe, su nlp.stanford.edu.
  4. ^ Gensim, su radimrehurek.com.
  5. ^ (EN) Mohammad Ghassemi, Roger Mark e Shamim Nemati, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.

Voci correlate