Word embedding

tecnica di elaborazione del linguaggio naturale
Versione del 6 mar 2017 alle 14:41 di MarcoMazzon94 (discussione | contributi) (Nuova pagina: Le word embedding sono, nell'Elaborazione del linguaggio naturale (NLP, in inglese), dei sistemi di mappatura in Vettore (mate...)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Le word embedding sono, nell'Elaborazione del linguaggio naturale (NLP, in inglese), dei sistemi di mappatura in vettori di parole o frasi per lo studio della vicinanza semantica del discorso.

Thought vectors

I Thought vectors sono un estensione delle word embeddings per intere frasi o anche documenti. Alcuni ricercatori sperano che questi possano aumentare la qualità della traduzione automatica.[1] [2]

Software

I software per addestrare e usare le word embeddings sono Word2vec sviluppato da Tomas Mikolov, GloVe, sviluppato dalla Stanford University[3] Gensim[4] eDeeplearning4j. Principal Component Analysis (PCA) eT-Distributed Stochastic Neighbour Embedding (t-SNE) sono entrambi usati per diminuire la dimensione dello spazio dei vettori di parole (dimensionality reduction) e visualizzare le word embeddings e i cluster.[5]

  1. ^ Template:Cite arXiv
  2. ^ thoughtvectors, su deeplearning4j.org.
  3. ^ GloVe, su nlp.stanford.edu.
  4. ^ Gensim, su radimrehurek.com.
  5. ^ Mohammad Ghassemi, A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes (PDF), in Computing in Cardiology, 2015.