All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Real-valued word representations have transformed NLP applications; popular examples are word2vec and GloVe, recognized ...
どんなもの?
word2vecやGloVeなどの単語分散表現の精度を向上させる後処理を提案。
どこがすごい?
タイトル通り手法がシンプルで実用的。
手法のキモはどこ?
任意の単語の分散表現から、語彙集合の重心と、重心を差っ引いた分散表現$\hat{v(w)}$の主成分をPCAで求めて、$\hat{v(w)}$からその第n主成分までを差っ引く。原著論文の2.1のAlgorithm 1を参照。
その他
参考:https://www.slideshare.net/MacotoTachenaca/allbutthetop-simple-and-effective-postprocessing-for-word-representations-98611879
コメント