All-but-the-Top: Simple and Effective Postprocessing for Word Representations, ICLR2018

All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Real-valued word representations have transformed NLP applications; popular examples are word2vec and GloVe, recognized for their ability to capture linguistic ...

どんなもの?

word2vecやGloVeなどの単語分散表現の精度を向上させる後処理を提案。

どこがすごい?

タイトル通り手法がシンプルで実用的。

手法のキモはどこ?

任意の単語の分散表現から、語彙集合の重心と、重心を差っ引いた分散表現$\hat{v(w)}$の主成分をPCAで求めて、$\hat{v(w)}$からその第n主成分までを差っ引く。原著論文の2.1のAlgorithm 1を参照。

その他

参考:https://www.slideshare.net/MacotoTachenaca/allbutthetop-simple-and-effective-postprocessing-for-word-representations-98611879

コメント