UbuntuにMeCabとNEologdをインストールして、Pythonで形態素解析するまでの流れのメモです。
MeCabのインストール
$ apt install mecab libmecab-dev mecab-ipadic-utf8
mecab-python3のインストール
$ pip install mecab-python3
NEologdのインストール
(NEologdは、他の辞書に比べて語彙数が多く、新語や固有表現に強い。)
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n
途中で
[install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.
と聞かれるのでyes
と入力。
以下のコマンドでディレクトリのパスを確認。
echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
実行例
>>> import MeCab
>>> mecab = MeCab.Tagger('-d /usr/lib/mecab/dic/mecab-ipadic-neologd')
>>> text = 'トランプ大統領とどん兵衛'
>>> mecab.parse(text)
トランプ大統領 名詞,固有名詞,人名,一般,*,*,ドナルド・トランプ,トランプダイトウリョウ,トランプダイトウリョー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
どん兵衛 名詞,固有名詞,一般,*,*,*,どん兵衛,ドンベイ,ドンベイ
EOS
いい感じに形態素解析できました。めでたしめでたし。
コメント