【Ubuntu】MeCabとNEologdをインストールしてPythonで形態素解析する

Python

UbuntuにMeCabとNEologdをインストールして、Pythonで形態素解析するまでの流れのメモです。

MeCabのインストール

$ apt install mecab libmecab-dev mecab-ipadic-utf8

mecab-python3のインストール

$ pip install mecab-python3

NEologdのインストール

(NEologdは、他の辞書に比べて語彙数が多く、新語や固有表現に強い。)

$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

途中で

[install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.

と聞かれるのでyesと入力。

以下のコマンドでディレクトリのパスを確認。

 echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

実行例

>>> import MeCab
>>> mecab = MeCab.Tagger('-d /usr/lib/mecab/dic/mecab-ipadic-neologd')
>>> text = 'トランプ大統領とどん兵衛'
>>> mecab.parse(text)
トランプ大統領    名詞,固有名詞,人名,一般,*,*,ドナルド・トランプ,トランプダイトウリョウ,トランプダイトウリョー
と    助詞,並立助詞,*,*,*,*,と,ト,ト
どん兵衛    名詞,固有名詞,一般,*,*,*,どん兵衛,ドンベイ,ドンベイ
EOS

いい感じに形態素解析できました。めでたしめでたし。

コメント