読者です 読者をやめる 読者になる 読者になる

UTALI

書き溜めておいた技術記事や旅行記のバックアップです。

MacでMeCabの辞書データを追加する方法

f:id:mochizuki_p:20160926173530p:plainf:id:mochizuki_p:20160926173547p:plain

こちらを参考に

kzy52.com

Mac形態素処理エンジンのMeCabを利用する場合、Homebrewを利用してダウンロードすることが一般的です。この場合はパスの位置が違うので、Linuxを想定したネット上の資料の通りにやっても、上手くいきません。

今回はMeCabの辞書にWikipediaはてなキーワードのデータを追加します。MeCabでデフォルトのipadicの辞書だと固有名詞の情報が不十分だからです。

$ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
$ gunzip jawiki-latest-all-titles-in-ns0.gz
$ wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
$ nkf -w --overwrite keywordlist_furigana.csv

スクリプトは元記事のものを利用してください。

$ ruby makedic.rb

次がMacでの重要な部分です。Homebrewでインストールしたプログラムは/usr/local/Cellarの中に格納されます。

$ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u onomasticon.dic -f utf-8 -t utf-8 onomasticon.csv

これを起動すると

reading onomasticon.csv ... 1771321

emitting double-array: 100% |###########################################| 

done!

うまくいったようです。 登録した辞書を利用するには-uコマンドで辞書データを指定します。

$ mecab -u onomasticon.dic
村上春樹

結果

村上春樹 名詞,一般,*,*,*,*,村上春樹,*,*

参考:登録した辞書を利用しなかった場合

$ mecab

村上春樹

結果

村上   名詞,固有名詞,人名,姓,*,*,村上,ムラカミ,ムラカミ
春樹  名詞,固有名詞,人名,名,*,*,春樹,ハルキ,ハルキ