読者です 読者をやめる 読者になる 読者になる

望月いちろうのREADME.md

書き溜めておいた技術記事や旅行記のバックアップです。

Ubuntu14.04にMeCabをインストールする

Ubuntu14.04にMecabをインストールしてipadic-NEologdを追加した

ネット上には新旧の情報が混在していて混乱したので書きました。

自分の環境では何故かsudoが利用できなかったので先にインストール

$ apt-get install sudo

aptitudeが必要なので最初にインストール

$ sudo apt-get install aptitude

まずはMeCabとIpadic辞書をインストールする。

$ sudo aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file

次にipadic-NEologd辞書をインストール

ipadic-NEologdは新語や固有名詞を扱うための辞書

詳しくは公式で

github.com

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

無事にインストールしたら

$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

ここで本当にインストールするか?と聞かれるのでyesを入力

ipadic-NEologdを利用するには-dで指定する必要があるので注意

インストール先を確認

$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

ubuntuでapt-getを利用してMeCabをインストールした場合は /usr/lib/mecab/dic/mecab-ipadic-neologdに辞書データがダウンロードされるはず

これはOSのバージョンやMeCabのダウンロード方法によって変わるので注意

MeCabでipadic-NEologdを利用して形態素処理をするには

$ mecab -d  /usr/lib/mecab/dic/mecab-ipadic-neologd

このあとに処理したい文字列を入力してリターン

例:

中居正広

中居正広    名詞,固有名詞,人名,一般,*,*,中居正広,ナカイマサヒロ,ナカイマサヒロ

Pythonから利用する場合

$ pip3 install mecab-python3

ipadic-neologd_test.py

import MeCab
mt = MeCab.Tagger("-d /usr/lib/mecab/dic/mecab-ipadic-neologd")
mt.parse("中居正広")

結果

'中居正広\t名詞,固有名詞,人名,一般,*,*,中居正広,ナカイマサヒロ,ナカイマサヒロ\nEOS\n'