« 「企業サイト、5割に「穴」 コンサル会社が『侵入』調査」というニュースを読んで(2) | メイン | 「Windows Live Writer」を試してみました。 »

形態素解析MeCabを試してみた

 ブログブームのおかげで世の中に出回るコンテンツ、つまり文章の量がとても多くなってきています。せっかくですので、こういう文章をひとつのデータとしてもっといろいろなことに活かしたいと思います。簡単な例では、いろいろなブログでよく使われる特徴的な単語を抽出してスコアリングすることで、トレンド分析を行うということが挙げられます。

 しかし、この「単語を抽出する」という作業が、日本語の場合思いのほか大変なのです。
 英語の文章は単語と単語の間がスペースで区切られているため、どこからどこまでがひとつの単語か明確です。

This is a pen.

 この場合、[This][is][a][pen][.]というように区切ることができ、プログラムでも簡単に単語に分けることができます。しかし日本語ではこのように簡単には行きません。

これはペンです。

 この場合、[これ][は][ペン][です][。]と区切られるのですが、難しいと思いませんか?人の頭であればなんとなくわかると思いますが(それでも日本語を知っている人じゃないとムリだと思いますが)、プログラムでということになるとほとんどお手上げです。

 そこで登場するのが形態素解析という技術です。

 少し前に、Namazuなどの全文検索がはやっていましたが(もちろん今でも健在です)、この全文検索にも形態素解析は欠かせません。そのため、全文検索に触れるのをきっかけに形態素解析に触れた方も多いのではないでしょうか?

 NamazuではKakasiChasenという形態素解析の仕組みを使っていたと思います。今回紹介するMeCabはこれらより動作速度が速いと言われています。

 それでは早速インストールしてみましょう。まず、下記のサイトから最新のMeCabのソースコードと辞書ファイルを取ってきましょう。

 http://sourceforge.jp/projects/mecab/files/

mecab(MeCab本体) と mecab-ipadic(辞書ファイル)の最新版をダウンロードしてください。
あとは、通常のtar からのインストールを行うだけです。

% tar zxfv mecab-0.93.tar.gz
% cd mecab-0.93
% ./configure
% make
% make check
% su
# make install

% tar zxfv mecab-ipadic-2.7.0-20060707.tar.gz
% cd mecab-ipadic-2.7.0-20060707
% ./configure
% make
% su
# make install

インストールが終わったところで、早速、ちょっと長めの文章で試してみました。
mecab.gif
(実行結果:クリックで拡大します)

素晴らしい!
これからいろいろな活用方法を考えて行きたいと思います。

トラックバック

このエントリーのトラックバックURL:
http://www.e-3lab.com/mt/mt-tb.cgi/57

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)