2006年11月03日

形態素解析ツールまとめ

ゼミの発表で4回生が形態素解析ツールを使っていた。

僕とかの研究にも絡んでくるところもあるので、どんなツールがあるのかちょっとまとめて覚書程度に書いておく。
もちろん、フリーのものだけ。

ChaSen
URL: http://chasen.naist.jp/hiki/ChaSen/
  • 4回生がつかってたもの

  • 辞書の作り方などが丁寧にサイトに書いてあって、便利かも



JUMAN
URL: http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
  • 京大生まれ

  • バージョンが5.xってことは、開発が進んで洗練されてる?

  • デモをやってみたら、「すもももももももものうち」を解析できなかった。


KAKASHI
URL: http://kakasi.namazu.org/
  • 漢字かなまじりの文を、ひらがな文やローマ字文に変換することを目的として作成されたプログラム

  • KAKASHI関連のソフトウェアがたくさんある


MeCab
URL: http://mecab.sourceforge.jp/
  • ChaSen、KAKASHIに比べて高速に解析

  • さまざまな言語にバインディング可能

  • おそらく、今一番開発が進められているツール

  • C++で実装されているらしい



ためしに、MeCabをインストールしてみて使ったのだが、カナリいい感じ。
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
と、ちゃんと解析してくれる。

次に、「来月の第三日曜にエルレのライブあるねんけど、一緒に行かへん?」ってなかんじの、メールに打ちそうな文章を解析してみる。
来月    名詞,副詞可能,*,*,*,*,来月,ライゲツ,ライゲツ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
第 接頭詞,数接続,*,*,*,*,第,ダイ,ダイ
三 名詞,数,*,*,*,*,三,サン,サン
日曜 名詞,副詞可能,*,*,*,*,日曜,ニチヨウ,ニチヨー
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
エルレ 名詞,一般,*,*,*,*,*
の 助詞,連体化,*,*,*,*,の,ノ,ノ
ライブ 名詞,一般,*,*,*,*,ライブ,ライブ,ライブ
ある 動詞,自立,*,*,五段・ラ行,基本形,ある,アル,アル
ねん 助詞,終助詞,*,*,*,*,ねん,ネン,ネン
けど 助詞,接続助詞,*,*,*,*,けど,ケド,ケド
、 記号,読点,*,*,*,*,、,、,、
一緒 名詞,サ変接続,*,*,*,*,一緒,イッショ,イッショ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
行か 動詞,自立,*,*,五段・カ行促音便,未然形,行く,イカ,イカ
へん 助動詞,*,*,*,不変化型,基本形,へん,ヘン,ヘン
? 記号,一般,*,*,*,*,?,?,?
かなり優秀じゃないですか。

ってことで、現段階では、MeCab最強かな?ほかのツールも試してみる価値ありそう。
タグ:形態素解析
posted by yu at 05:42 | Comment(0) | TrackBack(1) | その他
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]


この記事へのトラックバック

Linux版のchasenを使う
Excerpt: 形態素解析ツールChasen Linux版 のインストール方法です。 まずはChaSenのソースをダウンロードしてください。 ChaSen本体に加え、以下のコンポーネントをインストール..
Weblog: 研究開発
Tracked: 2006-12-16 06:09
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。