日本語形態素解析について

  • 投稿日:
  • by

 <追記:2005/1/25>
 たつおさんに指摘されたので訂正します。(ご指摘ありがとうございました。)
 SUFARYは日本語形態素解析とは関係ないよ
 SUFARY マニュアル 

 <2004/04/16>
 今まであまり気にしていませんでしたが、昨日書いた記事から何故か突然「日本語形態素解析」が気になったので手軽に扱えるツールをGoogleで検索しました。

 ChaSen
  日本語形態素解析システム
 CaboCha
  Support Vector Machines に基づく日本語係り受け解析器
 JSplitter
  日本語の単語抽出ツール
 MeCab
  ChaSenを基に開発された高速な形態素解析器
 Sen
  Java 形態素解析エンジン
 すもも
  NTT 物性科学基礎研究所で開発された日本語形態素解析システム
  大量の日本語データを高速に形態素解析することを目的
 JUMAN
  日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール
 Breakfast
  富士通研究所が開発した日本語形態素解析システム
 KNP
  日本語文の構文解析を行なうシステム
 SUFARY SUFARYは日本語形態素解析ではありません。
  suffix arrayというデータ構造を用いて高速な文字列検索を行なう
 MACD
  Java RM用いた形態素解析システム

 きっとまだあると思います。 私はきちんと学習した事はありませんが、このようなツールを活用して、Drk7.jpさんが作ったような事を自分でもしてみたいと思う。(現在Hosting会社さんへChaSenのインストールを依頼中ですが、未だ回答が来ません(私の権限では先ずgccが使えないのが辛い!)・・・Javaで動くSenはUTF-8が現在未対応で私のサイトへは活用出来ませんでした。)
 Googleで調べていたら、ベイシス・テクノロジーと言う会社も見つけ、顧客リストにGoogleがあり、今更ながらGoogleはこの会社の技術を使っている事を認識しました。(日本語形態素解析システム