TermDrips API の試し打ち

Yahoo!Developer APIにも形態素解析用のAPIがあるのですが、たつをさんブログのTF-IDF利用など、検索技術関連のネタを漁っています。

英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。

解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。

「キーワード抽出＆重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。

キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCab を利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)

なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。

POSTして返ってくるデータ例は以下のような感じ。