Linguaでキーワード抽出試し打ち

Lingua::JA::Summarizeでキーワード抽出を試行。(nomoさんのnemolog同名記事)

下記の足りないモジュールはPPMからインストール。

HTTP::GHTTP
HTML::Strip

次に、cpanから Lingua::JA::Summarize をインストール

‥
Lingua-JA-Summarize-0.08/lib/Lingua/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/Meca
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize.pm

‥でインストール完了。

参照記事には21行目に｛｝のsyntax errorがあるので補って、再試行。

‥

Mecabがバッチファイルとして認識されてないとな。。

ということで、環境変数pathにC:\Program Files\MeCab\bin追記しておけばOK。

C:\Users\hoge>mecab -v
バージョン確認
mecab of 0.96

XAMPPとMecabの設定は後述のリンク先(5×2.info 内記事)。
Mecab用の辞書作成法なども。

辞書追加
Linguaの使用法(中谷さん記事)

ひとまずここはエンコード優先(nemolog記事のソースの該当部なら)
mecab_charset => 'uft8'　を
mecab_charset => 'shiftjis'　に修正すればOK。

[下記ソースの一部]

#文字コードとか調整、デフォルトの単語の重み設定も
my $s = Lingua::JA::Summarize->new({charset => 'utf8',
mecab_charset => 'shiftjis',
default_cost => 1.5,
singlechar_factor => 0.2
});

#ここで重みつけ
$s->analyze($clean_text);
my @keywords = $s->keywords({threshold => 5,
minwords => 10,
maxwords => 15

以上のような形で、キーワードが設定した情報に沿って列挙される。
次は辞書作りに取り組みたい。。

FUJILOG

見た、聴いた、触れたこと。動かしたもの、書いたもの。ウェブとリアルの備忘録です。

Linguaでキーワード抽出試し打ち

Lingua::JA::Summarizeでキーワード抽出を試行。(nomoさんのnemolog同名記事)