PHPで形態素解析を行う

(1/2)
Yahoo!JAPAN の「日本語形態素解析 Web サービス」は、日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる WebAPI である。
サーバサイドで利用できる形態素解析は、「PHP と KAKASI を使って単語に分解する」で紹介した「KAKASI」や、「ChaSen」、「MeCab」が有名であるが、サーバに負荷がかかる処理である。この「日本語形態素解析 Web サービス」は処理速度も速く、サーバの負荷分散という意味では有用な WebAPI だ。

「Yahoo!JAPAN 日本語形態素解析Webサービス」による形態素解析

日本語形態素解析 Web サービス」は、入力パラメータ(IN)として GET、POST の 2種類の方式を、出力結果(OUT)が XML で戻るという API である。
入力パラメータは翻訳したいテキストであるので、GET 渡しでは長くなりすぎてしまう。そこで、POST 渡しを使うことにする。
space
URL
http://api.jlp.yahoo.co.jp/MAService/V1/parse

入力パラメータ
項目名
フィールド名
内  容
アプリケーション ID appid string Yahoo! DEVELOPER NETWORK のアプリケーション ID。無料で入手できる。
解析対象テキスト sentence string 解析する日本語テキスト。UTF-8 エンコード。
解析結果の種類 results string "ma": 形態素解析の結果を ma_result に返す。
"uniq": 出現頻度情報を uniq_result に返す。
両方指定する場合は "ma,uniq"。

space
たとえば「サーバサイドで利用できる形態素解析」という日本語テキストを解析させると、以下のようになる。

出現頻度 単語 よみ 品詞
1 形態素 けいたいそ 名詞
1 解析 かいせき 名詞
1 できる できる 動詞
1 利用 りよう 名詞
1 サイド さいど 接尾辞
1 助詞
1 サーバ さーば 名詞
SVG-W3C ※上図を見るにはSVGビューワが必要です。
Corel SVG Viewer

サンプル・プログラム

ダウンロード(PHP4/5共用)

この項つづく
header