PHPでワードクラウドをつくる

(1/3)
ワードクラウド ワードクラウド(word cloud)とは、与えられたコンテンツを解析し、左図のように出現頻度が高い単語ほど大きく表示する仕組みである。
今回は、与えられた URL のワードクラウドを表示するプログラムを PHP で作ってみることにする。

必要な機能

このプログラムでは、大きく 3 つの機能が要求される。
  1. URL からコンテンツを取り出す。
  2. コンテンツから単語を切り出し、出現頻度を数える。
  3. 出現頻度の高い単語ほど大きく表示する。
前者については、「PHP で形態素解析を行う」で使った WebAPI「日本語形態素解析 Web サービス」(Yahoo!JAPAN)がそのまま利用できる。また、後者については、「PHP で『kizasi.jp』を利用する」で使った表示ルーチン"putTitle"が利用できそうだ。

サンプル・プログラム

入力できるコンテンツは UTF-8 であること。また、出力の文字コードセットも UTF-8 である。
ただし、後述のコマンドライン指定機能を利用することで、UTF-8 以外の入出力ができる。

ダウンロード(PHP4/5共用)

この項つづく
header