PHPとKAKASIを使って単語に分解する (その2)

(1/1)
KAKASI を使って漢字かなまじり文を平仮名やローマ時に変換するプログラムの続きである。今回は、テキストだけでなく、ファイルやURLを指定して分解できるように機能を拡張した。

(2021年5月30日)PHP8対応,リファラチェック追加

サンプル・プログラムの実行例

PHPとKAKASIを使って単語に分解する(その2)

サンプル・プログラム

圧縮ファイルの内容
parsewords2.phpサンプル・プログラム本体。

解説:ファイルやURLからテキストを読み込む

0302: //ファイル
0303: if (isset($_FILES['upload']['tmp_name']) && ($_FILES['upload']['tmp_name'] != '')) {
0304:     $sour = file_get_contents($_FILES['upload']['tmp_name']); //ファイルを一気に読み込む
0305:     $sour = mb_convert_encoding($sourINTERNAL_ENCODING, 'auto');
0306:     $sour = strip_tags($sour);       //タグを消去しておく
0307:     if ($sour == FALSE) {
0308:         $errmsg = 'ファイル ' . $_FILES['upload']['tmp_name'] . ' は存在しません';
0309:     }
0310: 
0311: //URL
0312: else if ($url != '') {
0313:     $sour = file_get_contents($url); //コンテンツを一気に読み込む
0314:     $sour = mb_convert_encoding($sourINTERNAL_ENCODING, 'auto');
0315:     $sour = strip_tags($sour);       //タグを消去しておく
0316:     if ($sour == FALSE) {
0317:         $errmsg = 'URL ' . $url. ' は存在しません';
0318:     }
0319: }

ファイルから分解テキストを読み込むには、組み込み変数 $_FILES['upload']['tmp_name'] があれば、組み込み関数  file_get_contents  を用いてファイル内容を変数 $sour に読み込む。
読み込んだら、組み込み関数  mb_convert_encoding  で文字エンコードを揃え、HTMLタグを組み込み関数  strip_tags  を使って取り除いておく。

URLから分解テキストを読み込む流れも同様である。
いずれも、読み込めたかどうかエラー処理を加えておく。

あとは、「PHPとKAKASIを使って単語に分解する(その1)」と同様、KAKASI を使ってテキストを単語に分解していく。

参考サイト

(この項おわり)
header