サンプル・プログラムの実行例
サンプル・プログラム
parsewords2.php | サンプル・プログラム本体。 |
解説:ファイルやURLからテキストを読み込む
0302: //ファイル
0303: if (isset($_FILES['upload']['tmp_name']) && ($_FILES['upload']['tmp_name'] != '')) {
0304: $sour = file_get_contents($_FILES['upload']['tmp_name']); //ファイルを一気に読み込む
0305: $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
0306: $sour = strip_tags($sour); //タグを消去しておく
0307: if ($sour == FALSE) {
0308: $errmsg = 'ファイル ' . $_FILES['upload']['tmp_name'] . ' は存在しません';
0309: }
0310:
0311: //URL
0312: } else if ($url != '') {
0313: $sour = file_get_contents($url); //コンテンツを一気に読み込む
0314: $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
0315: $sour = strip_tags($sour); //タグを消去しておく
0316: if ($sour == FALSE) {
0317: $errmsg = 'URL ' . $url. ' は存在しません';
0318: }
0319: }
読み込んだら、組み込み関数 mb_convert_encoding で文字エンコードを揃え、HTMLタグを組み込み関数 strip_tags を使って取り除いておく。
URLから分解テキストを読み込む流れも同様である。
いずれも、読み込めたかどうかエラー処理を加えておく。
あとは、「PHPとKAKASIを使って単語に分解する(その1)」と同様、KAKASI を使ってテキストを単語に分解していく。
参考サイト
- KAKASI:公式サイト
- PHPとKAKASIを使って単語に分解する(その1):ぱふぅ家のホームページ
- PHPで2つの文章の類似度を計算する(KAKASI版):ぱふぅ家のホームページ
- PHPで形態素解析を行う:ぱふぅ家のホームページ
- kakasiの辞書に単語を追加する:TagoSuckの独習プログラム日記
(2021年5月30日)PHP8対応,リファラチェック追加