PHPで2つの文章の類似度を計算する（Yahoo!版）

「PHPで2つの文章の類似度を計算する」および「PHPで2つの文章の類似度を計算する（KAKASI版）」で、PHPの組み込み関数 similar_text や N-gram、「KAKASI」による形態素解析を利用して、異なる2つの文章の類似度を計算する方法を紹介した。今回は、KAKASIの代わりに「PHPで形態素解析を行う」で紹介したYahoo!JAPANの「日本語形態素解析」を利用し、2つの文章の類似度を計算プログラムを作ってみる。

（2023年3月18日）日本語形態素解析v2に対応

サンプル・プログラムの実行例

サンプル・プログラム

ダウンロード（PHP8対応）

圧縮ファイルの内容
SimilarMorpheme.php	サンプル・プログラム本体。

SimilarMorpheme.php 更新履歴
バージョン	更新日	内容
1.4.0	2023/03/18	日本語形態素解析v2に対応
1.3	2022/01/04	PHP8対応，リファラ・チェック改良，WebAPI更新
1.2	2017/04/08	PHP7対応
1.1	2014/08/23	大幅改訂
1.0	2009/05/02

サンプル・プログラムの流れは、「PHPで形態素解析を行う」と「PHPで2つの文章の類似度を計算する（KAKASI版）」を組み合わせただけなので、ここでは省略する。

なお、「日本語形態素解析Webサービス」を利用するためには、アプリケーションIDを取得する必要がある。入手方法は「Yahoo!JAPAN デベロッパーネットワーク - 各種WebAPIの登録方法」を参照されたい。
取得したIDは定数 YAHOO_APPLICATION_ID に格納すること。

サンプル・プログラムの実行結果

「PHPで2つの文章の類似度を計算する（KAKASI版）」と同じテキストを使って実行してみよう。

まず、「元のテキスト」として、以下のWikipediaの引用文を入れる。これは「PHP: Hypertext Preprocessor」からの抜粋である。

PHP: Hypertext Preprocessor（ピー・エイチ・ピーハイパーテキストプリプロセッサー）とは、動的にHTMLデータを生成することによって、動的なウェブページを実現することを主な目的としたプログラミング言語、およびその言語処理系である。
PHPは、HTML埋め込み型のサーバサイド・スクリプト言語として分類される。この言語処理系自体は、C言語で記述されている。

「比較するテキスト」には、以下の文章を入れてみよう。

PHP(Hypertext Preprocessor；ピー・エイチ・ピー）とは、動的にHTMLデータを生成することによって、動的なウェブページを実現すること目的としたプログラミング言語である。
PHPは、HTML埋め込み型のサーバサイド・スクリプト言語の一種で、処理系自体はC言語で記述されている。

結果は 98.8％である。
2つめの文章は、一見すると元の文章とは異なっているが、じつはWikipediaの引用文の順番を変えただけである。
このような違いでは、かなり高い類似度の値となる。

次に、「比較するテキスト」に以下の文章を入れて実行してみていただきたい。これは「PHPとは何か」（ぱふぅ家のホームページ）の冒頭部分である。

「PHP（Hypertext Preprocessor）」は、オープンソースのサーバ・サイド・スクリプト言語である。
サーバ・サイド・スクリプトとは、データベースサーバなどのサーバ群と Web ブラウザ（クライアント）を結ぶインターフェースの役割をするもので、Webサーバ上で動作する。HTMLに比べて、動的なページを実現することができる。

結果は 61.0％となる。

「PHPで2つの文章の類似度を計算する（KAKASI版）」での、最初の比較例では 75.5％、2番目の比較例では 45.1％だった。
同じ形態素解析という方法でも、形態素に分解するアルゴリズムが違うことで、これだけの差が出る。

ちなみに、PHPとはまったく関係ない以下のテキストを「比較するテキスト」に入れてみると――