PHPで漢数字混じりのテキストを半角数字に統一する

(1/1)
ネットの新聞記事を利用する際、漢数字が混じっている場合があり、これを横書きのテキストにすると読みにくい。そこでPHPを使い、漢数字混じりの日本語テキストを半角数字に統一するプログラムをつくってみることにする。
「八戸市」「千灯明」といった名詞に含まれる漢数字を半角数字に変換しないようにするため、「PHPで形態素解析を行う」で紹介した「日本語形態素解析Webサービス」を利用する。

(2022年1月30日)PHP8対応,リファラ・チェック改良,https対応

目次

サンプル・プログラムの実行例

漢数字混じりのテキストを半角数字に統一検索

サンプル・プログラム

解説:準備

0044: //Yahoo! JAPAN Webサービス アプリケーションID
0045: //取得方法 https://www.pahoo.org/e-soul/webtech/php06/php06-01-02.shtm#Yahoo
0046: define('APPLICATION_ID', '*******************************************');

「[Yahoo! ウェブ検索;blue]」を利用するためには、Yahoo! JAPAN Webサービス アプリケーションID を取得する必要がある。その入手方法は「Yahoo!JAPAN デベロッパーネットワーク - WebAPIの登録方法」を参照されたい。
取得したIDは定数 APPLICATION_ID に格納する。

サンプル・プログラムの流れ

PHPで漢数字混じりのテキストを半角数字に統一する

解説:変換処理

0441: /**
0442:  * 漢数字を半角数字に変換する
0443:  * @param   string $kanji 漢数字
0444:  * @param   int $mode 出力書式/1=3桁カンマ区切り,2=漢字混じり, それ以外=ベタ打ち
0445:  * @return  string 半角数字
0446: */
0447: function kan2num($kanji$mode) {
0448:     //半角数字が混在していたら何もしない
0449:     if (preg_match('/[0-9]+/ui', $kanji) > 0)  return $kanji;
0450: 
0451:     //全角=半角対応表
0452:     $kan_num = array(
0453:         '' => 0, '' => 0,
0454:         '' => 1, '' => 1, '' => 1,
0455:         '' => 2, '' => 2, '' => 2,
0456:         '' => 3, '' => 3, '' => 3,
0457:         '' => 4, '' => 4,
0458:         '' => 5, '' => 5,
0459:         '' => 6, '' => 6,
0460:         '' => 7, '' => 7,
0461:         '' => 8, '' => 8,
0462:         '' => 9, '' => 9
0463:     );
0464:     //位取り
0465:     $kan_deci_sub = array('' => 10, '' => 100, '' => 1000);
0466:     $kan_deci = array('' => 10000, '' => 100000000, '' => 1000000000000, '' => 10000000000000000);
0467: 
0468:     //右側から解釈していく
0469:     $ll = mb_strlen($kanji);
0470:     $a = '';
0471:     $deci = 1;
0472:     $deci_sub = 1;
0473:     $m = 0;
0474:     $n = 0;
0475:     for ($pos = $ll - 1; $pos >= 0; $pos--) {
0476:         $c = mb_substr($kanji$pos, 1);
0477:         if (isset($kan_num[$c])) {
0478:             $a = $kan_num[$c] . $a;
0479:         } else if (isset($kan_deci_sub[$c])) {
0480:             if ($a != '')   $m = $m + $a * $deci_sub;
0481:             else if ($deci_sub != 1) $m = $m + $deci_sub;
0482:             $a = '';
0483:             $deci_sub = $kan_deci_sub[$c];
0484:         } else if (isset($kan_deci[$c])) {
0485:             if ($a != '')   $m = $m + $a * $deci_sub;
0486:             else if ($deci_sub != 1) $m = $m + $deci_sub;
0487:             $n = $m * $deci + $n;
0488:             $m = 0;
0489:             $a = '';
0490:             $deci_sub = 1;
0491:             $deci = $kan_deci[$c];
0492:         }
0493:     }
0494: 
0495:     $ss = '';
0496:     if (preg_match("/^(0+)/", $a$regs) != FALSE)  $ss = $regs[1];
0497:     if ($a != '')   $m = $m + $a * $deci_sub;
0498:     else if ($deci_sub != 1) $m = $m + $deci_sub;
0499:     $n = $m * $deci + $n;
0500: 
0501:     //出力書式に変換
0502:     if ($ss == '') {
0503:         $dest = $n;
0504:         switch ($mode) {
0505:             case 1:
0506:                 $dest = number_format($n);
0507:                 break;
0508:             case 2:
0509:                 $dest = int2kanji($n);
0510:                 break;
0511:             default:
0512:         }
0513:      } else if ($n == 0) {
0514:         $dest = $ss;
0515:     } else {
0516:         $dest = $ss . $n;
0517:     }
0518: 
0519:     return $dest;
0520: }

0522: /**
0523:  * 漢数字混じりのテキストを半角数字混じりテキストに変換する
0524:  * @param   string $str 漢数字混じりテキスト
0525:  * @param   string $func 形態素解析に使う関数
0526:  * @return  strin 変換後テキスト
0527: */
0528: function convert_kan2num($str$func) {
0529:     //数字パターン
0530:     $pat_kannum = '/^[01234567890123456789〇一二三四五六七八九十百千万億兆京]+$/ui';
0531: 
0532:     //中黒の小数点
0533:     $str = preg_replace_callback('/([0123456789〇一二三四五六七八九十百千万億兆京]+)・([01234567890123456789〇一二三四五六七八九十百千万億兆京]+)/iu',
0534:         function ($mat) {
0535:             return kan2num($mat[1], 3) . '.' . kan2num($mat[2], 3);
0536:         }, $str);
0537: 
0538:     //形態素に分解:Yahoo!JAPAN 日本語形態素解析Webサービス
0539:     $items = array();
0540:     $func($str$items);
0541: 
0542:     //結果を1単語ずつ取得
0543:     $dest = '';
0544:     $flag = FALSE;
0545:     $numstr = '';
0546:     $i = 0;
0547:     for ($i = 0; $i < count($items); $i++) {
0548:         if ($flag == FALSE) {
0549:             if (preg_match($pat_kannum$items[$i]['surface']) > 0) {
0550:                 $numstr = $items[$i]['surface'];
0551:                 $flag = TRUE;
0552:             } else {
0553:                 $dest .= $items[$i]['surface'];
0554:             }
0555:         } else {
0556:             if (preg_match($pat_kannum$items[$i]['surface']) > 0) {
0557:                 $numstr .= $items[$i]['surface'];
0558:                 $flag = TRUE;
0559:             } else if ($items[$i]['pos'] == '名詞') {
0560:                 $dest .= $numstr . $items[$i]['surface'];
0561:                 $numstr = '';
0562:                 $flag = FALSE;
0563:             } else {
0564:                 $dest .= kan2num($numstr, 2) . $items[$i]['surface'];
0565:                 $numstr = '';
0566:                 $flag = FALSE;
0567:             }
0568:         }
0569:     }
0570:     if ($flag == TRUE) {
0571:         $dest .= kan2num($numstr, 2);
0572:     }
0573: 
0574:     return $dest;
0575: }

入力テキストを改行で1行ずつに切り出し、ユーザー関数 convert_kan2num に渡し、漢数字混じりのテキストを半角数字に統一していく。

まず、テキストを日本語形態素解析Webサービスに渡し、形態素に分解する。後述するように、形態素の品詞を取得することが重要であるためだ。このWebAPIについては「PHPで形態素解析を行う」で紹介しているので、そちらを参考にしてほしい。

分解された形態素を結合して変数 $dest に代入していく過程で、漢数字を半角数字に変換する。
まず、その形態素が漢数字なら、漢数字をバッファリングする変数 $numstr に代入し、$flag をTRUEにする。$flag は前の形態素が漢数字かどうかを保持することになる。
その形態素が漢数字でなければ、半角数字変換後のテキストを格納する変数 $dest に追加する。

前の形態素が漢数字でなく、その形態素が漢数字なら、変数 $numstr に代入し、$flag をTRUEにする。
前の形態素が漢数字でなく、その形態素が漢数字でなければ、そこで漢数字が終了したものとみなし、ユーザー関数 kan2num を使って半角数字に変換する。ユーザー関数 kan2num は、「PHPで半角数字を漢数字にする」で作ったユーザー関数だ。

ここで注意が必要なのが、漢数字に続く形態素の品詞である。
例文で「千本」の部分は、「千(名詞)」と「本(接尾語)」に分解される。これはそのまま kan2num を使って半角数字「1000本」に変換すればいい。
一方、「千灯明」の部分は、「千(名詞)」と「灯明(名詞)」に分解される。これをそのまま半角数字に変換すると、「1000灯明」となってしまう。
そこで、漢数字の後に名詞が続く場合は、2つの形態素を合わせて1つの名詞とみなし、変換を行わないようにした。

参考サイト

(この項おわり)
header