PHPで半角数字を漢数字にする

(1/1)
パソコンの画面は、そのほとんどが横書きだが、縦書きスタイルで印刷するような場面がある。こんな時、スタイルを変更するだけでデータそのものは簡単に二次利用ができるのが電子ファイルの強みである。
しかし、スタイルとして縦書き用フォントを適用しても、半角数字を縦書きにすることはできない。組文字を使うなどの手はあるが、やはり漢数字で縦書きにした方が見やすい。
そこで今回は、半角数字を漢数字に変換する PHP プログラムを作ってみることにする。

サンプル・プログラム

変換ルール(1)通常記法

0098: /**
0099:  * 半角数字を漢数字に変換する(通常記法)
0100:  * @param string $instr 半角数字
0101:  *                          小数、負数に対応;指数表記には未対応
0102:  *                          カンマは無視
0103:  * @return string 漢数字
0104: */
0105: function num2kan_normal($instr) {
0106:     static $kantbl = array(0=>'', 1=>'', 2=>'', 3=>'', 4=>'', 5=>'', 6=>'', 7=>'', 8=>'', 9=>'', '.'=>'', '-'=>'');
0107: 
0108:     $outstr = '';
0109:     $len = strlen($instr);
0110:     for ($i = 0; $i < $len$i++) {
0111:         $ch = substr($instr$i, 1);
0112:         if ($ch == ',')    continue;        //カンマは無視
0113:         $outstr .= (isset($kantbl[$ch]) ? $kantbl[$ch] : '');
0114:     }
0115: 
0116:     return $outstr;
0117: }

新聞の西暦年号でよく見かける、「2008 年(平成 20 年)」を「二〇〇八年」に変換するルールを「通常記法」と呼ぶことにする。

この処理は、ユーザー関数 num2kan_normal が担当している。
プログラム的には難しいものではない。引数を 1 文字ずつ取り出して、対応する漢数字に置き換えているだけである。
置換テーブルは連想配列 $kantbl として用意し、変換元文字を添字に、変換後の文字を変数値としている。こういう時に連想配列は便利である。

変換ルール(2)位取り記法

0119: /**
0120:  * 半角数字を漢数字に変換する(位取り記法)
0121:  * @param string $instr 半角数字
0122:  *                          小数、負数に対応;指数表記には未対応
0123:  *                          カンマは削除
0124:  * @return string 漢数字
0125: */
0126: function num2kan_decimal($instr) {
0127:     static $kantbl1 = array(0=>'', 1=>'', 2=>'', 3=>'', 4=>'', 5=>'', 6=>'', 7=>'', 8=>'', 9=>'', '.'=>'', '-'=>'');
0128:     static $kantbl2 = array(0=>'', 1=>'', 2=>'', 3=>'');
0129:     static $kantbl3 = array(0=>'', 1=>'', 2=>'', 3=>'', 4=>'');
0130: 
0131:     $outstr = '';
0132:     $len = strlen($instr);
0133:     $m = (int)($len / 4);
0134:     //一、万、億、兆‥‥の繰り返し
0135:     for ($i = 0; $i <= $m$i++) {
0136:         $s2 = '';
0137:         //一、十、百、千の繰り返し
0138:         for ($j = 0; $j < 4; $j++) {
0139:             $pos = $len - $i * 4 - $j - 1;
0140:             if ($pos >= 0) {
0141:                 $ch  = substr($instr$pos, 1);
0142:                 if ($ch == ',')    continue;        //カンマは無視
0143:                 $ch1 = isset($kantbl1[$ch]) ? $kantbl1[$ch] : '';
0144:                 $ch2 = isset($kantbl2[$j])  ? $kantbl2[$j]  : '';
0145:                 //冒頭が「一」の場合の処理
0146:                 if ($ch1 != '') {
0147:                     if ($ch1 == '' && $ch2 != '')  $s2 = $ch2 . $s2;
0148:                     else                                $s2 = $ch1 . $ch2 . $s2;
0149:                 }
0150:             }
0151:         }
0152:         if ($s2 != '')  $outstr = $s2 . $kantbl3[$i] . $outstr;
0153:     }
0154: 
0155:     return $outstr;
0156: }

「1,234,567」を「百二十三万四千五百六十七」に変換するルールを「位取り記法」と呼ぶことにする。

漢数字の位取りは 4 桁毎である。すなわち、「一、十、百、千」の 4 桁で回るループと、その外側の「一、万、億、兆‥‥」の 2 つの組み合わせからなる。
さらに、一の位以外で「一」があらわれる場合は、これを無視する。「一百万」「一十億」とは記さないからである。
これをプログラムにしたのがユーザー関数 num2kan_decimal である。

正規表現による置換

通常記法の場合も、位取り記法の場合も、テキスト中にあらわれる半角数字を正規表現 "[/0-9.\.-]+/msu" を使って検出し、関数  preg_replace_callback  によって漢数字に置換している。
関数  preg_replace_callback  は、正規表現でマッチした部分文字列をユーザー関数(ここでは num2kan_normalnum2kan_decimal)に渡すことができる。

0229: 
0230: if (isButton('exec')) {
0231:     //位取記法
0232:     if ($mode['decimal'] != '') {
0233:         $dest = preg_replace_callback('/[0-9.\.\-\,]+/msu',
0234:                 create_function('$mt', 'return num2kan_decimal($mt[0]);'), $sour);
0235:     //通常記法
0236:     } else {
0237:         $dest = preg_replace_callback('/[0-9.\.\-\,]+/msu',

参考サイト

(この項おわり)
header