PHPでテキスト中の和暦・西暦年号を統一する(その2)

(1/1)
PHPでテキスト中の和暦・西暦年号を統一する」では、明治から平成までの近現代に限って西暦を元号に変換できるようにした。
今回は、飛鳥時代の最初の元号「大化」(645年)まで遡って変換できるようにし、さらに、改元の月日(たとえば平成なら1989年1月8日)までチェックして変換するPHPプログラムをつくることにする。

なお、「1000年後の世界」のように、年号なのかテキストなのか、パターンだけでは判別しにくいコンテクストがあるため、「\1000年後の世界」のように年号の前にエスケープ文字を付けることで変換を回避するようにした。

(2021年7月25日)PHP8対応,リファラ・チェック改良

目次

サンプル・プログラムの実行例

PHPでテキスト中の和暦・西暦年号を統一する(その2)

サンプル・プログラムのダウンロード

圧縮ファイルの内容
nengo2.phpサンプル・プログラム本体
pahooNormalizeText.phpテキスト正規化クラス pahooNormalizeText。
テキスト正規化クラスの使い方は「PHPで日本語テキストを正規化」を参照ください。include_pathが通ったディレクトリに配置してください。

解説:準備

0037: //pahooNormalizeTextクラス;各自の環境に合わせて変更すること
0038: require_once('pahooNormalizeText.php');

本プログラムは、クラス・ファイル "pahooNormalizeText.php" を利用する。
PHPのクラスについては、「PHPでクラスを使ってテキストの読みやすさを調べる」を参照のこと。

クラス・ファイルの読み込みは組み込み関数  require_once  を用いて行う。パス名は絶対値で指定するか、事前に "php.ini" の include_path で指定されるパスにクラス・ファイルを配置する。

解説:西暦⇔元号変換テーブル

0848: //元号の開始日の西暦yyyymmdd => 元号
0849: //1581年以前はユリウス暦,1582年以降はグレゴリオ暦
0850: var $TABLE_AD_ERA2 = array(
0851: //飛鳥時代
0852: '06450717' => '大化',
0853: '06500322' => '白雉',
0854: '06541124' => '',         //空白期間
0855: '06860814' => '朱鳥',
0856: '06861001' => '',         //空白期間
0857: '07010503' => '大宝',
0858: '07040616' => '慶雲',
0859: '07080207' => '和銅',
0860: //奈良時代
0861: '07151003' => '霊亀',
0862: '07171224' => '養老',
0863: '07240303' => '神亀',

pahooNormalizeTextクラスには、西暦⇔元号変換テーブルを記載している。
添え字は yyyymmdd の8桁で、対になる値(元号)が開始(改元)した西暦年月日(1581年以前はユリウス暦、1582年以降はグレゴリオ暦)を示す。Wikipediaの「元号一覧 (日本)」を参考にした。
元号が空文字になっている期間は元号が定められなかった部分で、元号変換の対象にはならない。

近現代とそれ以前とで変換範囲を分けられるようにするため、テーブルは2種類ある。
なお、南北朝時代については元号が重複するため、南朝の元号を採用した。北朝の元号はコメントアウトしてある。

変換範囲を格納する変数は $MODE_ERA である。

1106: '18610329' => '文久',
1107: '18640327' => '元治',
1108: '18650501' => '慶応',
1109: '18680125' => ''
1110: );

2019年5月1日からの新元号にも対応している。

解説:文字列が元号かどうか判断

1143: /**
1144:  * 文字列が元号かどうか判断する
1145:  * @param   string $str文字列
1146:  * @return  bool TRUE/FALSE
1147: */
1148: function isera($str) {
1149:     foreach ($this->TABLE_AD_ERA2 as $era) {
1150:         if ($era != '') {
1151:             $pat = '/' . $era . '/ui';
1152:             if (preg_match($pat$str) > 0) return TRUE;
1153:         }
1154:     }
1155:     foreach ($this->TABLE_AD_ERA1 as $era) {
1156:         if ($era != '') {
1157:             $pat = '/' . $era . '/ui';
1158:             if (preg_match($pat$str) > 0) return TRUE;
1159:         }
1160:     }
1161:     return FALSE;
1162: }

元号から西暦に変換する場合、年号の前に並ぶ文字列が元号かどうかを判断するためのユーザー関数が isera である。
前述の、西暦⇔元号変換テーブルを総なめして判断している。

解説:西暦を元号に変換

1164: /**
1165:  * 西暦を元号に変換する
1166:  * @param   string $prefix年の前に付いている文字列
1167:  * @param   int $year  年
1168:  * @param   int $month月(省略可能)
1169:  * @param   int $day   日(省略可能)
1170:  * @return  string元号(+月日)
1171: */
1172: function ad2era($prefix$year$month=0, $day=0) {
1173:     if ($prefix != $this->ESCYEAR) {
1174:         $yyyymmdd = sprintf('%04d%02d%02d', $year$month$day);
1175:         $dest = $prefix . $year . '';
1176:         $flag = FALSE;
1177: 
1178:         if (! $this->isera($prefix)) {
1179:             if (!$flag && ($this->MODE_ERA >= 2)) {
1180:                 $yy   = '';
1181:                 $last = '';
1182:                 foreach ($this->TABLE_AD_ERA2 as $start=>$era) {
1183:                     if ($yyyymmdd >= $start) {
1184:                         $yy   = $year - substr($start, 0, 4);
1185:                         $last = $era;
1186:                     } else if ($last != '') {
1187:                         $str  = ($yy == 0) ? '' : (string)($yy + 1);
1188:                         $dest = $prefix . $last . $str . '';
1189:                         $flag = TRUE;
1190:                         break;
1191:                     }
1192:                 }
1193:             }
1194:             if (!$flag && ($this->MODE_ERA >= 1)) {
1195:                 $yy   = '';
1196:                 $last = '';
1197:                 foreach ($this->TABLE_AD_ERA1 as $start=>$era) {
1198:                     if ($yyyymmdd >= $start) {
1199:                         $yy = ($era == '') ? $year - 1 : $year - substr($start, 0, 4);
1200:                         $last = $era;
1201:                     } else if ($last != '') {
1202:                         $str  = ($yy == 0) ? '' : (string)($yy + 1);
1203:                         $dest = $prefix . $last . $str . '';
1204:                         $flag = TRUE;
1205:                         break;
1206:                     }
1207:                 }
1208:             }
1209:         }
1210:     } else {
1211:         $dest = $year . '';
1212:     }
1213:     if ($month > 0) $dest .= $month . '';
1214:     if ($day   > 0) $dest .= $day   . '';
1215: 
1216:     return $dest;
1217: }

西暦を元号に変換するユーザー関数が ad2era である。

まず、年号の前の文字 $prefix が [$ESCYEAR] に定義したエスケープ文字かどうかをチェックする(デフォルトでエスケープ文字は \ になっている)。エスケープ文字があれば、変換は行わない。

前述の isera を使い、もし年号の前に接する文字列 $prefix が元号にマッチすれば、それは変換しない。

引数 $month$da は省略可能だが、値が入っている場合には、前述の、西暦⇔元号変換テーブルから改元の月日まで比較し厳密に変換を行う。
また、元号の「1年」は「元年」に置換するようにしている。

解説:元号を西暦に変換

1219: /**
1220:  * 元号を西暦に変換する
1221:  * @param   string $prefix年の前に付いている文字列(元号)
1222:  * @param   int $year  年
1223:  * @param   int $month月(省略可能)
1224:  * @param   int $day   日(省略可能)
1225:  * @return  string 西暦(+月日)
1226: */
1227: function era2ad($prefix$year$month=0, $day=0) {
1228:     if ($prefix != $this->ESCYEAR) {
1229:         $dest = $prefix . $year . '';
1230:         if ($this->MODE_ERA >= 2) {
1231:             foreach ($this->TABLE_AD_ERA2 as $start=>$era) {
1232:                 if (($era != '') && ($era == $prefix)) {
1233:                     $dest = $year + substr($start, 0, 4) - 1;
1234:                     $dest .= '';
1235:                     break;
1236:                 }
1237:             }
1238:         }
1239:         if ($this->MODE_ERA >= 1) {
1240:             foreach ($this->TABLE_AD_ERA1 as $start=>$era) {
1241:                 if (($era != '') && ($era == $prefix)) {
1242:                     $dest = $year + substr($start, 0, 4) - 1;
1243:                     $dest .= '';
1244:                     break;
1245:                 }
1246:             }
1247:         }
1248:     } else {
1249:         $dest = $year . '';
1250:     }
1251:     if ($month > 0)     $dest .= $month . '';
1252:     if ($day   > 0)     $dest .= $day   . '';
1253: 
1254:     return $dest;
1255: }

逆に、元号を西暦に変換するユーザー関数は era2ad である。
処理としては ad2era と似ているが、残念ながら、現時点では改元の月日は西暦で計算している。正確を期すならば、旧暦月日を西暦月日に変換してから境界判断すべきである。

解説:西暦を和暦へ変換

0252: /**
0253:  * 和暦に統一
0254:  * @param   string $sourオリジナル・テキスト
0255:  * @return  string変換後テキスト
0256: */
0257: function wareki($sour) {
0258:     $pat = '/([^0-9〇一二三四五六七八九十百千万あ-ん、-〟!-¥]{0,4})\s*([0-9元〇一二三四五六七八九十百千万]+)年\s*([0-9〇一二三四五六七八九十]*)月?([0-9〇一二三四五六七八九十]*)日?/msui';
0259: 
0260:     return preg_replace_callback($pat, 'seireki2wareki', $sour);
0261: }

ユーザー関数 wareki は、任意の文字列中の西暦を和暦へ変換する。
正規表現を利用し、テキスト中の元号表記にパターンマッチさせる。
元号の属性は、数字・漢数字・平仮名は含まない4文字以下の文字列であることから、まず [(^0-9〇一二三四五六七八九十百千万あ-ん、-〟!-¥]{0,4}) によって元号部分にマッチさせる。
続く年は、算用数字または漢数字である。月・日も同様だが、この2つの記載は無くてもマッチするようにしている。

パターンマッチと同時に年号の置換処理を行うために、組み込み関数  preg_replace_callback  を利用した。実際に置換を行うのはユーザー関数 seireki2wareki である。

ユーザー関数 seireki2wareki では、「PHPで漢数字を半角数字に変換する(整数版)」で作成した漢数字を数値に変換するユーザー関数 kan2num を呼び出して、漢数字を整数に変換しておく。
そして、前述の ad2era を使って元号に変換する。

解説:和暦を西暦へ変換

0288: /**
0289:  * 西暦に統一
0290:  * @param   string $sourオリジナル・テキスト
0291:  * @return  string変換後テキスト
0292: */
0293: function seireki($sour) {
0294:     $pat = '/([^0-9〇一二三四五六七八九十百千万あ-ん、-〟!-¥]{0,4})\s*([0-9〇元一二三四五六七八九十百千万]+)年\s*([0-9〇一二三四五六七八九十]*)月?([0-9〇一二三四五六七八九十]*)日?/msui';
0295: 
0296:     return preg_replace_callback($pat, 'wareki2seireki', $sour);
0297: }

0263: /**
0264:  * 和暦→西暦変換(漢数字対応)
0265:  * @param   array $arr和暦年月日(漢数字可能)
0266:  * @return  string 西暦
0267: */
0268: function wareki2seireki($arr) {
0269:     global $Mode_era;
0270: 
0271:     $pnt = new pahooNormalizeText(); //pahooNormalizeTextクラス
0272:     $pnt->set_mode_era($Mode_era);
0273: 
0274:     $prefix = isset($arr[1]) ? $arr[1] : '';
0275: 
0276:     if (isset($arr[2])) {
0277:         if ($arr[2] == '')    $arr[2] = 1;
0278:     }
0279:     $year   = isset($arr[2]) ? $pnt->kan2num($arr[2], 0) : 0;
0280:     $month  = isset($arr[3]) ? $pnt->kan2num($arr[3], 0) : 0;
0281:     $day    = isset($arr[4]) ? $pnt->kan2num($arr[4], 0) : 0;
0282:     $ad     = $pnt->era2ad($prefix$year$month$day);
0283: 
0284:     $pnt = NULL;
0285:     return $ad;
0286: }

ユーザー関数 seireki は、任意の文字列中の和暦を西暦へ変換する。
年月日を取り出すためのパターンは前述の wareki と同じである。

年号の置換処理を行うために、同様に  preg_replace_callback  を利用し、ユーザー関数 wareki2seireki を呼び出す。
wareki2seireki のロジックも、前述の seireki2wareki とほぼ同じである。

解説:西暦・和暦混合変換

0313: /**
0314:  * 西暦(和暦)混合変換
0315:  * @param   string $sourオリジナル・テキスト
0316:  * @param   int    $mode変換範囲
0317:  * @return  string変換後テキスト
0318: */
0319: function mixture($sour) {
0320:     $sour = wareki($sour);       //和暦に統一
0321: 
0322:     $pat = '/([^0-9〇一二三四五六七八九十百千万あ-ん、-〟!-¥]{0,4})([0-9元]+)年/ui';
0323: 
0324:     return preg_replace_callback($pat, 'seireki2mix', $sour);
0325: }

0299: /**
0300:  * 和暦→西暦(和暦)変換
0301:  * @param   array $arr元号,年
0302:  * @return  string 西暦(和暦)
0303: */
0304: function seireki2mix($arr) {
0305:     $ad = wareki2seireki($arr);
0306:     $wareki = $arr[1] . $arr[2] . '';
0307: 
0308:     return ($ad != $wareki) ? $ad . '' . $wareki . '' : $ad;
0309: 
0310:     return $ad . '' . $arr[1] . $arr[2] . '年)';
0311: }

ユーザー関数 mixture では、西暦・和暦混合変換を行う。
まず、ユーザー関数 wareki を使って、入力テキスト中の年号を西暦に統一する。

年号の置換処理を行うために、同様に  preg_replace_callback  を利用し、ユーザー関数 seireki2mix を呼び出す。

ユーザー関数 seireki2mix では、前述の wareki2seireki を呼び出して西暦に変換する。
ここで、引数と変換結果が一致しなければ、西暦・和暦を結合した文字列を返す。一致していれば変換せず返す。

質疑応答

【連絡】
「テキスト中の和暦・西暦年号を変換(その2)」を興味深く拝見しました。

次のの文章を変換してみました。
「ペンの日:1935年11月26日、日本ペンクラブ創立。同クラブが1965年に制定」。
設定を「和暦に統一」もしくは、「西暦(和暦)」にすると、「ペンの日:」の「日:」が消えてしまいました。
月・日も変換の際の対象になっている高度なスクリプトのようで、その影響かとも思われますが、一応気が付きましたので報告します。
【回答】
ご指摘のように、関数 wareki の置換表現に問題があることを確認しました。ありがとうございます。
他の置換表現も見直し、2017年12月2日にバージョンアップしました。ご確認下さい。

参考サイト

(この項おわり)
header