PHPで系外惑星の特性解析

(1/1)
地球は特別な惑星か? 地球外生命に迫る系外惑星の科学』(成田憲保=著,講談社,2020年3月)を読んで、地球は特別な惑星か調べたくなった。2019年(平成31年)のノーベル物理学賞に関わるテーマでもある。そこで本書が引用している NASA Exoplanet Archive にアクセスしたところ、これまで発見されている4千を越える系外惑星のデータをダウンロードできることが分かった。

今回は、「PHPで相関係数と回帰直線を表示」で作成したプログラムを利用し、系外惑星のデータ解析を行い、相関関係や太陽系惑星との比較、散布図上に回帰曲線を描くプログラムを作ることにする。
また、プログラムを変更することなく、設定ファイルを変更することでデータ解析の項目やグラフ描画方式を変更できるようにする。

(2021年5月15日)PHP8対応,系外惑星データ更新,等

サンプル・プログラムの実行例

PHPで系外惑星の特性解析
描画したいグラフをラジオボタンで選択し、描画ボタンを押下すると、グラフを描画する。
系外惑星は青い点で、回帰直線は水色の直線で描画する。また、太陽系惑星は黄色でプロットしている。
後述するように、XY軸の項目、グラフのサイズや描画色などは、グラフ描画ルール(XML形式ファイル)を編集することで自在に変えられる。

もくじ

サンプル・プログラム

圧縮ファイルの内容
ExtrasolarPlanets.phpサンプル・プログラム本体
pahooStat.php統計に関わるクラス pahooStat。
使い方は「PHPで相関係数と回帰直線を表示」などを参照。include_path が通ったディレクトリに配置すること。
ExtrasolarPlanets.xmlグラフ描画ルール
ExtrasolarPlanets.xsdグラフ描画ルールのスキーマ
NASA_Exoplanet_Archive.csv系外惑星のデータ。
入手方法は「系外惑星データのダウンロード」参照。
SolarPlanets.csv.csv太陽系惑星のデータ

解説:系外惑星データのダウンロード

NASA Exoplanet Archive
まず、NASA Exoplanet Archive から系外惑星のデータをダウンロードする。

①をクリックすると、すべての系外惑星データを一覧表示する画面に移行する。
NASA Exoplanet Archive
次に「②Download Table」「③CSV Format」「④Download Table」の順に選ぶと、すべての系外惑星データをCSV形式ファイルでダウンロードする。
ダウンロードしたファイルは、本プログラムと同じフォルダに移動する。
NASA Exoplanet Archive
ダウンロードしたCSVファイルを開くと、冒頭350行目くらいまでは、タイトルと列の説明をしたコメント文で埋まっている。
NASA Exoplanet Archive
360行目前後に列のラベル名があり、それ以降最終行までがデータ部分になっている。

解説:太陽系惑星データ

太陽系惑星データ
圧縮ファイルに同梱している "SolarPlanets.csv" は、系外惑星と比較するときに使う太陽系惑星のデータである。
冒頭2行はコメント。コメント行は冒頭が "#" であること。自由に増やすことができる。
冒頭行の次の行(このファイルでは3行目)が列のラベル名である。ラベル名は、先にダウンロードした系外惑星のラベル名と一致していること。このラベル名を参照して散布図を作るため。

最初のラベル "pl_name" は必須。散布図にプロットするとき、このデータの1行目を文字として表示するようにしている。叔父は、日本語、英語、記号のいずれでも可。

データの内容や、データ行数は自由に変更できる。
冥王星や小惑星を加えてもいいし、仮想の惑星を追加することもできる。

解説:グラフ描画ルール

データ解析の項目やグラフ描画色などは、同梱しているXMLファイル "ExtrasolarPlanets.xml" で定義している。定義内容は下図の通りで、内容はスキーマ・ファイルで定義した範囲内で自由に追加・変更できる。
グラフ描画ルール(xml) ExtrasolarPlanets graph_width グラフの幅(ピクセル) graph_height グラフの高さ(ピクセル) extra:系外惑星プロット・パラメータ  color カラー size マーカーサイズ solar:太陽系惑星プロット・パラメータ  color カラー size マーカーサイズ slope:回帰直線  color カラー width 太さ rule:グラフ描画ルール(複数)  id グラフID(ユニークキー) columns プロットするカラム名(pl_name固定) columns プロットするカラム名(X軸) columns プロットするカラム名(Y軸) title:グラフ・タイトル  label タイトル・ラベル size フォント・サイズ color フォント・カラー correlation:相関係数表示  size フォント・サイズ color フォント・カラー xaxis:X軸パラメータ  label 軸ラベル log 対数軸 true|false format 数値フォーマット min 最小値 max 最大値 yaxis:Y軸パラメータ  label 軸ラベル log 対数軸 true|false format 数値フォーマット min 最小値 max 最大値
たとえば、系外惑星のプロット色を緑したければ ExtrasolarPlanets->extra->color を green に変更して保存する。Webカラー名(英語)または#ではじまるRGBコードを指定できる。(カラー指定については、他所も同様)

データ解析の項目セットは、ExtrasolarPlanets->rule である。
セットは自由に追加できるが、かならず id をユニーク番号(正の整数)にすること。

グラフ描画ルールはXMLファイルにしているが、異常なパラメータによってプログラムが想定外の動作をしないよう、スキーマ "ExtrasolarPlanets.xsd" を使って記述内容をチェックする。スキーマ・ファイルの内容は変更しないこと。チェック方法は後述する。

解説:プログラムの準備

グラフ描画には jQueryプラグイン「jqPlot」を利用する。
jqPlot の入手方法、インストール方法については、「PHPでNHK政治意識月例調査をグラフ表示」を参照してほしい。
ダウンロードしたファイル群を配置したフォルダを、定数 JQPLOT に定義する。

相関関係、回帰直線を計算するために、「PHPで相関係数と回帰直線を表示」で作成したクラスファイル "pahooStat.php" を利用する。組み込み関数  require_once  を使って読めるディレクトリに配置する。ディレクトリは、設定ファイル php.ini に記述されているオプション設定 include_path に設定しておく。

ダウンロードした系外惑星のデータは定数 FILE_EXOPLANET に、太陽系惑星データは FILE_SOLARPLANET に、設定ファイルは FILE_RULE に、スキーマは FILE_RULE_SCHEMA に、設定ファイルは FILE_RULE に、それぞれ定義しておく。

これらの定数は自由に変更できる。

0034: //jqPlotのあるフォルダ
0035: define('JQPLOT', '../../../../common/jqplot/');
0036: 
0037: //太陽系惑星のデータ
0038: define('FILE_SOLARPLANET', 'SolarPlanets.csv');
0039: 
0040: //系外惑星のデータ
0041: // https://exoplanetarchive.ipac.caltech.edu/ からダウンロード
0042: define('FILE_EXOPLANET', 'NASA_Exoplanet_Archive.csv');
0043: 
0044: //CSVデリミタ
0045: define('CSV_DELIMITER', ',');
0046: 
0047: //グラフ描画ルール
0048: define('FILE_RULE', 'ExtrasolarPlanets.xml');
0049: define('FILE_RULE_SCHEMA', 'ExtrasolarPlanets.xsd');
0050: 
0051: //表示幅(デフォルト値)
0052: define('WIDTH', 600);
0053: 
0054: //散布図
0055: define('PLOT_SCATTER', 'plotScatter');
0056: 
0057: //統計に関わるクラス:include_pathが通ったディレクトリに配置
0058: require_once('pahooStat.php');

解説:グラフ描画ルールを読み込む

0258: /**
0259:  * グラフ描画ルールを読み込む
0260:  * @param string $xml描画ルール・ファイル名
0261:  * @param string $xsdスキーマ・ファイル名
0262:  * @param string $errmsgエラーメッセージ格納用
0263:  * @return obj XMLオブジェクト/FALSE:エラー発生
0264: */
0265: function readRuleFile($xml$xsd, &$errmsg) {
0266:     //ファイル存在チェック
0267:     if (! file_exists($xml)) {
0268:         $errmsg = 'エラー:グラフ描画ルール "' . $xml . '" がありません.';
0269:         return FALSE;
0270:     }
0271:     if (! file_exists($xsd)) {
0272:         $errmsg = 'エラー:スキーマ・ファイル "' . $xsd . '" がありません.';
0273:         return FALSE;
0274:     }
0275:     //スキーマ検査
0276:     $obj = new DOMDocument(); 
0277:     $obj->load($xml);
0278:     if (! $obj->schemaValidate($xsd)) { 
0279:         $errmsg = 'グラフ描画ルールのエラー:'.
0280:         $errmsg .= FLAG_RELEASE ? '' : libxml_display_error();
0281:         $obj = FALSE;
0282:     //XMLファイル読み込み
0283:     } else { 
0284:         $errmsg = '';
0285:         $obj = @simplexml_load_file($xml);
0286:         if ($obj == FALSE) {
0287:             $errmsg = 'エラー:グラフ描画ルール "' . $xml . '" がありません.';
0288:             $obj = FALSE;
0289:         }
0290:     }
0291:     return $obj;
0292: }

グラフ描画ルールを読み込むユーザー関数が readRuleFile である。

まず、グラフ描画ルール・ファイルと対応するスキーマ・ファイルが存在するかどうかをチェックする。

次に、スキーマ・ファイルを使ってバリデーションを行う。
まず、XMLファイルを [DOMDocumentとして load] し、このオブジェクトに対して schemaValidate メソッドをかける。
schemaValidate メソッドは成否判定のみ返すので、失敗した場合は、ユーザー関数 libxml_display_error を使ってバリデーション・エラーの内容を取り出す。
成功した場合は、続けて  simplexml_load_file  を使って情報を取り出す。

0212: /**
0213:  *  LibXMLのエラー情報取得(下請け)
0214:  * @param object $error LibXMLエラー・オジェクト
0215:  * @return stringエラー・メッセージ
0216: */
0217: function _libxml_display_error($error) {
0218:     switch ($error->level) {
0219:         case LIBXML_ERR_WARNING:
0220:             $res = "Warning {$error->code}: ";
0221:             break
0222:         case LIBXML_ERR_ERROR:
0223:             $res = "Error {$error->code}: ";
0224:             break;
0225:         case LIBXML_ERR_FATAL:
0226:             $res = "Fatal Error {$error->code}: ";
0227:             break;
0228:     }
0229:     $res .= trim($error->message);
0230: 
0231:     if ($error->file) {
0232:         $res .= " in {$error->file}";
0233:     }
0234: 
0235:     $res .= " on line {$error->line}";
0236: 
0237:     return $res;
0238: }

0240: /**
0241:  *  LibXMLのエラー情報取得
0242:  * @return stringエラー・メッセージ
0243: */
0244: function libxml_display_error() {
0245:     $errors = libxml_get_errors();
0246:     $res = '';
0247:     foreach ($errors as $error) {
0248:         $res .= _libxml_display_error($error);
0249:         $res .= "\n";
0250:     }
0251:     libxml_clear_errors();
0252: 
0253:     return $res;
0254: }

0256: if (! FLAG_RELEASE)      libxml_use_internal_errors(TRUE);
0257: 

バリデーション・エラーは、 LibXML のエラーとして蓄積されていることから、ユーザー関数 libxml_display_error の中で組み込み関数  libxml_get_errors  を使ってエラーを取り出す。
エラー情報は配列として格納されているので、その1つ1つの要素を取り出して、メッセージが読みやすいよう、ユーザー関数 _libxml_display_error によって加工する。
最後に、組み込み関数  libxml_clear_errors  を呼び出してエラー情報をクリアしておく。

なお、サーバの設定によっては LibXML のエラーを返さないことがあるので、定数 FLAG_RELEASE がfalse(デバッグ時)には、 libxml_use_internal_errors  を使ってエラーを返すように設定しておく。

XML Schema については、「XMLマスターポイントレッスン ~ ベーシック編 ~」にコンパクトにまとまっているので、ご覧いただきたい。
今回のグラフ描画ルールのように、プログラムに制御に関わるパラメータをXMLに入れた場合、想定外のパラメータが入っているとプログラムが予期しない動作をするかもしれない。そこでXMLのバリデーションチェックが必要となる。今回のプログラム開発を通じ、XML Schema がバリデーションチェックのための便利な仕組みとなることが分かった。

解説:データ・ファイルを読み込む

0294: /**
0295:  * データ・ファイルを読み込む
0296:  * @param string $fname   入力ファイル名
0297:  * @param array  $columns $itemsに格納したいカラム名(配列)
0298:  * @param array  $items   データを格納する配列
0299:  * @return intデータ件数/FALSE
0300: */
0301: function readDataFile($fname$columns, &$items) {
0302:     $infp = fopen($fname, 'r');
0303:     if (! $infpreturn FALSE;
0304: 
0305:     $labels = array();       //カラム明格納用
0306:     $cnt = 0;
0307:     while (! feof($infp)) {
0308:         $str = trim(fgets($infp, 10000));
0309:         if ($str == '')        continue;                    //空行はスキップ
0310:         if ($str == FALSE)  break;
0311:         $str = mb_convert_encoding($strINTERNAL_ENCODING, 'auto');
0312:         if (preg_match('/^#/iu', $str) > 0)   continue;    //コメットはスキップ
0313:         $arr = mb_split(CSV_DELIMITER$str);
0314:         foreach ($arr as $key=>$val) {
0315:             //カラム名
0316:             if ($cnt == 0) {
0317:                 $labels[$key] = $val;
0318:             //データ部
0319:             } else {
0320:                 foreach ($columns as $val2) {
0321:                     if ((string)$val2 == $labels[$key]) {
0322:                         $items[$cnt][(string)$val2] = $val;
0323:                     }
0324:                 }
0325:             }
0326:         }
0327:         $cnt++;
0328:     }
0329:     fclose($infp);
0330: 
0331:     //すべてのカラムが揃っていないデータは破棄
0332:     foreach ($items as $key1=>$arr) {
0333:         foreach ($arr as $key2=>$val) {
0334:             if ($val == '') {
0335:                 unset($items[$key1]);
0336:                 continue;
0337:             }
0338:         }
0339:     }
0340: 
0341:     return ($cnt - 1);
0342: }

系外惑星データや太陽系枠データを読み込むユーザー関数が readDataFile である。

散布図を描くために必要になるラベル名だけ配列 $items に読み込む。
ラベル名は、$columns に配列として与える。
読み込み中にコメントをスキップし、文字コードは  mb_convert_encoding  を使って本プログラムのエンコード方式(定数 INTERNAL_ENCODING で定義)に変換している。

$columns で指定した全てのカラム・データが揃っていないデータセットは、散布図絵を描くのに使えないので、配列から取り除く。

解説:散布図

0364: /**
0365:  * jqPlot用のスクリプト:散布図
0366:  * @param string $name  オブジェクト名
0367:  * @param object $xml   グラフ描画ルール(全体)
0368:  * @param object $rule  グラフ描画ルール(グラフID)
0369:  * @param int    $width, $heightグラフの幅・高さ(ピクセル)
0370:  * @param array  $x, $y系外惑星のデータ配列
0371:  * @param array  $x2, $y2, $z3太陽系惑星のデータ配列
0372:  * @return stringスクリプト/FALSE
0373: */
0374: function plotScatter($name$xml$rule$x$y$x2$y2$z2) {
0375:     //グラフ描画ルール(全体)
0376:     $width  = (int)$xml->graph_width;
0377:     $height = (int)$xml->graph_height;
0378:     $ypadding = 0 - (int)((int)$xml->solar->size / 2);
0379: 
0380:     //相関係数、回帰直線
0381:     $pst = new pahooStat();
0382:     $r = $pst->correl($x$y);                //相関係数
0383:     if ($pst->iserror()) return FALSE;
0384:     $st = $pst->correl_strength($r);
0385:     $r = sprintf('%4.3f (%s)', $r$st);
0386:     list($a$b) = $pst->slope($x$y);       //回帰係数、切片
0387:     if ($pst->iserror()) return FALSE;
0388:     $x0 = min($x);
0389:     $y0 = $a * $x0 + $b;
0390:     $x1 = max($x);
0391:     $y1 = $a * $x1 + $b;
0392:     $pst = NULL;
0393: 
0394:     //系列の生成:系外惑星
0395:     $series = '';
0396:     $n = min(count($x), count($y));
0397:     for ($i = 0; $i < $n$i++) {
0398:         if (($x[$i] >= $rule->xaxis->min) && ($x[$i] <= $rule->xaxis->max) && 
0399:             ($y[$i] >= $rule->yaxis->min) && ($y[$i] <= $rule->yaxis->max)) {
0400:             $series .= sprintf('[%f, %f], ', $x[$i]$y[$i]);
0401:         }
0402:     }
0403:     //系列の生成:太陽系の惑星
0404:     $series2 = '';
0405:     $n = min(count($x2), count($y2));
0406:     for ($i = 0; $i < $n$i++) {
0407:         if (($x2[$i] >= $rule->xaxis->min) && ($x2[$i] <= $rule->xaxis->max) && 
0408:             ($y2[$i] >= $rule->yaxis->min) && ($y2[$i] <= $rule->yaxis->max)) {
0409:             $series2 .= sprintf("[%f, %f, '%s'], ", $x2[$i]$y2[$i]$z2[$i]);
0410:         }
0411:     }
0412: 
0413:     //対数軸にするかどうか
0414:     $rendere_xaxis = ($rule->xaxis->log == 'true') ? 'renderer: $.jqplot.LogAxisRenderer,' : '';
0415:     $rendere_yaxis = ($rule->yaxis->log == 'true') ? 'renderer: $.jqplot.LogAxisRenderer,' : '';
0416: 
0417:     //jqplot用スクリプト生成
0418: $js =<<< EOT
0419: <script>
0420: jQuery(function() {
0421:     jQuery.jqplot('{$name}',
0422:     [
0423:         [ {$series} ],
0424:         [ {$series2} ]
0425:     ],
0426:     {
0427:         //タイトル
0428:         title: {
0429:             text: '<span style="font-size:{$rule->title->size}; color:{$rule->title->color};">{$rule->title->label}</span><br /><span style="font-size:{$rule->correlation->size}; color:{$rule->correlation->color};">相関係数 = {$r}</span>',
0430:             show: true,
0431:             fontSize: '20px',
0432:             textAlign: 'center',
0433:             textColor: 'black'
0434:         },
0435:         series:[
0436:         //散布図:系外惑星
0437:         {
0438:             showLine: false,
0439:             color : '{$xml->extra->color}',
0440:             markerOptions: { size: '{$xml->extra->size}' }
0441:         },
0442:         //散布図:太陽系惑星
0443:         {
0444:             showLine: false,
0445:             color : '{$xml->solar->color}',
0446:             markerOptions: { size: '{$xml->solar->size}' },
0447:             pointLabels: {
0448:                 show: true,
0449:                 location: 'n',
0450:                 ypadding: '{$ypadding}',
0451:             }
0452:         }
0453:         ],
0454:         //回帰直線
0455:         canvasOverlay: {
0456:             show: true,
0457:             objects: [
0458:             {
0459:                 line: {
0460:                     lineWidth: '{$xml->slope->width}',
0461:                     color: '{$xml->slope->color}',
0462:                     shadow: false,
0463:                     lineCap: 'round',
0464:                     start: [ {$x0}, {$y0} ],
0465:                     stop:  [ {$x1}, {$y1} ]
0466:                 }
0467:             }]
0468:         },
0469:         //軸
0470:         axes: {
0471:             xaxis: {
0472:                 {$rendere_xaxis}
0473:                 label: '{$rule->xaxis->label}',
0474:                 tickOptions: { formatString: "{$rule->xaxis->format}" }
0475:             },
0476:             yaxis: {
0477:                 {$rendere_yaxis}
0478:                 label: '{$rule->yaxis->label}',
0479:                 tickOptions: { formatString: "{$rule->yaxis->format}" }
0480:             }
0481:         }
0482:     }
0483:     );
0484: });
0485: </script>
0486: <div id="{$name}" style="width:{$width}px; height:{$height}px;"></div>
0487: 
0488: EOT;
0489: 
0490:     return $js;
0491: }

配列に格納したデータを、jqPlotスクリプトへ展開し散布図とする処理は、ユーザー関数 plotScatter で行う。

回帰直線は、X軸の最小値を始点とし、同じく最大値を終点とする直線で、jqPlotプラグインの「jqplot.dateAxisRenderer.js」(グラフに描き加える線)で行う。

参考サイト

(この項おわり)
header