PHPでCSVファイルを読み込む

(1/1)
前回述べたように、PHP は、ローカルマシンにあるファイルと、インターネット上(URL表記)のコンテンツを同等に扱うことができる。
そこで今回は、ローカルマシン上にある CSV ファイルを読み込み、HTML の表に変換するプログラムをつくる。

サンプル・プログラム

ヒアドキュメント

0019: $encode = INTERNAL_ENCODING;
0020: echo <<< EOD
0021: <!DOCTYPE html>
0022: <html lang="ja">
0023: <head>
0024: <meta charset="{$encode}">
0025: <title>CSV形式ファイルを HTML TABLE に変換する</title>
0026: <style type="text/css">
0027: table, td, th {
0028:     border-collapse: collapse;
0029:     border: 1px solid black;
0030: }
0031: </style>
0032: </head>
0033: <body>
0034: 
0035: EOD;

全体的に、入力と変換・表示を単一のプログラムファイルで賄うように工夫している。

入出力のための HTML タグが多いので、いちいち関数  echo  や  print  を使って出力するのは面倒である。そこで、PHP に用意されている「ヒアドキュメント」という仕組みを利用する。

たとえば、このサンプル・プログラムでは、"<<< EOD" の次の行から "EOD;" の直前行まで、そのままの形で関数  echo  に渡され、画面に表示される。
また、ヒアドキュメントの中には、PHP 変数や式を埋め込むことができる。

input type="file"タグ

0047: <form method="post" action="{$myself}" enctype="multipart/form-data">
0048: ファイル選択:<input name="file" type="file" size="80" />
0049: <input type="submit" name="submit" value="変換" />
0050: </form>

ローカルマシン上のファイルを選択するダイアログを表示させるためには、HTML の input type="file" タグを用いる。使い方は、他の input シリーズと同じである。
1つだけ注意したいのは、type="file" が HTTP サーバに送るデータは、指定されたファイルの中身も含まれているということである。もちろんバイナリ・ファイルも送ることができるので、エンコード・タイプを指定してやらなければならない。通常は、enctype="multipart/form-data"を指定する。type="file"の内容は POST METHOD で送られ、PHP 側では配列変数 $_FILE で受け取ることができる。

0064:     if ($_FILES['file']['size'] == 0) {
0065:         echo 'Error! - 指定したファイルが見あたりません';
0066:         exit(1);
0067:     }
0068:     $source_file = $_FILES['file']['tmp_name'];       //アップされたCSVファイル

送られたファイル名は、変数 $_FILES[名前]['tmp_name'] に格納される。名前は、input type="file"に付けた名前である。
また、変数 $_FILES[名前]['tmp_name'] に、送られたファイルのサイズが格納されるので、この値が 0 だったら、ファイル指定が間違っていたとしてエラーを表示する。

CSVファイルのオープン

0069:     if (($infp  = fopen($source_file, 'r')) == FALSE) {
0070:         echo 'Error! - サーバ・トラブルが発生しました';
0071:         exit(1);
0072:     }

ファイルの操作は Google news の時と同様、関数  fopen  でオープンし、while ループを繰り返す。
すでに POST されたファイルをオープンするので  fopen  エラーは発生しないはずだが、念のためエラーチェックを行っている。

ロケールの設定

0074:     //ロケール設定
0075:     $str = fgets($infp);
0076:     if (($enc = mb_detect_encoding($str)) == FALSE) {
0077:         echo 'Error! - 文字コードが判定できません';
0078:         exit(1);
0079:     }
0080:     //WindowsなどではFALSEでも正常に変換できる
0081:     if (setlocale(LC_ALL, 'ja_JP.' . $enc) == FALSE) {
0082:         $warning = '<li>Warning! - OSがロケール ' . 'ja_JP.' . $enc . ' に対応していません.</li>';
0083:     }
0084:     fseek($infp, 0); //読み込みポインタを先頭へ戻す

このあと、関数  fgetcsv  を使って CSV ファイルを読み込むのだが、その前に関数  setlocale  を使ってロケール情報を設定しておく。
ロケール情報とは、言語や国・地域ごとに異なる単位、記号、日付、通貨などの表記規則をあらわす情報だ。
PHP4 や Windows環境では指定しなくても大丈夫だが、それ以外の環境では関数  fgetcsv  で日本語が文字化けを起こすことがある。

OS によっては、シフト JIS に対応するロケールが用意されていなかったりする。
そこで、関数  setlocale  の戻り値が FALSE だったら、変数 $warning に警告メッセージを記録し、最後に表示するようにした。
Linux 系でロケールが用意されていない場合の対応については「PHP の fgetcsv()が setlocale してもダメな時にやるべきたった一つの事」(たけまるの日記)に詳しい。
この方法でも文字化けが起きる場合は、「PHP で CSV ファイルを読み込む(その2)」のプログラムをお試しいただきい。

CSVファイル読み込みと表形式への変換

0086:     //CSVファイルの読み込み
0087:     echo "<table style=\"border:1px solid;\">\n";
0088:     while (($csv = fgetcsv($infp, 1000, $delimiter)) !== FALSE) {
0089:         print "<tr>\n";
0090:         foreach ($csv as $key=>$val) {
0091:             if ($val == '')        $val ='&nbsp';  //デリミタ間にデータが存在しない場合は空白出力
0092:             $val = mb_convert_encoding($val, INTERNAL_ENCODING, 'auto');    //コード変換
0093:             echo "<td>{$val}</td>\n";
0094:         }
0095:         echo "</tr>\n";
0096:     }
0097:     echo "</table>";

ファイルから 1行を読み込む際、関数  fgets  の代わりに、関数  fgetcsv  を用いる。関数  fgetcsv  は、

fgetcsv (fopen で戻るファイル番号, 最大読み込みバイト数, 区切り文字)


のように使う。戻り値は、区切り文字で区切られた部分文字列からなる配列である。ループ終了条件は、関数  fgets  が失敗(ファイル・エンド)するまでである。

関数  fgets  で得られた配列(表の 1行に相当)を foreach で読み込み、<td> タグで囲みながら表示する。
この際、関数  mb_convert_encoding  により、入力ファイルが Shift JIS, EUC-JP, UTF-8 のいずれであっても、自動的に出力エンコード(UTF-8)に変換し、文字化けが起きないようにしている。
foreach が終わったら、<tr> タグで囲む。

なお、このプログラムは、すべての行に同じ数の区切り文字が存在している――列が結合していることはない――ことを前提としている。
ただし、「デリミタの間にデータが存在しない場合、HTML で空欄をいれたい」という要望があったので、取り出した文字が空である場合、空白文字(&nbsp;)を出力するようにした。

このプログラムはインターネット上の CSV 形式ファイルに対しても、まったく同じ手順で表形式に変換することができる。Mozilla 系ブラウザであれば、冒頭のテキストボックスに CSV ファイルの URL を入れるだけで変換してくれる。

参考サイト

(この項おわり)
header