JIS X 0208 と漢字ROM

(1/1)
日本語ワードプロセッサ JW-10
日本語ワードプロセッサ JW-10
1978 年(昭和 53 年)9 月、東芝が初の日本語ワードプロセッサ(ワープロ)「JW-10」を発表した。重量220kg、価格は 630 万円という巨大なマシンであるが、かな漢字変換機能を搭載し、コンピュータでカタカナだけでなく漢字を利用できるようにした画期的な製品である。
この年の正月、漢字など 6,802 文字を符号化した JIS C 6226(のちの JIS X 0208)が制定され、いわゆる「全角文字」を扱う準備が整っていた。

ISO/IEC 2022 との関係

7 千文字近い文字を扱うとなると、8 ビット(256 文字)ではまったく足りない。そこで、ISO/IEC 202294 文字集合を利用することにした。つまり、第1 バイト・第2 バイトともに 0x21~0x7E を当てることで、94×94=8,836 文字のコード表を作ることにした。
実際には、1 区~94 区、1 点~94 点のマトリックスとしたものが JIS C 6226 である。下表に区点コード表の概念を示す。
JIS X 0208 区点コード表
JIS X 0208 区点コード表
たとえば、41 区 29 点には「表」という漢字、72 区 46 点には「萌」という漢字が割り当てられている。

JIS 第1水準・第2水準

JIS C 6226 の制定経緯については、1971 年(昭和 46 年)の「標準コード用漢字表(試案)」の段階から関わってきた国語学者の林大 (はやし おおき) へのインタビュー記事「78JIS誕生秘話」に詳しい。

JIS C 6226 の特徴は、漢字が JIS第1 水準と第2 水準の 2 つのグループに分かれていることだ。そして、第1 水準は音読み順、第2 水準は部首・画数順に並んでいる。

漢字ROM

1980 年代に入るとワープロが普及し、JIS C 6226 の文字イメージはデータの形で ROM に納められていた。当時は 16×16 ドットで 1 文字を描いており、1 文字あたり 16 ビット×16=32 バイトのデータ容量となる。94×94 文字全部を格納するとなると、32×94×94≒188K バイトが必要になる。いまなら、「たった 188K バイト」で済むだろうが、当時は 8K バイトの ROM がせいぜいだった。このため、記号・英数字・ギリシア文字・キリル文字・ JIS第1 水準までで、未定義の部分は省くことで、何とか 64K バイトに収めた。
漢字ROM(PC-8001mkII)
漢字 ROM(PC-8001mkII)
1981 年(昭和 56 年)に発売された NEC のパーソナルコンピュータ(パソコン)「PC-8801」では、漢字 ROM はオプションで 3 万円もした。
だが、漢字が利用できるようになり、ワープロやパソコンの需要が飛躍的に伸びると、1980 年代半ばには、多くのワープロ・パソコンに JIS第2 水準までの漢字 ROM が標準搭載されるようになる。

幽霊文字

JIS C 6226 の制定から 1 年後、漢字辞典にも収載がなく、略字体としても認められない 63 文字が含まれているという報告が出された。これは「幽霊文字」問題として、今日まで尾を引くことになる。
規格の制定過程を洗ったところ、幽霊文字の多くは『日本生命収容人名漢字』および『国土行政区画総覧使用漢字』に含まれている手書きの人名や地名であることがわかった。

その後も洗い出しが続けられたが。1997 年(平成 9 年)の時点で、なお下記の 12 文字が幽霊文字となっており、転記ミスではないかと考えられている。
区-点幽霊文字
52-55
52-63
54-12
55-27
57-43
58-83
59-91
60-57
74-12
74-57
79-64
81-50

参考サイト

(この項おわり)
header