ISO/IEC 2022 との関係
7千文字近い文字を扱うとなると、8ビット(256文字)ではまったく足りない。そこで、ISO/IEC 2022 の 94文字集合を利用することにした。つまり、第1バイト・第2バイトともに 0x21~0x7E を当てることで、94×94=8,836文字のコード表を作ることにした。
実際には、1区~94区、1点~94点のマトリックスとしたものが JIS C 6226 である。下表に区点コード表の概念を示す。
実際には、1区~94区、1点~94点のマトリックスとしたものが JIS C 6226 である。下表に区点コード表の概念を示す。
たとえば、41区29点には「表」という漢字、72区46点には「萌」という漢字が割り当てられている。
JIS 第1水準・第2水準
JIS C 6226 の制定経緯については、1971年(昭和46年)の「標準コード用漢字表(試案)」の段階から関わってきた国語学者の林大へのインタビュー記事「78JIS誕生秘話」に詳しい。
JIS C 6226 の特徴は、漢字がJIS第1水準と第2水準の2つのグループに分かれていることだ。そして、第1水準は音読み順、第2水準は部首・画数順に並んでいる。
JIS C 6226 の特徴は、漢字がJIS第1水準と第2水準の2つのグループに分かれていることだ。そして、第1水準は音読み順、第2水準は部首・画数順に並んでいる。
漢字ROM
1980年代に入るとワープロが普及し、JIS C 6226 の文字イメージはデータの形でROMに納められていた。当時は16×16ドットで1文字を描いており、1文字あたり16ビット×16=32バイトのデータ容量となる。94×94文字全部を格納するとなると、32×94×94≒188Kバイトが必要になる。いまなら、「たった188Kバイト」で済むだろうが、当時は8KバイトのROMがせいぜいだった。このため、記号・英数字・ギリシア文字・キリル文字・JIS第1水準までで、未定義の部分は省くことで、何とか64Kバイトに収めた。
1981年(昭和56年)に発売されたNECのパーソナルコンピュータ(パソコン)「PC-8801」では、漢字ROMはオプションで3万円もした。
だが、漢字が利用できるようになり、ワープロやパソコンの需要が飛躍的に伸びると、1980年代半ばには、多くのワープロ・パソコンにJIS第2水準までの漢字ROMが標準搭載されるようになる。
だが、漢字が利用できるようになり、ワープロやパソコンの需要が飛躍的に伸びると、1980年代半ばには、多くのワープロ・パソコンにJIS第2水準までの漢字ROMが標準搭載されるようになる。
幽霊文字
JIS C 6226 の制定から1年後、漢字辞典にも収載がなく、略字体としても認められない63文字が含まれているという報告が出された。これは「幽霊文字」問題として、今日まで尾を引くことになる。
規格の制定過程を洗ったところ、幽霊文字の多くは『日本生命収容人名漢字』および『国土行政区画総覧使用漢字』に含まれている手書きの人名や地名であることがわかった。
その後も洗い出しが続けられたが。1997年(平成9年)の時点で、なお下記の12文字が幽霊文字となっており、転記ミスではないかと考えられている。
規格の制定過程を洗ったところ、幽霊文字の多くは『日本生命収容人名漢字』および『国土行政区画総覧使用漢字』に含まれている手書きの人名や地名であることがわかった。
その後も洗い出しが続けられたが。1997年(平成9年)の時点で、なお下記の12文字が幽霊文字となっており、転記ミスではないかと考えられている。
区-点 | 幽霊文字 |
---|---|
52-55 | 墸 |
52-63 | 壥 |
54-12 | 妛 |
55-27 | 彁 |
57-43 | 挧 |
58-83 | 暃 |
59-91 | 椦 |
60-57 | 槞 |
74-12 | 蟐 |
74-57 | 袮 |
79-64 | 閠 |
81-50 | 駲 |
参考サイト
- JIS X 0208:日本工業標準調査会
- JIS X 0201 と ISO 2022:ぱふぅ家のホームページ
- JIS X 0208にはトランプの記号がない:yanok.net
- PDFと文字(8) – JIS X0212, X 0213:PDF千夜一夜
- JIS漢字に紛れ込んだ「幽霊文字」(GIGAZINE,2018年8月1日)
(この項おわり)
この年の正月、漢字など6,802文字を符号化した JIS C 6226(のちの JIS X 0208)が制定され、いわゆる「全角文字」を扱う準備が整っていた。