Unicode=古今東西のあらゆる文字を収録

(1/1)
Unicode
文字セットの切替を行うことなく全世界の文字を統一して扱える 32 ビット・コード「ISO/IEC 10646」と、これを 16 ビット・コードで表そうとする「Unicode (ユニコード) 」は 1991 年(平成 3 年)に統合された。その後、16 ビットでは不足することが明らかになり、Unicode は最大 21 ビットに拡張されている。

ISO/IEC 10646 と Unicode

ISO は 1983 年(昭和 58 年)、文字セットの切替を行うことなく全世界の文字を統一して扱える 32 ビット・コードの作成に着手する。後の ISO/IEC 10646 である。ISO/IEC 2022に基づき、これまでに開発されたコード体系と互換性を保とうという方針で開発が始まった。
一方、Xerox では 1987 年(昭和 62 年)頃から、後に Unicode と呼ばれる 16 ビット・コードの開発に入っていた。こちらも全世界の文字を統一して扱うものだが、それまでの規格との互換性は無視し、形の似ている漢字などには 1 つのコードを割り当てることで、16 ビットの限られた空間にすべての文字を収録しようとしていた。

だが、2 つの国際文字規格が並列するのは好ましくないとの考えから、1991 年(平成 3 年)6 月、ISO/IEC 10646 のドラフト版である DIS 10646 が否決され、10646 は Unicode に合流することになる。
1991 年(平成 3 年)10 月、Unicode 1.0 が出版される。1993 年(平成 5 年)5 月、ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS)」が制定される。

サロゲートペアの導入

Unicode 1.00(1991 年 10 月)の収録文字数は 7,161 文字だった。
当時、収録すべき漢字は、日本・中国・韓国を合わせても 2 万文字程度で、16 ビットあれば 65,536 文字を表現できるから、まだ 3 万文字以上の余裕があるとみられていた。だが、わが国が JIS X 0208 収録漢字を選定した基準は曖昧なもので、実際、JIS X 0213 では 11,233 字に収録文字数を増やした。
Unicode の予想は早くも崩れ、Unicode 1.01(1992 年 6 月)の収録文字数は 28,359、Unicode 1.10(1993 年 6 月)の収録文字数は 34,233 と膨れあがった。

このままでは「全世界の文字を統一して扱う」という目的が達成できなくなることから、Unicode は 16 ビットであることを諦め、ISO/IEC 10646 が用意していた最大 32 ビットのコードへ移行しようと考えた。
だが、いきなり 32 ビット・コードへ移行してしまうと、それまでの 16 ビット・コードとの互換性が保てなくなる。そこで、サロゲートペアという概念を導入した。

U+D800 ~ U+DBFF を上位サロゲート、U+DC00 ~ U+DBFF を下位サロゲートとし、この 2 つを組み合わせた 32 ビット・コードで表現するものである。
サロゲートペアだけで 1024×1024=1,048,576 文字を表現できる。これ以外の 16 ビット・コード(基本多言語面)を加えると、1,112,064 文字分の空間が確保されたことになる。
こうして Unicode 2.00(1996 年 7 月)でサロゲートペアが実装され、収録文字数は 38,950 となった。
JIS X 0213 に正式対応したのは Unicode 3.20(2002 年 3 月)で、このときの収録文字数は 95,221 である。
この直前の Unicode 3.00(1999 年 9 月)では、ファンタジー RPG でお馴染みのルーン文字が加わった。Unicode は、古今東西、ありとあらゆる文字の収録を目指す。
Unicode 5.20(2009 年 10 月)では、古代エジプトのヒエログリフが加わった。
𓀀𓀙𓁈𓁚𓁨𓁩𓁮𓁲
Unicode 6.00(2010 年 10 月)は、携帯電話の絵文字が収録されたことで話題になった。
🌛🌸🐴
最新の Unicode 9.00(2016 年 6 月)は 128,172 文字を収録している。顔文字もカラフルになった。
🤣🤤🤷🤝🥞🥇🤾🤹
環境によっては、フォントがこれらの文字に対応しておらず、正しく表示されない場合がある。
これらの文字を表示できるフォントとして、メイリオがあるが、Windows 10 に搭載されているフォント・ファイルのサイズは 9M バイトを超える。30 年前に 64K バイトだった漢字 ROMの 140 倍以上だ。

JIS X 0213 とサロゲートペア

寿司屋の湯呑み
JIS X 0213 で追加された第3 ・第4 水準文字が全てサロゲートペアというわけではない。

お寿司屋さんでお馴染みのさかなへんの漢字が並んだ湯呑み――その多くが第3 ・第4 水準文字だが、サロゲートペアである漢字とそうで無いものが混在している。
たとえば 𩸽 (ほっけ)  ――これはサロゲートペアで、U+D867 , U+DE3D の 32 ビットである。JIS X 0213 では 2面93 区 44 点である。
このすぐ近くにある 2面93 区 41 点 の  (せいご) U+9BAC と 16 ビットで表せる。

このように、UnicodeJIS X 0213 の間には、コードレベルで見ると、何の関連性もない。

Unicode 10.0

Unicode 10.
2017 年(平成 29 年)6 月 20 日、新たに追加された絵文字 56種を含む Unicode 10.0 が正式発表された。
追加される絵文字は、新しい表情のほか、魔法使いや妖精、吸血鬼、人魚、ゾンビ、空飛ぶ円盤など。日本にはなじみ深い餃子や箸も追加された。
また、インドやシリアなどの一部地域で使われている 4言語・ 8518 文字が追加された。中には、学校教育に取り入れられていない変体仮名 258 文字が含まれている。

Unicode 10.0 では、Unicode 全体に含まれる文字は 139言語・ 13 万 6690 文字に達する。

参考サイト

(この項おわり)
header