Unicode=古今東西のあらゆる文字を収録

(1/1)
Unicode
文字セットの切替を行うことなく全世界の文字を統一して扱える32ビット・コード「ISO/IEC 10646」と、これを16ビット・コードで表そうとする「Unicode (ユニコード) 」は1991年(平成3年)に統合された。その後、16ビットでは不足することが明らかになり、Unicode は最大21ビットに拡張されている。

目次

ISO/IEC 10646 と Unicode

ISOは1983年(昭和58年)、文字セットの切替を行うことなく全世界の文字を統一して扱える32ビット・コードの作成に着手する。後の ISO/IEC 10646 である。ISO/IEC 2022に基づき、これまでに開発されたコード体系と互換性を保とうという方針で開発が始まった。
一方、Xeroxでは1987年(昭和62年)頃から、後に Unicode と呼ばれる16ビット・コードの開発に入っていた。こちらも全世界の文字を統一して扱うものだが、それまでの規格との互換性は無視し、形の似ている漢字などには1つのコードを割り当てることで、16ビットの限られた空間にすべての文字を収録しようとしていた。

だが、2つの国際文字規格が並列するのは好ましくないとの考えから、1991年(平成3年)6月、ISO/IEC 10646 のドラフト版である DIS 10646 が否決され、10646は Unicode に合流することになる。
1991年(平成3年)10月、Unicode 1.0 が出版される。1993年(平成5年)5月、ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS)」が制定される。

サロゲートペアの導入

Unicode 1.00(1991年10月)の収録文字数は7,161文字だった。
当時、収録すべき漢字は、日本・中国・韓国を合わせても2万文字程度で、16ビットあれば65,536文字を表現できるから、まだ3万文字以上の余裕があるとみられていた。だが、わが国が JIS X 0208 収録漢字を選定した基準は曖昧なもので、実際、JIS X 0213 では11,233字に収録文字数を増やした。
Unicodeの予想は早くも崩れ、Unicode 1.01(1992年6月)の収録文字数は28,359、Unicode 1.10(1993年6月)の収録文字数は34,233と膨れあがった。

このままでは「全世界の文字を統一して扱う」という目的が達成できなくなることから、Unicodeは16ビットであることを諦め、ISO/IEC 10646 が用意していた最大32ビットのコードへ移行しようと考えた。
だが、いきなり32ビット・コードへ移行してしまうと、それまでの16ビット・コードとの互換性が保てなくなる。そこで、サロゲートペアという概念を導入した。

U+D800 ~ U+DBFF を上位サロゲート、U+DC00 ~ U+DBFF を下位サロゲートとし、この2つを組み合わせた32ビット・コードで表現するものである。
サロゲートペアだけで1024×1024=1,048,576文字を表現できる。これ以外の16ビット・コード(基本多言語面)を加えると、1,112,064文字分の空間が確保されたことになる。
こうして Unicode 2.00(1996年7月)でサロゲートペアが実装され、収録文字数は38,950となった。
JIS X 0213 に正式対応したのは Unicode 3.20(2002年3月)で、このときの収録文字数は95,221である。
この直前の Unicode 3.00(1999年9月)では、ファンタジーRPGでお馴染みのルーン文字が加わった。Unicode は、古今東西、ありとあらゆる文字の収録を目指す。
Unicode 5.20(2009年10月)では、古代エジプトのヒエログリフが加わった。
𓀀𓀙𓁈𓁚𓁨𓁩𓁮𓁲
Unicode 6.00(2010年10月)は、携帯電話の絵文字が収録されたことで話題になった。
🌛🌸🐴
最新の Unicode 9.00(2016年6月)は128,172文字を収録している。顔文字もカラフルになった。
🤣🤤🤷🤝🥞🥇🤾🤹
環境によっては、フォントがこれらの文字に対応しておらず、正しく表示されない場合がある。
これらの文字を表示できるフォントとして、メイリオがあるが、Windows 10に搭載されているフォント・ファイルのサイズは9Mバイトを超える。30年前に64Kバイトだった漢字ROMの140倍以上だ。

JIS X 0213 とサロゲートペア

寿司屋の湯呑み
JIS X 0213 で追加された第3・第4水準文字が全てサロゲートペアというわけではない。

お寿司屋さんでお馴染みのさかなへんの漢字が並んだ湯呑み――その多くが第3・第4水準文字だが、サロゲートペアである漢字とそうで無いものが混在している。
たとえば 𩸽 (ほっけ)  ――これはサロゲートペアで、U+D867 , U+DE3D の32ビットである。JIS X 0213 では 2面93区44点である。
このすぐ近くにある 2面93区41点 の  (せいご) U+9BAC と16ビットで表せる。

このように、UnicodeJIS X 0213 の間には、コードレベルで見ると、何の関連性もない。

Unicode 10.0

Unicode 10.0
2018年(平成30年)6月5日、新たに追加された絵文字66種を含む Unicode 11.0 が正式発表された。
追加される絵文字には、新しい表情のほか、魔法使いや妖精、吸血鬼、人魚、ゾンビ、空飛ぶ円盤など。日本にはなじみ深い餃子や箸も追加された。
また、インドやシリアなどの一部地域で使われている4言語・8518文字が追加された。中には、学校教育に取り入れられていない変体仮名258文字が含まれている。

Unicode 10.0 では、Unicode全体に含まれる文字は139言語・13万6690文字に達する。

ピストルか水鉄砲か

ピストルか水鉄砲か
Appleが2016年(平成28年)にリリースした macOS 10.12 および iOS 10において、U+1F52B のピストルを水鉄砲へ変更したが、各社ともこれに追従している。

さて、あなたの端末では 🔫 はどう表示されるだろうか?

Unicode 11.0

Unicode 11.1
2019年(令和元年)6月20日、新たに追加された絵文字66種を含む Unicode 10.0 が正式発表された。
追加される絵文字は、スーパーヒーローやヒロイン、海賊の旗、そして、ラマやカンガルーがある。

Unicode 11.0 では、Unicode全体に含まれる文字は146言語・13万7374文字に達する。

Unicode 12.0 と令和

Unicode 12.0
2019年(平成31年)2月6日、新たに追加された絵文字59種を含む Unicode 12.0 が正式発表された。
アケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wancho語で使われていたWancho文字。中国のMiaoとYiの方言で使われていたMiao言語の文字など、554種類の文字が追加された。

2019年(令和元年)5月1日、新しい元号「令和」が施行された。
わが国のシステムでは、元号を表現するための組み文字 U+337B)などを利用してきた。このため、新元号用に新たな組み文字を定める必要がある。
Unicode 12.1 でサポートされ、少し離れたところに1文字分空いていた U+32FF)に新元号のキャラクタを入れた。

Unicode 12.0 では、Unicode全体に含まれる文字は150言語・13万7929文字に達する。

Unicode 13.0

Unicode 13.0
2020年(令和2年)3月10日、新たに追加された絵文字117種を含む Unicode 13.0 が正式発表された。
Unicode 13.0
Unicode 13.0を実装した [iOS 14.2] では、ゴキブリの絵文字がリアルすぎるとして、話題を呼んでいる。
イラクやジョージアで使われていた「Yezidi」やウズベキスタン、カザフスタン、トルクメニスタンなどの中央アジアで使われていた「Chorasmian」、モルディブで20世紀まで使われていた「Dives Akuru」、中国北部で使われていた「Khitan Small Script」といった言語・文字に対応したほか、これ以外にも複数の文字が追加されている。また、中国語・日本語・韓国語(CJK)統合漢字では「Extension G」に新たに4939文字が加わった。

Unicode 13.0 では、Unicode全体に含まれる文字は154言語・14万3859文字に達する。

Unicode 14.0

Unicode 14.0
2021年(令和3年)9月14日、コーラン用のアラビア文字や現代でも再び使われるようになってきた古代アルバニア文字、インドやミャンマーに約10万人ほどの話者がいるというTangsa語の文字など計838個を含む Unicode 1.0 が正式発表された。
絵文字提出に関するガイドラインに基づき、新たに37個の絵文字が加わった。ハンドサインを示す絵文字などは肌色に応じたバリエーションが存在し、このバリエーションを別個にカウントすると全112種になる。

Unicode 14.0 では、Unicode全体に含まれる文字は14万4697文字に達する。

参考サイト

(この項おわり)
header