文字と文字列

コンピュータで文字を扱うには、1文字毎に1つの文字コードが割り振られる。データ属性としては文字型で、データ実体として文字コードが入る形になる。
複数の文字が並んだものを文字列と呼び、データ属性としては文字列型で、データ実体として文字コードが並んだデータが入る。
ただし、PHPやPythonでは、文字と文字列を合わせて文字列として扱う。

文字コードとフォント

コンピュータで文字を扱う場合、1文字毎に1つのコード番号（自然数かつidentity）が割り当てられている。これを文字コード（文字符号化方式）と呼ぶ。
データ属性としては文字型で、データ実体として文字コードが入る形になる。

文字コードは、それがあらわす文字の形状（字形）に関する情報は持っていない。左図のように、文字コードからフォントファイルを検索し、合致する字形情報を取り出し、画面に表示する。
たとえば、アルファベット大文字「A」の文字コードは16進数で 41 で、コンピュータはフォントファイルから 41 に合致する字形情報を取り出し、画面に表示する。

文字コードには複数の体系がある。
半角英数記号は、ASCIIコード（ANSI X 3.4）が主に使われる。全角文字は、シフトJISコード、EUC-JPコード、Unicode といった複数の体系がある。ASCIIコードは1バイトだが、全角文字の文字コードはいずれも2バイト以上で表され、とくにUnicodeの文字符号化方式であるUTF-は1～4バイトの可変長なので注意が必要だ。

文字コードの詳細は、「文字コードの話」を参照してほしい。

文字型は、たとえばC言語では char で宣言する。
PythonやPHPでは、後述する文字列型として扱う。

文字列

複数の文字が並んだものを文字列と呼ぶ。データ属性としては文字列型で、データ実体として文字コードが並んだデータが入る。
文字コードには、改行やタブレーションなどの制御コードもデータ実体として含まれる。また、JIS X 0201のように、英数字とカタカナを切り替えるために、SIコードとSOコードという制御コードがデータ実体として含まれる場合がある。

文字列の例
文字符号化方式	ぱふぅ家
UTF-8	E3 81B1 81B5 8185 E5AE B6

参考サイト

文字コードの話：ぱふぅ家のホームページ

（この項おわり）

2018年07月04日作成／2018年07月04日更新