文字と文字列

文字コードには複数の体系がある
文字の表示
コンピュータで文字を扱うには、1文字毎に1つの文字コードが割り振られる。データ属性としては文字型で、データ実体として文字コードが入る形になる。
複数の文字が並んだものを文字列と呼び、データ属性としては文字列型で、データ実体として文字コードが並んだデータが入る。
ただし、PHPやPythonでは、文字と文字列を合わせて文字列として扱う。

文字コードとフォント

コンピュータで文字を扱う場合、1文字毎に1つのコード番号(自然数かつidentity)が割り当てられている。これを文字コード(文字符号化方式)と呼ぶ。
データ属性としては文字型で、データ実体として文字コードが入る形になる。
文字の表示
文字コードは、それがあらわす文字の形状(字形)に関する情報は持っていない。左図のように、文字コードからフォントファイルを検索し、合致する字形情報を取り出し、画面に表示する。
たとえば、アルファベット大文字「A」の文字コードは16進数で 41 で、コンピュータはフォントファイルから 41 に合致する字形情報を取り出し、画面に表示する。
文字コードには複数の体系がある。
半角英数記号は、ASCIIコード(ANSI X 3.4)が主に使われる。全角文字は、シフトJISコードEUC-JPコードUnicode といった複数の体系がある。ASCIIコードは1バイトだが、全角文字の文字コードはいずれも2バイト以上で表され、とくにUnicodeの文字符号化方式であるUTF-は1~4バイトの可変長なので注意が必要だ。

文字コードの詳細は、「文字コードの話」を参照してほしい。

文字型は、たとえばC言語では char で宣言する。
PythonやPHPでは、後述する文字列型として扱う。

文字列

複数の文字が並んだものを文字列と呼ぶ。データ属性としては文字列型で、データ実体として文字コードが並んだデータが入る。
文字コードには、改行やタブレーションなどの制御コードもデータ実体として含まれる。また、JIS X 0201のように、英数字とカタカナを切り替えるために、SIコードとSOコードという制御コードがデータ実体として含まれる場合がある。
文字列の例
文字符号化方式ぱふぅ家
UTF-8E3 81B1 81B5 8185 E5AE B6

参考サイト

(この項おわり)
header