PCM:サンプリング周波数と量子化

「データの属性、実体、構造」で述べたように、コンピュータで扱えるデジタル値は飛び飛びの(離散的な)値である。これに対し、音声は連続したアナログ値である。
アナログ値をデジタル値に変換する処理を A/D変換(アナログ/デジタル変換)と呼ぶが、これを行うためには、時々刻々と変化するアナログ値を短い間隔で取り出して、整数値(デジタル値)にしてやる。これをPCM(Pulse Code Modulation;パルス符号変調)と呼ぶ。
ここで、取り出す間隔をサンプリング周波数、デジタル値として取り出すことを量子化と呼ぶ。
アナログ値をデジタル値に変換する処理を A/D変換(アナログ/デジタル変換)と呼ぶが、これを行うためには、時々刻々と変化するアナログ値を短い間隔で取り出して、整数値(デジタル値)にしてやる。これをPCM(Pulse Code Modulation;パルス符号変調)と呼ぶ。
ここで、取り出す間隔をサンプリング周波数、デジタル値として取り出すことを量子化と呼ぶ。
1982年に登場したCD(コンパクトディスク)では、サンプリング周波数44.1kHz、量子化ビット数16ビットと定められた。これ以降に登場するコンピュータ用音声データ形式は、このCD規格(CD-DA)が基準となっている。
2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAを超えるものを指す。現在普及しているハイレゾ音源は、96kHz/24ビットのデータが多い。
2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAを超えるものを指す。現在普及しているハイレゾ音源は、96kHz/24ビットのデータが多い。
CD-DA

1982年10月に発売されたCD(コンパクトディスク)の音声データ規格である。44.1kHz/16ビット。2チャンネル・ステレオの音声データを格納できる。非圧縮。ファイル拡張子は .CDA。

12cm CDは約750Mバイトのデータ容量がある(データディスクとして使うと誤り訂正符号が入ることから約650Mバイトに減る)。

12cm CDは約750Mバイトのデータ容量がある(データディスクとして使うと誤り訂正符号が入ることから約650Mバイトに減る)。
750MB×1024×1024÷(44.1kHz×1000×2バイト×2チャンネル)=約4458秒――つまり74分強の連続した音声データを記録できる。
CD開発の当時、ソニー副社長で声楽家出身の大賀典雄が「オペラ一幕分、あるいはベートーヴェンの第九が収まる収録時間」と提案したことから、それを収録できるサイズとして12cmに決まったという経緯がある。

音声データ量は、収録時間が増えれば増えるほどデータが大きくなる。変数やデータベース、ファイルに保管するときの目安として、データ量を計算できるようにしておこう。
CD開発の当時、ソニー副社長で声楽家出身の大賀典雄が「オペラ一幕分、あるいはベートーヴェンの第九が収まる収録時間」と提案したことから、それを収録できるサイズとして12cmに決まったという経緯がある。

音声データ量は、収録時間が増えれば増えるほどデータが大きくなる。変数やデータベース、ファイルに保管するときの目安として、データ量を計算できるようにしておこう。
データ・コンテナ

PCM変換では、デジタル値をアナログ値に逆変換して音声を鳴らすために、量子化データ以外に、サンプリング周波数や量子化ビット数を記録しておく必要がある。これらの付帯情報をパッケージングしたデータ構造全体をデータ・コンテナと呼ぶ。また、映像データとセットにしたデータ・コンテナもある。
これから紹介する音声データ・フォーマットの多くはデータ・コンテナ形式を指す。
これから紹介する音声データ・フォーマットの多くはデータ・コンテナ形式を指す。
WAVフォーマット
WAV 44.1kHz/16bit;6.7MB
Windows用の非圧縮の音声データ・コンテナである。ファイル拡張子は .WAV。
格納できる音声データ・フォーマットは自由に選べるが、WAVフォーマット自体は非圧縮である。ただし、データ長が32ビットという制約があるため、4Gバイトを超える音声データを扱うことはできない。
AIFFフォーマット
Audio Interchange File Formatの略。Macintosh用の非圧縮の音声データ・コンテナである。ファイル拡張子は .AIFF。
可逆圧縮と非可逆圧縮
音声データはサイズが大きくなるため、データの圧縮を行う場合がある。
ここでは個々の圧縮アルゴリズムについては説明しないが、画像データの時と同様、圧縮したデータを元の音声データに完全復元できる可逆圧縮と、完全復元できない非可逆圧縮の2種類がある。
ここでは個々の圧縮アルゴリズムについては説明しないが、画像データの時と同様、圧縮したデータを元の音声データに完全復元できる可逆圧縮と、完全復元できない非可逆圧縮の2種類がある。
MP3フォーマット
MP3 192bps;0.89MB
映像圧縮規格のMPEG-1の音声データ規格として開発された非可逆圧縮の音声データ・コンテナである。ISO 11172-3 (JIS X 4323) で規格化されている。ファイル拡張子は .MP3。
極端な音質の劣化を伴わずに圧縮できることや、無料のエンコーダ、デコーダーソフトが登場したことから、瞬く間に普及した。しかし、MP3には複数の基本特許が絡んでいることが明らかになり、2017年に特許が失効するまで、一般利用者にも特許使用料が賦課される懸念が生じた。
圧縮率はユーザーが指定することができ、ビットレートで指定する場合が多い。CD-DAの音源を平均ビットレード192kbpsで圧縮すると、ほぼ劣化なく再生できる。非圧縮のCD-DAは、44.1kHz×16ビット×2チャンネル=1,411kbpsであるから、13.6%にまで圧縮したことになる。
圧縮率はユーザーが指定することができ、ビットレートで指定する場合が多い。CD-DAの音源を平均ビットレード192kbpsで圧縮すると、ほぼ劣化なく再生できる。非圧縮のCD-DAは、44.1kHz×16ビット×2チャンネル=1,411kbpsであるから、13.6%にまで圧縮したことになる。
Vorbisフォーマット
Vorbis 192bps;0.93MB
OGGデータ・コンテナに格納できる非可逆圧縮の音声データ。ファイル拡張子は .OGG。MP3のような特許は含まれていない。
AACフォーマット
AAC 192bps;0.63MB
Advanced Audio Codingの略。ファイル拡張子は .AAC。
MP3の後継フォーマットとして開発され、同じビットレートのMP3より高い音声品質を実現できる。映像圧縮規格のMPEG-2やMPEG-4の音声データ規格として標準化された。また、YouTube、iPhone、iPod、iPad、Nintendo DSi、Nintendo 3DS、iTunes、PlayStation 3の標準音声フォーマットにもなっている。
WMAフォーマット
AAC 192bps;0.63MB
Windows Media Audioの略。1999年、MP3の代替としてWindows向けに開発された非可逆圧縮の音声データ・コーデックである。ファイル拡張子は .WMA。
ATRACフォーマット

Adaptive TRansform Acoustic Codingの略。ソニーがMD(ミニディスク)向けに開発した非可逆圧縮の音声データ・コーデックである。ステレオのビットレートは292kbpsであるが、最初期のMD機器ではその半分しか利用していなかったためMP3より音質が悪いという事態となり、この悪評を消し去ることができなかった。
FLACフォーマット
FLAC 96kHz/24bit;15.9MB
Free Lossless Audio Codecの略。その名の通り、オープンソースのフリーソフトウェアとして配布されている可逆圧縮の音声データ・コーデックである。2015年から、OGGデータ・コンテナに採用されている。ファイル拡張子は .FLAC または .FLA。
サンプリング周波数は655.3kHzまで、量子化ビット数は32ビットまで、チャンネル数は8チャンネルまでサポートしていることから、ハイレゾ音源のデファクト・スタンダードになっている。
ALACフォーマット
ALAC 96kHz/24bit;15.0MB
Apple Lossless Audio Codecの略。アップルの可逆圧縮の音声データ・コーデックで、iTunesなどで使用されている。圧縮率は70~50%ほど。ファイル拡張子は .M4A。
サンプリング周波数は384kHzまで、量子化ビット数は32ビットまで、チャンネル数は8チャンネルまでサポートしている。
2011年、オープンソースとなった。
2011年、オープンソースとなった。
参考サイト
- 音楽管理ソフト「MediaMonkey」でリッピングから再生まで:ぱふぅ家のホームページ
(この項おわり)
音声データ形式には、歴史的に様々なフォーマットがあり、これを整理したものが下表である。