音声データ

コンピュータで音声を扱う場合、PCMによってデジタル値に変換して保存・処理する。このとき、サンプリング周波数と量子化ビット数というパラメータが重要な役割を担う。CD（コンパクトディスク）では、サンプリング周波数44.1kHz、量子化ビット数16ビットと定められた。2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAより高いものを指す。

音声データ形式には、歴史的に様々なフォーマットがあり、これを整理したものが下表である。

圧縮方式	音声データ形式（コンテナ）の例
非圧縮	CDA, WAV, AIFF
非可逆圧縮	MP3, OGG, AAC, WMA, ATRAC
可逆圧縮	FLAC, ALAC

PCM：サンプリング周波数と量子化

「データの属性、実体、構造」で述べたように、コンピュータで扱えるデジタル値は飛び飛びの（離散的な）値である。これに対し、音声は連続したアナログ値である。
アナログ値をデジタル値に変換する処理を A/D変換（アナログ／デジタル変換）と呼ぶが、これを行うためには、時々刻々と変化するアナログ値を短い間隔で取り出して、整数値（デジタル値）にしてやる。これをPCM（Pulse Code Modulation；パルス符号変調）と呼ぶ。
ここで、取り出す間隔をサンプリング周波数、デジタル値として取り出すことを量子化と呼ぶ。

1982年に登場したCD（コンパクトディスク）では、サンプリング周波数44.1kHz、量子化ビット数16ビットと定められた。これ以降に登場するコンピュータ用音声データ形式は、このCD規格（CD-DA）が基準となっている。
2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAを超えるものを指す。現在普及しているハイレゾ音源は、96kHz／24ビットのデータが多い。

CD-DA

1982年10月に発売されたCD（コンパクトディスク）の音声データ規格である。44.1kHz／16ビット。2チャンネル・ステレオの音声データを格納できる。非圧縮。ファイル拡張子は .CDA。

12cm CDは約750Mバイトのデータ容量がある（データディスクとして使うと誤り訂正符号が入ることから約650Mバイトに減る）。

750MB×1024×1024÷（44.1kHz×1000×2バイト×2チャンネル）＝約4458秒――つまり74分強の連続した音声データを記録できる。
CD開発の当時、ソニー副社長で声楽家出身の大賀典雄が「オペラ一幕分、あるいはベートーヴェンの第九が収まる収録時間」と提案したことから、それを収録できるサイズとして12cmに決まったという経緯がある。

音声データ量は、収録時間が増えれば増えるほどデータが大きくなる。変数やデータベース、ファイルに保管するときの目安として、データ量を計算できるようにしておこう。

データ・コンテナ

PCM変換では、デジタル値をアナログ値に逆変換して音声を鳴らすために、量子化データ以外に、サンプリング周波数や量子化ビット数を記録しておく必要がある。これらの付帯情報をパッケージングしたデータ構造全体をデータ・コンテナと呼ぶ。また、映像データとセットにしたデータ・コンテナもある。
これから紹介する音声データ・フォーマットの多くはデータ・コンテナ形式を指す。

WAVフォーマット

WAV 44.1kHz/16bit；6.7MB

Windows用の非圧縮の音声データ・コンテナである。ファイル拡張子は .WAV。

格納できる音声データ・フォーマットは自由に選べるが、WAVフォーマット自体は非圧縮である。ただし、データ長が32ビットという制約があるため、4Gバイトを超える音声データを扱うことはできない。

AIFFフォーマット

Audio Interchange File Formatの略。Macintosh用の非圧縮の音声データ・コンテナである。ファイル拡張子は .AIFF。

可逆圧縮と非可逆圧縮

音声データはサイズが大きくなるため、データの圧縮を行う場合がある。
ここでは個々の圧縮アルゴリズムについては説明しないが、画像データの時と同様、圧縮したデータを元の音声データに完全復元できる可逆圧縮と、完全復元できない非可逆圧縮の2種類がある。

MP3フォーマット

MP3 192bps；0.89MB

映像圧縮規格のMPEG-1の音声データ規格として開発された非可逆圧縮の音声データ・コンテナである。ISO 11172-3 (JIS X 4323) で規格化されている。ファイル拡張子は .MP3。

極端な音質の劣化を伴わずに圧縮できることや、無料のエンコーダ、デコーダーソフトが登場したことから、瞬く間に普及した。しかし、MP3には複数の基本特許が絡んでいることが明らかになり、2017年に特許が失効するまで、一般利用者にも特許使用料が賦課される懸念が生じた。
圧縮率はユーザーが指定することができ、ビットレートで指定する場合が多い。CD-DAの音源を平均ビットレード192kbpsで圧縮すると、ほぼ劣化なく再生できる。非圧縮のCD-DAは、44.1kHz×16ビット×2チャンネル＝1,411kbpsであるから、13.6％にまで圧縮したことになる。

Vorbisフォーマット

Vorbis 192bps；0.93MB

OGGデータ・コンテナに格納できる非可逆圧縮の音声データ。ファイル拡張子は .OGG。MP3のような特許は含まれていない。

AACフォーマット

AAC 192bps；0.63MB

Advanced Audio Codingの略。ファイル拡張子は .AAC。

MP3の後継フォーマットとして開発され、同じビットレートのMP3より高い音声品質を実現できる。映像圧縮規格のMPEG-2やMPEG-4の音声データ規格として標準化された。また、YouTube、iPhone、iPod、iPad、Nintendo DSi、Nintendo 3DS、iTunes、PlayStation 3の標準音声フォーマットにもなっている。

WMAフォーマット

AAC 192bps；0.63MB

Windows Media Audioの略。1999年、MP3の代替としてWindows向けに開発された非可逆圧縮の音声データ・コーデックである。ファイル拡張子は .WMA。

ATRACフォーマット

Adaptive TRansform Acoustic Codingの略。ソニーがMD（ミニディスク）向けに開発した非可逆圧縮の音声データ・コーデックである。ステレオのビットレートは292kbpsであるが、最初期のMD機器ではその半分しか利用していなかったためMP3より音質が悪いという事態となり、この悪評を消し去ることができなかった。