音声データ

サンプリング周波数と量子化ビット数
コンピュータで音声を扱う場合、PCMによってデジタル値に変換して保存・処理する。このとき、サンプリング周波数と量子化ビット数というパラメータが重要な役割を担う。CD(コンパクトディスク)では、サンプリング周波数44.1kHz、量子化ビット数16ビットと定められた。2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAより高いものを指す。

音声データ形式には、歴史的に様々なフォーマットがあり、これを整理したものが下表である。
圧縮方式音声データ形式(コンテナ)の例
非圧縮CDA, WAV, AIFF
非可逆圧縮MP3, OGG, AAC, WMA, ATRAC
可逆圧縮FLAC, ALAC

PCM:サンプリング周波数と量子化

サンプリング周波数と量子化
データの属性、実体、構造」で述べたように、コンピュータで扱えるデジタル値は飛び飛びの(離散的な)値である。これに対し、音声は連続したアナログ値である。
アナログ値をデジタル値に変換する処理を A/D変換(アナログ/デジタル変換)と呼ぶが、これを行うためには、時々刻々と変化するアナログ値を短い間隔で取り出して、整数値(デジタル値)にしてやる。これをPCM(Pulse Code Modulation;パルス符号変調)と呼ぶ。
ここで、取り出す間隔をサンプリング周波数、デジタル値として取り出すことを量子化と呼ぶ。
1982年に登場したCD(コンパクトディスク)では、サンプリング周波数44.1kHz、量子化ビット数16ビットと定められた。これ以降に登場するコンピュータ用音声データ形式は、このCD規格(CD-DA)が基準となっている。
2010年代に登場するハイレゾ音源は、サンプリング周波数、量子化ビットのいずれか、または両方がCD-DAを超えるものを指す。現在普及しているハイレゾ音源は、96kHz/24ビットのデータが多い。

CD-DA

CD(コンパクトディスク)
1982年10月に発売されたCD(コンパクトディスク)の音声データ規格である。44.1kHz/16ビット。2チャンネル・ステレオの音声データを格納できる。非圧縮。ファイル拡張子は .CDA

12cm CDは約750Mバイトのデータ容量がある(データディスクとして使うと誤り訂正符号が入ることから約650Mバイトに減る)。
750MB×1024×1024÷(44.1kHz×1000×2バイト×2チャンネル)=約4458秒――つまり74分強の連続した音声データを記録できる。
CD開発の当時、ソニー副社長で声楽家出身の大賀典雄が「オペラ一幕分、あるいはベートーヴェンの第九が収まる収録時間」と提案したことから、それを収録できるサイズとして12cmに決まったという経緯がある。

音声データ量は、収録時間が増えれば増えるほどデータが大きくなる。変数やデータベース、ファイルに保管するときの目安として、データ量を計算できるようにしておこう。

データ・コンテナ

データ・コンテナ
PCM変換では、デジタル値をアナログ値に逆変換して音声を鳴らすために、量子化データ以外に、サンプリング周波数や量子化ビット数を記録しておく必要がある。これらの付帯情報をパッケージングしたデータ構造全体をデータ・コンテナと呼ぶ。また、映像データとセットにしたデータ・コンテナもある。
これから紹介する音声データ・フォーマットの多くはデータ・コンテナ形式を指す。

WAVフォーマット

WAV 44.1kHz/16bit;6.7MB
Windows用の非圧縮の音声データ・コンテナである。ファイル拡張子は .WAV
格納できる音声データ・フォーマットは自由に選べるが、WAVフォーマット自体は非圧縮である。ただし、データ長が32ビットという制約があるため、4Gバイトを超える音声データを扱うことはできない。

AIFFフォーマット

Audio Interchange File Formatの略。Macintosh用の非圧縮の音声データ・コンテナである。ファイル拡張子は .AIFF

可逆圧縮と非可逆圧縮

音声データはサイズが大きくなるため、データの圧縮を行う場合がある。
ここでは個々の圧縮アルゴリズムについては説明しないが、画像データの時と同様、圧縮したデータを元の音声データに完全復元できる可逆圧縮と、完全復元できない非可逆圧縮の2種類がある。

MP3フォーマット

MP3 192bps;0.89MB
映像圧縮規格のMPEG-1の音声データ規格として開発された非可逆圧縮の音声データ・コンテナである。ISO 11172-3 (JIS X 4323) で規格化されている。ファイル拡張子は .MP3
極端な音質の劣化を伴わずに圧縮できることや、無料のエンコーダ、デコーダーソフトが登場したことから、瞬く間に普及した。しかし、MP3には複数の基本特許が絡んでいることが明らかになり、2017年に特許が失効するまで、一般利用者にも特許使用料が賦課される懸念が生じた。
圧縮率はユーザーが指定することができ、ビットレートで指定する場合が多い。CD-DAの音源を平均ビットレード192kbpsで圧縮すると、ほぼ劣化なく再生できる。非圧縮のCD-DAは、44.1kHz×16ビット×2チャンネル=1,411kbpsであるから、13.6%にまで圧縮したことになる。

Vorbisフォーマット

Vorbis 192bps;0.93MB
OGGデータ・コンテナに格納できる非可逆圧縮の音声データ。ファイル拡張子は .OGG。MP3のような特許は含まれていない。

AACフォーマット

AAC 192bps;0.63MB
Advanced Audio Codingの略。ファイル拡張子は .AAC
MP3の後継フォーマットとして開発され、同じビットレートのMP3より高い音声品質を実現できる。映像圧縮規格のMPEG-2やMPEG-4の音声データ規格として標準化された。また、YouTube、iPhone、iPod、iPad、Nintendo DSi、Nintendo 3DS、iTunes、PlayStation 3の標準音声フォーマットにもなっている。

WMAフォーマット

AAC 192bps;0.63MB
Windows Media Audioの略。1999年、MP3の代替としてWindows向けに開発された非可逆圧縮の音声データ・コーデックである。ファイル拡張子は .WMA

ATRACフォーマット

MD(ミニディスク)
Adaptive TRansform Acoustic Codingの略。ソニーがMD(ミニディスク)向けに開発した非可逆圧縮の音声データ・コーデックである。ステレオのビットレートは292kbpsであるが、最初期のMD機器ではその半分しか利用していなかったためMP3より音質が悪いという事態となり、この悪評を消し去ることができなかった。

FLACフォーマット

FLAC 96kHz/24bit;15.9MB
Free Lossless Audio Codecの略。その名の通り、オープンソースのフリーソフトウェアとして配布されている可逆圧縮の音声データ・コーデックである。2015年から、OGGデータ・コンテナに採用されている。ファイル拡張子は .FLAC または .FLA
サンプリング周波数は655.3kHzまで、量子化ビット数は32ビットまで、チャンネル数は8チャンネルまでサポートしていることから、ハイレゾ音源のデファクト・スタンダードになっている。

ALACフォーマット

ALAC 96kHz/24bit;15.0MB
Apple Lossless Audio Codecの略。アップルの可逆圧縮の音声データ・コーデックで、iTunesなどで使用されている。圧縮率は70~50%ほど。ファイル拡張子は .M4A
サンプリング周波数は384kHzまで、量子化ビット数は32ビットまで、チャンネル数は8チャンネルまでサポートしている。
2011年、オープンソースとなった。

参考サイト

(この項おわり)
header