4.2.3 采样和量化

与图像等其他类型信号类似,模拟音频数字化的过程主要包括采样和量化两个步骤。不同的采样和量化方法会对输出的数字音频信息的特性产生影响。

1.音频采样

对音频信号的采样为模拟音频数字化的第一步。与图像、视频或其他类型的信号类似,音频采样的原理为按照指定的时间间隔获取并记录音频信息的幅值。一个波形为正弦波的信号按照某一指定频率采样的效果如图4-1所示。

图4-1

音频信号采样的频率对数字化后的播放输出效果有重大影响,过低的采样频率可能造成重建信号的信息失真。我们知道,几乎所有的声音信号都是由多个不同频率的信号复合而成的。根据奈奎斯特采样定理,信号的采样频率必须超过最高频率分量的2倍以上,否则将出现频率混叠现象,产生采样失真。因为人耳可听声的频率范围约为 20Hz~20kHz,所以对音频信号采样的频率通常需要超过40kHz。在实践中,常用的采样频率为44.1kHz。

2.采样点量化

模拟的声音信号经过采样后,其时间轴会从连续变为离散,但其取值范围仍然为一个连续的区间。为了便于以数字化形式表示,需要对采样后的音频采样值进行量化操作。

这里的“量化”可类比为一种“近似”的概念。例如,最简单的二值化可以认为是一种二进制的量化,即把小于0.5的数值量化为0,把大于或等于0.5的数值量化为1。实际使用的量化方法要复杂得多,例如,使用了更多的量化位数等。量化中所使用的量化位数体现了量化的精度,又称作位深或位宽,表示以多大的数据量表示一个量化后的数据。通常,量化算法使用的位深为4 bit、8 bit、16 bit或32 bit等,使用的位深越大,量化的结果就越精确,同时数据量也就越大。例如,使用8 bit位深进行量化,则输出的量化值的区间为[0,255],每个样本点占用1Byte存储空间。使用16 bit位深进行量化,则输出的量化值的区间为[0,65535],每个样本点占用2Byte字节存储空间。使用4 bit位深对一个正弦波形的信号进行量化的效果如图4-2所示。

图4-2