7.1.5 G.72x数字音频压缩编码技术

模拟音频信号的频率范围为20Hz~20kHz。但经PCM数字化后的数字音频需要的数据率就不能小看了。例如,取样率为44.1kHz、16bit量化的双声道数字音频的数据率为:44.1(kHz)×2(声道)×16bit=1.41Mbit/s。这样的数据率在通信系统中也是一个很大的数据量,因此必须对数字音频进行压缩。

数字音频压缩的依据是删除人耳听觉特性的冗余信息。即把20Hz~20kHz整个可闻频带按1/3倍频程的带宽分成32个子频带,把输入信号中听觉不敏感的子频带(例如低于200Hz的低频和高于10kHz的高频频带)用较少的量化比特,舍去一些次要的信息;对于人耳听觉敏感度高的子频带(例如1~4kHz)采用较多的量化比特,用较高的数据率传送,确保具有足够的声音清晰度。

此外,根据听觉生理学的大声音可掩蔽小声音的“听觉掩蔽”效应,对音频信号的振幅进行划分。对大振幅信号附近的小振幅信号予以删除。

通过上述两种方法的压缩,可将1.41Mbit/s的数字音频数据率压缩到低于300kbit/s。

多媒体通信系统在H.320和H.323通信系统中采用的数字音频压缩编码标准有G.711(64kbit/s),G.722(64kbit/s)、G.728(16kbit/s)。在H.324通信系统中采用的是G.723(6.3kbit/s)。

H.324是用电话线路传输的低速网,其码率为28kbit/s。分配给视频信号的码率为20kbit/s,分配给音频信号的码率为6.5kbit/s,其他分配给控制和编码等开销的为1.5kbit/s。

G.723有两种码率:高码率为6.3kbit/s,低码率为5.3kbit/s,延迟约为37.5ms。表7-6是各种数字音频压缩编码的特性及适用范围。

表7-6 各种数字音频压缩编码的特性及适用范围