4.5.2 AAC编码标准

随着技术的发展,先进音频编码(Advanced Audio Coding,AAC)已逐渐取代MP3编码成为主流。在相同的码率下,AAC的音频信息质量更高。

作为音频压缩编码的国际标准之一,AAC最早是作为MPEG-2标准集合的一部分发布的,即MPEG-2 Part7或ISO/IEC 13818-7。随后在MPEG-4标准集合中,AAC作为指定的音频压缩编码方式在MPEG-4 Part3(即ISO/IEC 14496-3)中发布。相比于MPEG-2 Part7,在MPEG-4 Part3中定义的AAC进行了扩展,并引用了多种新技术,以提升编码的性能。

在MPEG-2 Part7中,AAC定义的档次如下。

◎ AAC-LC:低复杂度档次,LC是Low-Complexity的缩写。

◎ AAC-Main:主档次。

◎ AAC-SSR:可分级采样率档次,SSR是Scalable Sampling Rate的缩写。

在MPEG-4 Part3中,AAC定义的档次如下。

◎ AAC-Main:主档次。

◎ AAC-Scalable:可分级采样率档次。

◎ AAC-Speech:主要适用于语音编码。

◎ AAC-SyntheticAudio:以较低码率合成声音及语音信号。

◎ AAC-HighQuality:高质量档次。

◎ AAC-LD:低延迟档次,LD是Low Delay的缩写。

◎ AAC-NaturalAudio:适用于自然声音信息的编码。

◎ AAC-MobileAudioInternetworking:适用于网络音频的扩展档次。

在随后更新的AAC编码标准中,增加了HE-AAC和AAC-LC档次。其中,HE表示High Efficiency,即高效率。在音频流媒体等传输码率受限制的场景中,HE-AAC得到广泛应用。在AAC-LC的基础上,HE-AAC在频率域使用了“频域子带复制”技术,即SBR技术,使得MDCT的效率得到提升,因此可以取得更高的压缩效率。SBR技术的原理是,人的听觉通常对声音的低频分量具有较高的辨识精度,而对声音的高频分量的辨识精度较弱。在音频信号的整个频段中,对于低频分量和中频分量,由编码器直接进行编码;对于高频分量则不直接进行编码,而是在解码端从中、低频信号中复制相应的信息进行重建,把重建过程的依赖信息作为编码的附加信息进行传递。通过这种方式,高频分量的音频信号无须达到数学意义上的准确编码,只需在听觉感官方面达到低失真即可。

在随后升级的音频编码标准中,HE-AAC升级为HE-AAC v2,而原版的HE-AAC被称作HE-AAC v1。除保留 HE-AAC v1中使用的SBR技术外,HE-AAC v2还增加了“Parametric Stereo”,即“参数化立体声”技术(简称PS技术),用于提升立体声音频的编码效率。立体声音频通常由两路相关的单声道音频信号构成,由于两个声道之间具有一定的相关性,因此完全按照两路独立的音频信息对其进行编码会造成较大的码率浪费。PS技术通过编码立体声中的其中一路音频数据,将另一路音频数据的参数作为附加信息以2~3Kbit/s的速率进行传输。在解码端,HE-AAC v2解码器通过完整编码的音频流和附加信息重建出立体声音频的另一路音频流进行播放。若使用HE-AAC v1解码器进行解码,则仅能解码出完整编码的音频流,并作为单声道信号输出。

HE-AAC的各个档次之间的关系如图4-27所示。

图4-27