7.1.4 数字视频压缩编解码技术

大家知道,模拟电视图像的信号带宽至少需要4.2MHz,复合视频信号(带扫描和同步控制的视频信号)的带宽至少为6MHz。采用8bit量化的数字视频信号的带宽更大。表7-2是各类数字视频信号的带宽(码率)。

传送一幅清晰度不算高的每秒30帧、CIF格式(288×352≈10万像素)未被压缩的数字图像信号,需要36.5Mbit/s的码率。传送清晰度更低的QCIF格式(144×176≈2.5万像素)未被压缩的数字视频信号需要9.1Mbit/s的码率。如果再加上多路复用,那么需要网络的传输带宽更大。因此,必须对数字视频信号进行有效压缩,才能实现在网络上传输视频信号。视频会议系统要实施的是高压缩比、低码流、高清晰度的视频压缩编码技术。

表7-2 各类数字视频信号的码率

1.视频信号压缩原理

彩色电视每秒传送25帧或30帧图像。实际上每帧画面的主体图形只有少许差异,背景的差异更少。如果把一串连续图像对应位置的亮度信号和色度信号进行比较和差值统计,结果发现只有不到10%的像素点的亮度变化会超过2%,色度只有不到1%的变化。说明帧间图像存在冗余信息的空间。运用帧间压缩技术可实现压缩图像信息的数据率。

在同一帧画面上某个像素的亮度和色度信息与其相邻像素的亮度和色度信息存在着极强的相关性(连贯性),这种帧内图像信息的相关性便产生帧内图像的冗余信息,也是压缩图像信息数据率的重要依据。

还有一种是图形结构中的冗余信息。例如方格状图案的像素存在着明显的分布模式。根据这种有规律的分布模式,通过运算可生成图像,而不必占用视频信息数据。

视觉冗余信息:人眼对量化误差的敏感度随着亮度的增加而降低,以及人眼对亮度感觉的敏感度高于对色度的感觉。根据人眼这两种视觉特性,把敏感和不敏感的部分分开来编码,可以压缩数字视频信号的带宽。

1993年成立的ITU-T国际电信联盟标准化部和ISO国际标准化组织的MPEG活动图像专家组分别发布了H.261、H.263、H.264、H.265系列和MPEG1、MPEG2、MPEG4两种不同系列、不同性能和不同用途的视频压缩编解码标准。它们的压缩依据都是允许有一定的图像失真而并不妨碍图像实际应用的效果。采用的压缩方法都是压缩帧间图像、帧内图像的冗余信息和视觉冗余信息等。H.261、H.263和H.264、H.265用于视频会议系统。MPEG1、MPEG2和MPEG4主要用于电视和娱乐音视频节目的存储(光碟)和播放。

(1)压缩方法:

1)频带压缩技术。利用眼睛的视觉特性,对像素的亮度Y值以全分辨率取样,对像素的色差值CRCB以减半分辨率取样。这样可降低图像信号的数据率(带宽)。即YUV分量信号的比值为4∶2∶2或4∶1∶1。

2)帧间运动预测压缩编码技术。图7-9是根据图像的内容进行画面分类传送,即I、P、B画面分类传送。

第一类是I画面(Intra Code Picture)是基础画面,是图像背景和运动主体的详情。用较多的数据率传送,如152kbit/s帧。

第二类是P画面(Predictive Code Picture),又称预测画面,它是与I画面相隔一小段时间后,运动主体在同一背景上已有明显变化的预测画面。它是以I画面为基准,不传送背景画面信息,只传送运动主体变化的差值,因此可少用一些数据传送,例如80kbit/s/帧。

第三类是B画面,是I画面与P画面之间前后双向预测的过渡画面(Bidirectional Predictive Code Picture),反映I、P画面间运动主体的微小变化情况。它既要参考I画面的内容,又要参考P画面的内容,所以称为双向预测画面。通常以每帧16~23kbit/s数据率传送。

(2)帧间压缩和帧内压缩技术:

1)帧间差值有损压缩技术。把每帧图像分成16×16(或8×8)相同大小的子块(又称宏块),并对相邻帧图像对应区域的子块分别进行比较得出差值,用这个比较差值进行编码,而不是对实际数值进行编码。丢弃差值很小、对图像质量影响不大的一些信息,因此称为有损帧间压缩编码。

图7-9 三类画面的排序(一列)

2)帧内压缩技术。

在同一画面中存在着相当多的冗余信息,如一幅人像画面,面部与头顶部位的线条清晰度要求是不相同的,尤其是眼睛和嘴唇部分,不仅线条复杂,表情丰富,是观众目光集中的地方,必须使用更多的比特率传送。侧面和头顶部位,轮廓变化少,灰度层次差别不大,可少用一些比特率处理。这种在同一画面中(同一时域内)的不同空间部位进行数据压缩,采用的是离散余弦变换法(Discrete Cosine Transform,DCT)。

2.图像分辨率标准

图像分辨率是指图像画面上的纵横像素数量的乘积。像素越多,分辨率就越高,图像清晰度越好,码流也越大。视频会议和视频监控中通常采用CIF和D类两种分辨率格式。

电视图像画面的宽高比有4∶3(标清电视)和16∶9(宽屏电视)两类。

(1)通用图像格式CIF的分辨率。世界上现有三种彩色电视制式;即NTSC制、SECAM制和PAL制,为实现不同彩色电视制式之间的视频通信,国际上制定了一个通用图像格式CIF(Common Intermediate Format)。它解决了视频会议系统在国际互联互通时产生的矛盾。在编码时,将PAL、NTSC或SECAM等各种制式的数字电视信号转换为CIF格式,解码时再将CIF格式转换为相应的PAL、NTSC或SECAM等格式。CIF有五种分辨率格式,表7-3是CIF通用图像格式的五种图像分辨率和采用H.261压缩编码需要的数据传输带宽。

表7-3 CIF通用图像格式的五种图像分辨率标准

(2)高清视频会议图像分辨率标准。目前我国的高清视频会议和视频监控系统的图像清晰度标准采用的是日本数字电视的D类显示格式,D类标准分为D1、D2、D3、D4、D5五种规格。其中D1(NTSC制电视)和D2(PAL制电视)均为标清(Standard Definition,SD)格式,D3、D4、D5为高清(High Definition,HD)格式:

D1:480i,屏幕宽高比为4∶3或16∶9,分辨率为860×480/60Hz,行频为15.25kHz。适用于行频较低的NTSC制电视,与NTSC制式的标清模拟电视清晰度相同。

D2:480p,屏幕宽高比为16∶9,分辨率为860×480/60Hz,与逐行扫描的DVD规格相同,行频为31.5kHz,适用于行频较高的PAL制电视,相当于DVD光盘图像的清晰度标准。

D3:720p,屏幕宽高比为16∶9,分辨率为1280×720/60Hz,行频为45kHz。

D4:1080i屏幕宽高比为16∶9,分辨率为1920×1080/60Hz,行频为33.75Hz。

D5:1080p屏幕宽高比为16∶9,分辨率为1920×1080/60Hz,行频为67.5Hz。

CIF标准的图像分辨率为CIF(352×288像素),不是理想的视频图像质量,现已很少采用。4CIF(704×576像素)是常用的标清监控图像的分辨率,码率为576kbit/s~1Mbit/s,可获得稳定的高质量图像,但数据存储量较大,网络传输带宽要求较高。

D1分辨率(720×480像素)可以提高清晰度,满足高质量的要求,4CIF和D1/D2已被监控系统广泛采用。

3.H.261压缩编码标准

H.261是ITU-T的前身CCITT第15研究小组于1990年12月发布的视频图像压缩编码标准,常称为P×64kbit/s标准(P=1~30)。P=1或2时,支持QCIF格式、帧频较低的可视电话传输。P≥6时,支持CIF格式、帧频较高的用于视频会议系统的数据传输。

H.261是一种采用帧间预测减少时域冗余和帧内DCT变换,减少空域冗余的混合编码方法,具有压缩比高(最高压缩比可达50∶1)、算法复杂度低等优点。

4.H.263压缩编码标准

在H.261基础上,1996年ITU-T推出了H.263视频压缩编码标准,1998年ITU-T又推出了进一步提高编码性能的H.263+及H.263++等视频编码标准。H.263比H.261可提供更好的图像质量、更低的码率和支持Sub QCIF、QCIF、CIF、4CIF和16CIF五种图像分辨率格式。

H.263从以下三方面着手压缩数字视频的数据量:

(1)充分利用人眼对亮度信号比色度信号更敏感的视觉特性,消除视觉冗余。对每个像素的数据量由原来的24bit(Y、U、V各占8bit)降低为12bit(Y占8bit、U和V各占4bit),从而使数据量减少50%。

(2)在帧内(同一画面)的不同空间部位根据图像轮廓变化的大小和灰度层次的差别大小,用改进的DCT离散余弦变换技术进行数据压缩,有效地消除画面内相邻宏块数据的强相关性。因此H.263输出的数据率一般是非恒定的,即快速运动物体的数据率高于慢速运动物体的数据率。

(3)利用帧间运动估计和高级预测技术,对运动矢量的差值进行编码,充分消除帧图像之间的强相关性,获得较高的压缩压比。H.263++的压缩可达到120倍以上,在保证可以接受的图像质量基础上,获得极低的数据率。

5.H.264高效压缩编码标准

21世纪初,ITU-T国际电信联盟与ISO/IEC国际标准化组织两个国际标准组织联合开发了兼容通信、广播和流媒等各种应用的H.264高效压缩编码标准。因此H.264又称MPEG4 AVC或MPEG4(Part 10)。

H.264采用压缩数字视频冗余信息的原理类似前面所述,由于它要用于通信系统,因此要求通信系统的端到端的延迟应小于200ms,视频会议设备编解码器端到端的延迟不大于300ms。

H.264比MPEG2可节省60%的带宽资源,在传输带宽为2.5Mbit/s的条件下,图像质量可达到MPEG2压缩编码(DVD)的质量,见表7-4。

表7-5是MPEG2、MPEG4、H.263和H.264四种视频压缩编码标准码流节省率的比较。

表7-5表明:H.264不仅比H.263节省49%的码率,比MPEG2节省64%的码率,比MPEG4节省39%的码率,而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输,能适用于不同网络中的视频传输,网络亲和性好,从而获得平稳的图像质量。H.264可以低于1Mbit/s的速率实现标清数字图像传送。

表7-4 H.264(MPEG4 AVC)与MPEG2性能对比

表7-5 H.26x与MPEGx视频压缩编码标准码流节省率的比较

H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264的应用目标广泛,可满足各种不同速率、不同场合的视频应用。

6.H.265高效视频压缩编码标准

H.265是ITU-T VCEG继H.264之后制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264,保留原来的某些技术,同时对一些相关的技术加以改进。新技术使用先进的技术用以改善码流、编码质量、延时和算法复杂度之间的关系,达到最优化设置。具体的研究内容包括:提高压缩效率、提高鲁棒性和错误恢复能力、减少实时时延、减少信道获取时间和随机接入时延、降低复杂度等。H.265标准除了在编解码效率上的提升外,在对网络的适应性方面也有显著提升,可以很好地运行在Internet等复杂网络条件下。

H.265可以实现以1~2Mbit/s的码率传送720p(分辨率1280×720)高清音视频。通过主观视觉测试得出的数据显示,在比H.264码率减少51%的情况下,H.265编码的视频质量还能与H.264编码视频近似甚至更好。

H.265旨在在有限带宽下传输更高质量的网络视频,仅需原先的一半带宽即可播放相同质量的视频。这也意味着,人们的智能手机、平板电脑等移动设备将能够直接在线播放1080p的全高清视频。H.265标准也同时支持4K(4096×2160)和8K(8192×4320)超高清视频。