1.3 数字视频技术基础_数字视频创意设计与实现（第二版）-QQ阅读中文科幻网

书名：数字视频创意设计与实现（第二版）
作者名：王靖
本章字数：8368字
更新时间：2025-02-18 10:02:56

1.3　数字视频技术基础

视频制作是一项技术与艺术并重的工作，进入数字时代的视频制作的一个重要特征是艺术与技术的结合显得更为紧密，技术在数字视频制作中的作用非常关键。因此，要进行数字视频的创作，了解和掌握数字视频相关的基础知识与原理就成为一项首先要做的工作。

1.3.1　数字视频技术的发展

1.计算机与视频的结合

谈到数字视频的发展历史，不能不回顾计算机的发展历程，因为数字视频实际上是与计算机所能处理的信息类型密切相关的，自20世纪40年代计算机诞生以来，计算机大约经历了以下几个发展阶段。

第一阶段，数值计算阶段。这是计算机问世后的“幼年”时期。在这个时期，计算机只能处理数值数据，主要用于解决科学与工程技术中的数学问题。实际上，世界上第一台电子计算机ENIAC就是为美国国防部解决弹道计算问题和编制射击表而研制生产的。

第二阶段，数据处理阶段。20世纪50年代发明了字符发生器，使计算机不但能处理数值，也能表示和处理字母及其他各种符号，从而使计算机的应用领域从单纯的数值计算进入了更加广泛的数据处理。这是由世界上第一个批量生产的商用计算机UNIAC-1首开先河的。

第三阶段，多媒体阶段。随着电子器件的进展，尤其是各种图形、图像设备和语音设备的问世，计算机逐渐进入多媒体时代，信息载体扩展到文、图、声等多种类型，使计算机的应用领域进一步扩大。由于视觉（即图形、图像）最能直观明了、生动形象地传达有关对象的信息，因而在多媒体计算机中占有重要的地位。在多媒体阶段，计算机与视频产生了“联姻”，数字视频也应运而生。

2.数字视频的发展

数字视频的发展主要是指在个人计算机上的发展，可以大致分为初级、主流和高级几个历史阶段。

第—阶段是初级阶段，其主要特点就是在台式计算机上增加简单的视频功能，利用电脑来处理活动画面，这给人展示了一番美好的前景，但是由于设备还未能普及，都是面向视频制作领域的专业人员。普通电脑用户还无法奢望在自己的电脑上实现视频功能。

第二个阶段是主流阶段，在这个阶段数字视频在计算机中得到广泛应用，成为主流。初期数字视频的发展没有人们期望得那么快，原因很简单，就是对数字视频的处理很费力，这是因为数字视频的数据量非常之大，1分钟的满屏的真彩色数字视频需要1.5GB的存储空间，而在早期一般台式机配备的硬盘容量大约是几百兆，显然无法胜任如此大的数据量。

虽然在当时处理数字视频很困难，但它所带来的诱惑促使人们采用折中的方法。先是用计算机捕获单帧视频画面，可以捕获一帧视频图像并以一定的文件格式存储起来，可以利用图像处理软件进行处理，将它放进准备出版的资料中；后来，在计算机上观看活动的视频成为可能。虽然画面时断时续，但毕竟是动了起来，这带给人们无限的惊喜。

而最有意义的突破是计算机有了捕获活动影像的能力，将视频捕获到计算机中，随时可以从硬盘上播放视频文件。能够捕获视频得益于数据压缩方法，压缩方法有两种：纯软件压缩和硬件辅助压缩。纯软件压缩方便易行，只用一个小窗口显示视频，目前有很多这方面的软件。硬件压缩花费高，但速度快。在这一过程中，虽然能够捕获到视频，但是缺乏一个统一的标准，不同的计算机捕获的视频文件不能交换。虽然有过一个所谓的“标准”，但是它没有得到足够的流行，因此没有变成真正的标准，它就是数字视频交互（DVI）。DVI在捕获视频时使用硬件辅助压缩，但在播放时却只使用软件，因此在播放时不需要专门的设备。但是DVI没有形成市场，因此没有被广泛地了解和使用，也就难以流行。这就需要计算机与视频再作一次结合，建立一个标准，使每台计算机都能播放令人心动的视频文件。这次结合成功的关键是各种压缩解压缩Codec技术的成熟。Codec来自两个单词Compression（压缩）和Decompression（解压），它是一种软件或者固件（固化于用于视频文件的压缩和解压的程序芯片）。压缩使得将视频数据存储到硬盘上成为可能。如果帧尺寸较小、帧切换速度较慢，再使用压缩和解压，存储1分钟的视频数据只需20MB的空间而不是1.5GB，所需存储空间的比例是20:1500，即1:75。当然在显示窗口看到的只是分辨率为160×110的邮票般大小的画面，帧速率也只有15帧/s，色彩也只有256色，但画面毕竟活动起来了。

Quicktime和Video for Windows通过建立视频文件标准MOV和AVI使数字视频的应用前景更为广阔，使它不再是一种专用的工具，而成为每个人计算机中的必备组成部分。而正是数字视频发展的这一步，为电影和电视提供了一个前所未有的工具，为影视艺术带来了影响空前的变革。

第三阶段是高级阶段。在这一阶段，普通个人计算机进入了成熟的多媒体计算机时代。各种计算机外设产品日益齐备，数字影像设备争奇斗艳，视/音频处理硬件与软件技术高度发达，这些都为数字视频的流行起到了推波助澜的作用。

1.3.2　数字视频压缩

1.压缩的必要性

由于视频信号往往都是模拟信号，必须将其进行数字化处理，即经过采样、量化和编码转换成数字视频信号。视频图像经过变换成为数字图像后，就可用显示器来显示，也可以像数字图像一样进行处理。但视频信号与数字图像的根本不同在于：视频信号是连续的运动图像，如我国电视采用的PAL制式电视信号，每秒钟要播放25帧画面；对NTSC制式来说，要求每秒钟播放30帧画面。由于数字视频信号表示的是连续的运动图像，所以在将其数字化后产生了一系列问题。

（1）存储方面

数字化后的视频信号的数据量非常大，需要大量的磁盘空间，这是因为每一个图像帧的每个像素的色彩和亮度的信息都必须被存储。不仅存储数字视频需要使用大量的磁盘空间，数字音频也需要存储空间。一部电影长度为一个半小时，电视节目的长度也是以小时计。显而易见，这是非常不经济的，也是不必要的。

（2）传输方面

目前传输介质中的数据传输速度远远低于活动视频所需的存取速度，会导致大量数据的丢失，因而会影响到接收端的质量，会出现跳帧的现象。

（3）实时播出方面

对于视频图像，因为它实际上是活动图像，我们要求电视以每秒25帧（PAL制）或30帧（NTSC制）的速度播放，这样根据人眼的视觉暂留现象，所看到的画面才能自然流畅。如果播放速度低于这个速度或者存在丢帧现象，那么图像效果都难以令人满意。我们经常在计算机屏幕上看到播放的画面有抖动或撕裂的现象，就是因为播放速度达不到这个要求。

2.视频压缩编码的类型

视频压缩的目标是，在尽可能保证视觉效果的前提下，降低视频数据率。视频压缩比一般是指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处；但是运动的视频还有其自身的特性，因此在压缩时还应考虑其运动特性才能达到高压缩的目标。

（1）有损和无损压缩

在视频压缩中，有损（Lossy）和无损（Lossless）的概念与静态图像中基本类似。无损压缩指压缩前和解压缩后的数据完全一致。多数的无损压缩都采用行程编码（RLE）算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩，这样才能达到低数据率的目标。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果也就越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。

（2）帧内和帧间压缩

帧内（Intraframe）压缩也称为空间压缩（Spatial Compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。

采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频的相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量、减小压缩比。帧间压缩也称为时间压缩（Temporal Compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame Differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

（3）对称和不对称编码

对称性（Symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其他多媒体应用中，一般是把视频预先压缩处理好后再播放，因此可以采用不对称（Asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如：压缩一段3分钟的视频片段可能需要10多分钟的时间，而该片段实时回放时间只有3分钟。

3.视频压缩编码的基本概念

（1）码率（码流）

码率就是数据传输时单位时间传送的数据位数，一般我们用的单位是kbit/s（即千位每秒）。也就是取样率（并不等同于采样率，采样率的单位是Hz，表示每秒采样的次数），单位时间内取样率越大，准确度就越高，处理出来的文件就越接近原始文件，但是文件体积与取样率是成正比的，所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真，围绕这个核心衍生出来cbr（固定码率）与vbr（可变码率）。码率就是失真度，码率越高越清晰，反之则画面粗糙而多马赛克。

码率影响文件的大小，与文件大小成正比：码率越大，文件越大；码率越小，文件越小。

（2）帧率

帧率就是在1秒钟时间内传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次。

帧率影响画面流畅度，与画面流畅度成正比：帧率越大，画面越流畅；帧率越小，画面越有跳动感。如果码率为变量，则帧率也会影响体积，帧率越高，每秒钟经过的画面越多，需要的码率也越高，体积也越大。

（3）分辨率

分辨率影响图像大小，与图像大小成正比：分辨率越高，图像越大；分辨率越低，图像越小。

（4）清晰度

在码率一定的情况下，分辨率与清晰度成反比关系：分辨率越高，图像越不清晰；分辨率越低，图像越清晰。在分辨率一定的情况下，码率与清晰度成正比关系：码率越高，图像越清晰；码率越低，图像越不清晰。

1.3.3　数字视频清晰度标准

（1）高清（High Definition）

高清是我们目前相对比较熟悉的一个词语。高清是在广播电视领域首先被提出的，最早是由美国电影电视工程师协会（SMPTE）等权威机构制定相关标准，视频监控领域也广泛沿用了广播电视的标准。将“高清”定义为720p、1080i和1080p三种标准形式，而1080p又有另外一种称呼——全高清（Full High Definition）。关于高清标准，国际上公认的有两条：视频垂直分辨率超过720p或1080i，视频宽纵比为16:9。

（2）标清（Standard Definition）

标清是指物理分辨率在720p以下的一种视频标准。例如480p格式，480p是指视频的垂直分辨率为480线逐行扫描。具体地说，是指分辨率在400线左右的VCD、DVD、电视节目等“标清”视频格式，即标准清晰度。

（3）超高清（Ultra High-Definition）

超高清是这两年才出现的一个概念，来自国际电信联盟（International Telecommunica-tion Union）最新批准的信息显示，“4K分辨率（3840×2160像素）”的正式名称被定为“超高清Ultra HD（Ultra High-Definition）”。同时，这个名称也适用于“8K分辨率（7680×4320像素）”。CEA要求，所有的消费级显示器和电视机必须满足以下几个条件之后，才能贴上“超高清Ultra HD”的标签：首先，屏幕最小的像素必须达到800万有效像素（3840×2160）；在不改变屏幕分辨率的情况下，至少有一路传输端可以传输4K视频；4K内容的显示必须原生，不可上变频，纵横比至少为16:9。与此同时，电视行业里，同对于高清电视机命名为HDTV一样，对于4K电视机的命名，美国消费者电子协会针对4K电视进行了一个官方的命名UHDTV，这个命名也就是超高清电视。

1.3.4　数字视频格式

在计算机软、硬件技术和宽带互联网技术迅猛发展的同时，各种数字视频的录制和后期制作技术也得到了突飞猛进的发展。对于数字视频的发展和变化，我们可以从两方面进行分析：数字视频的超高清晰度当然是视频录制设备不断更新换代的结果；而影像视频体积的大幅减小和流式视频文件传输性能则得益于视频压缩技术和视频编辑处理技术的不断创新与改进，这种视频技术的创新和改进在宏观上的表现就是视频格式。

面对类型众多的视频格式，一个很容易混淆的概念就是文件封装格式和压缩编码格式。视频压缩格式是针对视频实体的编码方式，是决定视频压缩质量的主要因素；而视频封装格式是用于视频文件交换和播放识别的封装容器。同一种封装格式可以支持多种压缩编码格式，如同为AVI扩展名的视频文件，其压缩编码可以是DV格式，也可以是mp4或H.264格式。一个完整的视频文件是由音频和视频两部分组成的，H.264、Xvid等是常见的视频编码格式，MP3、AAC等是音频编码格式。文件封装格式一般由文件后缀名体现，如AVI、MKV、FLV等，视频数据的封装格式和实际视频与音频如何压缩编码没有直接关系。

1.常见视频编码格式

（1）H.264

H. 264除了具有高质量、高效率的特点外，还设计了能够覆盖整个视频应用领域的分层分级编码结构，包括了基本应用、主应用、扩展应用和高级应用四大应用层，共17个应用类别（Profile）。其中，有用于低成本视频会议和移动视频的基本类（CBP和BP）；有用于标清电视的主类（Main Profile）；有用于网络流媒体视频的扩展类（Extended Pro-file）。随后H.264又增加了针对高清电视、数字电影和3D立体影视应用的高级应用类和附加应用类，如10bit应用的High Profile，4:2：2、4:4：4应用类以及与之相对应的全I帧编码类。H.264采用数字代码来表示分辨率的分级（Level），每个级规定了相应类的分辨率标准。通过类与级的组合，就可以确定不同压缩方案下的图像分辨率（从128×96至4096×2304）、帧频率和最大视频码率（从64kbit/s至960Mbit/s）。

H. 264编码的系统架构分成视频编码层（VCL）和网络提取层（NAL），可将视频编码和对网络高度亲和的任务分别交由这两者来完成，因而能在实现高效率编码的同时增强对编码差错的恢复能力，使H.264能够更好地适应IP和无线传输的网络应用环境。

（2）VC-1

VC-1（WMV9）是微软在Windows Media Video 9的基础上开发的视频编码标准，后被命名为SMPTE 421M，成为国际标准。VC-1拥有三个大类（Profile）共10级（Level）的分层编码能力，可满足高清、标清电视和多媒体视频等不同分辨率的应用，码率选择范围在96kpit/s～135Mpit/s之间，详情见参考文献。WMV格式的压缩效率是MPEG2的2倍，与H.264基本相当，具有图像质量高、占用资源少和技术难度低的优点。因其出自微软的技术背景，在PC环境和互联网中得到广泛应用。尽管H.264也可以应用在微软的IPTV平台上，但已经采用WMV9平台的用户会更倾向于使用完整的微软IPTV集成方案。VC-1已成为蓝光DVD的强制性编码标准。

（3）MPEG

它的英文全称为Moving Picture Expert Group，即运动图像专家组格式，家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准，它采用了有损压缩方法减少运动图像中的冗余信息，说得更加明白一点，即MPEG的压缩方法依据是，相邻两幅画面绝大多数是相同的，把后续图像和前面图像中有冗余的部分去除，从而达到压缩的目的（其最大压缩比可达到200:1）。目前MPEG格式有三个压缩标准，分别是MPEG-1、MPEG-2和MPEG-4，MPEG-7与MPEG-21仍处在研发阶段。

MPEG-1制定于1882年，它是针对1.5Mbit/s以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准。也就是我们通常所见到的VCD制作格式。使用MPEG-1的压缩算法，可以把一部110分钟长的电影压缩到1.2GB左右大小。这种视频编码格式的文件扩展名包括mpg、mlv、mpe、mpeg及VCD光盘中的.dat文件等。

MPEG-2制定于1884年，设计目标为高级工业标准的图像质量以及更高的传输率。这种格式主要应用在DVD/SVCD的制作（压缩）方面，同时在一些HDTV（高清晰电视广播）和高要求视频编辑、处理上面也有一定的应用。使用MPEG-2的压缩算法，可以把一部110分钟长的电影压缩到4～8GB的大小。这种视频编码格式的文件扩展名包括mpg、mpe、mpeg、m2v及DVD光盘上的.vob文件等。

MPEG-4制定于1998年，MPEG-4是为了播放流式媒体的高质量视频而专门设计的，它可利用很窄的带度，通过帧重建技术压缩和传输数据，以求使用最少的数据获得最佳的图像质量。目前，MPEG-4最有吸引力的地方在于它能够保存接近DVD画质的小体积视频文件。另外，这种文件格式还包含了以前MPEG压缩标准所不具备的比特率的可伸缩性、动画精灵、交互性甚至版权保护等一些特殊功能。这种视频编码格式的文件扩展名包括asf、mov和AVI等。

（4）DivX

这是由MPEG-4衍生出的另一种视频编码（压缩）标准，也即我们通常所说的DVD rip格式，它采用了MPEG-4的压缩算法，同时又综合了MPEG-4与MP3各方面的技术，即使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩，同时用MP3或AC3对音频进行压缩，然后将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD，并且体积只有DVD的数分之一。

2.常见视频文件封装格式

（1）AVI格式

它的英文全称为Audio Video Interleaved，即音频/视频交错格式。它于1882年被Mi-crosoft公司推出，随Windows3.1一起被人们所认识和熟知。所谓音频/视频交错，就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好，可以跨多个平台使用，其缺点是体积过于庞大，更糟糕的是压缩标准不统一，最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频，而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频，所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题，如果用户在进行AVI格式的视频播放时遇到了这些问题，可以通过下载相应的解码器来解决。

DV-AVI格式中DV的英文全称是Digital Video Format，是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过IEEE 1394端口传输视频数据到计算机，也可以将计算机中编辑好的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是avi，所以也称为DV-AVI格式。

（2）MKV格式

MKV是Matroska的一种媒体文件，Matroska是一种新的多媒体封装格式，也称为多媒体容器（Multi-Media Container）。它可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一个Matroska Media文件当中。MKV最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流。

（3）MOV格式

MOV格式是美国Apple公司开发的一种视频格式，默认的播放器是苹果的Quick Time Player，具有较高的压缩比率和较完美的视频清晰度等特点，但其最大的特点还是跨平台性，即不仅能支持MacOS，同样也能支持Windows系列。

（4）FLV格式

FLV是Flash Video的简称，FLV流媒体格式是随着Flash MX的推出发展而来的视频格式。FLV是在Sorenson公司的压缩算法的基础上开发出来的。由于它形成的文件极小、加载速度极快，使得网络观看视频文件成为可能，被包括搜狐视频、新浪播客、优酷土豆和Youtube在内的众多新一代视频分享网站所采用，成为目前增长最快、使用最为广泛的视频传播格式。

（5）ASF格式

它的英文全称为Advanced Streaming format，它是微软为了和Real Player竞争而推出的一种视频格式，用户可以直接使用Windows自带的Windows Media Player对其进行播放。由于它使用了MPEG-4的压缩算法，所以压缩率和图像的质量都很不错（高压缩率有利于视频流的传输，但图像质量肯定会损失，所以ASF格式的画面质量有时候不如VCD是正常的）。

（6）WMV格式

它的英文全称为Windows Media Video，也是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV格式的主要优点包括本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。

（7）RM/RMVB格式

Real Networks公司所制定的音频/视频压缩规范称为Real Media，简称RM，用户可以使用Real Player或Real One Player对符合Real Media技术规范的网络音频/视频资源进行实况转播，并且Real Media可以根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用Real Player或Real One Player播放器可以在不下载音频/视频内容的条件下实现在线播放。另外，RM作为目前主流网络视频格式，还可以通过其Real Server服务器将其他格式的视频转换成RM视频，并由Real Server服务器负责对外发布和播放。RM和ASF格式可以说各有千秋：通常RM视频更柔和一些，而ASF视频则相对清晰一些。

RMVB是一种由RM视频格式升级延伸出的新视频格式，它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式，在保证平均压缩比的基础上合理利用比特率资源，就是说静止和动作场面少的画面场景采用较低的编码速率，这样可以留出更多的带宽空间，而这些带宽会在出现快速运动的画面场景时被利用。这样，在保证了静止画面质量的前提下，大幅地提高了运动图像的画面质量，从而使图像质量和文件大小之间达到了微妙的平衡。

思考题

1.数字视频制作的主要流程是什么？

2.比较基于电视节目制作和基于多媒体制作两种数字视频制作方式的差异。

3.比较常见的数字视频格式的差异。

实践建议

1.模拟设计数字视频制作计划，撰写各阶段的工作要求。

2.观摩几部电视广告和数字电影，体会数字技术对影视艺术的冲击与改变。

3.调研除电视台之外开展数字视频制作的部门或个人的主要工作内容和方式。