前言

多年来,音视频、多媒体技术一直以各种各样的形式对社会产生深刻影响,从专业领域的广播电视到消费领域的个人数字摄像机等这些都已融入人们生活的方方面面。进入互联网时代,在线视频、短视频等娱乐场景,以及远程会议、远程医疗等专业应用进一步扩展了音视频技术的应用领域,使其与现代文明的联系更加密不可分。

音视频技术推动泛娱乐行业高速发展

从21世纪的最初几年开始,在线视频产业便渐渐开始兴起。随着宽带网逐渐走入寻常百姓家,消费者们无须再忍受拨号网络缓慢的传输速度,部分知名门户网站(如搜狐等)也逐渐开始涉足在线视频领域。此后,如乐视网、优酷网、土豆网、PPLive、PPS、酷6等在线视频网站层出不穷,再加上背靠互联网巨头公司的腾讯视频、爱奇艺等,国内在线视频行业呈现百花齐放的场景。然而,随着版权和带宽等成本的日渐高涨,多数平台逐渐沉寂,最终形成了“爱(奇异)优(酷视频)腾(讯视频)”三足鼎立的格局。此外,如 Acfun 和 bilibili 等二次元主题网站和芒果TV等以综艺为特色的平台也在各自的领域逐渐扩大了影响力。

在视频网站平台的发展起起伏伏之际,另一种在线视频娱乐的形态——网络互动直播开始异军突起。直播本是历史最悠久的视频应用之一,多年以来广电领域的数字电视广播、闭路电视系统一直是直播系统的最典型应用。进入互联网时代,直播的整体形态与产品细节与传统的闭路电视系统相比发生了翻天覆地的变化,最典型的升级是从主播到观众的单方面放送,转变为主播与观众的双向互动,如通过弹幕或连麦等方式。网络互动直播从萌芽到兴起,到最为繁荣的“千播大战”,直到最终经历多次的兼并和淘汰,其中的幸存者已经寥寥无几。当前仍较为活跃的直播平台有头部的斗鱼、虎牙和主要用于带货的淘宝直播和京东直播等。

除中、长视频外,随着以智能手机为代表的移动智能设备的日渐普及,短视频作为一项新的业务形态逐渐占据了消费者的碎片时间。通常认为短视频起源自本世纪早期的微电影、网络短片和校园DV等形态,伴随着各种UGC视频平台的蓬勃发展而越发兴盛。但由于平台的定位、资本及政策等的多重影响,多数平台在昙花一现后迅速消失在市场中,甚至腾讯旗下的微视也难逃被雪藏多年的命运。在智能移动设备全面进入人们的生活后,通过移动设备进行“短、平、快”风格的内容分享重新点燃了短视频行业的星星之火,低成本、快节奏的短视频拍摄成为人们分享生活和观点的重要手段。今天,以抖音和快手为代表的移动短视频平台凭借其丰富的内容和对用户心理与喜好的研究在用户中产生了巨大影响,成为当前基于音视频的泛娱乐场景中新的一极。

音视频技术给商务与办公领域带来新生命

目前,远程办公已成为必然选择。当前市场上多家科技企业发布了多款远程办公产品软件或一体式解决方案,典型的有Microsoft的Teams、Google的Google Meet、腾讯的腾讯会议、字节跳动的飞书、阿里巴巴的钉钉和Zoom的同名产品Zoom等。这些产品的共同特点是基于互联网、云计算等技术,集成了电子邮件、电子白板、远程连接与桌面共享等模块,旨在为异地办公的员工和团队提供强大而可靠的交流和共享服务。构建一个稳定而完备的远程办公系统需要多个不同的系统精密配合,而实时音视频通信可谓其中技术最为复杂、挑战最大的模块之一,其稳定性和性能直接决定了系统整体的性能与用户体验。

目前主流的实时音视频通信解决方案主要基于WebRTC标准。与传统的RTMP+CDN系统相比,基于WebRTC的方案延迟更低,卡顿情况更少,且支持直接接入浏览器进行推流与播放。

音视频技术具有广阔的发展前景和学习价值

从上述音视频应用的发展历史我们可以看出,音视频技术始终在行业内占据重要地位。从在线视频网站到互动直播,再到短视频与实时音视频通信,当音视频领域在某一个行业发展到顶峰,甚至随后开始逐渐衰落时,也总是有另一个风口异军突起成功接棒。究其原因在于,音视频由于具有可以生动形象地携带大量信息,且易于被人们快速理解的特性,已成为信息传输效率最高的通信媒介。几乎所有的商业形态都可以通过音视频技术实现信息的快速理解与交换,实现效率的倍增。因此,近年来无论社会如何发展变化,音视频领域依然以朝阳产业的面貌蓬勃发展。

另一方面,音视频技术是软件编程的一项高阶技术,具有较高的准入门槛。一名优秀的音视频工程师应当从原理到实践做到融会贯通,至少需要掌握以下领域的知识与技能:

数学、信息与编码理论、计算机系统原理、算法理论、编程语言(如C++、Java、Go等)、网络开发、跨平台软件开发(如移动端、服务端和客户端)和系统架构设计等。

因此,音视频技术的学习之路比普通的软件开发之路更加艰难、漫长。而另一方面,这也成为音视频领域技术人员最好的护城河,为行业内的开发者提供了深入沉淀的机会。

本书的价值

音视频技术并不是一项可以轻松掌握的技术,为了解决这个问题,许多天才程序员贡献了多项开源工程对音视频开发的底层技术进行了封装与集成,以提升整体的开发效率,FFmpeg便是其中的典型。作为最强大的音视频开源项目之一,FFmpeg提供了音视频的编码与解码、封装与解封装、推拉流和音视频数据编辑等操作,屏蔽了许多底层技术细节,使得开发者可以将更多的精力专注在业务逻辑的实现上,大幅提升了开发如播放器、推流、音视频编辑等客户端或SDK等产品的效率。

尽管如此,对初学者来说,FFmpeg提供的命令行工具和SDK的使用方法仍然较为困难。除音视频的基本概念外,繁冗复杂的命令行参数与API常常让初学者无从下手,除官方提供的文档外,几乎没有完备的技术资料可供参考。本书系统地讲解了音视频领域的基础知识,并由浅入深地介绍了 FFmpeg 的基本使用方法,笔者希望本书的面世可以进一步降低音视频开发的入门门槛,让更多有志于从事音视频开发的同学可以为整个行业添砖加瓦。

本书的内容及学习方法

本书内容分为三部分,各部分之间的内容相互关联但又相对独立,读者可以根据自身的需求按顺序阅读或选择性学习。

◎ 第 1~6 章为本书的第一部分,主要讲解音视频技术的基础知识,包括音视频编码与解码标准、媒体容器的封装格式和网络流媒体协议简介。建议对音视频技术不够熟悉的读者从该部分开始阅读,有一定基础的读者可以选择泛读或跳过该部分。

◎ 第7~9章为本书的第二部分,主要讲解命令行工具ffmpeg、ffprobe和ffplay的主要使用方法。命令行工具在搭建测试环境、构建测试用例和排查系统Bug时常常起到重要作用。如果想要在实际工作中有效提升工作效率,那么应熟练掌握 FFmpeg命令行工具的使用方法。

◎ 第10~15章为本书的第三部分,主要讲解如何使用libavcodec、libavformat等FFmpeg SDK进行编码与解码、封装与解封装,以及媒体信息编辑等音视频基本功能开发的方法。在实际的企业级音视频项目中,通常采用调用FFmpeg相关的API而非使用命令行工具的方式实现最基本的功能,因此该部分内容具有较强的实践意义,推荐所有读者阅读并多加实践。此部分的代码实现基本来自FFmpeg官方文档中的示例代码,笔者在此基础上进行了一定的改编。书中代码整体上遵循了示例代码的指导,稳定性较强,且更易于理解。

勘误与联系方式

由于本书内容较为繁杂,且笔者在撰写稿件的同时仍承担繁重的一线开发任务,因此书中极有可能出现部分疏漏或错误,望广大读者阅读后不吝指正,提出宝贵的意见或建议,联系邮箱:yinwenjie-1@163.com。

致谢

自本书初步策划开始,截至今日已一年有余。这是我第一次独立撰写书稿,其间所经历的困难甚至痛苦不言而喻。最终初稿得以完成,首先必须感谢我的伴侣,在本书定稿的过程中,你完成了身份从女朋友到妻子的升级,没有你的支持,本书断无问世的可能。此外还必须感谢我的父母,你们的关爱、期望与督促,也是本书问世的源动力之一。

感谢博文视点的编辑老师,你们的专业程度一直令我叹服。没有你们从开始到最终的指导和帮助,本书是一定无法完成的。

感谢各个技术交流群中的同行与朋友,以及我的博客与课程的读者,有了你们的支持,我才克服了所经历的困难,将本书带到你们的面前。

希望在不久的将来,能有更多更有价值的内容贡献给大家,谢谢!

殷汶杰

2021年6月于上海