1.1.3 音视频技术的未来展望

通过回顾信息技术和音视频技术的发展历程,我们有理由相信,当下的音视频技术的现状不会成为发展的终点,在未来必将有新的技术产生,并伴有新的业务形态出现。笔者认为,未来音视频技术的发展趋势如下。

1.追求极致播放体验的超高清、高码率和高帧率视频

在电视、计算机和网络视频兴起的早期,由于存储介质价格、网络带宽,以及拍摄和播放设备规格的限制,视频流只能使用极低的分辨率、帧率和码率进行传输。例如,早期部分视频采集设备的标准采样分辨率仅为358像素×288像素,甚至更低,如176像素×144像素。而今,1080P(1920像素×1080像素)的视频分辨率几乎成为标配,部分场景甚至已经使用4K(3840像素×2160像素)或8K(7680像素×4320像素)作为标准分辨率。同样,为了减轻网络传输压力,早期视频的帧率通常被限制在30fps甚至更低,而当前的部分场景已经开始使用60fps甚至120fps 进行拍摄,以求达到更加流畅的播放体验。视频技术取得如此快的发展是因为有以下几大前提:存储技术的进步、网络传输带宽的提升、设备运算能力的提升、显示设备制造工艺的进步等。未来,随着超大屏、超高分辨率拍摄和显示设备的普及,更加极致的播放体验将继续成为消费者下一步的需求,而这也对音视频技术的发展提出了新的挑战。

2.低延迟流媒体传输

由于没有用于信号传输的专用网络,所以网络流媒体的传输质量和实时性一直不尽人意。近年来,随着WebRTC等知名开源项目的普及,音视频实时通信逐渐开始产业化,并在视频会议、远程办公等领域取得了较大进展。2020年,全世界的线下交流在相当长的时间内几乎完全冻结,在这种条件下,实时音视频通信承担了大量如会议、教学等原本在线下完成的业务,人们的生活和观念都发生了巨大改变,未来对实时音视频通信的需求极可能继续延续甚至发展。因此,未来流媒体传输必须解决困扰机构与消费者的几大痛点,如在部分场景下,视频发送和接收间仍有较高的延迟;当网络卡顿时,用户体验仍不够好等。

3.新型媒体显示设备形态

随着技术的发展,音视频信息的显示介质逐渐突破了电影、电视、计算机显示器和智能手机等平面显示设备,开始出现多种新型的显示形态。其中,最典型的有虚拟现实及其他一些可穿戴智能设备等。

虚拟现实(Virtual Reality,VR)是一种通过计算机以虚拟的方式模拟现实场景的技术。通过计算机的复杂运算,VR设备生成一个虚拟的三维空间,并通过VR显示设备在用户眼前显示。当用户进行位置移动等操作时,VR设备通过实时运算改变模拟的场景,呈现给用户近似于完全逼真的视觉交互体验。目前,已上市的VR技术多以视觉体验为主,通过专用的VR显示设备显示模拟的场景,并通过改变虚拟场景的内容响应用户的交互动作。更完善的 VR 设备还应包含听觉、重力反馈甚至嗅觉等多重感官的集成。当前的技术瓶颈主要有以下几点:

◎ 设备运算能力限制:实时模拟现实场景需要计算机有极强的运算能力,而运算能力的不足将导致VR渲染模拟场景出现延迟,进而导致与用户的交互脱节。

◎ 数据传输带宽限制:VR 虚拟场景的数据量远超过普通的音视频媒体播放,传输带宽的不足将影响模拟场景的显示质量和响应速度,进而影响用户体验。

◎ 显示设备设计限制:当前,多数显示设备都是由普通的小屏显示器改进而成的,对视觉的生理成像机制适应性不足。

随着时间的推移和技术的进步,运算能力更强的设备、更优的网络传输线路将逐渐普及,这些限制因素都有望逐渐缓解乃至完全克服。

可穿戴设备是近年兴起的另一个热门领域,当前主流的可穿戴设备的形态有手表、手环、鞋及服装配件等。由于技术的限制,多数可穿戴设备并未加入摄像或视频播放功能,但在可穿戴设备上增加音视频功能毫无疑问是未来发展的必然方向,部分厂商已经在此领域开始了初步的尝试,最典型的就是Google公司于2013年发布的智能眼镜Google Glass。

通过内置的摄像机,Google Glass既可以实时拍摄高清视频,还可以通过其设计精妙的显示设备在用户的视野中以类似“抬头显示器”(Head Up Display,HUD)的方式显示内容。Google Glass还配置了麦克风和骨传导耳机,实现声音信号的输入和输出,支持以语音控制的方式与设备交互。此外,Google Glass还配备了触控板、陀螺仪、加速器和地磁仪等多种控制设备与传感器,应用空间十分广阔,可以支持多种如基于位置的服务(LBS)、智能场景分析和自动化控制等业务。遗憾的是,由于续航、工业设计和软硬件交互等若干问题尚未得到完美解决,以Google Glass为代表的支持视频显示的可穿戴设备很多并未在消费者群体中普及,但是它们为未来智能设备的发展提供了极为广阔的想象空间。