- 3D计算机视觉:原理、算法及应用
- 章毓晋编著
- 2223字
- 2021-10-29 12:08:10
1.3 3D视觉系统和图像技术
在实际应用中,为完成视觉任务,需要构建相应的视觉系统,其中要用到各种图像技术。
1.3.1 3D视觉系统流程
在很多情况下,人们仅能直接获得对3D物体进行2D投影而得到的图像,但客观世界本身是3D的,要准确地了解客观世界,需要把握物体的3D空间信息。所以,需要研究和使用3D视觉系统。
要获得3D空间信息,既可以直接获取,也可以借助2D图像间接得到。从这两个方面分别考虑,就有了两类获取3D空间信息的方案。一类是利用特殊的设备直接采集3D图像,这将在第3章中讨论;另一类是先采集一幅或一系列2D图像,再尝试从中获得3D空间信息(对客观物体进行重建恢复)。后一类方法涉及两条技术路线。一条是采集相关联的多幅2D图像,根据它们的关联性来获取这些图像中的3D空间信息,相关的典型方法将在第6章和第7章中进行介绍;另一条是仅采集单幅2D图像,借助相关的先验知识从中获取隐含的3D空间信息,相关的典型方法将在第8章中进行介绍。
3D空间信息的获得为完成视觉任务打下了基础,在此(感知的)基础上,计算机视觉还要根据感知到的图像对实际的目标和场景做出有意义的解释和判断,从而做出决策和采取行动。这属于高层次的工作,需要通过学习、推理、与模型的匹配等解释场景的内容、特性、变化、态势或趋向等。
场景解释是非常复杂的过程,其困难主要来源于两个方面:一是要处理大量、多方面的数据,二是缺乏利用已知的低层像素矩阵获得所需的高层结果(对包含场景信息的图像内容的细节把握)的基本工具。由于没有对非结构化图像进行理解的通用工具,所以需要在两者之间进行折中,即一方面需要对问题的一般性加以限制,另一方面需要将人类知识引入理解过程。对问题的一般性加以限制是比较直接的,人们可以限制问题中的未知条件或限制期望结果的范围或精度,而人类知识的引入则比较困难,值得认真研究。
结合上面的讨论,可以给出如图1-8所示的3D视觉系统流程。这里图像采集要考虑3D图像或包含3D信息的2D图像;运动信息获取是为了更全面地获得客观世界的信息;3D重建是指恢复客观世界的本来面貌,再通过对目标的客观分析实现对场景的解释和理解,从而做出应对环境、改造世界的决策和行动。
图1-8 3D视觉系统流程
1.3.2 计算机视觉和图像技术层次
为实现视觉系统的功能,需要使用一系列的技术。计算机视觉技术经过多年发展已有很大进展,种类很多。对于这些技术,有一些分类方法,但目前看来还不太稳定和一致。例如,不同的研究者均将计算机视觉技术分成3层,但3层的具体内容并不统一。如有人将计算机视觉分为低层视觉、中层视觉、3D视觉,也有人将计算机视觉分为早期视觉(又分为单幅图像和多幅图像两种情况)、中层视觉、高层视觉(又分为几何方法、概率和推论方法)。
在图像工程(一门系统研究各种图像理论、技术和应用的交叉学科)中,对图像技术的一种分类方法在近20多年来一直比较稳定。该方法将各种图像技术分别放在图像处理、图像分析和图像理解三个层次中,如图1-9所示,每个层次在操作对象和数据量、语义层次和抽象性方面各有特点。
图像处理(IP)处于低层,重点关注图像之间的转换,意图改善图像的视觉效果并为后续工作打好基础;主要对像素进行处理,需要处理的数据量非常大。
图1-9 图像工程三层次示意
图像分析(IA)处于中层,主要考虑对图像中感兴趣目标的检测和测量,获得目标的客观信息,从而建立对图像的描述,涉及图像分割和特征提取等操作。
图像理解(IU)处于高层,着重强调对图像内容的理解及对客观场景的解释,操作对象是从图像描述中抽象出的符号,与人类的思维推理有许多类似之处。
由图1-9可见,随着抽象程度的提高,数据量是逐渐减少的。具体来说,原始图像数据在经过一系列的处理后逐步转化,变得更有组织性并被更抽象地表达。在这个过程中,语义不断引入,操作对象发生变化,数据量得到了压缩。另外,高层操作对低层操作有指导作用,能提高低层操作的效能。
1.3.3 图像技术类别
根据最新的对图像工程文献进行统计分类的综述,图像处理、图像分析和图像理解三个层次中图像技术的分类情况如表1-3所示。需要注意的是,除了这三个层次的16个小类,图像工程还包括各种技术应用等,所以共有23个小类。
表1-3 图像处理、图像分析和图像理解三个层次中图像技术的分类情况
(续表)
本书涉及三个层次中的一些内容。在图像处理技术中,主要讨论3D图像获取;在图像分析技术中,主要讨论将一些2D分析技术推广到3D空间中;本书重点为图像理解技术,主要涉及图像匹配和图像融合、场景恢复、图像感知和图像解释、时空技术。用粗宋体表示(同时也是术语)。
在图像工程的三个层次中,图像理解层次与当前计算机视觉技术的关系最密切,这有许多历史渊源。在建立图像/视觉信息系统并用计算机协助人类完成各种视觉任务方面,图像理解和计算机视觉都需要用到投影几何学、概率论与随机过程、人工智能等方面的理论。例如,它们都要借助两类智能活动:感知,如感知场景中可见部分的距离、朝向、形状、运动速度、相互关系等;思维,如根据场景结构分析物体的行为,推断场景的发展变化,决定和规划主体行动等。
计算机视觉最初是被看作一个人工智能问题来研究的,因此也常被称为图像理解。事实上,图像理解和计算机视觉这两个名词也常混合使用。本质上,它们互相联系,在很多情况下覆盖面和内容交叉重合,在概念上或实用中并没有绝对的界限。在许多场合和情况下,它们虽各有侧重,但常常是互为补充的,所以将它们看作专业和背景不同的人习惯使用的不同术语更为恰当,在本书中也不会刻意区分二者。