- 2D 计算机视觉:原理、算法及应用
- 章毓晋编著
- 3357字
- 2021-10-29 23:40:31
1.1 视觉基础
计算机视觉基于人类视觉,并与人类视觉密切相关。
1.1.1 视觉
人类视觉一般简称为视觉。视觉是人类用眼睛观测周围世界,并用人脑感知周围世界的一种能力。视觉系统提供了观察世界、认知世界的重要功能手段,是人类从外界获得信息的主要途径。据统计,人类从外界获得的信息约有75%来自视觉系统,这既说明视觉信息量巨大,也表明人类对视觉信息有较高的利用率。
先简单介绍几个常用的视觉术语。
眼睛(人眼):人对可见光照起反应的一种视觉器官,主要包括晶状体(眼球)、瞳孔、视网膜等,是接收入射光的感光器官。一般在眼睛——相机的比拟中,常将晶状体、瞳孔和视网膜与镜头、光圈和成像表面相对应。
视网膜:晶状体周壁上最后面的一层薄膜,是眼睛后面的光敏表面层,含有光感受器和神经组织网络。视网膜上分布着感光细胞,可将入射光转化为神经脉冲并送至大脑。视网膜中心也称为中央凹,此处感光细胞最集中,是眼睛内对光最敏感的区域。
大脑(人脑):视觉系统中处理信息的功能单元。大脑利用从视网膜传感器中获得的、经过视神经传到脑内的神经信号生成神经功能模式,这些模式最终被感知为图像。
可见光:眼睛能感受到的在一定波长范围内的电磁波。对正常人来说,这个范围最大为380~780nm,最小为400~700nm,对应的彩色大致在亮蓝白色与暗红色之间。
彩色(颜色):视觉系统对不同频率或不同波长的电磁波有不同的感知结果。彩色既是一种物理现象,也是一种心理现象。
视力:视觉器官(眼睛)的空间分辨能力,也是对物体大小、形状等的精细辨别能力。视力通常以可分辨视角的倒数(1/度)为单位。正常人的最小可辨视角阈值约为0.5。
视野(视场):人在头部和眼球固定不动的情况下,在观看正前方物体时所能看见的空间范围。正常人的最大视觉范围约为200°×135°(宽×高)。
1.1.2 视感觉和视知觉
从语义角度来看,可认为“视觉”包括“视”和“觉”两部分,所以可进一步将视觉分为“视感觉”和“视知觉”。
人类的视感觉主要发生于物体在视网膜上成像的过程中,主要涉及物理、化学等相关原理和理论,从分子的角度来理解人们对光(可见辐射)的基本性质(如亮度、颜色)的反应。在视感觉中,主要关心的内容有①光的物理特性,如光量子、光波、光谱等;②光刺激视觉感受器官的程度,涉及光度学、眼睛构造、视觉适应、视觉的强度和灵敏度、视觉的时空特性等;③光在作用于视网膜后,经视觉系统加工而产生的感觉,如明亮程度、色调等。
人类的视知觉主要研究人在从客观世界接收视觉刺激后如何将物像转变为神经反应,以及反应所采用的方式和获得的结果(如人在受到强光照射时,会瞳孔缩小或闭眼等),研究如何通过视觉形成关于外在空间的表象(如物体尺寸的大小、表面的平滑/粗糙等),所以兼有心理因素。视知觉是在人脑神经中枢内进行的一组活动,它把视野中一些分散的刺激加以组织,构成具有一定形状和结构的整体,并据此认识客观世界(如观察到地面上的马和马上的人,从而判断人在骑马行进)。人利用视觉感知的客观事物具有多种特性,对它们进行光刺激,视觉系统会产生不同形式的反应,所以视知觉又可分为亮(明)度知觉、颜色知觉、形状知觉、空间知觉、运动知觉等。
从认知角度来看,人类不仅需要从外界获得信息,还需要对信息进行加工,之后才能做出判断和决策,因而视觉功能可分为视感觉和视知觉两个层次。视感觉处于较低层次,主要接收外部刺激;视知觉则处于较高层次,将外部刺激转化为有意义的内容。一般来说,视感觉基本不加区别地接收外部刺激,而视知觉则要确定外部刺激的哪些部分应组合成所关心的“目标”,或对外部刺激源的性质进行分析并做出判断,从而了解客观世界。
1.1.3 视觉过程
视觉是一个复杂的过程,涉及光学、几何学、化学、生理学、心理学等多个方面的知识。例如,从光源发出辐射到大脑获得场景信息涉及一系列步骤(见图1-1):光源照射到客观世界的物体上并发生反射(可能还有折射、透射),遵循一定的光学规律进入人眼;人眼接收到的辐射能量会经过人眼内的折光系统(包括晶状体、瞳孔、角膜、房水、玻璃体等)并最终按照几何规律成像于视网膜上;视网膜上的感光细胞受到刺激并产生响应,将光能量根据化学反应的规律转换为相应的神经信号(将光刺激所包含的视觉信息转变成神经信息);这些神经信号按照生理学的规律在人体的神经通道内传递,将信息送入大脑;在大脑视觉中枢的处理和加工下,结合心理学的规律,人才能获得对场景的认知、解释信息(如外界物体的大小、位置、明暗、颜色、动静、趋向、态势等)。
图1-1 视觉流程和步骤示意
通常可将视觉过程分为三个子过程:光学过程、化学过程和神经处理过程。
1. 光学过程
光学过程的物理基础是人眼。从成像的角度可将眼睛和相机进行简单比拟。眼睛本身是一个平均直径约为20mm的球体,球体前端有一个晶状体,对应相机的镜头;晶状体前的瞳孔对应相机的光圈,控制进入眼睛的光通量;球体内壁有一层视网膜,它是含有光感受器和神经组织网络的薄膜,对应相机中传感器的感光面(早期相机内的胶片)。外来光线在通过瞳孔后被晶状体聚焦而在视网膜上成像。光学过程基本确定了成像的尺寸,这可借助图1-2来说明。晶状体的屈光能力从最小变到最大时,晶状体聚焦中心和视网膜间的距离可以从约17mm变到约14mm。以17mm为例,在观察一个100m外高度为15m的柱状物体时,如果用x表示以mm为单位的视网膜上的成像尺寸,根据图1-2中的几何关系,15/100=x/17,可算得x=2.55(mm)。
图1-2 光学过程确定成像尺寸示意
2. 化学过程
视网膜表面分布着许多光接收细胞(感光单元),它们可接收光的能量并形成视觉图案。光接收细胞分为两类:锥细胞和柱细胞。
每个眼睛内有600万~700万个锥细胞,它们对颜色很敏感。锥细胞又可分为三种,对入射的辐射有不同的频谱响应曲线,三种锥细胞的共同作用是使人感知到彩色。人类能借助锥细胞区分细节的主要原因是每个锥细胞各自连接自己的神经末梢。锥细胞视觉也称为适亮视觉,因为锥细胞仅在较亮的环境下工作。
每个眼睛内的柱细胞要比锥细胞多得多,在视网膜表面上有7500万~15000万个柱细胞。柱细胞分布面大,但分辨率比较低,这是因为几个柱细胞连接同一个神经末梢。柱细胞仅在非常暗的环境下工作,对低照度较敏感。柱细胞主要提供视野的整体视像,因为只有一种柱细胞,所以不产生颜色感受。例如,在日光下(由锥细胞感受到的)颜色鲜艳的物体在月光下变得无色,就是由于在月光下只有柱细胞在工作,这种现象称为适暗视觉。
锥细胞在中央凹区域内的密度很高。为了便于解释,我们可把中央凹看作一个1.5mm×1.5mm的方形传感器矩阵。锥细胞在这个区域内的密度约是15万个/mm2,所以近似估计,中央凹里的锥细胞约有33.7万个。目前的电子成像传感器已经可以在其接收阵中集中更高密度的光电感受元件。
锥细胞和柱细胞均由色素分子组成,其中含有可吸收光的视紫红质,这种物质在吸收光后会产生化学反应而分解。一旦化学反应发生,分子就不再吸收光。反之,如果不再有光通过视网膜,化学反应就反过来进行,分子可重新工作(这个转换过程通常需要几十分钟才能全部完成)。当光通量增加时,受到照射的视网膜细胞数量随之增加,分解视紫红质的化学反应增强,从而使产生的神经元信号变得更强。从这个角度来看,可将视网膜看作一个化学实验室,在其中将光学影像通过化学反应转换成其他形式的信息。视网膜各处产生的信号的强度反映了场景中对应位置的光强度。由此可见,化学过程基本确定了成像的亮度或颜色。
3. 神经处理过程
神经处理过程在大脑中枢神经系统里进行。
(1)借助突触,每个视网膜接收单元都与一个神经元细胞相连,每个神经元细胞借助其他突触再与其他细胞连接,从而构成光神经网络。
(2)光神经网络进一步与大脑中的侧区域连接,并连接大脑中的纹状皮层。在纹状皮层中,对光刺激产生的感觉响应经过一系列处理最终形成关于场景的表象,从而将对光的感觉转化为对场景的知觉响应。
(3)在大脑皮层中要完成一系列处理工作(从图像存储到做出响应等)。
以上三个过程构成了视觉的全过程,其流图如图1-3所示。
图1-3 视觉全过程流图
视觉过程从光源刺激眼睛开始。光通过反射进入视觉感受器官(左、右眼)并同时作用在视网膜上引起视感觉;光刺激在视网膜上经神经处理产生神经冲动,沿视神经纤维传出眼睛,通过视觉通道传到大脑皮层,在经过一系列处理后最终引起视知觉,或者说在大脑中对光刺激产生响应,从而形成关于场景的表象和解释。