- 深度学习之模型设计:核心算法与案例实践
- 言有三
- 1730字
- 2021-04-04 03:40:11
1.1 计算机视觉基础
所谓计算机视觉(Compute Vision),指用计算机来模拟人的视觉以获取和处理一系列图像信息。计算机视觉属于机器学习在视觉领域的应用,是一个多学科交叉的研究领域,涉及数学、物理、生物、计算机工程等多个学科。
因为本书是以计算机视觉为场景撰写的,下面先对计算机视觉的发展简史和基本理论进行介绍。
1.1.1 研究视觉的重要性
图像是人对视觉感知的物质再现,是重要的信息载体,也称为“视觉语言”。从1826年前后法国科学家约瑟夫·尼埃普斯发明第一张可以永久记录的照片以来,图像记事已经发展了将近200年。
人获取信息主要依靠视觉,如司机在进行驾驶等行为时,大部人信息都来自视觉。目前互联网上的信息,80%以上都来自图片和视频,而且随着短视频的流行,在可预见的未来,视觉信息可能会占据人类信息的90%以上。因此,计算机视觉当之无愧是深度学习技术应用最广的领域,也是人工智能行业中从业者人数最多的方向。
1.1.2 生物学视觉原理与视觉分层理论
1.感受野
视觉信息如此重要,那大脑是如何处理视觉信息的呢?
大家知道,大脑的基本感知单元是神经元,一个神经元所影响的刺激区域称为神经元的感受野(Receptive Field),不同神经元感受野的大小和性质不同。
1953年,美国神经科学家哈特兰(Keffer Hartline)和匈牙利裔美国神经科学家库夫勒(Stephen W.Kuffler)发现猫视网膜神经节细胞的感受野具有同心圆结构,如图1.1所示。
图1.1 感受野同心圆结构
根据兴奋和抑制的不同情况,生物细胞包含两类常用的感受野:第一类是由作用强的中心兴奋区域和作用较弱但面积更大的周边抑制区域构成的同心圆结构,称为On型感受野;第二类是由中心抑制区域和周边兴奋区域构成的同心圆结构,称为Off型感受野。
当用小光点单独刺激On型感受野中心时,细胞发放频率增加。当用面积正好可覆盖On型感受野中心的光斑刺激感受野中心时,可以得到细胞的最大兴奋型反应;当用大面积的弥散光照射On型感受野时,细胞被抑制。Off型感受野的作用效果与On型感受野相反。
2.视觉机制
加拿大神经生理学家Hubel和瑞典神经科学家Wiesel在20世纪50年代开始研究视觉机制,他们将图像投射到屏幕上,将测量神经元活动的电线插入猫的大脑,通过固定猫的头部来控制视网膜上的成像,进而测试生物细胞对线条、直角、边缘线等图形的反应。
这两位科学家的研究表明,仅仅看到鱼和老鼠的投影图片,猫的大脑不会兴奋,而当图片切换时,猫的反应非常激烈。他们的进一步研究表明,有些细胞对某些处于特定角度的线条、直角或明显的边缘线有特别的反应,表明了绝大多数视皮层细胞都具有强烈的方位选择性。不仅如此,要引起这个细胞反应,直线的朝向只能落在一个很小的角度范围,也就是该细胞的感受野内。相邻的细胞具有相似且重叠的感受野,感受野的大小和位置在皮质上系统地变化,就形成了完整的视觉空间图。
Hubel和Wiesel合作了20多年,细致科学地研究了人眼的视觉机制,因此他们被认为是现代视觉科学之父,并于1981年一起获得了诺贝尔生理学或医学奖。他们在1968年发表的论文中确定了如下大脑中两种基本的视觉细胞类型。
(1)简单细胞,可被其感知区域内具有特定方向的线条最大化激活。
(2)复杂细胞,具有较大的感受野,其输出对边缘的确切位置不敏感。
另外,他们的研究得出了以下几个重要的结论。
(1)方向选择性。神经元细胞的激活来自某个特定方向的边缘对比度的变化,与绝对的亮度值无关。
(2)并行处理。视觉信息通过颜色、深度、运动和形状等独立的通道进行加工。Hubel认为在视觉处理过程中,信息被先分解后整合。
在Hubel和Wiesel研究的基础上,麻省理工学院(MIT)的神经科学家和生理学家David Marr在Vision一书中提出了视觉分层理论。此书的问世,标志着计算机视觉成为一门独立的学科。
视觉分层理论指出,从二维图像到三维几何结构的复原过程包含3个层级(见图1.2)。第一层是简单的边缘信息的提取,这个过程为底层特征提取阶段;第二层是2.5维的结构,它描述方向、轮廓、深度等更为高级、抽象的信息;第三层重建描述整个物体的模型。
图1.2 视觉分层理论中的3个层级
计算机视觉包含从底层特征提取到各种任务的高层感知的整个过程,因此,它是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构)、数学(信息检索、机器学习)、工程学(机器人、图像处理)、物理学(光学)、生物学(神经科学)和心理学(认知科学)等学科内容。