- 深度学习及加速技术:入门与实践
- 白创编著
- 2255字
- 2023-08-28 19:53:37
1.4 人工智能应用
人工智能应用从纵向层次划分,主要包括行为智能、感知智能和认知智能三个领域,三个领域前文已举例详述,这里不再赘述。而如果从横向视角划分的话,人工智能应用包括语音识别、自然语言处理、计算机视觉、机器人控制技术等粗分领域,其中计算机视觉是目前产业界技术相对成熟、应用非常广泛的一类重要应用,包括工业零部件尺寸测量与缺陷检测、目标检测与跟踪、人脸比对与识别、三维影像重构等多个细分领域,本书后续章节均以计算机视觉应用为例阐述观点。
1.4.1 工业零部件尺寸测量与缺陷检测
当今时代制造业的水平高低已成为衡量一个国家综合经济实力的重要标准,各个国家都在大力发展先进制造业,相继提出工业4.0、制造业复兴计划、中国制造2025等战略规划推动制造业发展,智能制造已成为制造业各个领域重点发展的目标。工业零部件尺寸测量与缺陷检测是目前智能制造领域应用最广泛的技术之一。工业零部件尺寸测量是采用计算机视觉的方法实现生产线工业零部件尺寸的自动精准测量,实时发现残次品,降低产品召回率。尺寸测量根据产品类型不同而具体采用不同的测量方法,但是一般都是以所测零部件的轮廓边缘为基础实施测量,传统的图像处理方法就可以完成。工业零部件缺陷检测是指采用计算机视觉的方法实现工业零部件的缺陷检测与定位,完成合格产品与不合格产品自动分类,提高产品抽检合格率。不同产品的缺陷类型不同,一般包括划痕、坏点、气泡及凹槽等,缺陷检测方法主要包括传统图像处理方法与深度学习目标检测方法,对于缺陷类型及制造环境复杂的场景,深度学习方法是主流采用的方法,能够取得较好的检测效果。
1.4.2 目标检测与跟踪
目标检测与跟踪主要应用在智慧交通、安防及搜索救援等领域,完成对感兴趣目标的实时检测、定位与追踪,比如智慧交通领域的闯红灯抓拍、智能安防领域的危险目标及人物定位与追踪、搜索救援领域的救援目标检测与定位等。目标检测主要包含目标识别与目标定位两方面内容,主流的目标检测算法都是采用深度学习方法实现的,具体分为two-stage(二阶段)和one-stage(一阶段)两大类:two-stage类包含传统方法、R-CNN、Fast R-CNN以及Faster R-CNN等;one-stage类则包含YOLO与SSD等,YOLO是目前采用最广泛、效果最佳的目标检测算法。two-stage类方法需要先找出图像中可能存在目标物体的候选框,然后再基于候选框图像采用CNN算法实现目标的分类识别,以及候选框坐标的精准回归。one-stage类方法则采用CNN算法处理原始的完整图像,同时输出目标分类信息与目标定位坐标,是目前目标检测应用中最常用的方法,具体技术内容后续章节会专门介绍。
1.4.3 人脸比对与识别
人脸比对与识别主要应用在智慧门禁、在线刷脸、人脸配对与搜索等领域,完成对人脸的实时比对、搜索与识别,比如酒店、家庭、超市等各个场景下的人脸门禁管理系统,在线购物、在线支付的自动人脸识别,警用逃犯人脸比对识别等。人脸比对与识别的算法很多,其本质都是通过特征提取和特征比对两个步骤实现人脸识别。目前使用最多的方法主要包括标准特征检测与配对、特征脸以及深度学习方法三类。其中,标准特征检测与配对首先按照某种规则手工设计特征提取方法(如SIFT、SURF、ORB、KAZE等特征检测方法),然后对特征进行比对与配对,完成人脸比对与识别。特征脸是一种典型的机器学习方法,利用人脸数据按照不同目标构建人脸特征检测网络,如PCA与TDA等,特征脸法相对于第一类方法显著提升了人脸识别的准确率。最后一种是深度学习法,通过对人脸库人脸样本的训练学习,构建卷积神经网络,实现人脸识别应用,这里的卷积神经网络结构包括AlexNet、VGGNet、GoogLeNet及ResNet等,不同网络结构各有优缺点,识别效果也不一样,具体技术内容后续章节会专门介绍。深度学习法是目前产业界人脸识别应用中最常使用的方法。
1.4.4 三维影像重构
三维影像重构是近年来在计算机视觉领域出现的一项新兴技术,其目标就是替代传统的二维平面成像技术,实现对三维空间中真实物体的三维影像重构。三维影像相比于二维成像,包含更多的目标物体特征信息,从而能够更加精准地实现目标物体的尺寸测量、缺陷检测及目标识别等应用,比如高速口重型卡车限高限宽的车体三维尺寸测量、工业零部件多维缺陷检测、三维人脸影像识别等。三维影像重构的方法主要包括结构光法、TOF飞行时间法与双目法三类,其中结构光法适用于短距离小物体的三维成像,其成像精度也可以做到最高,TOF飞行时间法与双目法则更适用于远距离大物体的成像,成像精度相对低一些。结构光法主要根据反射光在成像平面内成像像素的位置信息,反向判断原始物体的深度信息;TOF飞行时间法利用出射光与反射光的相位差,计算光波在空间中的飞行时间,进而反推原始物体的深度信息;双目法则是两个镜头对同一物体进行不同角度成像,然后计算匹配特征点的视差信息,利用视差得出物体三维空间下的深度信息,最后通过二维到三维的映射变换构建原始物体的三维影像。
这里介绍的应用只能算冰山一角,还有很多人工智能场景应用存在于我们的生产生活中,这里不再赘述。细心的读者可以发现,这些应用的实现方法正在逐步迁移到深度学习上来,或者说至少在一些关键环节上采用了深度学习技术,目的就是改善性能。深度学习技术本质上解决的都是分类和拟合(回归)问题,目标检测包括目标识别与目标定位,其中目标识别属于分类,目标定位则属于拟合(回归)。工业零部件缺陷检测与目标检测类似,人脸比对与识别则属于分类应用,三维影像重构中的相机标定目前也有基于深度学习的方法,这属于函数拟合(回归)。明白了深度学习分类与拟合的技术本质,我们就可以在今后的人工智能场景应用中解剖应用环节,采用深度学习替代原有的分类和拟合,这样也许能获得更好的性能。