- 金融智能:AI如何为银行、保险、证券业赋能
- 王健宗 何安珣 李泽远
- 2822字
- 2021-04-01 20:17:53
1.3.5 第三次兴起:2006年至今
互联网技术的快速发展和应用、数据量的不断增大以及计算机设备计算能力的进步,给人工智能的第三次兴起提供了良好的环境。2006年,深度神经网络和深度学习的出现使得人工智能焕发出新的生命力,自此,人工智能进入高速发展期,2006年也被称为深度学习元年。下面就来介绍一些这一阶段人工智能的标志性产物和事件。
1. 深度神经网络和深度学习出现
理论上来说,参数越多的模型,复杂度越高,也就能完成更复杂的学习任务,但也更容易出现训练效率低和过拟合的问题。随着设备计算能力的提高以及大数据和云计算技术的发展,训练效率低和过拟合的问题都得到了缓解,以深度学习为代表的复杂模型开始受到人们的关注,这其中一个典型的模型就是深度神经网络。
深度神经网络就是拥有很多隐层的神经网络,它有很强大的学习能力。然而,多隐层神经网络难以直接使用经典的算法(如前文提到的误差反向传播算法)进行训练,因为误差在多隐层内逆向传播时,往往会发散,无法收敛到理想的稳定状态。2006年,著名人工智能学者、加拿大多伦多大学的杰弗里·辛顿(Geoffrey Hinton)教授提出“逐层初始化”的方法,有效克服了深度神经网络在训练上的障碍。该方法的核心内容是无监督训练对权值进行初始化和有监督训练进行微调。其主要思想是先通过无监督学习的方法学习到训练数据的结构,得到初始权值,然后将通过无监督学习得到的权值,作为有监督学习的初始值进行训练和微调。
2. AlphaGo和AlphaGo Zero诞生
1956年,萨缪尔开发的西洋跳棋程序战胜了他自己;1962年,这个程序击败了美国一个州的西洋跳棋冠军;1994年,一个新的西洋跳棋程序Chinook战胜了西洋跳棋世界冠军;1997年,IBM开发的“深蓝”计算机击败了国际象棋世界冠军加里·卡斯帕罗夫。科学家们的研究没有止步,他们开始将目光投向智能围棋程序的研究中。在所有大家熟知的智力游戏中,围棋的搜索空间是最大的,所需要的计算量也是最大的:从棋盘状态来看,围棋棋盘有19×19=361个格子,每个格子有3种可能性 (黑、白、空),共有3361——将近5千万个状态;从下棋步骤角度来看,即使不算吃子和打劫,第n步也有(361-n)种选择,所以至少有361!(超过10200)种可能状态,搜索空间远远大于其他智力游戏。所以,围棋被公认为最难被人工智能解决的智力游戏。
2016年1月,由DeepMind公司开发的围棋机器人AlphaGo(当时被命名为AlphaGo Fan)在没有任何让子的情况下,以5:0的比分完胜职业二段围棋选手樊麾,这使得AlphaGo成为第一个击败人类职业围棋手的计算机程序。这是计算机程序在不让子的情况下,第一次在完整的围棋竞技中击败专业选手。2016年3月,AlphaGo(当时被命名为AlphaGo Lee)与围棋世界冠军、职业九段棋手李世石对战,以4:1的总比分获胜。2017年5月,在中国乌镇围棋峰会上,AlphaGo与当时排名世界第一的世界围棋冠军柯洁进行人机围棋大战,以3:0的总比分再次获胜。之后,AlphaGo的改版程序AlphaGo Master在各大围棋平台上以60:0的战绩战胜多位人类顶尖棋手。2017年10月,AlphaGo又迎来创新,推出了最新版本AlphaGo Zero。该程序完全不用依赖人类的对局进行学习,而是使用强化学习的方法,仅用一台带有4个TPU的机器,在40天的时间里进行了总共2900万局棋的自我训练,进化成为新的围棋界“独孤求败”——它以100:0的战绩打败了战胜李世石的AlphaGo Lee,以89:11的战绩战胜了AlphaGo Master。
DeepMind的AlphaGo分为4个版本,第一个版本是战胜了樊麾的AlphaGo Fan,第二个版本是战胜了李世石的AlphaGo Lee,第三个版本是在围棋对弈平台取名为Master与其他围棋高手进行对弈的AlphaGo Master,最新版本即具备自我学习能力的AlphaGo Zero。各个版本的埃洛等级[1]如图1-9所示。AlphaGo和AlphaGo Zero的出现,象征着计算机技术已进入人工智能的新信息技术时代,也引发了人们对于人工智能的广泛关注,将人工智能的发展推向了前所未有的高潮。
图1-9 不同版本的AlphaGo的表现[2]
3. 人工智能在各领域表现突出
AlphaGo在围棋领域的成功,让人们不禁开始思考,还有哪些领域可以应用人工智能能力呢?
(1)OpenAI迁移学习竞赛
2018年4月5日,由OpenAI发起一项为期两个月(4月5日—6月5日)的迁移学习竞赛,即Retro Contest,要求所有参赛者让智能体共同去运行《刺猬索尼克》这款游戏(见图1-10)。在典型的强化学习研究中,算法通常需要在相同环境下进行训练,这使得算法擅长记忆,并具有诸多超参数。而根据OpenAI的信息来看,这次竞赛考验强化学习算法基于往常数据的泛化能力(适应新环境的能力),这表示参赛者所使用的测试赛道(游戏关卡)之前没有出现过。
OpenAI收到的229个解决方案进行了激烈角逐,最终来自中国的Dharmaraja团队获得冠军。它们的解决方案是联合近端策略优化算法的变体。近端策略优化算法(PPO,Proximal Policy Optimization)是之前OpenAI为强化学习提出的一类新的策略梯度法,它可以通过与环境的交互在样本数据中进行转换,从而使随机梯度下降,优化替换目标函数。标准的策略梯度法的原理是在每一个数据样本上执行一次梯度更新,而近端策略优化算法的新目标函数可以在多个训练步骤中实现小批量的更新,具有易实现、通用性好的特点。在近端策略优化算法的基础上,Dharmaraja团队对解决方案做了适当改进,他们使用了RGB图像而不是灰度图作为输入;使用了稍微扩大的动作空间,并应用更为常见的按键组合。同时,他们还使用了增强奖励功能,奖励智能体根据屏幕的感知散列来访问新的状态。从OpenAI的竞赛评分(见图1-11)中可以看到,强化学习算法虽然在现有基础上得到提升,训练后的智能体跑出4692分的最高成绩,但与理论的最佳成绩10 000分相比仍有一定的差距。强化学习算法在迈向新台阶后,仍存在着巨大的空间和挑战。
(2)NeurlPS 2019强化学习赛事
近年来,随着人们对人体运动机制研究的逐步深入,现已达到端到端地从肌肉层面直接学习并控制仿生人体的研究层面。针对人体控制这样复杂的场景,强化学习是重要的研究手段,达成回报最大化或实现特定目标的目的。不过,由于人体控制的解空间是高达200多维的连续状态空间,其复杂性使得一般的强化学习算法无法奏效。对此,斯坦福大学仿生动力学实验室于2019年举办了NeurIPS: Learn to Move强化学习赛事,比赛采用斯坦福大学国家医学康复研究中心研发的Opensim人体骨骼高仿模型,要求参赛者根据该模型中多达100多维以上的状态描述特征,决定模型肌肉的信号,从而控制模型的肌体行走。最终,我国的百度团队获得NeurIPS 2019的冠军。该团队的优异表现与训练机制、通用算法库和迭代效率息息相关。首先,他们构建了课程学习训练机制,让模型先学习人体高速奔跑的姿态,再通过让模型降速提高其行走的稳定性,最终,模型学到与人类行走相似的姿态,在维持平衡性的同时,还可以灵活地应付各种速度和角度变化(见图1-12)。其次,百度团队采用了自主研发的强化学习框架PARL,通过复用算法库里面的算法及快速切换响应,实现了高效的迭代频率。最后,百度团队基于PARL提供的高效灵活并行化训练能力进行强化学习训练,数百倍提升训练效率,顺利摘冠。而此项赛事的成果,也标志着深度强化学习得到进一步的发展和提升。
[1] 埃洛等级(Elo Rating)是一个用于衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威方法。
[2] 图片来源:《自然》杂志文章Mastering the game of Go without Human Knowledge。