第 1 章 达特茅斯会议:人工智能的缘起

What is past is prologue.

过去只是序幕。

——William Shakespeare(莎士比亚)

现在一说起人工智能的起源,公认是1956 年的达特茅斯会议。殊不知还有个前戏,1955 年,美国西部计算机联合大会(Western Joint Computer Conference)在洛杉矶召开,会中还套了个小会:学习机讨论会(Session on Learning Machine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(Oliver Selfridge)和纽厄尔(Allen Newell)。塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Walter Pitts),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。”这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。

开聊达特茅斯会议之前,先说说6 个最关键的人。首先,会议的召集者麦卡锡(John McCarthy)当时是达特茅斯学院的数学系助理教授。1954 年,达特茅斯学院数学系同时有 4 位教授退休,这对达特茅斯这样的小学校而言真是“不可承受之轻”。刚上任的年轻系主任克门尼(John Kemeny)之前两年才在普林斯顿大学逻辑学家丘奇(Alonzo Church)门下取得了逻辑学博士,于是跑到母校求援。这么说起来,克门尼算是图灵的师弟,他战时和物理学家费曼一起工作,还一度当过爱因斯坦的数学助理,后来一头扎在计算机研究里,和麦卡锡一起琢磨出了分时系统。他 1955 年在《科学美国人》杂志上写过一篇文章《把人看作机器》(“Man Viewed as a Machine”),介绍了图灵机和冯诺伊曼1的细胞自动机(最早叫“自生机”),文章的简介提到“肌肉机器”(muscle machine)和“大脑机器”(brain machine)。所谓“大脑机器”就是人工智能的另一种说法而已。克门尼最为人知的工作应该是发明了老少咸宜的编程语言 BASIC。现在估计已经没人知道 BASIC 语言发明人曾是 LISP 语言发明人的老板。克门尼是天生的官僚,后来位居达特茅斯学院数学系主任和校长,美国三里岛核电站出事时,总统委托他当调查委员会主席,这是后话。

1我故意没有在“冯”和“诺伊曼”之间加那个讨厌的点儿,因为在更多时候,查找参考文献时,他的姓是列在 V 下,而不是 N 下。

克门尼从母校数学系带回了刚毕业的 4 位博士前往达特茅斯学院任教,麦卡锡是其中之一。麦卡锡后来发明的 LISP 语言中最重要的功能 Eval 实际上就是丘奇的 λ 演算,而且他后半生致力于用数理逻辑把常识形式化。大家由此猜测他可能也是丘奇的学生,但其实不是,他学的压根就不是逻辑。他的老师是失去双手的代数拓扑学家莱夫谢茨(Solomon Lefschetz)。但麦卡锡对逻辑和计算理论一直有强烈兴趣,他 1948 年本科毕业于加州理工学院,在学校主办的 Hixon 会议上听到冯诺伊曼关于细胞自动机的讲座,后来他刚到普林斯顿大学读研究生时就结识了冯诺伊曼,在老冯影响下开始对在计算机上模拟智能产生兴趣。

麦卡锡(1927—2011)

达特茅斯会议的另一位积极的参加者是明斯基。他也是普林斯顿大学的数学博士,和麦卡锡在读书时就相熟。他的主业也不是逻辑,尽管他后来写过一本很有影响力的计算理论的书,还培养过好几个计算理论的博士,其中就有图灵奖获得者布鲁姆(Manual Blum)。布鲁姆目前和他老婆(Lenor Blum,就是实数计算模型BSS 的 B)、儿子一家三口都在卡内基梅隆大学任教。明斯基的理论情结和丘奇关系也不大,他的老师塔克(Albert Tucker)是莱夫谢茨的学生,主要做非线性规划和博弈论,多年来担任普林斯顿大学数学系主任,出身数学世家,儿子、孙子也都是数学家。按辈分论,麦卡锡还是明斯基的师叔。塔克的另一名出色的学生后来得了诺贝尔经济学奖,他就是《美丽心灵》的男主角原型纳什(John Nash)。纳什比明斯基小一岁,但比他早 4 年拿到博士学位,也算是明斯基的师兄了。明斯基的博士论文是关于神经网络的,他在麻省理工学院 150 周年纪念会议上回忆说是冯诺伊曼和麦卡洛克(Warren McCulloch)启发他做了神经网络。有人还找过他麻烦,质疑说神经网络的研究算数学吗,倒是老冯力挺说:现在不算,但很快就得算。倒是明斯基自己后来和神经网络结下梁子,那段故事见本书第5 章“神经网络简史”。明斯基的熟人都认为他是无所不通的天才,他的忘年交沃尔弗拉姆(Stephen Wolfram)称,他晚年计划写本神学的书,但去世时书还没影子。

塞弗里奇被后人提及不多,但他真是人工智能学科的先驱,他在麻省理工学院时一直和神经网络的开创人之一麦卡洛克一起在维纳(Norbert Wiener)手下工作,他是维纳最喜欢的学生,但没读完博士学位。维纳《控制论》一书的第一个读者就是塞弗里奇。塞弗里奇是模式识别的奠基人,他写了第一个可工作的 AI 程序。他后来在麻省理工学院参与领导 MAC 项目,这个项目后来一分为二:计算机科学实验室和人工智能实验室。但分久必合,现在这两个项目又合并了,变成了 MIT CSAIL。顺便给女读者添点料:塞弗里奇的爷爷就是英国第二大百货店塞弗里奇(Selfridges)的创始人。所谓“顾客永远是对的”(The customer is always right.)就出自塞弗里奇,他本是美国人,后到英国创业,发财后老婆就死了,于是勾搭上一对匈牙利双胞胎歌舞演员,出入赌场,赔光了家业。他的故事 2013 年还被有意思的英国人拍成了电视剧。塞弗里奇百货几经周转,现在的主人是美国百货公司希尔斯(Sears)。塞弗里奇百货和隔壁的哈罗德百货支撑着牛津街的零售业,现在大概一半顾客来自中国。

信息论的创始人香农(Claude Shannon)被麦卡锡拉大旗做虎皮也请到会上打酱油。其实麦卡锡和香农的观点并不一致,平日相处也不睦。香农的硕士论文是讲怎么实现布尔代数的,当时由麻省理工学院校长布什(Vannevar Bush)亲自指导。博士毕业后他去了普林斯顿高等研究院,曾和数学家外尔(Hermann Weyl)、爱因斯坦、哥德尔等共事。“二战”时,他一直在贝尔实验室做密码学的工作,图灵在 1943 年曾秘访美国,和同行交流破解德国密码的经验,其间和香农曾有会晤,一起聊过通用图灵机。战后香农去英国还回访过图灵,一起讨论过计算机下棋。香农内向,从没说过这段往事,直到 1982 年接受一次采访时才提起。1950 年香农在《哲学杂志》发表过一篇讲计算机下棋的文章,为计算机下棋奠定了理论基础。香农比其他几位年长 10 岁左右,当时已是贝尔实验室的大佬。

香农(1916—2001)

另外两位重量级参与者是纽厄尔和司马贺(Herbert Simon)。纽厄尔是麦卡锡和明斯基的同龄人,他硕士也是在普林斯顿大学数学系读的,按说普林斯顿大学数学系很小,他们应有机会碰面,但那时纽厄尔和他俩还真不认识。他们的第一次见面,纽厄尔回忆是在IBM,而麦卡锡回忆是在兰德公司。纽厄尔的硕士导师就是冯诺伊曼的合作者、博弈论先驱摩根斯顿,纽厄尔硕士毕业后就迁往西部加入著名智库兰德公司。他在兰德开会时认识了塞弗里奇,并受到对方做的神经网络和模式识别的工作的启发,但方法论走的却完全是另一条路。

纽厄尔(1927—1992)与司马贺(1916—2001)

司马贺比他们仨都大 11 岁(怀特海比罗素也大 11 岁),那时是卡内基理工学院(卡内基梅隆大学的前身)工业管理系的年轻系主任,他在兰德公司学术休假时认识了纽厄尔。司马贺后来把纽厄尔力邀到卡内基梅隆大学,并给纽厄尔发了个博士学位,开始了他们终生的合作。

纽厄尔和司马贺的合作是平等的,司马贺是纽厄尔的老师,但他们合作的文章署名都是按字母顺序,纽在前司马在后,每次他们受邀去演讲,都是轮流。司马贺每次见到别人把他名字放到纽厄尔之前时都纠正。他们共享了 1975 年的图灵奖,3 年后司马贺再得诺贝尔经济学奖。纽厄尔和司马贺代表了人工智能的另一条路线:符号派。他们后来把他们的哲学思路命名为“物理符号系统假说”。简单地说就是:智能是对符号的操作,最原始的符号对应于物理客体。这个思路和英美的经验主义哲学传统接近。他们和当时的数学系主任、第一届图灵奖获得者珀里思(Alan Perlis)一起创立了卡内基梅隆大学的计算机系,从此,卡内基梅隆大学成为计算机学科的重镇。

会议原址:达特茅斯楼

1953 年夏天,麦卡锡和明斯基都在贝尔实验室为香农打工。香农那时的兴趣是图灵机以及是否可用图灵机作为智能活动的理论基础。麦卡锡向香农建议编一本文集,请当时做智能研究的各位大佬贡献文章,这本文集直到 1956 年才以《自动机研究》(Automata Studies)为名出版,这个书名最后是香农起的,他不想花里胡哨,但麦卡锡认为这没有反映他们的初衷。

文集的作者有两类人,一类是逻辑学家(后来都变成计算理论家了),如丘奇的两位杰出学生戴维斯和克里尼,后者的名著《元数学导论》在国内有逻辑学家莫绍揆先生的译本。明斯基、麦卡锡也都有论文录入,香农贡献了一篇讲只有两个内部状态的通用图灵机的文章,文集录入的一篇冯诺伊曼的论文后来开创了容错计算。文集的另一类作者几乎都是维纳的信徒,如阿什比(Ross Ashby)等,他们以控制论为基础。麦卡锡素不喜控制论和维纳,既不想把维纳当老大,也不愿和他见面争执,其中原因不详,或许和维纳与麦卡洛克吵翻了有关。麦卡洛克和皮茨这两位为维纳《控制论》思想贡献多多的人物,在维纳的自传里压根没被提及。麦卡锡同时又觉得香农太理论,当时他想自立门户,只对用计算机实现智能感兴趣,于是他筹划再搞一次活动。从香农后来接受的采访来看,他对维纳也没有多少尊重,他觉得自己创立的信息论和维纳一点关系也没有。但维纳却认为香农受到他的影响,香农认为维纳的这种错觉来源于维纳根本不了解信息论。

1955 年夏天,麦卡锡到 IBM 打工(美国教授是 9 个月工资,如果没有研究经费,夏天要自己“觅食”),他的老板罗切斯特(Nathaniel Rochester)是IBM 第一代通用机 701 的主设计师,对神经网络素有兴趣。他们两人倒是挺对脾气,决定第二年夏天在达特茅斯搞一次活动,遂说动了香农和当时在哈佛大学做初级研究员(Junior Fellow2)的明斯基一起给洛克菲勒基金会写了个项目建议书,希望得到资助。美国富豪还是有文化传统的,至少知道要资助好东西,值得中国土豪的后代学习。

2哈佛大学的 Fellow 还是挺值钱的,历史上人数不多,蒯因、王浩、库恩在变成正式教授之前都做过。乔姆斯基几乎在同时也是哈佛大学的 Fellow。

麦卡锡给洛克菲勒基金会的附信

麦卡锡给这个第二年的活动起了个当时看来别出心裁的名字:人工智能夏季研讨会(Summer Research Project on Artificial Intelligence)。普遍的误解是“人工智能”这个词是麦卡锡想出来的,其实不是。麦老晚年回忆也承认这个词最早是从别人那里听来的,但记不清是谁了。后来英国数学家伍德华(Philip Woodward)给《新科学家》杂志写信说他是 AI 一词的原创者,麦卡锡最早是听他说的,因为他 1956 年曾去麻省理工学院访问,见过麦卡锡并交流过。但麦卡锡的建议书 1955 年就开始用“人工智能”了,人老了回忆真不靠谱。当事人都已仙逝,这事恐怕要成悬案了。其实英国人最早的说法是“机器智能”(Machine Intelligence),一直到 20 世纪 70 年代,英国人才逐渐认同“人工智能”的说法,这大概和图灵那篇《计算机与智能》有关。

大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词,以至于他们发明的语言就叫 IPL(Information Processing Language)。他们从某种意义上说偏功能学派,也就是说找到智能的功能不一定非得依靠结构相同或相似。图灵机和递归函数等价,但结构完全不同,所以他们强调“信息处理”。他们俩一开始颇不喜“人工智能”这几个字。1958 年,在英国国家物理试验室(NPL)召开了“思维过程机器化”(Mechanization of Thought Process)会议,达特茅斯会议的与会者麦卡锡、明斯基、塞弗里奇都参加了,此外还有致力于神经网络研究的麦卡洛克,以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了:巴克斯(John Warner Backus)发表了一篇关于他新发明的语言 Fortran 的论文,但他后来一直是函数式语言的倡导者;美国海军女少将哈泊(Grace Hopper)的文章是讲第一个编译器的,这项工作导致了 COBOL 语言的诞生。中国也有女少将,也是码农。他俩论文的题目里都有Automatic Programming 的说法,这在当时就是指高级语言编程,不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”(Artificial Thinking)的说法。司马贺等人由此也逐渐接受了 AI 的说法,他晚年还写了本书《人工的科学》,倒是把 Artificial 这个词更加放大了。

历史研究方法有基于事件的和基于课题(issue)的。纽厄尔在 1981 年为一本颇为有料的文集《信息研究》贡献的一篇文章《AI 历史的智力课题》走了第二条路线。他的方法也挺有意思。他把 AI 历史当作斗争史,把历史分为两个阶级、两条路线的斗争,于是历史成了一串儿对立的议题,如模拟与数字,串行与并行,取代与增强,语法与语义,机械论与目的论,生物学与活力论,工程与科学,符号与连续,逻辑与心理等,在每一议题下有进一步可分的子议题,如在逻辑与心理下又有定理证明与问题求解等。

被提到最多的是人工智能与控制论。在谷歌 Ngram 里试试 Cybernetics 和 Artificial Intelligence 两个词在 Google Books 里出现的词频,可以看 出学科的跌宕起伏。

“人工智能”与“控制论”词频对比

美国最早办的一批计算机相关的系科都创办于 20 世纪 60 年代中期,那时有些系直接叫“计算机科学系”,而有些则叫“计算机与信息科学系”,带“信息”的都有些“控制论”的背景,如麻省大学计算机与信息系的创办人就有维纳的学生阿比卜(Michael Arbib)。而密歇根大学则叫计算机与通信科学系。这些系后来都改名叫计算机系了。而原来的图书馆系现在纷纷改名叫信息科学系,如加州大学伯克利分校和华盛顿大学的图书馆学院都改名叫信息学院(School of Information),连“科学”都省了。但现在计算机系又有加载信息的趋势,麻省大学和加州大学尔湾分校近年又改名叫信息与计算机科学学院了。大概和现在深度学习及神经网络又峰回路转有关吧。倒是中国的学科简单,一直都有计算机和自动化之分,老死不相往来罢了。

“人工智能”这个词真正被共同体广泛认可是在 10 年后的 1965年,在加州大学伯克利分校的欧陆派哲学家德雷弗斯(Hubert Dreyfus)发表了《炼金术与人工智能》一文之后。这篇文章一开始只是针对纽厄尔和司马贺的工作,几年后这篇文章演变成了那本著名的(或者被AI 圈子称为“臭名昭著”的)《计算机不能干什么》一书,则是把整个 AI 当作靶子。欧陆派哲学家被人诟病数学和科学不通,但德雷弗斯有个数学家的兄弟,和他同一年在哈佛大学得了应用数学博士,后来又同在加州大学伯克利分校教书,是动态规划的大家,还带过神经网络的博士。哥俩一个立场。有时一个共同体的形成并不是靠内部的团结,而是靠外部的反对。有意思的是,《炼金术与人工智能》一文是德雷弗斯在兰德公司工作时写就的。司马贺后来撰文猛批德雷弗斯,说他滥用兰德公司的标签。德雷弗斯后来抱怨他在麻省理工学院和哈佛食堂吃饭,所有做AI 的人都躲他远远的。学术争执哪儿都一样。

麦卡锡和明斯基的建议书里罗列了他们计划研究的 7 个领域:(1) 自动计算机,所谓“自动”指的是可编程;(2) 编程语言;(3) 神经网络;(4) 计算规模的理论(theory of size of a calculation),这说的是计算复杂性,明斯基后来一直认为计算理论是人工智能的一部分,他早期对理论问题时不时会动动手,后来一手组建了麻省理工学院的计算理论队伍;(5) 自我改进,这个是说机器学习;(6) 抽象;(7) 随机性和创见性。

麦卡锡的原始预算是 13 500 美元,但洛克菲勒基金会只批了 7500 美元。麦卡锡预计会有 6 位学界的人出席,会议应该支付每人两个月的薪水 1200 美元,由此可推算出麦卡锡、明斯基当时的年薪约 8000 美元,考虑通货膨胀和购买力,大概相当于 2016 年的 7 万多美元,真不算多,现在随便一个美国大学计算机系的教授薪水都远不止这个数。这个学科真是今非昔比啊。作为对比,司马贺 1949 年去卡内基梅隆大学的前身卡内基理工学院担任新成立的工业管理系系主任时的年薪是一万美元。而冯诺伊曼 1933 年被聘普林斯顿高等研究院时的年薪就是一万美元了,那时的美国也是洋博士比土博士值钱。

除了那六君子外,另外还有至少 4 人也相对长期地参加了达特茅斯会议。他们是来自 IBM 的塞缪尔(Arthur Samuel)和伯恩斯坦,他们一个研究跳棋,一个研究象棋。达特茅斯的教授摩尔(Trenchard More)也参与了,他后来在工业界混的时间长,少为外人所知。达特茅斯会议中一位被后人忽视的“先知”是所罗门诺夫(Ray Solomonoff)。

和其他来来往往的人不同,所罗门诺夫在达特茅斯严肃地待了整整一个暑假。他 1951 年在芝加哥大学跟随费米得了物理硕士就到了麻省理工学院。但在芝加哥对他影响最大的是哲学家卡尔纳普(Rudolf Carnap)。有意思的是,神经网络的奠基者之一皮茨也受惠于卡尔纳普。司马贺的回忆录里也讲到自己在芝加哥时听卡尔纳普的课开始启蒙逻辑,从而开始对智能相关的问题感兴趣,但后来由于和定理证明逻辑派之间的冲突,司马贺就说自己的方法是在批判过度数学化和形式化。这么说来,人工智能的两大派——逻辑和神经网络——都发源于老卡。卡尔纳普那时的兴趣是归纳推理,这成为所罗门诺夫毕生的研究方向。所罗门诺夫后来结识了明斯基和麦卡锡,在他们的影响下研究逻辑和图灵机。达特茅斯会议时,他受麦卡锡“反向图灵机”和乔姆斯基文法的启发,发明了“归纳推理机”。他的工作后来被万能的苏联数学家柯尔莫格罗夫(Andrey Nikolaevich Kolmogorov)独立地发明了一遍,就是现在俗称“柯尔莫格罗夫复杂性”和“算法信息论”的东西。华裔计算理论学者李明现在是这个领域的大牛,曾有专著《柯尔莫格罗夫复杂性及其应用》(Li et al.,2008)。柯尔莫格罗夫 1968 年开始引用所罗门诺夫的文章,使得后者在苏联的名声比在西方更加响亮。所罗门诺夫的另一个观点“无限点”(infinity point)后来被未来学家库兹韦尔(Ray Kurzweil)改名“奇点”窃为己有。目前 AI 中广泛用到的贝叶斯推理也有着所罗门诺夫的开创性痕迹。他一生并没有大富大贵,大部分时间是在自己的咨询公司 Oxbridge(“牛桥”,牛津+剑桥的简称,相当于汉语俗称“清北”)拿政府(空军、海军、ARPA 和 NIH——NIH 资助了很多 AI 研究)的研究经费,那公司只有他自己一个雇员。伦敦大学皇家哈洛威学院(Royal Holloway)一度接收了几位苏联学者,后来在他们倡导下搞柯尔莫格罗夫奖,所罗门诺夫是第一届获奖人,并在那里兼职教授。他的学术自传 1997 年发表在计算理论杂志《计算机与系统科学》上。明斯基所谓AI 孵化出计算理论的说法不无道理。

按照麦卡锡和明斯基的说法,这 10 个人是参加达特茅斯会议的中坚力量,但现在有证据表明会议还有其他的列会者。后来一直做神经网络硬件研究从而躲过 AI 几十年过山车的斯坦福大学电机系教授维德罗(Bernard Widrow)晚年回忆他也去了达特茅斯并且在那儿待了一周。麦卡锡原来的计划是两个月闭门研讨,但并非所有人都对那个事那么上心。纽厄尔和司马贺只待了一周。纽厄尔后来回忆说达特茅斯会议对他和司马贺没什么影响。

尽管是“十仙过海”,但给所有人留下最深印象的是纽厄尔和司马贺的报告,他们公布了一款程序“逻辑理论家”(Logic Theorist),这个程序可以证明怀特海和罗素《数学原理》中命题逻辑部分的一个很大子集。司马贺回忆录里说自己学术生涯最重要的两年就是 1955 年和 1956 年。这篇文章后来成了 AI 历史上最重要的文章之一。

值得注意的是,“逻辑理论家”对人工智能后来的一个分支“机器定理证明”的影响并不大。哲学家王浩 1958 年夏天在一台 IBM-704 机上,只用 9 分钟就证明了《数学原理》中一阶逻辑的全部定理。当然《数学原理》中罗列的一阶逻辑定理只是一阶逻辑的一个子集。目前,一阶逻辑的机器定理证明比起 20 世纪 50 年代已有长足进展,但仍然没有高效的办法。毕竟,王浩证明的是一阶逻辑,而“逻辑理论家”只能处理命题逻辑。数学家戴维斯和哲学家普特南合作,沿着王浩的思路进一步提出了戴维斯-普特南(DP)证明过程,后来进一步发展为 DPLL。王浩对“逻辑理论家”一直持鄙视的态度,认为这是一个不专业的东西。王浩在 1983 年被授予定理证明里程碑大奖,他也被认为是定理证明的开山鼻祖之一。司马贺在他的回忆录里则对此表示不满,认为王浩的工作抵消了“逻辑理论家”的原创性,他们的初衷并不是要有效地证明定理,而是研究人的行为。这是后话,见第2章“自动定理证明兴衰纪”。

麦卡锡多年后回忆说:他从纽厄尔和司马贺的 IPL 语言中学到了表处理,这成为他后来发明 LISP 的基础。明斯基后来接受采访时说他对纽厄尔和司马贺的“逻辑理论家”印象深刻,因为那是第一个可工作的 AI 程序。但事实上,明斯基在当时为大会写的总结里对“逻辑理论家”只是轻描淡写。麦卡锡和明斯基明显是一伙的,会议是他们发动的,旨在创立一门新学科。但纽厄尔和司马贺却抢了他们的风头。美国 20 世纪 50 年代的学术氛围不免浮躁,这一帮人又都是年轻气盛,野心十足。

达特茅斯会议后不久,1956 年 9 月 IRE(后来改名 IEEE)在麻省理工学院召开信息论年会,麦卡锡受邀做一个对一个月前达特茅斯会议的总结报告。这引起了纽厄尔尤其是司马贺的不满,他们认为麦卡锡只能聊,没干货,而达特茅斯会议唯一的干货是纽厄尔和司马贺的程序“逻辑理论家”。打了一圈架,最后纽厄尔和司马贺做了妥协:麦卡锡先做总结报告,但最后还是由纽厄尔和司马贺讲他们的“逻辑理论家”并发表一篇题为《 逻辑理论机器》(“Logic Theory Machine”)的文章。明斯基认为是他的协调起了作用,但纽厄尔晚年则只对香农的邀请有印象,而司马贺的回忆录则说是大会的主席罗森布吕特(Arturo Rosenblueth)和司马贺散了很长一圈步才以自己折中而了断。明斯基生性机敏异常,讲话时带幽默,但在对这段历史的重构中,却给人印象有点太“刁滑”(cynical),原因也不难猜出。研究历史有时得全方位,空间或时间上的接近不见得就真实。太接近时,当事人都活着,还在一个圈子里混,不方便互相揭短。但在接近生命末期,或者功成名就,或者人之将死,或者对头已死无所顾忌,敞开了说,有时虽有夸张,但一不留神就会流露真话,纽厄尔属于后者。明斯基“刁滑”可能和他身体好且长寿有关系,偌大岁数也没不惑,觉得还有好长的路要走。

科学达人戴森(Freeman Dyson)在他的《一面多彩的镜子》一书中借鉴过伯林(Isaiah Berlin)“刺猬与狐狸”的比喻(这个比喻有时也被称为“大鸟和青蛙”):刺猬是那些构建理论体系的人,而狐狸则是那些解决问题的人。在他眼里,爱因斯坦、哥德尔是刺猬,而费米、冯诺伊曼属狐狸。科学史有时刺猬得势,有时狐狸当道。是不是可以说纽厄尔和司马贺更像刺猬,而麦卡锡和明斯基更像狐狸呢?具体到 AI 的源头和达特茅斯会议,麦卡锡认为他和明斯基是发起人,纽厄尔和司马贺是“外人”,是搅局者。明斯基的解释是纽厄尔和司马贺一开始的出发点是心理学,这与麦卡锡和他本人的背景不符。但在随后的 10 年里,他本人更多地走向心理学,而纽厄尔和司马贺更靠近 AI,也没什么矛盾。麦卡锡除了和明斯基关系紧密外,和其他 AI 群体的交流并不多,在所谓其他群体中,最有影响的当属卡内基梅隆那一派了。麦卡锡晚年回忆说那时群体之间的沟通主要是通过研究生,研究生就像大佬们的大使。后来斯坦福大学、卡内基梅隆大学、麻省理工学院的学生确实互为教授,门户之见随着时间的推移逐渐被抹平了。

总之,1956 年 IRE 信息论年会是个值得纪念的会议,除了纽厄尔和司马贺发表的那篇文章之外,心理学家米勒(George Miller)发表了《人类记忆和对信息的储存》(“Human Memory and the Storage of Information”),这是那篇著名的文章《魔力数字七》(“The Magic Number Seven”)的另一个版本,不知算不算一稿多发。同在此会上,伟大的乔姆斯基则发表了《语言描述的三种模型》(“Three Models for the Description of Language”),该文证明了有限状态句法不能表达某类语言,这是乔姆斯基分层的起源,文中引用了当时还没出版的不朽名著《句法结构》。乔姆斯基当时刚刚到麻省理工学院现代语言学系(后来演变为语言学与哲学系)出任助理教授,并在电子实验室做机器翻译的研究。尽管乔老爷后来是“反政府斗士”,但有点反讽的是他早期的研究经费都来自美国空军和海军。

从参与者的角度看,大家会认为这次 IRE 的信息论年会比达特茅斯会议更重要,影响也更深远。米勒回忆说,他当时直觉认识到实验心理学、理论语言学、认知过程的计算机模拟,都是一个“大家伙”里面的组成部分。这个所谓的“大家伙”就是现在的人工智能加认知科学吧。

明斯基回忆自己在达特茅斯会议期间,在纸上画了一个几何定理证明器的设计,并手动模拟证明了等腰三角形的一个定理。会后的 1956 年 9 月,IBM 招了新毕业的物理博士格兰特(Herb Gelernter)实现明斯基的几何定理证明器。麦卡锡此时受到纽厄尔和司马贺的影响,建议在Fortran 里实现表处理语言,作为实现语言。这个项目在 1959 年实现后,IBM 削减了对 AI 的投入,把这个项目砍掉了,理由是 IBM 不想给人以机器可以替代人的印象。IBM 再次资助 AI 是 20 多年后的 1983 年了,现在好像 IBM 百年老店只能靠 AI 系统沃森(Watson)翻身了。

麦卡锡 1958 年离开达特茅斯学院去了麻省理工学院,帮助创立了 MAC 项目。他和明斯基一起领导了 MAC 项目中的 AI 实验室,1962 年他再次跳槽到斯坦福大学。之后明斯基又和佩珀特(Seymour Papert)合作。计算机操作系统里“分时”的概念是由麦卡锡在 MAC 项目中首创的。他回忆说当时机器太少,但等着上机的学生很多,于是就发明了分时系统。按说分时系统的贡献要比麦卡锡后来的 AI 贡献彰显得多,但麦卡锡得图灵奖可不是靠“分时”,这就像爱因斯坦得诺贝尔奖没靠相对论一样。从这个意义上 AI 有点像哲学:由此衍生出很多问题,而对这些问题的解决产生了许多子学科;一旦这些子学科独立,就不再待见 AI 了。另一个例子是卡内基梅隆大学的微核心操作系统 MACH,其最早的发源是在卡内基梅隆大学的雷蒂(Raj Reddy)搞的分布式传感网络,MACH 领导者拉希德(Rick Rashid)后来加入微软,MACH 变成微软后来操作系统的基础,他本人也变成微软负责技术的决策者之一。

现在计算机科学已成为成熟的学科,每个计算机系大都有三拨人:理论、系统和 AI。20 年前的美国计算机圈子曾有一种说法:理论和系统的人互相看不起,但又同时看不起 AI 的人。AI 这几年火了,但曾几何时,AI 的人是被压迫者。哲学曾经孕育了科学,但一旦问题被确定,就分离成为单独的科学。最新的例子是逻辑学,逻辑学曾经是哲学系最硬的专业,而现在的一流的逻辑学家大多在数学系和计算机系,哲学系被彻底空洞化。哲学家丹尼特(Daniel Dennett)曾说:AI 就是哲学。按照明斯基的说法,人工智能就是先锋派的计算机科学。MAC 项目孕育了计算机科学中很多原创的概念。以至于明斯基后来认为 UNIX 系统是落后的东西,因为他们丢掉了很多 Multics 中的精华。

利克莱德(Joseph Licklider)是信息时代的预言家和布道者,他 20 世纪 60 年代初期在美国国防部先进研究项目局(ARPA)创办“指挥与控制”(C2)办公室,后来演变为“行为科学及指挥与控制”办公室,最终变成有权有势的“信息科技办公室”(IPTO)。正是利克莱德最早想到了“人机协同”“计算机网络”“未来图书馆”等先进概念。而他的“行为科学”计划也曾资助过监控项目,不知那是不是受到奥威尔的启发。

1968 年,参议院多数党领袖曼斯菲尔德对ARPA的资助方向不满,他认为国防部的钱不能被用于军事目的之外,非军事目的的项目应该由美国国家科学基金会(NSF)负责,ARPA 改名为 DARPA,更强调“国防”。利克莱德遂于 1968 年离开 ARPA,去了麻省理工学院担任 MAC 项目负责人,统筹计算机科学实验室和人工智能实验室。人们认识到利克莱德的贡献太晚了,他于 1990 年过世。计算机科学最重要的实验室之一施乐 PARC 的创始人泰勒(Robert Taylor)曾称利克莱德是 Johnny Appleseed3

3Appleseed 是美国 18 世纪到 19 世纪的园丁查普曼(John Chapman)的外号,他把“苹果树”的种子遍撒美国。

利克莱德(1915—1990)

20 世纪 70 年代初期在海尔梅尔(George Heilmeier)任内,DARPA大砍 AI 预算。协调政府和 AI 实验室的工作变得头绪繁多,明斯基决定从 AI 实验室退位,让他刚毕业的学生温斯顿(Patrick Winston)接手。

尽管明斯基说他不喜事务性工作,但他的采访和回忆中触及的话题总是和联邦政府的资助有关。温斯顿后来回忆时说,管理一个成功的实验室要管理好三个圈的交集:出资人(主要是政府)、科学上有创建、有国计民生的价值。他试图说服几任 ARPA 的头儿别把 AI 当作一个几年一次的项目,而是长期而独立的一门学科。另外,他对比了早期 ARPA 和 NSF 的不同,NSF 是 20 世纪 80 年代才开始资助 AI 研究的,给钱少,而且是同行评议制,结果是越有成就的拿的钱越多,但很少会有根本性的原创性贡献,ARPA 早期都是头儿们说了算,好处是如果管事的头儿们品位好,肯定会支持好东西。这一点也值得一些科技人借鉴:大型项目决策者的品位可以超越“透明计算”吗?

再说回海尔梅尔,他以 AI 不能帮助造武器打仗为理由,削减了对 AI 的大规模经费,却重金资助了隐形飞机和空间武器技术,使美国在相关领域一直保持领先。 ARPA 资助的这类项目要是通过同行评议是很难实施的。ARPA 几乎在同时也支持了ARPANET,后来演变成互联网。有意思的是,海尔梅尔从 ARPA 离任后去了德州仪器(TI)做 CTO,在 TI 却大力提倡 AI。ARPA 对 AI 的资助在克柔克(Steve Crocker)手里才逐步恢复。大家知道克柔克是互联网的先驱之一。后来的ARPA 信息技术办公室(IPTO)的负责人中还有图灵奖获得者萨瑟兰(Ivan Edward Sutherland),也对 AI 继续投入。精英制风格的 ARPA,更适合做大型开创性项目,成功取决于少数决策者;而以民主制为基础的 NSF,历来就是小规模资助基础研究。

司马贺 1957 年曾预言 10 年内计算机下棋会击败人。1968 年麦卡锡和象棋大师列维(David Levy)打赌说 10 年内下棋程序会战胜列维,最后赔了列维 2000 块。乐观的预言总会给对手留下把柄:德雷弗斯后来每年都拿此事嘲讽AI,说计算机下下跳棋还行,下象棋连 10 岁的孩子都干不过。这便宜话一直说到 1997 年,IBM 的下棋程序“深蓝”击败了卡斯帕罗夫。这真是“四十年太久,只争朝夕”啊。在1995年卡斯帕罗夫还在批评计算机下棋缺乏悟性(insights),但到了 1996 年,他已经开始意识到“深蓝”貌似有悟性了。而两年间“深蓝”的计算能力只不过提高了一倍而已。机器有没有悟性的边界其实就是人的解释能力的极限。量变到质变的临界点就是人的解释能力,人解释不了的东西就有悟性,解释得了的东西就没有悟性。司马贺和日本计算机科学家宗像俊则(Toshinori Munakata)合写了篇解气的文章《人工智能的教训》(“AI Lessons”)登在 CACM 上。

当然,德雷弗斯们还可以将“计算机仍然不能干什么”加上若干个“仍然”接着批评。明斯基1968 年在库布里克的电影《2001 太空漫游》的新闻发布会上曾大放厥词说30 年内机器智能可以和人有一拼,1989 年又预言20 年内可以解决自然语言处理。现在我们恐怕还不能说机器翻译器令人满意吧。过分乐观的另一个原因,按照明斯基自己的说法是,一门年轻的学科,一开始都需要一点“过度销售”(excessive salesmanship)。但是过头了不免被人当作狗皮膏或炼金术。

2006 年,达特茅斯会议 50 周年时,当时的 10 位与会者中已有5位仙逝,活着的 5 位:摩尔、麦卡锡、明斯基、塞弗里奇和所罗门诺夫在达特茅斯团聚,忆往昔展未来。

2006 年,会议 50 年后,当事人重聚达特茅斯(左起:摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫)

参会人之一霍维茨(Eric Horvitz)现在是微软实验室的头目,他和他老婆拿出一笔钱在斯坦福大学捐助了一个“AI100”(见斯坦福大学官网)的活动:在下面 100 年里各路豪杰聚会,每 5 年出个 AI 进展报告。第一期出版于2016 年,但里面并无什么干货。

乔姆斯基晚年边做学问边做斗士。2015 年 3 月他和物理学家克劳斯对话时被问及“机器可以思维吗?”,他套用计算机科学家戴克斯特拉(Edsger Wybe Dijkstra)的说法反问:“潜艇会游泳吗?”如果机器人可以有意识(consciousness)的性质,机器人可以被认为有意识吗?他进一步说“意识”是相对简单的,而“前意识”(preconsciousness)是困难的问题。他把 AI 分成工程的和科学的:工程的,如自动驾驶车等,能做出对人类有用的东西;而科学的,乔老爷明显不认可。他引用图灵的话:这问题没有讨论的意义(too meaningless to deserve discussion)。当一帮奇点理论的粉丝带着正面的期望采访乔姆斯基时,他却对人工智能这个被他深刻影响过的学科没太当回事,他认为气候和毁灭性武器是比奇点更紧迫的问题。这算有意回避吧。

明斯基在 2012 年接受他的学生、预言家、奇点理论炮制者库兹韦尔的采访时说,他相信奇点的到来,可能就在我们的有生之年。两位“斯基”在麻省理工学院 150 周年纪念会上分在一个小组讨论里,却只打了下太极,并没有针锋相对。明斯基 2016 年 1 月 24 日在波士顿去世,据说为了等奇点,他老人家把自个儿冷冻了。

明斯基和乔姆斯基在麻省理工学院150 周年纪念会上同室不操戈,并没针锋相对

人工智能是一门新学科,讲述历史的读物并不多。波登的《认知科学历史》(Boden,2008)和尼尔森的《人工智能探究》(Nilsson,2010)是两本严肃的读物。尼尔森是人工智能学科的早期参与者,也一直是领导者之一,他多年担任SRI 的人工智能部门负责人和斯坦福大学计算机系主任,是圈里人。

麦克达克(Pamela McCorduck)曾是费根鲍姆的御用作家,她1979年写的《能思考的机器》(Machines Who Think)一书,无论是取材还是立意,从今天的角度看都略微过时。

纽厄尔 1981 年的文章探讨了如何研究人工智能的历史,他总结了人工智能历史中不同思想的对立,他的方法也可以用来研究更广义的计算机科学,甚至可以拓展到不同科学领域和哲学。尽管这是 30 多年前的文章,但今天读来仍有启发。

明尼苏达大学的巴贝奇研究所是专门研究计算机科学历史的机构。主持工作的诺伯格采访了多名计算机科学家,并做了录音。这些被采访者中有不少人工智能学者,例如纽厄尔、麦卡锡、明斯基、温斯顿、布坎南等。听这些人的录音采访和阅读正儿八经的文章完全是两种不同的体验。采访中的语调幽默,包含了很多文章不可能有的微妙细节。除了录音采访,麦卡锡还有个西蒙斯基金会的更正式的视频采访。

乔治米勒(G. A. Miller)作为 1956 年 IRE 信息论会议的参与者,也是认知科学的创始人之一,在 2003 年写的历史回顾值得一看。他明确指出1956 年这一年对于人工智能和认知科学至关重要。

几本达特茅斯会议与会者的传记和自传值得一读,特别提出司马贺的自传和传记(Crowther-Heyck,2005)。

雅各布森(Annie Jacobsen)的《五角大楼大脑》(Pentagon's Brain)是关于 ARPA 的翔实而有趣的历史。从这本书中我们可以看到信息科技一直不是 ARPA 的主打方向,但互联网这个 ARPA 歪打正着的项目却是它最好的投资。