5.2 常识

一个经典的AI知识项目目前正在进行中,试图创建一个包含日常生活、常识推理和一般知识的百科全书。这个名为Cyc的项目正在构建一个全面的本体和知识库。它的创始人Doug Lenat认为,为了让AI应用程序执行类似人类的推理,这是必要的。数以百万计的常识正在被编码。这是一种非常明显的知识,以前从来没有正式化过(除了一些科学工作)。它包括重力、单个实体的唯一性和对象的持久性等概念。其中大部分被称为世界物理学,即简单物体在重力、摩擦、惯性、运动和其他力作用下的运动方式。其他类似“常识”的知识,我们从来没有真正注意到过,但却一直在使用,包括“一个物体一次只能在一个地方”这样的普遍原则。

例如,计算机最容易做的事情之一就是克隆(即完美地复制)事物。给定一个文件、图片或文件夹,计算机可以立即创建一个副本。你在一些基于网络的服务中输入的个人信息,现在可能有成百上千份拷贝在互联网上四处传播。这样的克隆在人类世界(真实世界)是没有意义的。每一个物理实体都是一个独特的个体,即使是生物克隆也会根据它们自己的生命历程立即分化和改变。但是,任何一台想要“理解”人类和物质世界的计算机都必须被赋予许多额外的规则,以防止像“玛丽在厨房做饭”和“玛丽在卧室睡觉”这两种说法同时存在。这种类型的知识错误对我们来说似乎是显而易见和微不足道的,但是在基于知识的系统中很难对其进行建模和捕获。

1984年项目开始后不久,Lenat估计完成Cyc的工作需要25万条规则和350人类年的努力。现在它的本体中有超过50万个概念,还有500万个事实、规则和关系,这个项目还在进行中。知识和规则是由一个称为“知识工程师”的专业团队创建的,他们手工收集和输入关于世界的事实,并为知识库构建本体论并实现推理机制。可以浏览一个名为OpenCyc(版本4.0,2012)的开源本体系统(参见www.cyc.com),它提供了成千上万的术语,以及数以百万计的相互关联的断言。其他可用的组件包括Cyc推理引擎、自然语言解析器和英语语言生成函数。

Cyc之所以是一项如此艰巨的任务,是因为没有办法自动构建本质上是“万物本体”的东西。将人类已知的所有信息,无论是显性的还是隐性的进行编码,都是一项巨大的任务,而Cyc则是一项大胆的事业。有人认为,Cyc可以利用其庞大的知识库来解释所有网页上信息的含义,从而帮助创建语义Web。不幸的是,万维网给Cyc带来了两个额外的问题:它比Cyc大几个数量级,大约有50亿个页面,这是一个更加恶劣的环境。它不仅充满了不确定、不一致和相互矛盾的信息,而且其中一些还具有故意欺骗性和破坏性。