- 机器学习:从公理到算法
- 于剑
- 2601字
- 2021-04-05 02:54:45
第2章 归类理论
伯牙鼓琴,钟子期听之,方鼓琴而志在太山,钟子期曰:“善哉乎鼓琴,巍巍乎若太山。”少选之间,而志在流水,钟子期又曰:“善哉乎鼓琴,汤汤乎若流水。”钟子期死,伯牙破琴绝弦,终身不复鼓琴,以为世无足复为鼓琴者。
——《吕氏春秋·本味》
如同引言所论,机器学习的基本任务是获取知识,因此最终输出结果为知识(可以是显性知识,也可以是隐性知识)。众所周知,知识(knowledge)由各种概念组成,概念是构成人类知识世界的最小单元。人们必须借助概念才能理解世界,认知世界,如同老子所说,“有名,万物之母”,又如同德国诗人所言,“词语生成,如同花朵开放”。如果没有概念,就会如同德国诗人格奥尔格所说,“于是我哀伤地学会了弃绝:词语破碎处,无物可存在”。因此,机器学习首先要解决的是如何从数据中学习概念。
什么是概念呢?远在亚里士多德时代,人们已经开始寻找定义概念的方法。在1953年以前,通常认为概念可以精确定义。之所以有些概念目前不能准确定义,仅仅是因为受限于目前的认知水平,人类还缺乏发现相关概念精确定义的能力。按照这样一种信念得到的概念定义,称之为经典定义。在这样一种概念定义中,对象属于或不属于一个概念是一个二值问题。通常,概念有内涵(intension)和外延(extension)两种表示(representation)。概念的内涵表示反映和揭示概念的本质属性,是人类主观世界对概念的认知,可存在于人的心智之中,用命题来表示;概念的外延表示包含了与概念对应的各种具体实例,是一个由具有概念本质属性的对象构成的集合,数学上用集合或划分矩阵来表示,概念的外延表示是外部可观测的,可度量的。如素数的内涵表示为只能被1和其自身整除的自然数,其外延表示为素数集合{2,3,5,7,11,13,17,19,23,29,31,…}。
但是,1953年维特根斯坦通过研究“游戏”这个概念,对于概念的内涵表示的存在性提出了严重质疑,认为不是所有的概念都存在经典的内涵表示(命题表示)。现代认知科学的发展支持这一看法,明确指出,各种日常概念如人、猫、狗等都不一定存在经典的内涵表示(命题表示)。为了替代概念的经典内涵表示理论,现代认知科学已经提出了几种新型的概念内涵表示理论:原型理论、样例理论和知识理论。原型理论认为一个概念可由一个原型来表示,一个原型可以是一个实际的或者虚拟的对象样例,通常假设为概念的最理想代表。比如好人这个概念很难有一个命题表示,但是在中国,好人通常用雷锋来表示,雷锋就是好人的原型。样例理论认为概念不可能由一个对象样例来代表,但是可以由多个样例来表示,理由是一两岁的婴儿已经可以使用人这样的概念了,但是由于其接触的人的个体数量非常有限,其具有人这个概念原型的可能性很低。更进一步,认知科学家发现,在各种人类文明中,都存在颜色概念,但是具体的颜色概念各有差异,由此推断出,单一概念不可能独立于特定的文明之外而存在。由此形成了概念的知识理论。在知识理论里,认为概念是特定知识框架(文明)的一个组成部分。但是,不管怎样,认知科学总是假设概念在人的心智中是存在的。这一点也为最近的文献所证实。本书也采用这样的假设。概念在人心智中的表示称为认知表示。
当人们心中有了概念,必然使用这些概念对世界上的对象进行归类。无论人们遇到什么,都能自动将其归类,如天空、树、海洋等。人们的日常生活离不开归类能力。比如:吃早餐需要将品相各异的食物归类为对应的概念,像包子、粥、米饭、馒头、油条等,这样才能从早餐师傅那里得到自己想要的早餐。乘车需要正确识别各路公共汽车,这样才能保证路线无误并快速准确地到达目的地。总之,归类是人类一项最重要而且也最基本的认知能力。归类正确与否明确显示了人是否掌握了与该类对应的概念。一个正常的七八岁儿童已经能够将世界上的自然类别正确归类。因此,一个自然的希望是机器通过学习也拥有类似的归类能力。正如第1章所言,由于目前的概念表示研究结果适合于机器学习,机器学习已经对归类问题积累了丰富的研究成果,而且还在不断出现新的研究成果。在本书中,类与概念具有相同的语义,实际上,模式与类也有同样的语义。考虑机器学习领域的习惯,本文将主要使用“类”这个术语。综上所述,类的表示有内蕴表示和外部表示两种。类的外部表示包括类中对象的特性表示和类的外延表示,对象特性表示第1章已经研究过了,类的外延表示显示了对象的归类情况。类的内蕴表示显示了类在心智中的表示,即内部表示,其包括认知表示和如何使用认知表示归类,换句话说,认知表示是类的内蕴表示的一部分。
人到底是如何归类的呢?2500年前哲学家赫拉克利特(Heraclitus)已经知道“人不能两次踏进同一条河流”,17世纪莱布尼茨也说过“世上不存在两片相同的树叶”,中国的先贤孟子也曾经提出“夫物之不齐,物之性也”。然而,人虽然不能两次踏进同一条河流,没有见过两片相同的树叶,但不能将一条河流、两片树叶进行正确归类的情形并不多见,即使这条河流已经屡经变迁(如黄河)、两片树叶大小、颜色、形状有异。原因何在?认知科学家认为,一条河流虽然每时每刻都在变化,但由于河流在每一时刻与其相近时刻的变化非常小,在人们的感觉中二者是非常相似的,甚至于对二者难以区分。换句话来说,人们很容易将一条河流进行归类,人类是依赖于相似性将对象归类的。类似的分析对于树叶也是成立的。甚至有认知实验证明不仅儿童是基于相似性表示类的,甚至基于相似性的类表示在发育过程中是默认设置。
从直观上说,人们之所以将某个对象归为某个类,是因为该对象最像该类;反之,如果某个对象最像某个类,则该对象应该归为该类。简言之,归类遵循的原则应该是:归哪类,像哪类;像哪类,归哪类。更直白的解释是,归类遵循的原则应该是人们心里想的归类结果要与客观的归类结果一致。人类文明的发展史表明,人类不断通过学习,总结出与客观实践更一致的知识。因此,我们需要定义什么是归?什么是像?对于人类来说,“归”是对对象归类的外显指称,是人使用类外延表示的方式,“像”是对对象归类的内在指称,是人使用类认知表示的方式。归和像都是概念表示的一部分,即属于知识表示的内容。
回到机器学习,正如第1章所说,我们希望机器学习能够学到知识,自然也希望归类算法能够像人一样对对象进行归类,具有同样的知识表示架构。对于归类学习算法来说,其输入反映的是外部信息提供者的归类信息,其输出是算法学到的归类信息。因此,可以根据以上的讨论,将归类学习算法输入输出中的归类信息形式化。