2.4.1 初步的理论思考

因此,关于消除符号加工的争论并不是基于特定领域中反对符号加工的经验论证,而是基于人们可能认为的初步理论思考。多层感知器似乎特别吸引人的一个原因是,一些学者认为“它们比符号模型更符合我们所了解的神经系统”(Bechtel & Abrahamsen,1991,p.56)。毕竟,节点被松散地建模为神经元,节点之间的连接被松散地建模为突触。相反,从表面上看,符号加工模型并不像大脑,因此很自然地认为多层感知器可能是理解大脑和认知之间联系的更有效的方式。

支持多层感知器的另一个原因是,它们已经被证明能够表示非常广泛的函数。随着Minsky和Papert(1969)对缺乏隐藏层的网络局限性的证明,早期对联结主义的研究实际上已经消亡;新一代模型的支持者对新模型更广泛的表示能力充满信心。例如,P. M. Churchland(1990)将多层感知器称为“通用函数逼近器”(另见Mareschal & Shultz,1996)。函数逼近器是一种装置,它取一组已知的点,然后对未知点进行插值或外推。例如,在运动空间(以力和关节角度定义的空间)和视觉空间之间映射的设备可以被认为是学习一个函数;同样,动词的词干和它的过去式之间的映射也可以被认为是一个函数。实际上,对于任何一个给定的函数,都存在一些具有节点配置和权重的多层感知器可以逼近这个函数(见Hadley,2000)。

还有一些人青睐多层感知器,因为它们似乎对先天结构的要求较少。对于那些被“孩子以相对较少的初始结构进入世界”的观点所吸引的研究人员来说,多层感知器提供了一种方法,使他们的观点在计算上显式呈现。例如,Elman等人(1996,p.115)认为多层感知器模型提供了“模拟发展现象的新方式和……令人兴奋的方式……展示了领域特定的表示是如何从领域通用架构和学习算法中产生的,以及这些如何最终导致模块化过程成为开发的最终产品,而非起点”。

多层感知器也因其固有的学习能力(Bates & Elman,1993),以及其故障弱化的能力(它们可以忍受有限的噪声或损坏而不会出现严重故障)而备受关注(Rumelhart & McClelland,1986b,p.134)。还有一些人发现,多层感知器比符号感知器更简约。例如,关于儿童如何改变英语过去时,多层感知器认为儿童使用相同的机制来改变不规则(sing-sang)和规则(walk-walked)屈折;而基于规则的解释必须包括至少两种机制,一种是规则屈折,另一种是规则的例外。(关于语言屈折模型的进一步讨论见3.5节。)