序言

亢世勇等的《面向应用的汉语语义构词研究》是汉语语义构词研究的重要成果。他们从词汇的语义分类入手,研究汉语合成词中字义与词义的语义内在关系,从而由字义推导出词义,开辟了汉语构词研究的新领域。

语素和单词都是表示概念的,由于客观事物的发展,新的概念如雨后春笋般不断出现,而用于构成单词的常用语素(morpheme)的数量是有限的,人们不可能为每一个新出现的概念都创造一个新的语素来表示,最好的办法,就是在不增加常用语素数量的前提下,使用已经存在的常用语素组合起来构成新的单词(new word),从而表达层出不穷的新的概念。这是“单词形成的经济规律”(economical law of word formation)。我认为,这个经济规律在世界各种语言中是普遍存在的,这是语言学中很值得深入研究的规律。

显而易见,这个各种语言中普遍存在的“单词形成的经济规律”在不同语言中的表现是不同的,不同的语言应当有自身的特殊的规律。在汉语中,一个汉字(Chinese character)就相当于一个语素,如何使用已经存在的常用汉字来构成新的单词,这其中的具体的规律究竟是怎样的?这是一个相当困难的问题。

《面向应用的汉语语义构词研究》基本上找到了这些具体的规律,他们证明了,现代汉语的大多数合成词(compound word)中,字义与词义都有着直接或间接的联系,可以从字义推导出词义,因而字义和词义之间是有规律可循的。这是一个鼓舞人心的结论。

当然,在字义和词义之间也有少量的例外,面对这样的例外,他们利用美国布兰代斯大学(Brandeis University)普斯特尤夫斯基(Pustejovsky)教授于1991年提出的生成词库理论(Generative Lexicon Theory)中的物性结构理论(Qualia Structure Theory),解释了这些例外的词义产生的途径,从而基本上找到了用已经存在的常用汉字来构成新的单词的语义构词规律。

他们还建立了大规模的《汉语双音合成词语义构词规则数据库》,对于数据库中单词的各项特征进行了细致的描述,在数据库的基础上全面考察汉语语义构词的状况,总结出了一系列很细的规则。利用这些规则在一定程度上可以预测未登录词的语义,从而提高了自然语言处理(Natural Language Processing)的水平,具有实用价值。

他们的研究是建立在大规模数据库的基础之上的,这是一件耗时耗力的艰巨的“特征工程”(feature engineering),他们不畏困难,艰苦奋战,克难攻坚,终于取得了胜利,我谨向他们表示祝贺。

冯志伟

2019年10月19日