第一节 《汉字义类信息库》的研究与实现

《汉字义类信息库》的研究与实现,旨在为“国标GB—2312”的6763个常用汉字建立包含读音、义项、同音、同形、语义类、词性、成词与否等信息的数据库,为汉语研究,特别是汉语信息处理研究开发一个基本资源。本章将对这一工作,作一详细介绍。

一 建立《汉字义类信息库》的基本思想

(一)以目前现代汉语及汉语信息处理研究的权威理论与成果为指导,博采众长,根据“国标GB—2312”的6763个常用汉字读音、义项、同音、同形、语义类、词性、成词与否等信息,建立信息库。

具体来说,是以中国社会科学院语言研究所词典编辑室编、商务印书馆出版的1996年版的《现代汉语词典》字词的立条、注音、释义为基础,以梅家驹、竺一鸣、高蕴琦、殷鸿翔编,上海辞书出版社出版的1983年版的《同义词词林》的语义分类和归类为汉字语义类的基本框架和基本标准,以俞士汶等著、清华大学出版社出版的《现代汉语语法信息词典详解》的词类体系和词类标准为标注词性的基本体系和基本标准,并参考了《新华字典》《辞源》《辞海》《反义词词林》《词汇语义学》《现代汉语词汇》《汉语类义词典》等的立条、注音、释义、分类及语素与词的有关理论,根据现代汉语的实际情况确定字位、确立描述框架,集众家之长完成这一工作。我们希望在先进理论的指导下把《汉字义类信息库》建成一个高质量、高水平的信息库。

(二)人机两用的全新研究理念

《汉字义类信息库》的建立不仅要满足人学习、研究汉字的某些需要,而且要满足计算机进行汉字、汉语信息处理的某些需要,因此汉字义类信息库的建立不仅要适合于人读,而且要适合于机读,在信息库的收字立条、结构的设计、属性的确定、属性的描述及信息的存储等方面都要充分考虑到“人机”两用的特点。我们殷切地希望《汉字义类信息库》能够成为汉语、汉字信息处理的有效资源。

(三)以“字位”为描述的基点

“字位”这个概念是仿语音学的“音位”、词汇语义学的“义位”而确立的,是指特定的形、特定的音、特定的义相结合的形音义一体化的汉字。通俗地说,一个单音单义的汉字就是一个字位,一个多音多义的汉字就可以形成多个字位,比如“打”有两个读音“da3”“da2”,读“da3”时又有两个同音字,包括动词类的“打”和介词类的“打”,而在动词类的“打”里又有25个义项,这样,一个字形“打”就衍生出27个字位“打”。一个字位就是一个单音、单义的汉字。汉字的形音义之间的关系非常复杂,造成了大量的同形字、同音字、多义字,而在实际使用中一个特定的环境里,只可能有一个字位,这种情况为计算机语言信息处理带来了更多的排歧的困难。如果以字为基点进行描述,一则描述信息比较粗疏,实用价值不大;二则因为描述的对象本身复杂,描述可能无法进行。因此,我们选择了以字位为描述的基点,使描述的信息颗粒度更小,获得的知识更细致,更具有实用价值。

二 《汉字义类信息库》收字、立条原则

在“以字位为描述基点”的思想指导下,以1996年版的《现代汉语词典》的立条、注音、字义词义解释为基础,以“国标GB—2312”6763个常用汉字为基准收字、立条,具体原则如下。

(一)一字一条的原则

坚持一个字立一条,同形字、同形同音字、完全同义字都分别立条。“好坏”的“好”和“喜好”的“好”,同形但不同音,分别立条,确立为“好A”“好B”两个字位;类似的还有“挨A、挨B,艾A、艾B”等。“别去”的“别”和“把花别上”的“别”同形同音,但不同义,是不同的字,分别立条,确立为“别1”“别2”两个字位;类似的还有“艾1、艾2、艾3、艾4、艾5”等。“捱”义同“挨(aí)”,“案”其中一个义同“按”,“骜”义同“傲”,都单独立条,不因义同而合并为一个字位。

(二)一义一条的原则

如果一个字是一个实义的多义字,一个义项立一个字位。比如:“搭”,《现代汉语词典》解释为7个义项:①支,架,比如“搭桥”;②把柔软的东西放在可以支架的东西上,比如“把东西搭在竹竿上”;③连接在一起,比如“两根电线搭上了”;④凑上、加上,比如“把这些钱搭上就够了”;⑤搭配,配合,比如“粗粮和细粮搭着吃”;⑥共同抬起,比如“书柜已经搭走了”;⑦乘、坐(飞机、汽车等),比如“搭轮船到上海”。我们将这些解释和其他词典进行对比,认为是准确合适的,就确立为7个字位。少部分字的一些义项解释为“原指—,也指(或喻指)—”,“原指”与“也指”的意思差别较大,无法归入一类,也考虑将其各自单独立条,确立为两个不同的字位;比如“祟:原指鬼怪或鬼怪害人(迷信),借指不正当的行动”。

(三)义项(语法意义)与词性相结合的原则

虚词与虚语素,没有词汇意义,只表示语法意义。一个字自成虚词或虚语素,如果词性不同,就单独立条,确立为不同字位;如果词性一致,所表示的语法意义不同,在现有语义分类体系中比较容易标注的也单独立条,确立为不同的字位;如果词性一致,所表示的语法意义有所差别,并且有些语法意义从现有的分类体系不好归类则考虑合为一个字位,不单独立条。比如“从2”,《现代汉语词典》解释为:①介词,起于,“从—”表示“拿—做起”,例如“从北京到上海”;②介词,表示经过,用在表示处所的词语前面,如“从窗缝里往外望”;③副词,从来,用在否定词前面,如“从没听说过”。“从2”的①②义项为介词,语法意义差别比较大,容易标注,③为副词,因此分别立条,为三个字位。“的(de)1”《现代汉语词典》的解释为:①助词(②—⑤同),用在定语的后面;②用来构成没有中心语的“的”字结构;③用在谓语动词的后面,强调这动作的施事者或时间、地点、方式等;④用在陈述句末尾,表示肯定的语气;⑤用在两个同类的词或词组之后,表示“等等、之类”的意思;⑥用在两个数词中间,表示相乘、相加。义项⑥有实在的词汇意义,是实词,单独确立为一个字位。义项①—⑤都是虚词,其中④是表示语气,是语气词,单独立为一个字位;其他四个都是助词,表示的语法意义有所差别,但标注起来并不容易,合并为一个字位。“多2”,《现代汉语词典》解释为:副词,①用在疑问句里,问程度,如“他多大年纪?”②用在感叹句里,表示程度高,如“你看他老人家多有精神啊!”③指某种程度,如“无论山有多高,路有多陡,他都走在前头。”义项①有“问程度”的意思,而②③都是指“程度”,故将①单独立为一个字位,而将②③合并为一个字位。关于虚词的语义分类,现有的分类体系不够全面,需要进一步研究,并对这一部分字进行重新立条归类,当然这一部分字比较少,不会影响全局,以后补做起来,也不会有太大的困难。

(四)补充原则

以上两条主要处理实词字、实语素字、虚词字和虚语素字,此外还有非语素字。非语素字即单独没有意义的字,如“葡”“萄”“咖”“啡”等,也同样立一个字位。这些字形成词的功能比较单一,一般都是和另外一个或两个同性质的字合在一起代表一个语素或词。这样,这些字在进行语义归类时是按照它们所形成的词或语素的意义归类的。

根据上述原则,我们将“国标GB—2123”的6763个常用汉字按同音、同形区别为8568个汉字、确立为17430个字位。

三 《汉字义类信息库》属性信息的确立

《汉字义类信息库》的建立主要是为人识读、研究汉字的语义和计算机语言信息处理中对汉语字词句的识别、理解、分析、合成建立基本资源。为此目的,信息库属性信息确立的总原则是:以汉字语义为中心,重点考察汉字的语义分类;围绕对汉字语义的分类,涉及汉字的读音、同形、同音、词性、是否成词等方面的信息。具体确立的属性信息如下。

(一)语义分类信息

语义分类信息是《汉字义类信息库》的核心信息。以梅家驹等人编的《同义词词林》的语义分类标准和框架为基础,根据实际情况有所增加。《同义词词林》在“以词义为主,兼顾词类,并充分注意题材的集中”(《同义词词林·自序》,第5页)的分类原则指导下,将汉语的字词语义分为具有层级体系的三级类别,首先分出大类12个(用大写A、B、C—表示),各个大类内部又按词义之间的同义程度分出若干中类,12个大类共分出94个中类(在大类字母后用小写a、b、c—表示),各个中类内部进一步按词义之间的同义程度分出小类,94个中类共分出1428个小类(大类、中类字母之后用数字01、02、03—表示)。这个分类标准和分类体系从它自身的分类、归类实践以及我们对汉字语义归类的实践来看是可行的。但在归类中,我们发现“天干地支”类、“有机物、无机物”类、“非金属元素”类、“八卦”类、“语法范畴”类、“词缀”类等六类字无法归入现有的类中,故增加了六个小类,按《同义词词林》的分类体系分别归入第三大类的第一中类、第二大类的第一中类、第二大类的第十三中类、第四大类的第九中类、第四大类的第十一中类、第十一大类第四中类中,分别标记为Ca32、Ba11、Bm19、Di27、DK33、Kd06。这样《汉字义类信息库》的语义分类体系就分为12大类、94中类、1434个小类。在这个分类体系中从“大类”到“中类”再到“小类”体现的是字词语义的上下位关系,而每一类内部体现的是字词之间的同义或反义关系。在这种描述框架指导下,我们的《汉字义类信息库》实际上构筑了汉语字词的语义网络关系。

(二)读音信息

汉字是形音义一体化的文字符号,相同的字形读音不同所表示的意义就不同,比如“的”读“de”、“dì”和“dí”,“了”读“le”和“liǎo”意义就不相同。汉字的读音有区别意义的作用,也决定了所属的语义类、词类等,因此,有必要标注语音信息。

(三)同音信息

这里的同音信息不是指一般的同音字词,而是特指同形同音字词。这些字词形音完全相同,但意义毫无联系,语言学称其为同音词,字典、词典一般都单独立条。它们所属的语义类和词类也会有一定的差异。这一部分字为数不少,为了人和计算机能够对这种现象作出正确的区分,有必要描述这一信息。

(四)同形信息

有一部分字,字形相同,但字音、字义均不同。这一部分字就字本身来看,难以与同音同形字区别,因此描述这一信息,以示区别。

(五)词性信息

《汉字义类信息库》继承了《现代汉语语法信息词典》词的分类标准和词类体系以及词类标记。划分词类的标准是语法功能,词类体系及标记(括号内的大写字母为词类标记)如下:名词(N)、时间词(T)、方位词(F)、处所词(S)、动词(V)、形容词(A)、状态词(Z)、区别词(B)、副词(D)、代词(R)、数词(M)、量词(Q)、介词(P)、连词(C)、助词(U)、语气词(Y)、象声词(O)、叹词(E)。

《汉字义类信息库》又有其特殊之处,因为我们收录的对象是字。字有的是词,有的不是词;有的在某些义项上是词,而在另一些义项上不是词;当其不是词时,又有能否单独表示意义的差别。能单独表示一定意义的是语素,不能单独表示意义的是非语素字。语素又可按照构词能力分为词根语素和词缀语素。词根语素根据在构词中的功能及其所表示的意义进一步分为若干类。词缀语素根据在构词中出现的位置又可分为前缀、后缀,根据所构成的词所属的词类又可分为名词词缀、动词词缀等。对这些差异进行区分,也是《汉字义类信息库》关注的一个重点。根据以上分析及我们的《汉字义类信息库》的标注实践,我们又补充了以下类别及相应的标记。我们的指导思想是将以上多种差别用一套符号标记出来,各类别后括号里的符号为该类别的标记。

名词语素(Ng)、时间词语素(Tg)、方位词语素(Fg)、代词语素(Rg)、数词语素(Mg)、动词语素(Vg)、形容词语素(Ag)、状态词语素(Zg)、区别词语素(Bg)、副词语素(Dg)、名词前缀(Nh)、名词后缀(Nk)、动词后缀(Vk)、形容词后缀(Ak)、方位词后缀(Fk)、副词后缀(Dk)、非语素字(X)、偏旁(L)。

有些字主要作姓名、地名、山名、河流名等用,我们将“姓名”分为一类,标记为“Nr”;将地名、山名、河流名归为一类,标记为“Ns”。

综合以上分析,本章所讲的词性信息实际上包含了词类、语素类、人名、地名等信息,共三个部分37类。

(六)备注信息

有些字是专门用于书面语的,比如:因(沿袭)、处(居住)、斯(这、此)、匡(帮助)等;有些字是专门用于口语的,比如:飞(挥发)、翻(翻脸)、炸(因愤怒而激烈发作)、吹(说大话)等;有些字是专门用于方言的,比如:匡(粗略计算)、诳(谎)、卧(使婴儿躺下)等;有些字是文言保留,比如:行(路程)、俞(表示允许)、椁(套在棺材外的大棺材)、缟(白绢)、食(给别人吃)、将(带兵)等。这些书面语、方言、文言的字词使用的范围有限,是特殊一族,也要标注出来。有一部分字词是兼类的,比如“本”有一个意义“原来、本来”,比如“本色、本义、本不想去”,前两个是区别词语素的用法,后一个是副词的用法,属于两个功能性质不同的类,也应该标注出来。

四 《汉字义类信息库》的结构及属性描述

(一)《汉字义类信息库》的结构

《汉字义类信息库》采用成熟的关系数据库结构(在access环境下实现),用简单明了的汉字、字母、数字描述各种属性信息,便于理解、识读。软件(access)容易学习、掌握,而且功能强大,不仅为信息的储存带来方便,而且便于各种信息的管理,比如修改、删除、添加以及信息的抽取、分类等。

(二)《汉字义类信息库》属性字段及属性信息的描述

以下“[ ]”中的是“字段名”,“< >”中的是“数据值类型”,“( )”中的是“宽度”,其他文字表述是每个字段的“属性信息描述”。

[字位]<文本>(2)填写我们确立的相应的字位。

[拼音]<文本>(7)只有一个读音的不填,有两个或两个以上读音的一般是最常见的一个不填,其他的读音都填声韵调,其中阴平、阳平、上声、去声、轻声分别用1、2、3、4、5表示。比如:挨,读阴平的不填,读阳平的,在该字段中填“ai2”;的,读轻声的,该字段不填,读阳平和去声的,该字段分别填“di2、di4”。

[同音]<文本>(2)同形同音字,一般按《现代汉语词典》的编号在该字段填1、2、3—,同时为了统计的方便,在“字位”里也标上了1、2、3—比如:艾,读“ai4”时,《现代汉语词典》分列了艾1、艾2、艾3、艾4四个词条,那么在由这些字分立的字位的该字段中也相应地分别填上1、2、3、4。

[同形]<文本>(2)只同形不同音的字,在该字段填A、B、C—,同时为了统计方便在“字位”里也标上了A、B、C—,比如“的”字,分别读“de5”“di2”“di4”,那么在各读音下所立的字条的该字段中相应地填了“A”“B”“C”。

[义项]<文本>(50)用简单的汉语词句表述该字位的意义,不求完备,只求与其他意义区别开来。比如:的,共确立了五个字位,该字段分别填写了:助词,语气词,相加、相乘,的确,目的。非语素字,填由其形成的词或语素,比如“葡”“萄”的“义项”中都填“葡萄”。

[大类]<文本>(2)填该字位所属的语义分类的大类的代码。比如:“语气词”的“的”填“K”,“助词”的“的”填“K”,“相加、相乘”的“的”填“H”,“的确”的“的”填“K”,“目的”的“的”填“D”。

[中类]<文本>(2)填该字位所属的语义分类的中类的代码。比如:“语气词”的“的”填“d”,“助词”的“的”填“d”,“相加、相乘”的“的”填“j”,“的确”的“的”填“a”,“目的”的“的”填“b”。

[小类]<文本>(2)填该字位所属的语义分类的小类的代码。比如:“语气词”的“的”填“03”,“助词”的“的”填“01”,“相加、相乘”的“的”填“29”,“的确”的“的”填“30”,“目的”的“的”填“05”。

[词性]<文本>(2)填该字位的词性代码。比如:“语气词”的“的”填“Y”,“助词”的“的”填“U”,“相加、相乘”的“的”填“V”,“的确”的“的”填“Dg”,“目的”的“的”填“Ng”。

[备注]<文本>(2)方言字词填“方”,书面语字词填“书”,口语字词填“口”,文言保留的字词填“文”,兼类的字词填兼类的标记。

(三)信息库样例

续表

五 字位的归类

以上说明了《汉字义类信息库》开发的一些基本原则。将17430个字位归入各个类是一个非常复杂的工作,还有一些问题需要研究。

(一)语素与词的分别

区分词和语素的标准是:自己独立成词的是词,和别的语素合在一起构成词的,一律看作语素。汉语当中的一个字,特别是落实到每一个字位上来看是词还是语素按照这一标准可以解决绝大部分的归类问题,但也存在一些纠缠的现象。一个字位,有时用为词,有时作语素用,该如何处理?比如:“藏(cang2)”的一个字位的意义是“躲藏、隐藏”,举例是①包藏②暗藏③他藏起来了。“薄”的一个字位的意义是“轻微,少”,举例是①薄技②广种薄收③这份礼太薄。例①②里的“藏”和“薄”是语素,因为它们是构词成分;例③的“藏”和“薄”是词,因为它可以独立充当句子成分。对这类现象有三种处理办法:①定为语素,②定为词,③分开来,例①②的定为语素,例③的定为词。这三种办法都是有道理的。办法①的根据是现代汉语中有一类语素即“自由语素”,既可以独立成词,也可以作为语素构词;办法②的根据是现代汉语中有一类词叫基本词汇,它本身是词,又可以作为语素构词;办法③是把两种情况分开来,区别对待;总的来说办法③更细致地描述了语言现象的差异,但这样的话就造成了比较多的兼类(此处的兼类是指兼语素和词两类)。处理这类现象我们坚持的原则是:当这个字位和别的语素构成的词的词性和其原来的词性保持一致,并且也保留了它原有的意义时,将其定为词;否则,分开来,处理为兼类词(详细参看下节“词性的兼类”)。依据这一原则将上述的“藏”“薄”统一定为词,主要考虑三个方面:一是这些语素和词的功能类一致(都是动词类或形容词类的),而且由这些语素构成的词一般的语文词典和电子词典都会收录,将其定为语素,实际意义不大;二是从语言学的角度来看词可以保留原有的意义而降格去构词,这是普遍的,而且将其定为词,当作语素用时,可以理解为降格使用,也不妨碍意义的理解和句子的分析,而语素独立成词有比较多的限制,而且将其定为语素,当单独作词用时,不利于句子的分析;三是为了简洁、明了,如果兼类较多,会造成分析、理解上的麻烦。

(二)词性的兼类

《汉字义类信息库》里的字位大多数只有一个词性,但也有很少一部分是兼类的。比如“本”的一个字位的意义是“本来、原来”,如①本意,②本色,③本不想去;“别”有一个字位意义是“另外”,如①别名,②别称,③别有一番滋味在心头。以上两个字位在前两个例子中作区别语素用,而在后一个例子中用作副词,这是两个功能性质不同的类,不能合为一个,必须分开来,这就出现了兼类。对这类现象,目前信息库中通过“备注”字段作兼类处理,但并没有分开来立条,分为两个字位。以后考虑分开来立条,以解决兼类的问题,也使对于“字位”的信息描述颗粒度更小。

(三)语素的划类与归类

语素的划类与归类是指语素“词性”的划分与确定。依据的标准是语素的意义和其所构成词的词性。一般来说依据语素的抽象意义来分类和归类,如果语素表示的是“人或事物”,就确定为名词语素;表示的是“动作或行为”,就确定为动词语素;表示的是“性质或状态”就确定为形容词语素;依此类推。部分语素,就其本身来看不好确定,就根据其构成词的词性来确定,如果构成的是形容词就确定为形容词语素,如果构成的是区别词就确定为区别词语素,以此类推。“初(最低级的)”“超(超出寻常的)”构成的“初级”“初等”“超级”是区别词,这些语素就定为区别词语素。“当”有一个字位意义是“事情发生的时间”,构成的词是“当时”,“当时”是时间词,因此“当”归为“时间词语素”。

(四)一些需要说明的语义归类现象

(1)生物学:纲、目、门、属,地质年代:代、界、系、纪,排行:伯、孟、仲,长、次、季、老、幺等都归在Dn04数词类里。这些字位不好归类,归在这个类里是权宜之计,没有特别的道理。

(2)“金属元素”归在Bm01“五金”类里。

(3)有一些字位,《同义词词林》没有相应的类,归入相近的类。比如:“朝、向、面”等在《同义词词林》只归入介词,而动词类里没有,实际上这些词用为动词时很多,因此把这些词归入相近的Fd02“身体类”动词里(当然,这些动词同时也表示“物”的状态,应区别开来)。“发(发酵)、酵(发酵)、醒(发酵)、腌(腌制)”归入相近的Hj44“烹饪”类动词。

(4)有少部分字位,本身无法归入《同义词词林》分的类,只能按所构成的词归入相应的类。比如:“昂”有一个义项为“高涨”,无法归类,构成的词是“激昂”,归入“激昂”类;“班”的一个字位意义是“安排定的时间开行的”,无法归类,构成的词是“班车、航班”,归入“班车类”;“融”的一个字位意义是“流通”,组词是“金融”,归入“金融”类。

(5)有些字位的义项是“表示—的样子”“形容—的样子”。这些按照《同义词词林》也无法归类。对这类义项,我们的原则是如果重在表示“样子”,就不管它是什么样子,都放在“样子类”;如果重在表示“样子”前面的修饰成分的状态,就按照修饰成分归入相应的类。比如:“惴:形容发愁又害怕的样子”,归入Ga07“不安”类;“屏”是非语素字,构成的词是“屏营”,意思是“形容惶恐的样子”,归入Ga11“惶恐”类;“俅俅:恭顺的样子”归入Da01“样子”类。有些字位的意义是“像—一样的东西”“像—的东西”能归入“拟状物”则归入“拟状物”,不能归入“拟状物”的统统归入“物”。比如:“鞭:像鞭子一样的东西”、“刺:尖锐像刺一样的东西”、“锤:像锤一样的东西”等都归入相应的拟状物中;“台:像台的东西,比如‘井台’‘窗台’”、“钱:形状像铜钱的东西,如‘纸钱’‘榆钱’”、“泡:形状像泡一样的东西,如‘灯泡’”等。《同义词词林》没有相应的“拟状物”类,因此归入Ba01“物、物体”类。

(6)归类中存在的问题。通过对这17430个字位的归类实践,我们明显地感到《同义词词林》对词的语义分类还不够完备,不少字位的归类比较困难,尤其是虚词的语义类分得更为粗疏,不易明确标注。下一步需要做的工作是根据目前的标注情况进一步完善语义分类体系。