数字图书馆分类法新论* 本文为CADAL(大学数字图书馆国际合作计划)项目子课题“《多维度标签分类标准》建设”的成果之一。 * 原载于《图书馆杂志》2011年第10期。

韩松涛

[摘要]以标签为形式的大众分类法的出现,使数字图书馆的分类方式出现了新的形式。但在学术分类上,大众分类法并不能完全胜任,或者说在数字图书馆建设中,大众分类法还是一个不稳定的选项。本文通过将大众分类法与分面组配分类法结合,进行了“以标签为形式的多维度数字图书馆分类法”的创新研究,并对新分类法的形式与分类方法进行了探讨。

[关键词]大众分类法 标签 数字图书馆分类法

1 引言

《中图法》是中国公共和大学图书馆普遍采用的分类法,在中国《中图法》在上述两个领域已经占据了分类法的主导地位。随着网络的应用,出现了一种被称为Folksonomy(大众分类法)的新型分类法,它是一种开放的分类法。选用体系分类法的《中图法》能建立一个较为完整的文献体系,这是《中图法》的优点。但大众分类法作为这个时代的一种为互联网大众所接受的分类法,已经在一些领域被很好地使用,它具有这个互联网时代特有的交互性和灵活性,也是深受用户欢迎的分类法。但从现在的使用情况来看它却无法用于学术资源的分类,这对数字图书馆建设者来说是一个大的问题,所以在数字图书馆的建设和发展中,对于分类法的选择产生了一定的困惑。

从现阶段的数字图书馆建设来看,往往注重计算机创新技术在数字图书馆中的运用,而不注重经典图书馆学理论与方法的创新及在数字图书馆中的运用。如果我们回顾一下分类法的发展进程,就会发现一些非常有用的研究,它或将解决数字图书馆建设中的分类法选择的矛盾。

2 体系分类法与分面分类法

印度图书馆学专家阮冈纳赞在图书馆界以提出著名的“图书馆学五定律”而闻名。阮冈纳赞同时还是一名分类学专家。他在“《冒号分类法》第七版(1971):预告”一文中,曾对几种主要的综合性(通用性)分类法做过分析,并划分成六种类型:1.纯粹列举式的类表,如:美国国会图书馆分类法;2.准列举式的类表,如:杜威十进分类法;3.准分面的类表,如:国际十进分类法,布立斯书目用图书分类法;4.完全的但是不灵活的分面类表,如:冒号分类法的第一、二、三版;5.准自由分面的类表,如:冒号分类法的第四、五、六版;6.自由分面的分类表,如:冒号分类法的第七版。[1]

如果将上述六种类型归总,阮冈纳赞其实将分类法分成两个大类目,即列举式分类法和分面分类法。在中国,应用最为广泛的是《中图法》和《科图法》,两者都是列举式的分类法,列举式分类法又称体系分类法。

在传统图书馆时代,除了“作者”、“书名”的检索之外,图书馆希望分类法从揭示内容的角度,通过对实物文献进行排序,将同类书集中,不同类书区分的方式来满足读者的信息搜索。但随着信息的不断膨胀,体系分类法出现了较多的问题,最主要的是体系分类法是列举式的,其分类体系往往落后于社会发展,新出现的技术和知识无法归档于现有的分类体系;其次,体系分类法要用较为专业的分类人员进行分类,在数字图书馆时代,由于跟不上网上信息资源迅速膨胀,专业人员无法及时著录,导致信息无序化的产生;再次,通用体系分类法主要是用于文献的分类,对于当代不断出现的信息种类来说,《中图法》无能为力。比如要对现在网上无处不在的博客进行分类,《中图法》无法进行良好地工作。最后,在特色资源建设中,相对于《中图法》等通用分类法的最细类目下仍然出现大量的同类文献,分类法分门别类的作用就无法体现了。如杭州灵隐寺的藏经阁所藏都是佛教图书,而《中图法》对于佛教理论经、律、论三藏上下位类全相加一共只有18个类目,完全不符合灵隐藏经阁的使用要求,于是灵隐藏经阁主,原浙江大学图书馆研究馆员周子荣老师新编了《云林佛教图书分类法》[2],将佛教细分成数百个类目,以完成对灵隐藏经阁佛教图书的分类。

阮冈纳赞其实在20世纪30年代就看到了体系分类法的某些问题,他从30年代开始研究和小规模地实践作为分面分类法的《冒号分类法》,并不断修订,最终形成了多个版本的《冒号分类法》。

《冒号分类法》的最核心内容是提出了五个基本范畴:本体(Personality)、物质(Matter)、能量(Energy)、空间(Space)、时间(Time)。本体是指文献内容的基本属性;物质是指具体的物体或材料;能量是动作,即人产生的作用,如设计、施工等;空间即地域,如洲别、国别等;时间则是时代或与时间相关联的任何内容,如1840年、早晨、雨季等。任一文献的所有内容都可以被分成上述五个范畴,当然对于大多数文献,不会五个范畴齐全。同时,每个范畴都会有数个主题,可以有第1本体,第2本体,以至于N个本体。在分类中,《冒号分类法》首先将全部的知识分为多个“主要主题”(相当于《中图法》的大类,但不完全相同),然后在每个主题中明确了基本范畴的组合。同时对各个范畴的内容进行列举并取好标记符号。分类人员的工作是将文献的内容根据分类法的提示,分析出与各个范畴相关的“基本主题”,并将他们的标记符号找出,并用五种不同的符号将它们连接起来,时间用“‘”,空间用“。”,能量用“:”,物质用“; ”,本体用“, ”形成一个以主要主题的代码开头的一串组合号码,从而用于揭示文献的内容并用于排架。“主题”、“分面”和“组配”是《冒号分类法》的最主要特色。

3 大众分类法与分面分类法的结合

大众分类法Folksonomy= Folks(一群人)+ Taxonomy(分类法)。其形式为用户或管理员为某类信息定义一组标签(Tags)进行描述,检索用户通过对标签的检索来查找信息。随着网络的发展,传统的标引逐步演化成标签(Tags)这种社会性的信息资源组织和利用方式,具有了新的应用领域和使用价值。

从结构看,大众分类法是主题分类法,它的一个类目,相当于一个非规范的主题词,即关键词,表述一个事物概念,按概念集中信息资源。从使用环境看,它是网络分类法,只能在网络环境中使用。它的主要服务对象是最广大的普通用户,并且无法更好地应用于学术研究类资源的标引。

近年来,Web2.0的兴起并引入了数字图书馆的建设,图书馆界称之为Lib2.0,交互理论和实践的出现也让分类向用户开放成为可能。标签是一种互联网内容组织方式,是相关性很强的关键词,它帮助人们轻松地描述资源,或将资源内容分类,并使用之用于检索和分享,标签将内容的组织权利从网站管理者下放到用户手中,充分体现了Lib2.0自下而上,用户参与的特点,标签已经成为Lib 2.0中使用最为广泛和应用最成功的元素。

作为关键词的标签反映了资源的不同侧面和特征,多个标签指向同一资源,一个标签指向多个资源,由此组成了一个多对多的标签网络。基于标签的增删和用户的点击反馈,系统可以进行标签的聚合以控制资源描述,而用户也通过对标签的访问和组合逐渐逼近自己需求的信息。

作为向用户开放标签的最大优点是它的开放性所产生的自由度,但标签的最大问题也就是它的自由度。过于自由的标签使得用户无法通过不同的维度对标签进行组合,而达到内容分类的效果。大多数赞美标签的人认为体系分类法的最大缺点是“分类体系落后于社会发展,新出现的技术和知识无法归档于现有的分类体系”,而标签有可能改变这种情况。但就标签使用的实际情况来看,标签起到了一定的分类作用,但现阶段的标签使用体系,其实在学术资源的分类中无法发挥作用。或者说,过于自由的标签,在实际运用中其实无法替代体系分类法的内容分类效果。这使得我们不得不对标签的过度自由产生一定的疑问。

阮冈纳赞的《冒号分类法》是世界上最有影响的综合性分类法之一,它比传统的等级列举式分类法有许多显著的优点,如类表篇幅小,容纳性大,标引文献能力强,能及时反映新学科和新主题,可以满足读者多种检索要求等。《冒号分类法》作为分类工具,虽然用户不多,但它所倡导的分析、综合原则、分面分析及分面标记等方法给文献分类学带来了一场革命。

标签和“分面组配式分类法”本质上讲,有着很大的相似度,“分面组配式分类法”其实是一个多维度(或称多个分面)的标签,利用维度的概念去规范标签,而又让标签在维度内保证它的自由度,是一种让标签发挥其学术分类作用的最主要方法,也是今后“数字图书馆分类法”发展的一个主要方向。所以,使用分面组配分类思想的原则指导标签的使用,并让数字图书馆分类法以多维度标签的形式出现,是一个图书馆学理论与方法上的重要创新。

4 数字图书馆分类法新论

让标签起到分类的作用,到“以标签为形式的多维度数字图书馆分类法”是一个方法的两种运用形式。

4.1 维度的探讨

阮冈纳赞提出了本体(P)、物质(M)、能量(E)、空间(S)、时间(T)五个维度的范畴,这是阮冈纳赞使用其世界观的基础上,从分类学及其分类法角度认识客观事物过程中的一种结果。我们可以对这五个维度进行分析,在我们自己的世界观和对文献信息的理解基础上,对上述五个范畴进行研究和修订,从而符合文献信息的分类需求。

本体是一个哲学用语,是一个较难理解的概念。阮冈纳赞认为每个学科的本体都是不同的,比如在“文学”主要主题下,他将“语言”、“体裁”、“著者”、“作品”作为第1、第2、第3和第4本体。又比如“宗教”主要主题,他仅将宗教名称作为唯一的本体。我们认为在一个大众分类法的时代,我们需要弃用本体这个容易让人不知所云的概念,根据其实际运用的情况看,可以用“学科”这个概念代替本体。学科体系主要是用于科研的学科分类体系,如中国国标《学科分类与代码国标GBT13745-92》,又如中国或各国教育部的各种学科分类体系等等,我们也可以让两个或两个以上的学科体系参与到新的数字图书馆分类法中来。

物质是具体的材料或对象。在人文社科研究中一般是没有材料这个概念的,但在理、工、农、医类研究中,物质是一个重要的内容。如医学中,“冠状病毒”就是一个对象,通过对对象的标引,可以对相关文献进行聚类和检索,所以物质是一个需要保留的范畴。不过有些研究对象是生物,虽然生物也是物质的,但用物质来表述是不准确的,所以可以用“研究对象”来确定这个范畴,如果扩大定义为研究对象,则人文社科研究领域中也可以有较多的“研究对象”可以作为这个范畴的内容,比如人物、社会团体等都可以是研究对象的范畴。

能量是人的动作,在信息中与动词相关的关键词,都可以归入能量这个范畴,不过如果与研究对象相配,使用“研究方法”这个词可能更能让人便于理解。

空间和时间是非常容易理解也是非常有用的范畴,都应该进行保留。

维度并不一定需要控制在五个以内,我们还可以有以下几个备选的扩展范畴。

文献类型。比如期刊、图书、年鉴、词典,或是新兴的文献类型,如博客、微博等。在《冒号分类法》中文献类型被称为“前置共同点”。

语言。文献信息的语言信息也是一个较为重要的范畴。在《冒号分类法》中,单独设立了“语言点”一章,可以应用于所有文献。

作者。在分类法中,除文学作品将作者作为文献信息内容之一外,其余文献信息都不将作者作为与内容有关的范畴。但在学术资源中,作者的相关内容如学历、职称、国别、机构等都可以作为从外部条件对信息进行判断、筛选的标准之一。作者这一范畴的加入是一种对文献标引的理论上的突破。

4.2 维度内标签的生成

教育部CADAL项目第二期正在进行中,CADAL二期项目可研报告中有关于“多维度标签分类实践”的内容,该项内容正在研究和实践中。我们认为标签的生成有两种方法,一是让用户对文献进行标签,这是一种普遍使用的方法,二是让计算机自动生成的方式。对于CADAL这样海量的数字图书集合来讲,用户标签的方式虽然是一个可行的方式,但要让用户的标签覆盖到所有或大部分文献,并形成标签网络,这将是一个非常漫长的过程,所以计算机自动生成的方式是CADAL二期重点需要研究和实践的内容。但标签的最终目的是让用户使用,所以用户标签仍是一个重要的实践内容。

4.2.1 用户标签

用户可以为图书进行标签,这是用户标签的主要功能。虽然设定了不同的维度,但用户在标签时我们可以设定非常自由的标签输入界面,而只是在后台通过预设的列表进行比对或通过语义分析,对用户输入的关键词进行后台分类。当然,我们也可以提供高级输入标签界面,让读者选择。从而使部分读者在分维度的界面下输入标签,从而直接形成多维度的标签。

同时,用户对于现有标签可以进行修改,这其实是对现有的自动生成的标签进行校改的工作,长期的积累将会使得标签向有利于使用的方向发展。当然,这种校改需要后台的省核和通过。

4.2.2 多维度标签自动生成

由于我们将在中文图书的基础上试行多维度标签,故对于维度的确定,我们将使用六个维度,即前面提到的学科、研究对象、研究方法、空间、时间和文献类型。

多维度标签自动生成可以有三种方法进行实践。一是用计算机根据图书的元数据中的信息对每种书进行自动获取标签,然后通过语义分析将这些标签归属到各个维度中去。二是通过不同维度中的预制列表,从而将元数据中相关内容与预制列表比对生成不同维度的标签。三是通过既有的数据进行映射转换,如将中图法号码与学科代码进行映射。

总的来看,自动生成的标签综合运用上述三个方法的结果。学科、国家和城市名称、时间等可以预制列表进行比对。而研究对象、研究方法则可以用语义分析的方式进行分类,实体名词基本可以认为是“研究对象”,动词基本可以认为是“研究方法”等等。

4.2.3 标签的自由度及其限制

对于所有的标签用多个维度进行区分,这是一种限制;但在同一个维度内又不能过于限制标签的自由度,如果过于限制其自由度,会使多维度标签向元数据的方向发展,而丧失标签的最根本特性。比如时间维度中可以分成“出版时间”、“作品内容的时间”、“作者时代”等多个时间维度,如果我们去区分这些内容,则标签会向元数据的方向、甚至M ARC的方向发展。但过于自由会对其利用带来文献切分上的难度,也就是用标签来检索时,往往只能得到一个较大文献的集合,从而影响了检索效果。如上面时间维度中的多个时间标签如果不区分,则在检索中将会出现不能精确定位的问题,这是一个要在实践中进行取舍的问题,是要检索的精确性,还是要自由度。自由度其实也是一个可获得性或成本的问题,我们只能在其中取一个平衡点。

现在有一个针对维度内标签过多的解决方案是,对于过多的标签可以只显示其中最活跃的一部分,这是一种控制,对于不同的维度可以设定不同的标准。同时将多余的标签收藏于后台,并对它们的活跃度,即被检索和添加的情况进行监控,以保证活跃度改变后,将显示新的活跃标签。

5 结束语

“以标签为形式的多维度数字图书馆分类法”是一项在数字图书馆建设中,以图书馆学理论与方法为基础进行的创新工作。

体系分类法并不代表分类法的全部,分面组配分类法已经诞生了近八十年,但我们对它还是那么陌生。前面提到分面组配分类法的三个特点是主题、分面、组配。而“以标签为形式的多维度数字图书馆分类法”也具有这三个特色。标签即主题、维度即分面、而组配则由计算机技术来进行,通过不同维度的概念的相交,从而不断缩小所指向的内容,从而达到分类的目的。应该说相对于一维的标签来说,“维度”缩短了海量信息中我们与目标信息的距离。

当文献信息资源的类型发生了新的变化后,相对应的图书馆学方法都应该发生一定的变化,从而才能推动图书馆事业向前发展。在创新中,笔者更注重于图书馆学经典理论与新技术两者相结合的创新,或者说想把图书馆学的创新置于图书馆学的理论框架下进行。这种思路下的创新,一是可以借鉴图书馆学前辈的经验,让创新少走弯路;二是通过这样的创新可以发展图书馆学的经典理论,使图书馆学的理论能跟上时代的脚步。数年前笔者在这个思想指导下写了《网上学科导航的目录学特性初探》[3]一文,现在又写了本文,希望在数字图书馆时代下,图书馆的经典理论能指导数字图书馆的发展,同时数字图书馆的发展能丰富图书馆的经典理论。

参考文献

[1]宋克强、许培基译著.冒号分类法解说及类表.书目文献出版社,1986:4—5

[2]周子荣.云林佛教图书分类法.香港:云林出版社,2005

[3]韩松涛.网上学科导航的目录学特性初探.大学图书馆学报,2006:4