- 国内图书情报知识图谱实证研究
- 肖明
- 5字
- 2020-06-24 23:38:06
第1章 绪论
1.1 研究背景与研究意义
1.1.1 研究背景
随着科学技术的迅猛发展,知识呈爆炸式增长,从而导致海量信息的出现,由此也给研究人员带来了知识与信息选择上的诸多困难。传统方法主要依靠个人主观经验和简单数量统计的综述,忽视学科体系内文献信息之间的相似性与继承性,因而难以客观、准确、快速地发现海量信息中引人注目的最前沿领域和学科制高点。
随着信息可视化等技术的不断进步,科学知识图谱(Mapping Knowledge Domain)研究逐渐兴起,现已发展成为各学科领域广泛应用的一种重要工具[1]。科学知识图谱简称为“知识图谱”,在图书情报界则被称为“知识领域可视化”或者“知识领域映射地图”。概言之,它以图谱化的表达形式来对大量的数据信息和知识进行有效地组织和挖掘,直观形象地展示科学知识之间的关联与结构,发现其中存在的规律,进而揭示科学知识领域发展演进的背景、动力、概貌,达到辅助科学研究者探测相关领域研究的前沿问题、热点问题及其趋势演变分析等目的。借助相关方法,知识图谱可以用来对科学计量结果进行导航和显示,帮助学者了解科学研究领域的科研群体及其复杂关联,还可以用来描述科学研究领域的扩散与传播,揭示知识的发展过程等。具体来说,知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与引文分析等方法相结合,并且利用可视化的图谱来形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,以达到多学科融合的目的。目前,知识图谱已经成为科学计量学、文献计量学、信息计量学、情报计量学等共同关注的一个前沿学术领域[2],是研究人员用于识别研究领域的学科结构和研究动态的重要方法和工具。
科学知识图谱的研究理论起源于文献计量学、社会学、网络科学等一系列学科的发展。早在1939年,英国科学家贝尔纳(J. D. Bernal)(1)就发表了《科学的社会功能》,成为科学学进入常规科学和正式诞生的标志。1961年,普赖斯(2)出版了《巴比伦以来的科学》。1963年,普赖斯出版了《小科学,大科学》。1963年,加菲尔德(3)创办了《科学引文索引》,由此开启了文献计量分析的新时代。此后,不断丰富和壮大的引文分析、文献计量理论,深化和扩大了多元统计等多种方法在文献计量学中的应用,成为科学知识图谱的一个重要理论基础。另一方面,瑞士著名数学家欧拉(Leonhard Euler)(4)在1736年使用图论对著名的哥尼斯堡七桥问题(5)进行了解答,从而奠定了网络科学的理论基础。此后,经过Erd?s、Watts、Albert[1]等众多科学家的不断努力和完善,网络科学目前已形成一门综合自然科学、工程技术与社会科学的交叉学科。自然界与社会生活中众多的复杂现象都可用网络科学来进行刻画和分析,它将自然界中真实存在的大型复杂系统抽象成由节点和边组成的网络,可以用来刻画和分析自然界和社会生活中众多的复杂现象,同时也为科学知识图谱的完善奠定了另一重要理论基础。
1.1.2 研究现状
1.国内外研究现状述评
知识图谱是显示科学知识的发展进程与结构关系的一种图形,由于它是以科学知识为计量研究对象,所以属于科学计量学(Scientometrics)的范畴。知识图谱的出现和发展,“一方面是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物;另一方面又是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果”。最初的知识图谱是在以数学方程式表达科学发展规律的基础上,进而以曲线形式将科学发展规律绘制成二维图形。从这个意义上说,用定量统计方法发现科学知识指数增长规律的普赖斯(D. Price)是科学知识图谱的早期开拓者[3][4]。随着科学计量学的发展,描绘科学知识和科学活动规律的数学模型,逐渐从二维空间模型发展为三维空间模型,知识图谱也相应地从简单的二维曲线图发展为较复杂的三维立体图。克雷奇默(H. Kretschmer)(6)关于科学合作的三维空间模型研究,极大地推动了科学知识图谱的发展[3][5][6]。借助于知识图谱,人们可以透视庞大的人类知识体系中各个领域的结构,理顺当代知识爆炸所形成的复杂知识网络。知识图谱的应用,已经从单纯的科学计量学拓展到几乎所有学科、领域。例如,Cottrill等人用作者共被引图谱来分析不同的概念连接[7],Gonzalez等人利用文献共被引图谱鉴别了在功能主义范式下管理学科的主要研究领域、理论和方法,并且确定了5个研究群体[8]。Francisco Jose和Carlos Casillas通过绘制1997—2000年在国际管理领域的5种最具影响力的期刊上所发表的583篇论文的知识图谱,确认了国际管理领域的主要研究范式[9][10]。A. R. Ramos-Rodriguez和J. Ruiz-Navarro通过分析战略管理领域期刊论文的知识图谱,分析了1980—2000年战略管理研究及其学科演变[9][11]。Sanjeev Goya等人分析了1970—2000年这三十年间在期刊上发表论文的经济学家之间的社会距离的知识图谱,发现了证明经济学家群体越来越小的重要证据,并且经济学中合著关系的结构具有既稳定而又不断变化的特征[9][12]。
在图书馆学情报学领域,加菲尔德和普赖斯被认为是国外知识图谱的早期开拓者,他们分别在1955年[13]、1965年[14]发表了本领域的开拓性文献。此后,知识图谱在图书馆学情报学界获得了广泛关注。其中,霍华德·怀特(Howard D. White)(7)和贝尔韦·格里菲斯(Belver C. Griffith)(8)[15]在1981年对1972—1979年的情报学论文进行了作者同被引分析。欧利·佩尔松(OllePersson)(9)[16]在1994年对1986—1990年JASIS期刊中的209篇精选文献进行了引文分析,阐述了研究前沿与知识基础之间的关系。怀特(White)和麦凯恩(McCain)[17]在1998年对1972—1995年的情报学论文进行了作者同被引分析,该论文获得当年该期刊的最佳论文。赵党志(DangZhi Zhao)(10)和施特罗特曼(Strotmann)在2008年对1996—2005年的情报学论文进行了作者同被引分析[18]和引文耦合分析[19],不仅发现了五个主要研究领域,还与怀特(White)和麦凯恩(McCain)的结论进行了比较。?str?m[20]在2007年对1990—2004年的图书馆学情报学研究前沿情况进行了文献同被引分析,同样发现了怀特(White)提出的两大阵营结构。美国德雷赛尔大学(Drexel University)的陈超美(11)博士[21]在2010年将作者同被引分析和文献同被引分析结合起来分析了1996—2008年的情报学结构变化,发现了H指数等五个主要聚类。目前,陈超美将其CiteSpaceⅠ推向CiteSpace 5.0版本[22],并获得广泛关注。
国内在知识图谱方面以定量研究为主,主要利用国外知识图谱绘制软件来绘制不同领域的知识图谱。定性研究则主要侧重于对国外研究进展的介绍和宣传。在知识图谱的基础理论与技术手段等方面,基本上都是由国外学者提出并率先使用的,国内学者往往缺乏自己的独特研究方法、软件和算法语言。例如,刘则渊(12)、陈悦(13)、侯海燕(14)等人系统概述了知识图谱的基本原理与主要方法,详细介绍了知识图谱的专门技术和应用软件,以及代表国际领先水平的信息可视化技术[23]。此外,他们还应用知识图谱的方法来分析创新管理、战略管理等学科的前沿领域、现代工程科技前沿的一般发展趋势、科学技术合作问题的研究成果。汤建民教授提出了一套主要针对各类中文文献数据库[24],集词频统计、社会网络分析、计算机数据挖掘、数据可视化技术等为一体的学科知识图谱绘制方法,实现了从数据获取、数据计算到数据挖掘、数据可视化分析为一体的研究流程。魏瑞斌则对国内知识图谱期刊论文的外部特征和内容特征进行了可视化分析[25]。相关研究结果表明,国内知识图谱研究处于起步阶段,研究人员和研究机构相对集中,研究论文的合著率较高,研究主题鲜明。
陈祖香站在科学知识图谱使用者的角度,对已有知识图谱的内涵、构建方法、可视化软件等相关理论进行了梳理,归纳了各类型知识图谱的特征和构建方法,进而提出了面向科学计量分析的知识图谱构建流程[26]。秦长江以我国农业史学科作为研究对象,全方位地构建了该学科的知识图谱,并通过实证研究,探讨了将知识图谱运用到我国人文学科发展历史研究中的适用性和科学性[27]。黄维和陈勇以《教育与经济》等刊物上所发表文章的关键词、作者、共被引文献作为分析对象[28][29][30][31][32],进行多元统计分析,运用知识图谱的可视化手段首次形象地展示出我国教育经济学的发展轨迹、合作网络和研究热点,并且发现中外教育经济学研究领域呈现出“融合—分化—融合”的趋势,目前正处于相对分化的阶段。
姜春林、杜维滨、李江波等人采用关键词共现分析方法,对CSSCI中收录的20种经济学期刊在1998—2006年所发表的16406篇经济论文的关键词进行了统计,得到了高频关键词共词矩阵,进行了多维尺度分析和聚类分析,从而绘制出经济学知识图谱,形象地展示出中国经济学领域十年的研究热点[33]。王琪、胡志刚根据美国科学情报所提供的SCI和SSCI数据,运用科学计量学中的共词分析方法以及可视化软件CiteSpace,绘制出2005—2009年《锻炼与运动研究季刊》《探索》《运动科学杂志》等3种体育学期刊中高频关键词知识图谱,通过对该知识图谱进行分析,表明国际体育科学的研究前沿主要集中在7大领域,即运动成绩、运动心理、儿童与青少年体育锻炼与健康、运动疲劳、运动恢复、运动生物力学、橄榄球运动损伤[34]。陈立新以SCI所收录的我国力学各分支学科专业期刊论文作为研究对象,采用CiteSpace软件来进行分析和处理,最后以知识图谱方式揭示了我国力学各学科的研究热点、前沿领域和发展态势[35]。潘黎和王素等人用CiteSpace软件绘制八种CSSCI来源教育学期刊2000—2009年所刊载文献的关键词知识图谱,探测出中国教育研究热点领域和研究前沿[36]。蔡建东运用CiteSpace软件,以教育技术学CSSCI期刊9329篇来源文献(2000—2009年)作为数据,利用CiteSpace探索关键路径的pathfinder算法绘制了教育技术学主干理论知识图谱以及EM聚类,在此基础上梳理并分析了我国教育技术学主干理论演进的关键路径以及各发展阶段的特点[37]。
国内知识图谱的研究还可见于情报学、创新管理研究等领域。例如,宋丽萍在2004年对比分析了怀特(White)分别在1981年和1998年进行的两次作者同被引分析情况[38];马瑞敏在2005年采用CSSCI数据对国内情报学进行了同被引分析,并将结果用聚类树图和多维尺度分析图进行展示[39];马费成(15)教授在2006年对1994—2005年的国内情报学进行了作者同被引分析[40];赵蓉英(16)教授在2010年使用CiteSpace软件分析了文献计量学和组织行为领域的发展演进[41];邱均平(17)教授等则以Scientometrics期刊数据为例,采用作者共被引分析方法和社会网络分析技术,对国际科学计量学领域进行了分析[42][43]。
总之,国内外目前有关知识图谱的应用大多停留在自然科学与工程科学领域,在人文社会科学领域的应用以图书馆学、情报学、管理科学领域为主,但是停留在概念描述和直接应用阶段,对于知识图谱理论、方法的最新进展很少涉及。人文社会科学与自然科学有所不同,其研究成果多以学术文献,尤其是高水平学术论文的形式来实现知识的传播与交流。
2.存在的主要问题
以上简略的文献回顾表明,国内外学者对图书馆学情报学领域的出版物数量、作者数量、引文数量等内容指标进行了计量研究,在一定程度上也使用了引文分析、词频分析、内容分析等科学计量方法,大大提高了图书馆学情报学的科学性,同时也为实际工作提供了一定的理论指导。但是,这些研究还存在以下局限性:首先,统计方法略为简单,绝大多数研究局限于频数统计,多元统计分析使用较少,如因子分析、聚类分析等辅助科学计量学研究的多元分析统计方法;其次,科学计量学方法较为单一,以科学计量学中最具代表性的引文分析方法为例,引文分析大致可分为引文数量分析、引文网状分析、引文链状分析三种。图书馆学情报学领域的学者大多只关注包括自引量、引文语种、文献类型、年代、国别等内容在内的引文数量分析方法,而忽视了20世纪60年代后兴起的引文耦合分析、共被引分析等引文网络分析和链状分析方法,这两种方法恰恰是研究科学结构、科学发展特点、科技政策的有效方法;最后,尽管国内已有部分学者开始探索知识图谱方法在图书馆学情报学领域的使用,但现有的图书馆学情报学研究中很难看到同时使用多种不同的科学计量学软件和统计工具软件。国内研究者目前大多使用CiteSpace等国外现成的可视化工具来研究知识图谱,但CiteSpace等工具存在着一定局限性(例如,不支持国内数据库格式,支持的知识图谱方法较少等)。
需要特别补充说明的是,尽管国内近年来有关图书馆学情报学发展脉络的研究取得了一定进展,但相关研究的学科维度单一,多是主观定性、非可视化的。廓清学科历史的发展事实是图书馆学情报学亟待突破的瓶颈与关键所在。正如美国经济学家保罗·克鲁格曼(18)所说:“我们的世界中,真正短缺的不是资源,更不是美德,而是对现实的理解和把握。通向繁荣世界的唯一重要的结构性障碍,正是那些盘踞在人们头脑当中的过时教条(19)”。
1.1.3 研究意义
基于科学史的意义,人们对学科发展历史评估价值已经提出过一些经典论断。例如,萨顿(20)就对一门科学学科史的价值进行过精辟总结:如果一个科学家不了解他所从事的科学分支的历史,就没有资格说对该学科有深刻和完备的知识[44]。戴维·林德伯格(21)在其所著的《西方科学的起源》序言中指出:“倘若我们希望理解科学事业的本质,人类对科学所涉内容的认知程度,深刻认识科学事业的文化背景,那么历史研究,包括对早期科学的研究,就是必不可少的”[45]。上述学者针对学科发展进行历史评估价值的论断使得本书针对图书馆学情报学知识图谱研究的重要意义不言而喻。
对动态发展着的图书馆学情报学进行反思的前提,是必须借助新的技术手段,理清其发展脉络。知识图谱则是根据科学学、科学计量学的相关原则,利用可视化技术来描述学科知识结构,分析学科热点和前沿领域,展示学科变化这样—种分析方法。由于该方法具有相关理论成熟、分析指标众多、可快速处理大量学术文献、清晰直观等众多优点,所以它常被学者们用于进行学科发展状况和发展轨迹的整体分析。
1.可用可视化方式来展现图书馆学情报学研究的内在发展逻辑
从理论意义上说,对学科发展进行历史评估有利于人们认识学科的特殊发展历程。美国著名科学史家托马斯·塞缪尔·库恩(22)曾经在第十七届国际科学史大会上指出,现在科学史的任务之一是帮助那些对科学外行的人们了解科学[46]。W. I. B.贝弗里奇(23)也表示,“科学家对科学史都应略有所知。科学史对学科的日趋专门化是最好的弥补,并能扩大视野,更全面地认识科学”[47]。
随着图书馆学情报学的发展,其理论体系繁杂,人们对图书馆学情报学的面貌和本质日渐难以精准把握。此外,随着信息可视化技术的迅速发展,人们开始习惯于采用一种交互式、直观、典型的图谱来进行知识表达,对抽象数据进行研究,进而增强人类的认知能力,以便于发现与吸收各种知识。作为研究结果的知识载体,知识图谱已被各个领域的研究人员所接受并且给予了高度评价,因为它能够以多元化的形式为研究人员提供独特的视角。本书研究拟绘制多种图书馆学情报学知识图谱,它们既不是描述或者介绍众多的理论和学派,也不是简单地罗列海量相关文献,而是力求从这些海量文献中发现学科主题及其发展的内在逻辑,探究推动图书馆学情报学的学科发展动力机制,并且以科学的、精确的手段来梳理图书馆学情报学的理论体系,以发现学科发展过程中存在的缺失环节和薄弱环节,从而进一步完善图书馆学情报学知识体系,促进图书馆学情报学的理论创新。
2.可用图形化方式来探测图书馆学情报学的研究前沿及其演变
图书馆学情报学在其发展历程中,已经积累了为数较多的研究成果。时至今日,研究人员如果想要利用库恩所界定的“纵深性发展”方式来实现未来理论上的拓展,就必须了解如何从其历史发展过程中来探明学科研究前沿。研究人员如果对前人的研究茫然不知,就不能很好地把握学科的研究前沿及演变过程,很可能会重复前人的劳动,从而阻碍学科进步的深度和广度。因此,准确探测图书馆学情报学的学科前沿,就需要及时地对学科以往的历史进行探究和评估。只有熟悉图书馆学情报学的学科发展史,才能将该学科引向更深的发展阶段。本书研究的一项重要的基础性工作就是要尽可能详细地分析图书馆学情报学发展历程中所积累的各种学术论文。因此,本书中涉及的前人研究成果以及研究前沿都对当前图书馆学情报学的发展具有一定指导价值。
传统研究方式对学科发展历史和研究前沿进行评估主要依赖本学科专家根据各自对该学科发展的了解程度来进行定性研究,这就要求学者们对其所研究的学科能有足够深刻的理解。但是,即便对于那些足够资深的学科专家们来说,尽管他们曾经在某一科学领域进行过长期的、系统的研究,能够把握学科发展的主要脉络,但人的记忆难免有疏漏和遗忘的地方。
对于学科领域的新生力量,由于他们自身专业素质欠缺,如果想用传统方式来深入探究学科发展历程,就必须阅读学科领域内的大量文献,这是一件非常难以完成的任务。知识图谱则以图形化方式来显现相关重要文献及其相互关系,它能够科学、精确、客观地帮助研究人员对学科发展轨迹及未来走向等能够有大概的、初步的认识,如果再深入研究重要文献,借助于相关知识图谱所反映的这些文献间的继承关系,就可以为研究人员正确把握研究方向,找准研究切入点等提供可靠的量化信息。
3.可以进一步推动图书馆学情报学的学科发展
尽管图书馆学情报学研究已取得一定的丰硕成果,但仍然有部分研究人员愿意以传统的、文字表述式的、简单数字统计式的方法来进行学科回顾和总结。本书借助知识图谱的理论与方法,展示图书馆学情报学发展的总体图景、理论结构、研究前沿与合作网络,是对前人研究成果的再现和深层次挖掘,既扩大了知识图谱的应用范围,又在图书馆学情报学领域内尝试采用一种全新的方法来进行学科回顾与总结,这在某种程度上将有利于推动该学科的整体发展,因而具有重要研究意义。
总之,以知识图谱的方式来考察图书馆学情报学的发展历程具有不可替代的学术价值,是学科建设过程中不可缺少的一项基础性工作。从公开发表的图书馆学情报学的学术论文中挖掘出该学科的发展轨迹、理论结构、研究前沿和合作网络,剖析该学科发展的普遍特征与一般特征,反思其发展过程中存在的诸多问题,同时探测研究前沿和优化学科合作网络,既具有重要的学术意义,又具有较高的实践价值。