- 知识图谱:面向科技文献的构建技术与应用实践
- 李娇等
- 742字
- 2023-12-06 16:45:58
1.3 国内外典型科研知识图谱项目
知识图谱在语义检索、数据分析、自然语言处理、智能问答等方面体现出极大的应用价值,其发展过程经历了从早期知识库项目、大数据时代的知识图谱到垂直领域知识图谱等阶段。典型的通用知识图谱项目有:社区协作构建的大规模链接数据库Freebase(目前已关闭,数据和API服务均迁移至Wikidata),开源的多语种知识库Wikidata,多语言词典知识库BabelNet,集成Wikipedia、WordNet、GeoNames的链接数据库Yago,以概念层次体系(概念定义和概念之间的IsA关系)为中心的微软概念图(Microsoft Concept Graph),包含政府、生命科学、出版、社交媒体等8个领域的1301个数据集及16283个链接(更新至2020年5月)的关联开放数据云(The Linked Open Data Cloud, LOD Cloud)及面向中文域的开放知识图谱OpenKG等。相较而言,领域知识图谱知识结构更加复杂、对知识要求更高,面向知识来源更广泛的特定领域如金融证券、创投、电商、中医临床等,典型的领域知识图谱实践有医疗领域包含百亿级RDF三元组的Linked Life Data、类层次结构复杂的GeneOnto[23]等。随着知识图谱构建技术的发展及与领域知识特点的结合应用,其服务场景越来越多元化。
以科技文献资源为语料基础的学术领域,知识图谱通常用于支持数据发布、知识搜索、知识标引等形态的应用,也被称为关联数据,服务于专业技术人员或特定行业从业人员。学术界与知识图谱的结合由来已久,早在2013年欧盟、美国和澳大利亚政府就联合成立了国际研究数据联盟(Research Data Alliance),通过科研数据交换机(Research Data Switchboard)、科研图谱(Research Graph)关联出版物、研究数据、科研人员、资助项目。此后,相关研究实践不断推进,以图书情报领域为例,英国BBC定义涵盖音乐、野生动物、体育等实体类型的知识本体,并以此为基础将新闻信息转化为机器可读的RDF三元组图格式进行内容的管理和报道的自动生成[24],上海图书馆以书目框架(Bibliographic Framework, BIBFRAME)为基础框架构建包含家谱、手稿、名人等资源的家谱关联数据。