- 知识图谱:面向科技文献的构建技术与应用实践
- 李娇等
- 630字
- 2023-12-06 16:45:59
1.3.2 AceKG
AceKG(Acemap Knowledge Graph)是由国内上海交通大学Acemap团队发布的语义学术异构图谱,数据集规模近百GB。AceKG本体模型和数据结构框架分别如图1-17、图1-18所示[25],描述了亿级多类型学术实体和十亿级关系信息,其中包括超过2亿篇论文、1亿多个作者、76万多个领域、2.6万个学术机构等。AceKG的前身是面向学术大数据的可视化分析平台Acemap,包括合作者、论文、师承等在内的多种学术地图,AceKG是基于知识地图Acemap演变而来的RDF三元组图数据库,支持用户定制个性化的学术地图,并孵化出AceRankings机构排名系统等系列产品。
AceKG定义了出版地点、论文、研究领域、作者、机构五种核心实体类型,其中出版地点包含会议和期刊两个子类,支持基于知识图的规则推理。为了处理同义和歧义,定义类中的每个实体都分配了一个URI,如ace:7E7A3A69和ace:7E0D6766分别表示两位姓名相同的学者。
AceKG的构建思路是在网络拓扑结构基础上加语义信息,以期为学术大数据挖掘项目提供支持。与其他学术/科研知识图谱相比,AceKG的优势体现在:
(1)提供包含多样学术实体及相应属性的学术异构图谱,支持各种学术大数据挖掘实验。
(2)全面覆盖学术本体中大多数实例,包括论文、作者、领域、机构、期刊、会议、联盟等,使得基于AceKG进行的学术研究更具说服力和实用价值。
(3)与ACM、IEEE和DBLP等计算机科学数据库建立实体映射,可帮助科研人员整合多个数据库的数据进行知识挖掘。
(4)使用TDB数据库存储各实体类型的RDF三元组数据(序列化格式为Turtle),易于机器处理,支持所有的Apache Jena API并提供SPARQL引擎支持图谱数据查询。
图1-17 AceKG本体模型[25]
图1-18 AceKG数据结构框架[25]