- 全球科学数据出版态势分析报告(2016—2020)
- 周园春等
- 1794字
- 2024-03-22 20:25:12
前言
科学数据共享在2016—2020年的五年里[1]得到了越发广泛的关注和国际社会的普遍认可。科学研究范式自身变革的需求和科学自纠错能力建设的内在需求,推动着科学数据的全球开放共享进程。技术的革新带来了“大数据”时代,以科学数据为中心的科研活动开创了科研新模式,极大地推动了各学科领域的研究进程;同时,精细化的小数据一如既往地在科研创新过程中起着关键性作用。在科学的自纠错能力上,科学数据共享可有效减少研究浪费、提升实验可复现性,并增进科研过程可信度。在一些具体实践过程中,阴性数据、空数据的共享行为同样受到鼓励。
过去的五年里,国际组织、政府、资金资助方、出版商、数据存储平台等各方力量对推动科学数据共享建设发挥了重要作用。
各国政府高度重视科学数据开放共享。2003年起,美国国家健康研究所(US National Institutes of Health, NIH)开始对资助项目的数据共享计划提出要求[1,2];2018年,中国颁布《科学数据管理办法》,提出“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则”开展共享与利用工作[3];2020年,欧盟提出“欧洲地平线计划2020”,对其资助项目的出版物开放获取、数据管理计划提出要求。2020年,联合国教科文组织(United Nations Educational, Scientific and Cultural Organization, UNESCO)起草并公开开放科学计划书(UNESCO Recommendation on Open Science, UROS),宣告开放科学的时代已经到来[4],该计划书由联合国教科文组织成员国在联合国教科文组织大会第四十一届会议(2021年11月23日)上通过[5]。
学术出版商、学会、国际组织等在数据开放共享中起到了重要的推动作用。Springer Nature、Elsevier、Wiley、Taylor Francis、SAGE、IEEE等出版商以鼓励等方式推动数据出版工作的全球范围实践。2016年,数据管理的FAIR原则发表[6],并迅速在全球范围内掀起了GO FAIR运动。此外,国际科技与医学出版商协会(International Association of Scientific, Technical & Medical Publishers, STM)将2020年定为STM研究数据年,并获得全球21家出版商、13064种期刊的加入[7]。STM TREND 2025进一步提出“寻求信任和真理的源泉”的行业预测与号召[8]。
全球合作,攻坚克难迫切需要科学数据开放共享。2020年,新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)疫情席卷全球,全球科学家携手面对疫情,并在合作过程中实现了科学数据开放共享文化建设和实践的进一步发展。国际组织在这其中起到了积极的推动作用,例如,研究数据联盟(Research Data Alliance, RDA)组织专家工作组发布了《RDA COVID-19数据共享的建议与准则》[9],重点聚焦临床(Clinical)、组学(Omics)、流行病学(Epidemiology)和社会学(Social Science)领域数据开放共享,在提升数据共享即时性、确保共享行为符合伦理规范等方面给予有效指导。
科学数据出版作为科学数据开放共享的重要实践方式,正逐步推动科学数据开放共享的前进,本书通过呈现科学数据出版过去五年里的统计情况,重点关注数据关联论文出版及数据论文出版两种数据出版模式的发展趋势,揭示科学数据出版现状。
本书具体内容安排如下:第1章回顾介绍科学数据出版的发展历程和主要实践模式;第2章阐述本书中所有图表数据的采集、计算方法;第3章、第4章分别揭示2016—2020年间全球科学数据出版的变化态势和科学数据出版的成效情况;第5章以COVID-19这一突发公共事件为研究统计对象,尝试揭示相关领域的科学数据出版实践情况;第6章以中国的科学数据出版与共享实践为例,进行典型案例分析;第7章得出分析结论,并对科学数据出版建设提出建议。
关于本书存在的问题。在本书的数据整理过程中,我们很遗憾地发现,独立的数据出版模式尚无法系统地进行梳理分析。除此之外,本书在数据关联论文的实践情况分析中,并未对出版的数据本身进行直接分析,仅对其支撑论文的发展趋势进行了揭示,这也与我们在本书撰写过程中能够整理到的支撑数据有限,不足以展现相关趋势有关;同时,数据引用规范的不足、数据引文文化欠缺也是较为突出的现象。在此,本书呼吁完善独立的数据出版实践规范,加强数据出版过程的分类管理、元数据加工等方面的工作。
提升高质量科学数据的出版与共享是一项系统性的复杂工作,甚至是改变科研人员科研习惯的一场变革。本书团队将持续追踪数据出版各类实践情况的发展趋势。
本书原始数据来自Elsevier的Scopus数据库、SciVal数据库和Data Monitor数据库,数据统计的时间范围为2016—2020年的连续五年(COVID-19部分的统计数据来自2020年)。感谢Elsevier团队对数据整理工作的支持。
本书数据整理、图表绘制工作由中国科学院计算机网络信息中心姜璐璐、张泽钰协助完成,部分调研素材由姜璐璐、李成赞、孔丽华、张泽钰、李莉、李宗闻、陈昕、盖虹羽协助提供。感谢各位在本书撰写过程中给予的帮助。
[1] 本书中提到的五年里或五年间均指2016—2020年。