开放数据是指在互联网上免费提供的研究数据,允许任何用户下载、复制、分析、重新处理、传递给软件或用于任何其他目的,而不受财务、法律或技术障碍的限制,除非这些障碍与访问互联网本身不可分割。
在数字时代,数据是建立发现的原材料。不受约束地获取研究数据,无论学科如何,对于加速研究进展至关重要。数据在我们预测和应对自然灾害、理解人类生物学、研究大型文本语料库以及发展计算技术方面发挥着核心作用。
尽管研究数据具有巨大的重要性,但它们往往是孤立的和碎片化的——它们分散在数百万台个人电脑上,并受到不同的技术、法律和财务限制的阻碍。
世界上科学和学术数据的数量每年呈指数级增长,但我们缺乏利用这一重要资源的基础设施、政策和实践。虽然一些备受瞩目的项目——如人类基因组计划和大型强子对撞机——公开了他们的数据,但通常情况下,除了生成数据的人之外,数据并没有被共享。研究人员建立互联网是为了共享数据,但数据共享还不是研究的常态。
数字技术和我们过时的基础设施之间的巨大差距导致了对开放数据的呼吁。
开放数据是研究数据,包括:
- 可在互联网上免费获得;
- 允许任何用户下载、复制、分析、重新处理、传递到软件或用于任何其他目的;而且
- 除了那些与接入互联网本身不可分割的障碍之外,它没有财务、法律或技术障碍。
开放数据通常适用于一系列材料,包括数据集、统计数据、记录、调查结果以及与这些对象相关的元数据。从本质上讲,数据是复制和验证研究结果所必需的事实信息。开放数据政策通常包含这样一个概念,即应该允许机器提取、操作和数据的元分析。
开放数据:
- 加速发现的步伐。当数据集公开可用时,可以很容易地访问和使用它们来创建给定调查领域的更全面的图像,或者由数据挖掘软件进行分析,从而发现原始数据制作者不明显的联系。
- 促进经济增长。研究人员估计,通过所有部门的开放数据,全球GDP可增加3万亿美元的经济产出,其中科学和学术数据发挥着重要作用
- 有助于确保我们不会错过任何突破.有大量的方法来使用或分析任何给定的数据集。对一个人来说似乎是噪音的东西,对另一个拥有不同视角、方法或分析技术的人来说可能是一个重要的发现。
- 提高科学和学术记录的完整性。当研究结果的基础数据是可访问的,研究人员可以检查彼此的工作,并确保结论建立在坚实的基础上。
- 正在被研究界的许多人视为21世纪研究企业的重要组成部分。从美国政府这样的研究资助者到出版商,参与研究过程的机构开始要求,至少,作为出版物基础的数据必须公开。
开放数据有可能加速研究进程,同时提高我们对这些结果的信心。访问、使用和管理这些庞大且不断增长的数据是研究企业的核心。正因为如此,所有研发资金超过1亿美元的联邦资助机构和许多私人基金会现在都要求申请人在提出资助项目时制定数据共享和保留计划。如果你正在实施或打算实施其中一项计划,我们可以帮忙.
[1]3万亿美元的意义——小型发展中经济体开放数据的价值评估
改编自学术出版与学术资源联盟(CC-BY)。2017年4月22日访问,https://sparcopen.org/open-data