文 / Google Research 研究员 Natasha Noy 和软件工程师 Omar Benjelloun
网络上的数据集成千上万,涵盖了从传感器数据、政府记录到科学实验结果和业务报告等各种内容。事实上,几乎任何您能想象到的东西都有数据集,比方说帝企鹅的饮食,或者远程工作者的居住地。两年多前,我们着手设计了一个搜索引擎,为这些数据集和成千上万的存储库提供一个单一的入口点。最终成果就是 Dataset Search,此工具最初于 2018 年以测试版亮相,完整版 在 2020 年 1 月全面推出。除了推进数据访问,Dataset Search 还直接利用来自数据集网页中使用 schema.org 结构的元数据描述对数据集进行调节和索引。
截至目前,整个 Dataset Search 语料库包含来自 4600 多个互联网域名的 3100 多万个数据集。下图显示了过去两年中语料库的增长(虽然我们仍不清楚目前网络上的数据集在 Dataset Search 所占的比例,但这一数字始终在稳步上升)。
由 Dataset Search 索引的数据集的数量增长
为了更好地理解通过 Dataset Search 获得的数据集的广度和实用性,我们发表了“Google Dataset Search by the Numbers”,这篇论文被 2020 年 International Semantic Web Conference 收录。我们在此文中简述了可用数据集,介绍了来自其分析的指标和洞见,并提出了发布未来科学数据集的最佳做法。为了其他研究人员能够使用元数据来构建分析和工具,我们还公开了 数据的一个子集。
一系列数据集主题
为了确定数据集所涵盖主题的分布,我们根据数据集的标题和描述,以及数据集网页上的其他文本推断该数据集的研究类别。最常见的两个主题是地球科学和社会科学,约占数据集的 45%。生物学紧随其后,约占 15%,其他主题的分布也大致相同,包括计算机科学、农业和化学等。
数据集主题的分布
在推出 Dataset Search 的 最初工作 中,我们为推广语料库与特定群体进行了接触。起初,我们把重点放在地球科学和社会科学主题上,但从那时起,我们就已让语料库有机发展。出人意料的是,与我们早期接触的群体相关的领域仍然主导着语料库。这些群体的早期参与固然有助于语料库的大范围普及,但其中可能还涉及其他因素,比如各群体的文化差异。例如,地球科学界在使数据可查找、可访问、可互用和可重用 (FAIR) 方面 特别成功,这也是减少访问壁垒的核心要素。
使数据易于引用和重用
各个科学学科的研究人员已经达成 共识,一致认为提供数据集、发布数据集使用的相关细节以及在使用数据集时对其进行引用是非常重要的。许多资助机构和学术发布机构都要求对数据进行妥善的发布和引用。
Nature Scientific Data 等经同行评审的期刊致力于发布有价值的数据集,而 DataCite 则为这些数据集提供了数字对象标识符 (DOI)。解析服务(如 identifier.org)还提供了持久化可解除引用的标识符以便轻松引用,这是数据集在科学论述中广泛可用的关键。不幸的是,我们发现语料库中只有大约 11% 的数据集(或约 300 万)有 DOI。我们从数据集语料库中选择这一子集纳入 开源版本。从这个集合中,大约 230 万个数据集来自 datacite.org 和 figshare.com 这两个站点。
发布机构可以通过 schema.org 元数据属性指定数据集的访问要求,包括许可的细节和指示数据集是否可以免费访问的信息。只有 34% 的数据集指定了许可信息,但当未指定时,用户无法对是否允许重用数据做出任何假设。因此,添加许可信息,并尽可能是开放的许可信息,这将大大提高数据的可重用性。
在明确指定了需要许可的数据集中,我们能够在 72% 的用例内识别出已知许可。这些许可包括英国和加拿大的开放政府许可、知识共享许可和一些公共领域许可(如公共领域标志 1.0)。我们发现,这些数据集中有 89.5% 可以免费访问或者使用了允许再分发的许可,或者两者兼有。在这些开放数据集中,有 560 万 (91%) 可供商业重用。
数据可重用性的另一个关键要素是提供可下载的数据,然而只有 44% 的数据集在其元数据中指定了下载信息。对于这种出人意料的低值,一种可能原因是网站站长(或数据集托管平台)担心通过 schema.org 元数据公开数据下载链接可能导致搜索引擎或其他应用让用户直接访问下载数据,因此“窃取”网站的流量。另一个担忧可能在于数据需要适当的上下文才能正确使用(如方法、脚注和许可信息),而提供者认为只有他们自己的网页才能提供完整信息。在 Dataset Search 中,下载链接不会显示为数据集元数据的一部分,用户必须前往发布机构的网站查看数据集的完整上下文和下载数据。
用户能访问什么?
最后,我们研究了 Dataset Search 的使用情况。总体而言,在 2020 年 5 月的 14 天内,来自 2600 个域名的 210 万个唯一数据集出现在 Dataset Search 结果的前 100 名中。我们发现,所查询主题的分布与整个语料库不同。例如,地球科学所占比例较少,生物和医学相对于其在语料库中的比例反而要大得多(这一结果可能是我们分析的时间所致,因为当时恰逢新冠肺炎疫情爆发的初期)。
搜索结果中出现的数据集覆盖的主题分布
发布科学数据集的最佳做法
我们根据分析得出一套最佳做法,其可以改善数据集的发现、重用和引用方式。
-
可发现性
数据集元数据应位于网络抓取工具可访问的页面上,并以机器可读格式提供元数据,从而提高可发现性。
-
持久性
在可能比个人网页更持久的网站上发布元数据将有助于数据的重用和引用。事实上,在我们对 Dataset Search 的分析中,我们注意到一个非常高的周转率 - 许多网址在某一天托管了一个数据集,但几周或几个月后就不再托管了。Figshare、Zenodo、DataDryad、Kaggle Datasets 等数据存储库是确保数据集持久性的好方法。这些存储库中有许多都与库达成 永久保留数据协议。
-
出处
由于数据集经常在多个存储库中发布,存储库最好在元数据中更明确地描述出处信息。出处信息可以帮助用户了解数据的收集者、数据集的主要来源或者数据集可能发生了怎样的变化。
-
许可
数据集最好以机器可读格式包含许可信息。我们的分析表明,数据集提供者在选择许可时倾向于较为开放的选项。因此,鼓励和帮助科学家为数据选择许可将推动更多数据集公开可用。
-
分配持久化标识符(例如 DOI)
DOI 对于长期跟踪和实用性至关重要。这些标识符不仅可以简化数据集的引用和版本跟踪,还可以解除引用:如果数据集发生了移动,标识符则可以指向其他位置。
为具有持久化标识符的数据集发布元数据
我们向社区发布了语料库的一个 子集。这一子集包含 300 多万个数据集的元数据,而这些数据集具有 DOI 和其他类型的持久化标识符。它们是最容易引用的数据集。研究人员可以使用元数据开展更深入的分析,或者使用这些数据构建自己的应用。例如,DOI 使用量的大部分增长似乎都发生在最近十年。这个时间段与语料库中覆盖的数据集有什么关系?各个数据集的 DOI 使用量分布是否一致?在不同研究群体间是否存在显著差异?
我们将定期更新数据集。最后,借由将数据发布的重点放在具有持久化可引用标识符的数据集上,我们希望鼓励更多数据提供者可以更详细地描述数据集并使其更易于引用。
总而言之,我们希望通过 Google 的 Dataset Search 等工具使数据更容易被发现,鼓励科学家更广泛地共享其数据,并真正使数据具备 FAIR 属性。
致谢
这篇文章是整个 Dataset Search 团队共同努力的成果。我们非常感谢 Shiyu Chen、Dimitris Paparas、Katrina Sostek、Yale Cong、Marc Najork 和 Chris Gorgolewski 的贡献。我们还要感谢 Hal Varian 提出的这一分析建议和许多实用观点。
原文:An Analysis of Online Datasets Using Dataset Search (Published, in Part, as a Dataset)
中文:谷歌开发者公众号