• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

数据集复用:从原则到实践的转化

Dataset Reuse: Toward Translating Principles to Practice.

作者信息

Koesten Laura, Vougiouklis Pavlos, Simperl Elena, Groth Paul

机构信息

King's College London, London WC2B 4BG, UK.

Huawei Technologies, Edinburgh EH9 3BF, UK.

出版信息

Patterns (N Y). 2020 Nov 4;1(8):100136. doi: 10.1016/j.patter.2020.100136. eCollection 2020 Nov 13.

DOI:10.1016/j.patter.2020.100136
PMID:33294873
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7691392/
Abstract

The web provides access to millions of datasets that can have additional impact when used beyond their original context. We have little empirical insight into what makes a dataset more reusable than others and which of the existing guidelines and frameworks, if any, make a difference. In this paper, we explore potential reuse features through a literature review and present a case study on datasets on GitHub, a popular open platform for sharing code and data. We describe a corpus of more than 1.4 million data files, from over 65,000 repositories. Using GitHub's engagement metrics as proxies for dataset reuse, we relate them to reuse features from the literature and devise an initial model, using deep neural networks, to predict a dataset's reusability. This demonstrates the practical gap between principles and actionable insights that allow data publishers and tools designers to implement functionalities that provably facilitate reuse.

摘要

网络提供了对数以百万计数据集的访问权限,这些数据集在其原始背景之外使用时可能会产生额外的影响。对于是什么使得一个数据集比其他数据集更具可重用性,以及现有的哪些指导方针和框架(如果有的话)会产生影响,我们几乎没有实证性的见解。在本文中,我们通过文献综述探索潜在的可重用特征,并呈现一个关于GitHub上数据集的案例研究,GitHub是一个用于共享代码和数据的流行开放平台。我们描述了一个来自超过65000个存储库的140多万个数据文件的语料库。使用GitHub的参与度指标作为数据集重用的代理,我们将它们与文献中的可重用特征相关联,并使用深度神经网络设计一个初始模型,以预测数据集的可重用性。这展示了原则与可操作见解之间的实际差距,这些见解能让数据发布者和工具设计者实现可证明有助于重用的功能。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00ea/7691392/f8f81a329532/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00ea/7691392/f8f81a329532/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00ea/7691392/f8f81a329532/gr1.jpg

相似文献

1
Dataset Reuse: Toward Translating Principles to Practice.数据集复用:从原则到实践的转化
Patterns (N Y). 2020 Nov 4;1(8):100136. doi: 10.1016/j.patter.2020.100136. eCollection 2020 Nov 13.
2
A content-based literature recommendation system for datasets to improve data reusability - A case study on Gene Expression Omnibus (GEO) datasets.基于内容的文献推荐系统,用于数据集,以提高数据可重用性 - 以基因表达综合 (GEO) 数据集为例。
J Biomed Inform. 2020 Apr;104:103399. doi: 10.1016/j.jbi.2020.103399. Epub 2020 Mar 6.
3
Software reusability dataset based on static analysis metrics and reuse rate information.基于静态分析指标和复用率信息的软件可复用性数据集。
Data Brief. 2019 Oct 19;27:104687. doi: 10.1016/j.dib.2019.104687. eCollection 2019 Dec.
4
Data reuse and the open data citation advantage.数据重用与开放数据引文优势。
PeerJ. 2013 Oct 1;1:e175. doi: 10.7717/peerj.175. eCollection 2013.
5
Unfolding the downloads of datasets: A multifaceted exploration of influencing factors.展开数据集的下载情况:对影响因素的多方面探索。
Sci Data. 2024 Jul 11;11(1):760. doi: 10.1038/s41597-024-03591-8.
6
A data reusability assessment in the nanosafety domain based on the NSDRA framework followed by an exploratory quantitative structure activity relationships (QSAR) modeling targeting cellular viability.基于 NSDRA 框架的纳米安全性领域的数据可重复性评估,随后针对细胞活力进行探索性定量构效关系 (QSAR) 建模。
NanoImpact. 2023 Jul;31:100475. doi: 10.1016/j.impact.2023.100475. Epub 2023 Jul 7.
7
BioFlow-Insight: facilitating reuse of Nextflow workflows with structure reconstruction and visualization.BioFlow-Insight:通过结构重建和可视化促进Nextflow工作流程的重用。
NAR Genom Bioinform. 2024 Aug 6;6(3):lqae092. doi: 10.1093/nargab/lqae092. eCollection 2024 Sep.
8
Opportunities for improving data sharing and FAIR data practices to advance global mental health.改善数据共享和FAIR数据实践以促进全球精神卫生的机遇。
Glob Ment Health (Camb). 2023 Mar 3;10:e14. doi: 10.1017/gmh.2023.7. eCollection 2023.
9
A Semi-Automated Workflow for FAIR Maturity Indicators in the Life Sciences.生命科学中FAIR成熟度指标的半自动工作流程。
Nanomaterials (Basel). 2020 Oct 20;10(10):2068. doi: 10.3390/nano10102068.
10
One-off events? An empirical study of hackathon code creation and reuse.一次性事件?关于黑客马拉松代码创建与复用的实证研究。
Empir Softw Eng. 2022;27(7):167. doi: 10.1007/s10664-022-10201-x. Epub 2022 Sep 20.

引用本文的文献

1
Leveraging Administrative Health Databases to Address Health Challenges in Farming Populations: Scoping Review and Bibliometric Analysis (1975-2024).利用行政健康数据库应对农业人口的健康挑战:范围综述与文献计量分析(1975 - 2024年)
JMIR Public Health Surveill. 2025 Jan 9;11:e62939. doi: 10.2196/62939.
2
A dataset for measuring the impact of research data and their curation.一个用于衡量研究数据及其管理影响的数据集。
Sci Data. 2024 May 3;11(1):442. doi: 10.1038/s41597-024-03303-2.
3
Knowledge and Instance Mapping: architecture for premeditated interoperability of disparate data for materials.

本文引用的文献

1
Publishers' Responsibilities in Promoting Data Quality and Reproducibility.出版商在提升数据质量和可重复性方面的责任。
Handb Exp Pharmacol. 2020;257:319-348. doi: 10.1007/164_2019_290.
2
Critical Reflections on Visualization Authoring Systems.关于可视化创作系统的批判性思考
IEEE Trans Vis Comput Graph. 2020 Jan;26(1):461-471. doi: 10.1109/TVCG.2019.2934281. Epub 2019 Aug 20.
3
An analysis and metric of reusable data licensing practices for biomedical resources.生物医学资源可重用数据许可实践的分析与度量。
知识与实例映射:用于对材料异类数据进行预先设计的互操作性的架构。
Sci Data. 2024 Feb 6;11(1):173. doi: 10.1038/s41597-024-03006-8.
4
Schema Playground: a tool for authoring, extending, and using metadata schemas to improve FAIRness of biomedical data.模式游乐场:一个用于创作、扩展和使用元数据模式以提高生物医学数据 FAIR 性的工具。
BMC Bioinformatics. 2023 Apr 20;24(1):159. doi: 10.1186/s12859-023-05258-4.
5
Schema Playground: A tool for authoring, extending, and using metadata schemas to improve FAIRness of biomedical data.模式游乐场:一种用于创作、扩展和使用元数据模式以提高生物医学数据可访问性、互操作性、可理解性和重用性的工具。
bioRxiv. 2022 Jun 2:2021.09.02.458726. doi: 10.1101/2021.09.02.458726.
6
The non-linear impact of data handling on network diffusion models.数据处理对网络扩散模型的非线性影响。
Patterns (N Y). 2021 Nov 26;2(12):100397. doi: 10.1016/j.patter.2021.100397. eCollection 2021 Dec 10.
PLoS One. 2019 Mar 27;14(3):e0213090. doi: 10.1371/journal.pone.0213090. eCollection 2019.
4
A design framework and exemplar metrics for FAIRness.公平性的设计框架及示例指标。
Sci Data. 2018 Jun 26;5:180118. doi: 10.1038/sdata.2018.118.
5
The FAIR guiding principles for data stewardship: fair enough?FAIR 数据管理原则:足够公平吗?
Eur J Hum Genet. 2018 Jul;26(7):931-936. doi: 10.1038/s41431-018-0160-0. Epub 2018 May 17.
6
Enhancing Reuse of Data and Biological Material in Medical Research: From FAIR to FAIR-Health.加强医学研究中数据和生物材料的再利用:从FAIR到FAIR-Health。
Biopreserv Biobank. 2018 Apr;16(2):97-105. doi: 10.1089/bio.2017.0110. Epub 2018 Jan 23.
7
Critique and Contribute: A Practice-Based Framework for Improving Critical Data Studies and Data Science.批判与贡献:改进关键数据研究和数据科学的基于实践的框架。
Big Data. 2017 Jun;5(2):85-97. doi: 10.1089/big.2016.0050.
8
Framework for responsible sharing of genomic and health-related data.基因组和健康相关数据的责任共享框架
Hugo J. 2014 Dec;8(1):3. doi: 10.1186/s11568-014-0003-1. Epub 2014 Oct 17.
9
The FAIR Guiding Principles for scientific data management and stewardship.科学数据管理和保存的 FAIR 指导原则。
Sci Data. 2016 Mar 15;3:160018. doi: 10.1038/sdata.2016.18.
10
Can Data Sharing Become the Path of Least Resistance?数据共享会成为阻力最小的途径吗?
PLoS Med. 2016 Jan 26;13(1):e1001949. doi: 10.1371/journal.pmed.1001949. eCollection 2016 Jan.