Suppr超能文献

数据集的标准化版本控制:符合 FAIR 原则的提案。

Standardised Versioning of Datasets: a FAIR-compliant Proposal.

机构信息

Cloud Competency Centre, National College of Ireland, Dublin, Ireland.

出版信息

Sci Data. 2024 Apr 9;11(1):358. doi: 10.1038/s41597-024-03153-y.

Abstract

This paper presents a standardised dataset versioning framework for improved reusability, recognition and data version tracking, facilitating comparisons and informed decision-making for data usability and workflow integration. The framework adopts a software engineering-like data versioning nomenclature ("major.minor.patch") and incorporates data schema principles to promote reproducibility and collaboration. To quantify changes in statistical properties over time, the concept of data drift metrics (d) is introduced. Three metrics (d, d,, and d) based on unsupervised Machine Learning techniques (Principal Component Analysis and Autoencoders) are evaluated for dataset creation, update, and deletion. The optimal choice is the d, metric, combining PCA models with splines. It exhibits efficient computational time, with values below 50 for new dataset batches and values consistent with seasonal or trend variations. Major updates (i.e., values of 100) occur when scaling transformations are applied to over 30% of variables while efficiently handling information loss, yielding values close to 0. This metric achieved a favourable trade-off between interpretability, robustness against information loss, and computation time.

摘要

本文提出了一种标准化的数据集版本管理框架,以提高可重用性、可识别性和数据版本跟踪能力,促进数据可用性和工作流程集成的比较和决策。该框架采用了类似于软件工程的数据版本命名约定(“主版本.次版本.补丁版本”),并结合了数据模式原则,以促进可重复性和协作。为了量化随时间变化的统计属性变化,引入了数据漂移指标 (d) 的概念。基于无监督机器学习技术(主成分分析和自动编码器)评估了三种基于数据创建、更新和删除的指标 (d、d、和 d)。最佳选择是 d 指标,它结合了 PCA 模型和样条。它具有高效的计算时间,对于新的数据集批次,其值低于 50,并且与季节性或趋势变化的值一致。当对超过 30%的变量应用缩放变换时,会发生主要更新(即值为 100),同时有效地处理信息丢失,得到接近 0 的值。该指标在可解释性、对信息丢失的稳健性和计算时间之间取得了良好的平衡。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/c3f5/11003959/806046d00dc4/41597_2024_3153_Fig1_HTML.jpg

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验