• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于自动验证生物学解释结果的工作流程可重复性量表。

A workflow reproducibility scale for automatic validation of biological interpretation results.

机构信息

Department of Creative Informatics, Graduate School of Information Science and Technology, The University of Tokyo, Tokyo, 113-0033, Japan.

Department of Computer Science, Graduate School of Information Science and Technology, The University of Tokyo, Tokyo, 113-0033, Japan.

出版信息

Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad031. Epub 2023 May 8.

DOI:10.1093/gigascience/giad031
PMID:37150537
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10164546/
Abstract

BACKGROUND

Reproducibility of data analysis workflow is a key issue in the field of bioinformatics. Recent computing technologies, such as virtualization, have made it possible to reproduce workflow execution with ease. However, the reproducibility of results is not well discussed; that is, there is no standard way to verify whether the biological interpretation of reproduced results is the same. Therefore, it still remains a challenge to automatically evaluate the reproducibility of results.

RESULTS

We propose a new metric, a reproducibility scale of workflow execution results, to evaluate the reproducibility of results. This metric is based on the idea of evaluating the reproducibility of results using biological feature values (e.g., number of reads, mapping rate, and variant frequency) representing their biological interpretation. We also implemented a prototype system that automatically evaluates the reproducibility of results using the proposed metric. To demonstrate our approach, we conducted an experiment using workflows used by researchers in real research projects and the use cases that are frequently encountered in the field of bioinformatics.

CONCLUSIONS

Our approach enables automatic evaluation of the reproducibility of results using a fine-grained scale. By introducing our approach, it is possible to evolve from a binary view of whether the results are superficially identical or not to a more graduated view. We believe that our approach will contribute to more informed discussion on reproducibility in bioinformatics.

摘要

背景

数据分析工作流程的可重复性是生物信息学领域的一个关键问题。最近的计算技术,如虚拟化,使得轻松重现工作流程执行成为可能。然而,结果的可重复性并没有得到很好的讨论;也就是说,没有标准的方法来验证重现结果的生物学解释是否相同。因此,自动评估结果的可重复性仍然是一个挑战。

结果

我们提出了一种新的度量标准,即工作流程执行结果的可重现性尺度,用于评估结果的可重现性。该度量标准基于使用代表其生物学解释的生物学特征值(例如,读取次数、映射率和变体频率)评估结果可重现性的思想。我们还实现了一个原型系统,该系统使用所提出的度量标准自动评估结果的可重现性。为了验证我们的方法,我们使用研究人员在实际研究项目中使用的工作流程和生物信息学领域中经常遇到的用例进行了实验。

结论

我们的方法通过引入更细粒度的尺度,实现了使用生物信息学方法自动评估结果可重现性的能力。通过引入我们的方法,可以从结果是否表面上相同的二元视角转变为更渐进的视角。我们相信,我们的方法将有助于更深入地讨论生物信息学中的可重复性问题。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/8aac71f16ea6/giad031fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/0d33cf75c8df/giad031fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/a28f187a41ea/giad031fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/855bff509bd5/giad031fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/8aac71f16ea6/giad031fig4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/0d33cf75c8df/giad031fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/a28f187a41ea/giad031fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/855bff509bd5/giad031fig3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f935/10164546/8aac71f16ea6/giad031fig4.jpg

相似文献

1
A workflow reproducibility scale for automatic validation of biological interpretation results.用于自动验证生物学解释结果的工作流程可重复性量表。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad031. Epub 2023 May 8.
2
Watchdog 2.0: New developments for reusability, reproducibility, and workflow execution.Watchdog 2.0:可重用性、可重现性和工作流程执行的新发展。
Gigascience. 2020 Jun 1;9(6). doi: 10.1093/gigascience/giaa068.
3
Practical Computational Reproducibility in the Life Sciences.生命科学中的实用计算可重复性。
Cell Syst. 2018 Jun 27;6(6):631-635. doi: 10.1016/j.cels.2018.03.014.
4
Investigating reproducibility and tracking provenance - A genomic workflow case study.研究可重复性与追溯来源——一个基因组工作流程案例研究
BMC Bioinformatics. 2017 Jul 12;18(1):337. doi: 10.1186/s12859-017-1747-0.
5
Semantic workflows for benchmark challenges: Enhancing comparability, reusability and reproducibility.用于基准挑战的语义工作流:提高可比性、可重用性和可重复性。
Pac Symp Biocomput. 2019;24:208-219.
6
Workflow sharing with automated metadata validation and test execution to improve the reusability of published workflows.通过自动化元数据验证和测试执行来共享工作流程,以提高已发布工作流程的可重用性。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad006. Epub 2023 Feb 22.
7
Reproducibility of computational workflows is automated using continuous analysis.计算工作流程的可重复性通过持续分析实现自动化。
Nat Biotechnol. 2017 Apr;35(4):342-346. doi: 10.1038/nbt.3780. Epub 2017 Mar 13.
8
Watchdog - a workflow management system for the distributed analysis of large-scale experimental data.Watchdog - 一种用于大规模实验数据分析的分布式工作流管理系统。
BMC Bioinformatics. 2018 Mar 13;19(1):97. doi: 10.1186/s12859-018-2107-4.
9
Classification of bioinformatics workflows using weighted versions of partitioning and hierarchical clustering algorithms.使用分区和层次聚类算法的加权版本对生物信息学工作流程进行分类。
BMC Bioinformatics. 2015 Mar 3;16:68. doi: 10.1186/s12859-015-0508-1.
10
Facilitating bioinformatics reproducibility with QIIME 2 Provenance Replay.使用 QIIME 2 Provenance Replay 促进生物信息学可重复性。
PLoS Comput Biol. 2023 Nov 27;19(11):e1011676. doi: 10.1371/journal.pcbi.1011676. eCollection 2023 Nov.

引用本文的文献

1
A scoping review on metrics to quantify reproducibility: a multitude of questions leads to a multitude of metrics.关于量化可重复性指标的范围综述:众多问题催生众多指标。
R Soc Open Sci. 2025 Jul 15;12(7):242076. doi: 10.1098/rsos.242076. eCollection 2025 Jul.
2
HPD-Kit: a comprehensive toolkit for pathogen detection and analysis.HPD试剂盒:用于病原体检测与分析的综合工具包。
Front Cell Infect Microbiol. 2025 May 2;15:1580165. doi: 10.3389/fcimb.2025.1580165. eCollection 2025.
3
Recording provenance of workflow runs with RO-Crate.

本文引用的文献

1
Sapporo: A workflow execution service that encourages the reuse of workflows in various languages in bioinformatics.札幌:一个工作流执行服务,鼓励在生物信息学中重用各种语言的工作流。
F1000Res. 2024 Jun 24;11:889. doi: 10.12688/f1000research.122924.2. eCollection 2022.
2
Workflow sharing with automated metadata validation and test execution to improve the reusability of published workflows.通过自动化元数据验证和测试执行来共享工作流程,以提高已发布工作流程的可重用性。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad006. Epub 2023 Feb 22.
3
GA4GH: International policies and standards for data sharing across genomic research and healthcare.
使用 RO-Crate 记录工作流运行的出处。
PLoS One. 2024 Sep 10;19(9):e0309210. doi: 10.1371/journal.pone.0309210. eCollection 2024.
4
HiOmics: A cloud-based one-stop platform for the comprehensive analysis of large-scale omics data.HiOmics:一个基于云的一站式平台,用于大规模组学数据的综合分析。
Comput Struct Biotechnol J. 2024 Jan 5;23:659-668. doi: 10.1016/j.csbj.2024.01.002. eCollection 2024 Dec.
5
The five pillars of computational reproducibility: bioinformatics and beyond.计算可重复性的五个支柱:生物信息学及其他。
Brief Bioinform. 2023 Sep 22;24(6). doi: 10.1093/bib/bbad375.
6
Workflow sharing with automated metadata validation and test execution to improve the reusability of published workflows.通过自动化元数据验证和测试执行来共享工作流程,以提高已发布工作流程的可重用性。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad006. Epub 2023 Feb 22.
全球基因组与健康联盟(GA4GH):跨基因组研究与医疗保健领域数据共享的国际政策与标准。
Cell Genom. 2021 Nov 10;1(2). doi: 10.1016/j.xgen.2021.100029.
4
Reproducible, scalable, and shareable analysis pipelines with bioinformatics workflow managers.使用生物信息学工作流管理器的可重复、可扩展且可共享的分析管道。
Nat Methods. 2021 Oct;18(10):1161-1168. doi: 10.1038/s41592-021-01254-9. Epub 2021 Sep 23.
5
CODECHECK: an Open Science initiative for the independent execution of computations underlying research articles during peer review to improve reproducibility.CODECHECK:一项开放科学计划,旨在促进同行评审期间对研究文章基础计算的独立执行,以提高可重复性。
F1000Res. 2021 Mar 30;10:253. doi: 10.12688/f1000research.51738.2. eCollection 2021.
6
Twelve years of SAMtools and BCFtools.SAMtools 和 BCFtools 十二年。
Gigascience. 2021 Feb 16;10(2). doi: 10.1093/gigascience/giab008.
7
The nf-core framework for community-curated bioinformatics pipelines.用于社区策划生物信息学流程的nf-core框架。
Nat Biotechnol. 2020 Mar;38(3):276-278. doi: 10.1038/s41587-020-0439-x.
8
Sharing interoperable workflow provenance: A review of best practices and their practical application in CWLProv.共享可互操作的工作流溯源:最佳实践综述及其在 CWLProv 中的实际应用。
Gigascience. 2019 Nov 1;8(11). doi: 10.1093/gigascience/giz095.
9
Workflow systems turn raw data into scientific knowledge.工作流系统将原始数据转化为科学知识。
Nature. 2019 Sep;573(7772):149-150. doi: 10.1038/d41586-019-02619-z.
10
Nextflow enables reproducible computational workflows.Nextflow支持可重复的计算工作流程。
Nat Biotechnol. 2017 Apr 11;35(4):316-319. doi: 10.1038/nbt.3820.