• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

数据分析工作流程原则。

Principles for data analysis workflows.

机构信息

Berkeley Institute for Data Science, University of California Berkeley, Berkeley, California, United States of America.

Statistical & Data Sciences Program, Smith College, Northampton, Massachusetts, United States of America.

出版信息

PLoS Comput Biol. 2021 Mar 18;17(3):e1008770. doi: 10.1371/journal.pcbi.1008770. eCollection 2021 Mar.

DOI:10.1371/journal.pcbi.1008770
PMID:33735208
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7971542/
Abstract

A systematic and reproducible "workflow"-the process that moves a scientific investigation from raw data to coherent research question to insightful contribution-should be a fundamental part of academic data-intensive research practice. In this paper, we elaborate basic principles of a reproducible data analysis workflow by defining 3 phases: the Explore, Refine, and Produce Phases. Each phase is roughly centered around the audience to whom research decisions, methodologies, and results are being immediately communicated. Importantly, each phase can also give rise to a number of research products beyond traditional academic publications. Where relevant, we draw analogies between design principles and established practice in software development. The guidance provided here is not intended to be a strict rulebook; rather, the suggestions for practices and tools to advance reproducible, sound data-intensive analysis may furnish support for both students new to research and current researchers who are new to data-intensive work.

摘要

一个系统的、可重复的“工作流程”——将科学研究从原始数据转化为连贯的研究问题并得出有见地的贡献的过程——应该是学术数据密集型研究实践的基本组成部分。在本文中,我们通过定义三个阶段来详细阐述可重复数据分析工作流程的基本原则:探索阶段、精炼阶段和产出阶段。每个阶段大致以正在即时交流研究决策、方法和结果的受众为中心。重要的是,每个阶段还可以产生许多超出传统学术出版物的研究产品。在相关的地方,我们还借鉴了软件开发中既定设计原则和实践之间的类比。这里提供的指导意见并非严格的规则手册;相反,推进可重复的、合理的数据密集型分析的实践和工具建议,可以为新接触研究的学生和新接触数据密集型工作的现有研究人员提供支持。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/90ed/7971542/d09270af62ce/pcbi.1008770.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/90ed/7971542/af711fa2f367/pcbi.1008770.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/90ed/7971542/d09270af62ce/pcbi.1008770.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/90ed/7971542/af711fa2f367/pcbi.1008770.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/90ed/7971542/d09270af62ce/pcbi.1008770.g002.jpg

相似文献

1
Principles for data analysis workflows.数据分析工作流程原则。
PLoS Comput Biol. 2021 Mar 18;17(3):e1008770. doi: 10.1371/journal.pcbi.1008770. eCollection 2021 Mar.
2
Streamlining data-intensive biology with workflow systems.使用工作流程系统简化数据密集型生物学研究。
Gigascience. 2021 Jan 13;10(1). doi: 10.1093/gigascience/giaa140.
3
The Planemo toolkit for developing, deploying, and executing scientific data analyses in Galaxy and beyond.Planemo 工具包,用于在 Galaxy 内外开发、部署和执行科学数据分析。
Genome Res. 2023 Feb;33(2):261-268. doi: 10.1101/gr.276963.122. Epub 2023 Feb 24.
4
Using prototyping to choose a bioinformatics workflow management system.使用原型法选择生物信息学工作流管理系统。
PLoS Comput Biol. 2021 Feb 25;17(2):e1008622. doi: 10.1371/journal.pcbi.1008622. eCollection 2021 Feb.
5
System for Quality-Assured Data Analysis: Flexible, reproducible scientific workflows.质量保证数据分析系统:灵活、可重复的科学工作流程。
Genet Epidemiol. 2019 Mar;43(2):227-237. doi: 10.1002/gepi.22178. Epub 2018 Dec 18.
6
Bioinformatics recipes: creating, executing and distributing reproducible data analysis workflows.生物信息学食谱:创建、执行和分发可重复的数据分析工作流程。
BMC Bioinformatics. 2020 Jul 8;21(1):292. doi: 10.1186/s12859-020-03602-6.
7
Assessing the impact of introductory programming workshops on the computational reproducibility of biomedical workflows.评估入门编程研讨会对生物医学工作流程计算可重复性的影响。
PLoS One. 2020 Jul 8;15(7):e0230697. doi: 10.1371/journal.pone.0230697. eCollection 2020.
8
Reproducible bioinformatics project: a community for reproducible bioinformatics analysis pipelines.可重复的生物信息学项目:一个用于可重复生物信息学分析流程的社区。
BMC Bioinformatics. 2018 Oct 15;19(Suppl 10):349. doi: 10.1186/s12859-018-2296-x.
9
Building Containerized Workflows Using the BioDepot-Workflow-Builder.使用 BioDepot-Workflow-Builder 构建容器化工作流程。
Cell Syst. 2019 Nov 27;9(5):508-514.e3. doi: 10.1016/j.cels.2019.08.007. Epub 2019 Sep 11.
10
SciApps: a cloud-based platform for reproducible bioinformatics workflows.SciApps:一个基于云的可重复生物信息学工作流平台。
Bioinformatics. 2018 Nov 15;34(22):3917-3920. doi: 10.1093/bioinformatics/bty439.

引用本文的文献

1
Progress and new challenges in image-based profiling.基于图像的分析技术的进展与新挑战。
ArXiv. 2025 Aug 7:arXiv:2508.05800v1.
2
Ten simple rules for building and maintaining a responsible data science workflow.构建和维护负责任的数据科学工作流程的十条简单规则。
PLoS Comput Biol. 2024 Jul 18;20(7):e1012232. doi: 10.1371/journal.pcbi.1012232. eCollection 2024 Jul.
3
Initial data analysis for longitudinal studies to build a solid foundation for reproducible analysis.用于建立可重复分析坚实基础的纵向研究的初步数据分析。

本文引用的文献

1
Streamlining data-intensive biology with workflow systems.使用工作流程系统简化数据密集型生物学研究。
Gigascience. 2021 Jan 13;10(1). doi: 10.1093/gigascience/giaa140.
2
A hypothesis is a liability.假设是一种负担。
Genome Biol. 2020 Sep 3;21(1):231. doi: 10.1186/s13059-020-02133-w.
3
Publishing computational research - a review of infrastructures for reproducible and transparent scholarly communication.发表计算研究——关于可重复和透明学术交流基础设施的综述
PLoS One. 2024 May 29;19(5):e0295726. doi: 10.1371/journal.pone.0295726. eCollection 2024.
4
Critical Review of Selected Analytical Platforms for GC-MS Metabolomics Profiling-Case Study: HS-SPME/GC-MS Analysis of Blackberry's Aroma.用于气相色谱-质谱代谢组学分析的选定分析平台的批判性综述——案例研究:黑莓香气的顶空固相微萃取/气相色谱-质谱分析
Foods. 2024 Apr 17;13(8):1222. doi: 10.3390/foods13081222.
5
A high-performance computational workflow to accelerate GATK SNP detection across a 25-genome dataset.一种用于加速在25个基因组数据集上进行GATK单核苷酸多态性检测的高性能计算工作流程。
BMC Biol. 2024 Jan 25;22(1):13. doi: 10.1186/s12915-024-01820-5.
6
A multi-omics data analysis workflow packaged as a FAIR Digital Object.一个被打包为 FAIR 数字对象的多组学数据分析工作流。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giad115.
7
Why don't we share data and code? Perceived barriers and benefits to public archiving practices.为什么我们不共享数据和代码?对公共存档实践的感知障碍和收益。
Proc Biol Sci. 2022 Nov 30;289(1987):20221113. doi: 10.1098/rspb.2022.1113. Epub 2022 Nov 23.
8
Ten simple rules on writing clean and reliable open-source scientific software.关于编写干净可靠的开源科学软件的十则简单规则。
PLoS Comput Biol. 2021 Nov 11;17(11):e1009481. doi: 10.1371/journal.pcbi.1009481. eCollection 2021 Nov.
Res Integr Peer Rev. 2020 Jul 14;5:10. doi: 10.1186/s41073-020-00095-y. eCollection 2020.
4
Veridical data science.真实数据科学。
Proc Natl Acad Sci U S A. 2020 Feb 25;117(8):3920-3929. doi: 10.1073/pnas.1901326117. Epub 2020 Feb 13.
5
Games academics play and their consequences: how authorship, -index and journal impact factors are shaping the future of academia.游戏学术和他们的后果:作者身份、-索引和期刊影响因素如何塑造学术的未来。
Proc Biol Sci. 2019 Dec 4;286(1916):20192047. doi: 10.1098/rspb.2019.2047.
6
Software engineering for scientific big data analysis.科学大数据分析的软件工程。
Gigascience. 2019 May 1;8(5). doi: 10.1093/gigascience/giz054.
7
Why Jupyter is data scientists' computational notebook of choice.为何Jupyter是数据科学家首选的计算笔记本。
Nature. 2018 Nov;563(7729):145-146. doi: 10.1038/d41586-018-07196-1.
8
An empirical analysis of journal policy effectiveness for computational reproducibility.期刊政策对计算可重复性影响的实证分析。
Proc Natl Acad Sci U S A. 2018 Mar 13;115(11):2584-2589. doi: 10.1073/pnas.1708290115. Epub 2018 Mar 12.
9
Reproducibility vs. Replicability: A Brief History of a Confused Terminology.可重复性与可复制性:一个混淆术语的简史
Front Neuroinform. 2018 Jan 18;11:76. doi: 10.3389/fninf.2017.00076. eCollection 2017.
10
Good enough practices in scientific computing.科学计算中的良好实践。
PLoS Comput Biol. 2017 Jun 22;13(6):e1005510. doi: 10.1371/journal.pcbi.1005510. eCollection 2017 Jun.