• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

札幌:一个工作流执行服务,鼓励在生物信息学中重用各种语言的工作流。

Sapporo: A workflow execution service that encourages the reuse of workflows in various languages in bioinformatics.

机构信息

Department of Creative Informatics, Graduate School of Information Science and Technology, The University of Tokyo, Bunkyo, Tokyo, Japan.

Bioinformation and DDBJ Center, National Institute of Genetics, Mishima, Shizuoka, Japan.

出版信息

F1000Res. 2024 Jun 24;11:889. doi: 10.12688/f1000research.122924.2. eCollection 2022.

DOI:10.12688/f1000research.122924.2
PMID:39070189
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11282396/
Abstract

The increased demand for efficient computation in data analysis encourages researchers in biomedical science to use workflow systems. Workflow systems, or so-called workflow languages, are used for the description and execution of a set of data analysis steps. Workflow systems increase the productivity of researchers, specifically in fields that use high-throughput DNA sequencing applications, where scalable computation is required. As systems have improved the portability of data analysis workflows, research communities are able to share workflows to reduce the cost of building ordinary analysis procedures. However, having multiple workflow systems in a research field has resulted in the distribution of efforts across different workflow system communities. As each workflow system has its unique characteristics, it is not feasible to learn every single system in order to use publicly shared workflows. Thus, we developed Sapporo, an application to provide a unified layer of workflow execution upon the differences of various workflow systems. Sapporo has two components: an application programming interface (API) that receives the request of a workflow run and a browser-based client for the API. The API follows the Workflow Execution Service API standard proposed by the Global Alliance for Genomics and Health. The current implementation supports the execution of workflows in four languages: Common Workflow Language, Workflow Description Language, Snakemake, and Nextflow. With its extensible and scalable design, Sapporo can support the research community in utilizing valuable resources for data analysis.

摘要

数据分析中对高效计算的需求增加,促使生物医学科学研究人员使用工作流程系统。工作流程系统,或所谓的工作流程语言,用于描述和执行一组数据分析步骤。工作流程系统提高了研究人员的工作效率,特别是在需要可扩展计算的高通量 DNA 测序应用领域。随着系统提高了数据分析工作流程的可移植性,研究社区能够共享工作流程,以降低构建普通分析程序的成本。然而,在一个研究领域中存在多个工作流程系统,导致在不同的工作流程系统社区中分散了精力。由于每个工作流程系统都有其独特的特点,不可能为了使用公共共享的工作流程而去学习每个单独的系统。因此,我们开发了 Sapporo,这是一种在各种工作流程系统的差异之上提供统一的工作流程执行层的应用程序。Sapporo 有两个组件:一个接收工作流程运行请求的应用程序编程接口 (API),以及一个基于浏览器的 API 客户端。API 遵循由全球基因组和健康联盟提出的工作流程执行服务 API 标准。当前的实现支持四种语言的工作流程执行:通用工作流程语言、工作流程描述语言、Snakemake 和 Nextflow。凭借其可扩展和可扩展的设计,Sapporo 可以支持研究社区利用数据分析的宝贵资源。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/548e63260e75/f1000research-11-167905-g0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/4fa68a9ea31b/f1000research-11-167905-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/e62e36c44abc/f1000research-11-167905-g0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/b71f0f90751b/f1000research-11-167905-g0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/aea8cb58f9f6/f1000research-11-167905-g0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/efe02443b48f/f1000research-11-167905-g0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/871b90b15a46/f1000research-11-167905-g0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/84bcd79d1821/f1000research-11-167905-g0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/548e63260e75/f1000research-11-167905-g0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/4fa68a9ea31b/f1000research-11-167905-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/e62e36c44abc/f1000research-11-167905-g0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/b71f0f90751b/f1000research-11-167905-g0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/aea8cb58f9f6/f1000research-11-167905-g0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/efe02443b48f/f1000research-11-167905-g0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/871b90b15a46/f1000research-11-167905-g0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/84bcd79d1821/f1000research-11-167905-g0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/337f/11282400/548e63260e75/f1000research-11-167905-g0007.jpg

相似文献

1
Sapporo: A workflow execution service that encourages the reuse of workflows in various languages in bioinformatics.札幌:一个工作流执行服务,鼓励在生物信息学中重用各种语言的工作流。
F1000Res. 2024 Jun 24;11:889. doi: 10.12688/f1000research.122924.2. eCollection 2022.
2
Using prototyping to choose a bioinformatics workflow management system.使用原型法选择生物信息学工作流管理系统。
PLoS Comput Biol. 2021 Feb 25;17(2):e1008622. doi: 10.1371/journal.pcbi.1008622. eCollection 2021 Feb.
3
Biowep: a workflow enactment portal for bioinformatics applications.生物工作流引擎(Biowep):一个用于生物信息学应用的工作流制定门户。
BMC Bioinformatics. 2007 Mar 8;8 Suppl 1(Suppl 1):S19. doi: 10.1186/1471-2105-8-S1-S19.
4
Tavaxy: integrating Taverna and Galaxy workflows with cloud computing support.Tavaxy:集成 Taverna 和 Galaxy 工作流并提供云计算支持。
BMC Bioinformatics. 2012 May 4;13:77. doi: 10.1186/1471-2105-13-77.
5
Snakemake--a scalable bioinformatics workflow engine.Snakemake——一个可扩展的生物信息学工作流引擎。
Bioinformatics. 2012 Oct 1;28(19):2520-2. doi: 10.1093/bioinformatics/bts480. Epub 2012 Aug 20.
6
Scalable Workflows and Reproducible Data Analysis for Genomics.基因组学的可扩展工作流程和可重复数据分析
Methods Mol Biol. 2019;1910:723-745. doi: 10.1007/978-1-4939-9074-0_24.
7
Simplifying the development of portable, scalable, and reproducible workflows.简化便携式、可扩展和可重复使用工作流程的开发。
Elife. 2021 Oct 13;10:e71069. doi: 10.7554/eLife.71069.
8
Workflow sharing with automated metadata validation and test execution to improve the reusability of published workflows.通过自动化元数据验证和测试执行来共享工作流程,以提高已发布工作流程的可重用性。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad006. Epub 2023 Feb 22.
9
Support for Taverna workflows in the VPH-Share cloud platform.在 VPH-Share 云平台中支持 Taverna 工作流。
Comput Methods Programs Biomed. 2017 Jul;146:37-46. doi: 10.1016/j.cmpb.2017.05.006. Epub 2017 May 20.
10
Developing reproducible bioinformatics analysis workflows for heterogeneous computing environments to support African genomics.为异构计算环境开发可重现的生物信息学分析工作流程,以支持非洲基因组学。
BMC Bioinformatics. 2018 Nov 29;19(1):457. doi: 10.1186/s12859-018-2446-1.

引用本文的文献

1
WorkflowHub: a registry for computational workflows.工作流中心:一个计算工作流注册库。
Sci Data. 2025 May 21;12(1):837. doi: 10.1038/s41597-025-04786-3.
2
Recording provenance of workflow runs with RO-Crate.使用 RO-Crate 记录工作流运行的出处。
PLoS One. 2024 Sep 10;19(9):e0309210. doi: 10.1371/journal.pone.0309210. eCollection 2024.
3
DDBJ update in 2023: the MetaboBank for metabolomics data and associated metadata.2023 年 DDBJ 更新:代谢组学数据及其相关元数据的 MetaboBank。

本文引用的文献

1
GA4GH: International policies and standards for data sharing across genomic research and healthcare.全球基因组与健康联盟(GA4GH):跨基因组研究与医疗保健领域数据共享的国际政策与标准。
Cell Genom. 2021 Nov 10;1(2). doi: 10.1016/j.xgen.2021.100029.
2
Reproducible, scalable, and shareable analysis pipelines with bioinformatics workflow managers.使用生物信息学工作流管理器的可重复、可扩展且可共享的分析管道。
Nat Methods. 2021 Oct;18(10):1161-1168. doi: 10.1038/s41592-021-01254-9. Epub 2021 Sep 23.
3
ELIXIR: providing a sustainable infrastructure for life science data at European scale.
Nucleic Acids Res. 2024 Jan 5;52(D1):D67-D71. doi: 10.1093/nar/gkad1046.
4
A workflow reproducibility scale for automatic validation of biological interpretation results.用于自动验证生物学解释结果的工作流程可重复性量表。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad031. Epub 2023 May 8.
5
Workflow sharing with automated metadata validation and test execution to improve the reusability of published workflows.通过自动化元数据验证和测试执行来共享工作流程,以提高已发布工作流程的可重用性。
Gigascience. 2022 Dec 28;12. doi: 10.1093/gigascience/giad006. Epub 2023 Feb 22.
6
The NBDC-DDBJ imputation server facilitates the use of controlled access reference panel datasets in Japan.日本国立生物医学数据库中心-日本DNA数据银行(NBDC-DDBJ)插补服务器推动了日本受控访问参考面板数据集的使用。
Hum Genome Var. 2022 Dec 20;9(1):48. doi: 10.1038/s41439-022-00225-6.
7
DNA Data Bank of Japan (DDBJ) update report 2022.日本 DNA 数据库 (DDBJ) 更新报告 2022。
Nucleic Acids Res. 2023 Jan 6;51(D1):D101-D105. doi: 10.1093/nar/gkac1083.
ELIXIR:在欧洲范围内为生命科学数据提供可持续的基础设施。
Bioinformatics. 2021 Aug 25;37(16):2506-2511. doi: 10.1093/bioinformatics/btab481.
4
The nf-core framework for community-curated bioinformatics pipelines.用于社区策划生物信息学流程的nf-core框架。
Nat Biotechnol. 2020 Mar;38(3):276-278. doi: 10.1038/s41587-020-0439-x.
5
Sharing interoperable workflow provenance: A review of best practices and their practical application in CWLProv.共享可互操作的工作流溯源:最佳实践综述及其在 CWLProv 中的实际应用。
Gigascience. 2019 Nov 1;8(11). doi: 10.1093/gigascience/giz095.
6
Workflow systems turn raw data into scientific knowledge.工作流系统将原始数据转化为科学知识。
Nature. 2019 Sep;573(7772):149-150. doi: 10.1038/d41586-019-02619-z.
7
Community-Driven Data Analysis Training for Biology.生物学的社区驱动数据分析培训。
Cell Syst. 2018 Jun 27;6(6):752-758.e1. doi: 10.1016/j.cels.2018.05.012.
8
Toil enables reproducible, open source, big biomedical data analyses.Toil支持可重复的、开源的大型生物医学数据分析。
Nat Biotechnol. 2017 Apr 11;35(4):314-316. doi: 10.1038/nbt.3772.
9
Nextflow enables reproducible computational workflows.Nextflow支持可重复的计算工作流程。
Nat Biotechnol. 2017 Apr 11;35(4):316-319. doi: 10.1038/nbt.3820.
10
BioContainers: an open-source and community-driven framework for software standardization.生物容器:一个开源且由社区驱动的软件标准化框架。
Bioinformatics. 2017 Aug 15;33(16):2580-2582. doi: 10.1093/bioinformatics/btx192.