• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

在Galaxy中对敏感临床研究数据进行公平的数据检索。

FAIR data retrieval for sensitive clinical research data in Galaxy.

作者信息

Ouwerkerk Jasper, Rasche Helena, Spalding John D, Hiltemann Saskia, Stubbs Andrew P

机构信息

Clinical Bioinformatics Group, Department of Pathology, Erasmus Medical Center, 3015 CN, Rotterdam, the Netherlands.

CSC-IT Center for Science, 02101 Espoo, Finland.

出版信息

Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giad099.

DOI:10.1093/gigascience/giad099
PMID:38280189
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10821763/
Abstract

BACKGROUND

In clinical research, data have to be accessible and reproducible, but the generated data are becoming larger and analysis complex. Here we propose a platform for Findable, Accessible, Interoperable, and Reusable (FAIR) data access and creating reproducible findings. Standardized access to a major genomic repository, the European Genome-Phenome Archive (EGA), has been achieved with API services like PyEGA3. We aim to provide a FAIR data analysis service in Galaxy by retrieving genomic data from the EGA and provide a generalized "omics" platform for FAIR data analysis.

RESULTS

To demonstrate this, we implemented an end-to-end Galaxy workflow to replicate the findings from an RD-Connect synthetic dataset Beyond the 1 Million Genomes (synB1MG) available from the EGA. We developed the PyEGA3 connector within Galaxy to easily download multiple datasets from the EGA. We added the gene.iobio tool, a diagnostic environment for precision genomics, to Galaxy and demonstrate that it provides a more dynamic and interpretable view for trio analysis results. We developed a Galaxy trio analysis workflow to determine the pathogenic variants from the synB1MG trios using the GEMINI and gene.iobio tool. The complete workflow is available at WorkflowHub, and an associated tutorial was created in the Galaxy Training Network, which helps researchers unfamiliar with Galaxy to run the workflow.

CONCLUSIONS

We showed the feasibility of reusing data from the EGA in Galaxy via PyEGA3 and validated the workflow by rediscovering spiked-in variants in synthetic data. Finally, we improved existing tools in Galaxy and created a workflow for trio analysis to demonstrate the value of FAIR genomics analysis in Galaxy.

摘要

背景

在临床研究中,数据必须易于获取且可重复,但生成的数据量越来越大,分析也越来越复杂。在此,我们提出了一个用于可查找、可访问、可互操作和可重用(FAIR)数据访问并创建可重复结果的平台。通过诸如PyEGA3之类的API服务,已实现对主要基因组存储库欧洲基因组-表型档案库(EGA)的标准化访问。我们旨在通过从EGA检索基因组数据,在Galaxy中提供FAIR数据分析服务,并为FAIR数据分析提供一个通用的“组学”平台。

结果

为了证明这一点,我们实施了一个端到端的Galaxy工作流程,以复制来自EGA的RD-Connect合成数据集“超越百万基因组”(synB1MG)的结果。我们在Galaxy中开发了PyEGA3连接器,以便轻松从EGA下载多个数据集。我们将基因.iobio工具(一种用于精准基因组学的诊断环境)添加到Galaxy中,并证明它为三人组分析结果提供了更动态且可解释的视图。我们开发了一个Galaxy三人组分析工作流程,使用GEMINI和基因.iobio工具从synB1MG三人组中确定致病变异。完整的工作流程可在WorkflowHub上获取,并且在Galaxy培训网络中创建了相关教程,这有助于不熟悉Galaxy的研究人员运行该工作流程。

结论

我们展示了通过PyEGA3在Galaxy中重用EGA数据的可行性,并通过重新发现合成数据中掺入的变异来验证工作流程。最后,我们改进了Galaxy中的现有工具,并创建了一个三人组分析工作流程,以证明Galaxy中FAIR基因组学分析的价值。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8c29/10821763/ccc8c0707795/giad099fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8c29/10821763/f96cee7f0d70/giad099fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8c29/10821763/ccc8c0707795/giad099fig2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8c29/10821763/f96cee7f0d70/giad099fig1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/8c29/10821763/ccc8c0707795/giad099fig2.jpg

相似文献

1
FAIR data retrieval for sensitive clinical research data in Galaxy.在Galaxy中对敏感临床研究数据进行公平的数据检索。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giad099.
2
Integration of EGA secure data access into Galaxy.将EGA安全数据访问集成到Galaxy中。
F1000Res. 2016 Dec 12;5. doi: 10.12688/f1000research.10221.1. eCollection 2016.
3
Galaxy-M: a Galaxy workflow for processing and analyzing direct infusion and liquid chromatography mass spectrometry-based metabolomics data.Galaxy-M:一种用于处理和分析基于直接进样和液相色谱质谱联用的代谢组学数据的Galaxy工作流程。
Gigascience. 2016 Feb 23;5:10. doi: 10.1186/s13742-016-0115-8. eCollection 2016.
4
Bioinformatics tools developed to support BioCompute Objects.为支持生物计算对象而开发的生物信息学工具。
Database (Oxford). 2021 Mar 30;2021. doi: 10.1093/database/baab008.
5
A multi-omics data analysis workflow packaged as a FAIR Digital Object.一个被打包为 FAIR 数字对象的多组学数据分析工作流。
Gigascience. 2024 Jan 2;13. doi: 10.1093/gigascience/giad115.
6
Galactic Circos: User-friendly Circos plots within the Galaxy platform.银河 Circos:Galaxy 平台内用户友好的 Circos 图。
Gigascience. 2020 Jun 1;9(6). doi: 10.1093/gigascience/giaa065.
7
Systematically linking tranSMART, Galaxy and EGA for reusing human translational research data.系统地连接tranSMART、Galaxy和EGA以重用人类转化研究数据。
F1000Res. 2017 Aug 16;6. doi: 10.12688/f1000research.12168.1. eCollection 2017.
8
Rice Galaxy: an open resource for plant science.水稻基因组:植物科学的开放资源。
Gigascience. 2019 May 1;8(5). doi: 10.1093/gigascience/giz028.
9
Laniakea: an open solution to provide Galaxy "on-demand" instances over heterogeneous cloud infrastructures.拉尼亚凯亚超星系团:一种提供 Galaxy“按需”实例的开放式解决方案,可在异构云基础架构上使用。
Gigascience. 2020 Apr 1;9(4). doi: 10.1093/gigascience/giaa033.
10
Osiris: accessible and reproducible phylogenetic and phylogenomic analyses within the Galaxy workflow management system.Osiris:在 Galaxy 工作流管理系统中进行可访问和可重复的系统发生和系统基因组学分析。
BMC Bioinformatics. 2014 Jul 2;15:230. doi: 10.1186/1471-2105-15-230.

引用本文的文献

1
Galaxy as a gateway to bioinformatics: Multi-Interface Galaxy Hands-on Training Suite (MIGHTS) for scRNA-seq.作为生物信息学入门的Galaxy:用于单细胞RNA测序的多界面Galaxy实践培训套件(MIGHTS)
Gigascience. 2025 Jan 6;14. doi: 10.1093/gigascience/giae107.

本文引用的文献

1
Galaxy Training: A powerful framework for teaching!银河培训:一个强大的教学框架!
PLoS Comput Biol. 2023 Jan 9;19(1):e1010752. doi: 10.1371/journal.pcbi.1010752. eCollection 2023 Jan.
2
GA4GH Passport standard for digital identity and access permissions.GA4GH数字身份和访问权限的护照标准。
Cell Genom. 2021 Nov 10;1(2):None. doi: 10.1016/j.xgen.2021.100030.
3
The European Genome-phenome Archive in 2021.2021 年的欧洲基因组-表型数据库。
Nucleic Acids Res. 2022 Jan 7;50(D1):D980-D987. doi: 10.1093/nar/gkab1059.
4
Gene.iobio: an interactive web tool for versatile, clinically-driven variant interrogation and prioritization.Gene.iobio:一个交互式网络工具,用于多功能、以临床为导向的变异分析和优先级排序。
Sci Rep. 2021 Oct 13;11(1):20307. doi: 10.1038/s41598-021-99752-5.
5
Twelve years of SAMtools and BCFtools.SAMtools 和 BCFtools 十二年。
Gigascience. 2021 Feb 16;10(2). doi: 10.1093/gigascience/giab008.
6
Crypt4GH: a file format standard enabling native access to encrypted data.Crypt4GH:一种支持对加密数据进行原生访问的文件格式标准。
Bioinformatics. 2021 Sep 9;37(17):2753-2754. doi: 10.1093/bioinformatics/btab087.
7
Initiatives, Concepts, and Implementation Practices of FAIR (Findable, Accessible, Interoperable, and Reusable) Data Principles in Health Data Stewardship Practice: Protocol for a Scoping Review.健康数据管理实践中FAIR(可查找、可访问、可互操作和可重用)数据原则的倡议、概念及实施实践:一项范围综述方案
JMIR Res Protoc. 2021 Feb 2;10(2):e22505. doi: 10.2196/22505.
8
Galactic Circos: User-friendly Circos plots within the Galaxy platform.银河 Circos:Galaxy 平台内用户友好的 Circos 图。
Gigascience. 2020 Jun 1;9(6). doi: 10.1093/gigascience/giaa065.
9
The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2020 update.Galaxy 平台,用于实现可访问、可重现和协作的生物医学分析:2020 年更新。
Nucleic Acids Res. 2020 Jul 2;48(W1):W395-W402. doi: 10.1093/nar/gkaa434.
10
A reference data set of 5.4 million phased human variants validated by genetic inheritance from sequencing a three-generation 17-member pedigree.通过对一个包含17名成员的三代家系进行测序,经遗传继承验证的540万个定相人类变异的参考数据集。
Genome Res. 2017 Jan;27(1):157-164. doi: 10.1101/gr.210500.116. Epub 2016 Nov 30.