• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

获取数据(Go Get Data,GGD)是一个促进基因组数据可重现访问的框架。

Go Get Data (GGD) is a framework that facilitates reproducible access to genomic data.

机构信息

Department of Human Genetics, University of Utah, Salt Lake City, UT, USA.

Utah Center for Genetic Discovery, University of Utah, Salt Lake City, UT, USA.

出版信息

Nat Commun. 2021 Apr 12;12(1):2151. doi: 10.1038/s41467-021-22381-z.

DOI:10.1038/s41467-021-22381-z
PMID:33846313
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8041854/
Abstract

The rapid increase in the amount of genomic data provides researchers with an opportunity to integrate diverse datasets and annotations when addressing a wide range of biological questions. However, genomic datasets are deposited on different platforms and are stored in numerous formats from multiple genome builds, which complicates the task of collecting, annotating, transforming, and integrating data as needed. Here, we developed Go Get Data (GGD) as a fast, reproducible approach to installing standardized data recipes. GGD is available on Github ( https://gogetdata.github.io/ ), is extendable to other data types, and can streamline the complexities typically associated with data integration, saving researchers time and improving research reproducibility.

摘要

基因组数据量的快速增长为研究人员在解决各种生物学问题时整合不同数据集和注释提供了机会。然而,基因组数据集存储在不同的平台上,并以多种格式存储在多个基因组构建中,这增加了收集、注释、转换和按需集成数据的任务的复杂性。在这里,我们开发了 Go Get Data (GGD),作为一种快速、可重复的安装标准化数据配方的方法。GGD 可在 Github 上获得(https://gogetdata.github.io/),可扩展到其他数据类型,并可以简化通常与数据集成相关的复杂性,为研究人员节省时间并提高研究的可重复性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5cd6/8041854/634ce08e56d9/41467_2021_22381_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5cd6/8041854/fbafbda8499f/41467_2021_22381_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5cd6/8041854/634ce08e56d9/41467_2021_22381_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5cd6/8041854/fbafbda8499f/41467_2021_22381_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/5cd6/8041854/634ce08e56d9/41467_2021_22381_Fig2_HTML.jpg

相似文献

1
Go Get Data (GGD) is a framework that facilitates reproducible access to genomic data.获取数据(Go Get Data,GGD)是一个促进基因组数据可重现访问的框架。
Nat Commun. 2021 Apr 12;12(1):2151. doi: 10.1038/s41467-021-22381-z.
2
Bioinformatics recipes: creating, executing and distributing reproducible data analysis workflows.生物信息学食谱:创建、执行和分发可重复的数据分析工作流程。
BMC Bioinformatics. 2020 Jul 8;21(1):292. doi: 10.1186/s12859-020-03602-6.
3
ChroKit: a Shiny-based framework for interactive analysis, visualization and integration of genomic data.ChroKit:一个基于 Shiny 的框架,用于基因组数据的交互式分析、可视化和集成。
Nucleic Acids Res. 2023 Jul 5;51(W1):W83-W92. doi: 10.1093/nar/gkad345.
4
ReUseData: an R/Bioconductor tool for reusable and reproducible genomic data management.ReUseData:一个用于可重复使用和可重现的基因组数据管理的 R/Bioconductor 工具。
BMC Bioinformatics. 2024 Jan 3;25(1):8. doi: 10.1186/s12859-023-05626-0.
5
Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr.使用两个 R 包:bigstatsr 和 bigsnpr,高效分析大规模全基因组数据。
Bioinformatics. 2018 Aug 15;34(16):2781-2787. doi: 10.1093/bioinformatics/bty185.
6
SoFIA: a data integration framework for annotating high-throughput datasets.SoFIA:一个用于注释高通量数据集的数据集成框架。
Bioinformatics. 2016 Sep 1;32(17):2590-7. doi: 10.1093/bioinformatics/btw302. Epub 2016 May 13.
7
integRATE: a desirability-based data integration framework for the prioritization of candidate genes across heterogeneous omics and its application to preterm birth.integRATE:一种基于理想性的数据整合框架,用于对异质组学中的候选基因进行优先级排序,并将其应用于早产研究。
BMC Med Genomics. 2018 Nov 19;11(1):107. doi: 10.1186/s12920-018-0426-y.
8
Nanopype: a modular and scalable nanopore data processing pipeline.纳米管道:一个模块化且可扩展的纳米孔数据处理管道。
Bioinformatics. 2019 Nov 1;35(22):4770-4772. doi: 10.1093/bioinformatics/btz461.
9
GeneTools--application for functional annotation and statistical hypothesis testing.基因工具——用于功能注释和统计假设检验的应用程序。
BMC Bioinformatics. 2006 Oct 24;7:470. doi: 10.1186/1471-2105-7-470.
10
NeuroPycon: An open-source python toolbox for fast multi-modal and reproducible brain connectivity pipelines.NeuroPycon:一个开源的 Python 工具包,用于快速进行多模态和可重复的脑连接管道。
Neuroimage. 2020 Oct 1;219:117020. doi: 10.1016/j.neuroimage.2020.117020. Epub 2020 Jun 6.

引用本文的文献

1
Transcriptome-wide outlier approach identifies individuals with minor spliceopathies.全转录组异常值方法可识别患有轻微剪接变异疾病的个体。
medRxiv. 2025 Jan 3:2025.01.02.24318941. doi: 10.1101/2025.01.02.24318941.
2
SciDataFlow: a tool for improving the flow of data through science.SciDataFlow:一种提高科学数据流通效率的工具。
Bioinformatics. 2024 Jan 2;40(1). doi: 10.1093/bioinformatics/btad754.
3
ReUseData: an R/Bioconductor tool for reusable and reproducible genomic data management.ReUseData:一个用于可重复使用和可重现的基因组数据管理的 R/Bioconductor 工具。

本文引用的文献

1
Refgenie: a reference genome resource manager.Refgenie:参考基因组资源管理器。
Gigascience. 2020 Feb 1;9(2). doi: 10.1093/gigascience/giz149.
2
Ensembl variation resources.Ensembl 变异资源。
Database (Oxford). 2018 Jan 1;2018:bay119. doi: 10.1093/database/bay119.
3
Bioconda: sustainable and comprehensive software distribution for the life sciences.生物conda:面向生命科学的可持续且全面的软件发行平台。
BMC Bioinformatics. 2024 Jan 3;25(1):8. doi: 10.1186/s12859-023-05626-0.
4
genomepy: genes and genomes at your fingertips.genomepy:指尖上的基因和基因组。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad119.
5
Combining genetic constraint with predictions of alternative splicing to prioritize deleterious splicing in rare disease studies.结合遗传约束和选择性剪接预测,优先考虑罕见病研究中的有害剪接。
BMC Bioinformatics. 2022 Nov 14;23(1):482. doi: 10.1186/s12859-022-05041-x.
6
The role of metadata in reproducible computational research.元数据在可重复计算研究中的作用。
Patterns (N Y). 2021 Sep 10;2(9):100322. doi: 10.1016/j.patter.2021.100322.
7
Identity and compatibility of reference genome resources.参考基因组资源的一致性和兼容性。
NAR Genom Bioinform. 2021 May 14;3(2):lqab036. doi: 10.1093/nargab/lqab036. eCollection 2021 Jun.
8
De novo structural mutation rates and gamete-of-origin biases revealed through genome sequencing of 2,396 families.通过对 2396 个家族的基因组测序揭示新的结构突变率和配子来源偏倚。
Am J Hum Genet. 2021 Apr 1;108(4):597-607. doi: 10.1016/j.ajhg.2021.02.012. Epub 2021 Mar 5.
Nat Methods. 2018 Jul;15(7):475-476. doi: 10.1038/s41592-018-0046-7.
4
Nextflow enables reproducible computational workflows.Nextflow支持可重复的计算工作流程。
Nat Biotechnol. 2017 Apr 11;35(4):316-319. doi: 10.1038/nbt.3820.
5
Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation.Ensembl核心软件资源:用于DNA序列和基因组注释的存储及编程访问。
Database (Oxford). 2017 Jan 1;2017(1). doi: 10.1093/database/bax020.
6
Assembly: a resource for assembled genomes at NCBI.组装:美国国立医学图书馆(NCBI)中已组装基因组的资源。
Nucleic Acids Res. 2016 Jan 4;44(D1):D73-80. doi: 10.1093/nar/gkv1226. Epub 2015 Nov 17.
7
The ensembl regulatory build.Ensembl调控构建
Genome Biol. 2015 Mar 24;16(1):56. doi: 10.1186/s13059-015-0621-5.
8
The Ensembl REST API: Ensembl Data for Any Language.Ensembl REST应用程序编程接口:适用于任何语言的Ensembl数据。
Bioinformatics. 2015 Jan 1;31(1):143-5. doi: 10.1093/bioinformatics/btu613. Epub 2014 Sep 17.
9
BEDTools: The Swiss-Army Tool for Genome Feature Analysis.BEDTools:用于基因组特征分析的瑞士军刀工具。
Curr Protoc Bioinformatics. 2014 Sep 8;47:11.12.1-34. doi: 10.1002/0471250953.bi1112s47.
10
Dissemination of scientific software with Galaxy ToolShed.通过Galaxy工具库传播科学软件。
Genome Biol. 2014 Feb 20;15(2):403. doi: 10.1186/gb4161.