• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

参考基因组资源的一致性和兼容性。

Identity and compatibility of reference genome resources.

作者信息

Stolarczyk Michał, Xue Bingjie, Sheffield Nathan C

机构信息

Center for Public Health Genomics, University of Virginia, Virginia, 22908, USA.

出版信息

NAR Genom Bioinform. 2021 May 14;3(2):lqab036. doi: 10.1093/nargab/lqab036. eCollection 2021 Jun.

DOI:10.1093/nargab/lqab036
PMID:34017945
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8121092/
Abstract

Genome analysis relies on reference data like sequences, feature annotations, and aligner indexes. These data can be found in many versions from many sources, making it challenging to identify and assess compatibility among them. For example, how can you determine which indexes are derived from identical raw sequence files, or which annotations share a compatible coordinate system? Here, we describe a novel approach to establish identity and compatibility of reference genome resources. We approach this with three advances: first, we derive unique identifiers for each resource; second, we record parent-child relationships among resources; and third, we describe recursive identifiers that determine identity as well as compatibility of coordinate systems and sequence names. These advances facilitate portability, reproducibility, and re-use of genome reference data. https://refgenie.databio.org.

摘要

基因组分析依赖于诸如序列、特征注释和比对索引等参考数据。这些数据可以从许多来源找到许多版本,这使得识别和评估它们之间的兼容性具有挑战性。例如,你如何确定哪些索引来自相同的原始序列文件,或者哪些注释共享兼容的坐标系?在这里,我们描述了一种建立参考基因组资源的同一性和兼容性的新方法。我们通过三个进展来实现这一点:第一,我们为每个资源派生唯一标识符;第二,我们记录资源之间的父子关系;第三,我们描述递归标识符,这些标识符确定坐标系和序列名称的同一性以及兼容性。这些进展促进了基因组参考数据的可移植性、可重复性和再利用。https://refgenie.databio.org 。

相似文献

1
Identity and compatibility of reference genome resources.参考基因组资源的一致性和兼容性。
NAR Genom Bioinform. 2021 May 14;3(2):lqab036. doi: 10.1093/nargab/lqab036. eCollection 2021 Jun.
2
Refgenie: a reference genome resource manager.Refgenie:参考基因组资源管理器。
Gigascience. 2020 Feb 1;9(2). doi: 10.1093/gigascience/giz149.
3
Expanding the Galaxy's reference data.扩展星系的参考数据。
Bioinform Adv. 2022 Apr 29;2(1):vbac030. doi: 10.1093/bioadv/vbac030. eCollection 2022.
4
Pairagon: a highly accurate, HMM-based cDNA-to-genome aligner.派拉贡:一种基于隐马尔可夫模型的高度精确的cDNA到基因组比对工具。
Bioinformatics. 2009 Jul 1;25(13):1587-93. doi: 10.1093/bioinformatics/btp273. Epub 2009 May 4.
5
6
Identifiers.org: Compact Identifier services in the cloud.标识符组织:云端的简洁标识符服务。
Bioinformatics. 2021 Jul 19;37(12):1781-1782. doi: 10.1093/bioinformatics/btaa864.
7
Identifiers.org and MIRIAM Registry: community resources to provide persistent identification.Identifiers.org 和 MIRIAM 注册表:为提供持久标识提供社区资源。
Nucleic Acids Res. 2012 Jan;40(Database issue):D580-6. doi: 10.1093/nar/gkr1097. Epub 2011 Dec 2.
8
Genome Annotation Transfer Utility (GATU): rapid annotation of viral genomes using a closely related reference genome.基因组注释转移工具(GATU):利用密切相关的参考基因组对病毒基因组进行快速注释。
BMC Genomics. 2006 Jun 13;7:150. doi: 10.1186/1471-2164-7-150.
9
Multisite test-retest reliability and compatibility of brain metrics derived from FreeSurfer versions 7.1, 6.0, and 5.3.多站点测试-再测试可靠性和 FreeSurfer 版本 7.1、6.0 和 5.3 衍生脑测量指标的兼容性。
Hum Brain Mapp. 2023 Mar;44(4):1515-1532. doi: 10.1002/hbm.26147. Epub 2022 Nov 27.
10
genomepy: genes and genomes at your fingertips.genomepy:指尖上的基因和基因组。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad119.

引用本文的文献

1
CHOIR improves significance-based detection of cell types and states from single-cell data.CHOIR改进了基于显著性的单细胞数据中细胞类型和状态的检测。
Nat Genet. 2025 May;57(5):1309-1319. doi: 10.1038/s41588-025-02148-8. Epub 2025 Apr 7.
2
Fine-tuning GBS data with comparison of reference and mock genome approaches for advancing genomic selection in less studied farmed species.通过比较参考基因组和模拟基因组方法对无乳链球菌数据进行微调,以推进对研究较少的养殖物种的基因组选择。
BMC Genomics. 2025 Feb 5;26(1):111. doi: 10.1186/s12864-025-11296-4.
3
CHOIR improves significance-based detection of cell types and states from single-cell data.

本文引用的文献

1
Expanding the Galaxy's reference data.扩展星系的参考数据。
Bioinform Adv. 2022 Apr 29;2(1):vbac030. doi: 10.1093/bioadv/vbac030. eCollection 2022.
2
The GA4GH Variation Representation Specification: A computational framework for variation representation and federated identification.GA4GH变异表示规范:变异表示与联合识别的计算框架。
Cell Genom. 2021 Nov 10;1(2). doi: 10.1016/j.xgen.2021.100027.
3
Refget: standardized access to reference sequences.Refget:标准化参考序列访问。
CHOIR可提高基于显著性的单细胞数据中细胞类型和状态的检测能力。
bioRxiv. 2025 Feb 19:2024.01.18.576317. doi: 10.1101/2024.01.18.576317.
4
Opportunities and challenges in sharing and reusing genomic interval data.共享和再利用基因组区间数据中的机遇与挑战。
Front Genet. 2023 Mar 20;14:1155809. doi: 10.3389/fgene.2023.1155809. eCollection 2023.
5
From biomedical cloud platforms to microservices: next steps in FAIR data and analysis.从生物医学云平台到微服务:FAIR 数据和分析的下一步。
Sci Data. 2022 Sep 8;9(1):553. doi: 10.1038/s41597-022-01619-5.
6
Linking big biomedical datasets to modular analysis with Portable Encapsulated Projects.将大型生物医学数据集链接到带有可移植封装项目的模块化分析中。
Gigascience. 2021 Dec 6;10(12). doi: 10.1093/gigascience/giab077.
7
PEPATAC: an optimized pipeline for ATAC-seq data analysis with serial alignments.PEPATAC:一种用于通过序列比对进行ATAC-seq数据分析的优化流程。
NAR Genom Bioinform. 2021 Nov 23;3(4):lqab101. doi: 10.1093/nargab/lqab101. eCollection 2021 Dec.
Bioinformatics. 2021 Dec 22;38(1):299-300. doi: 10.1093/bioinformatics/btab524.
4
Go Get Data (GGD) is a framework that facilitates reproducible access to genomic data.获取数据(Go Get Data,GGD)是一个促进基因组数据可重现访问的框架。
Nat Commun. 2021 Apr 12;12(1):2151. doi: 10.1038/s41467-021-22381-z.
5
SeqRepo: A system for managing local collections of biological sequences.SeqRepo:一个用于管理生物序列本地集合的系统。
PLoS One. 2020 Dec 3;15(12):e0239883. doi: 10.1371/journal.pone.0239883. eCollection 2020.
6
Tximeta: Reference sequence checksums for provenance identification in RNA-seq.Tximeta:RNA-seq 中用于来源识别的参考序列校验和。
PLoS Comput Biol. 2020 Feb 25;16(2):e1007664. doi: 10.1371/journal.pcbi.1007664. eCollection 2020 Feb.
7
Refgenie: a reference genome resource manager.Refgenie:参考基因组资源管理器。
Gigascience. 2020 Feb 1;9(2). doi: 10.1093/gigascience/giz149.
8
Database resources of the National Center for Biotechnology Information.国家生物技术信息中心数据库资源。
Nucleic Acids Res. 2018 Jan 4;46(D1):D8-D13. doi: 10.1093/nar/gkx1095.
9
Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation.Ensembl核心软件资源:用于DNA序列和基因组注释的存储及编程访问。
Database (Oxford). 2017 Jan 1;2017(1). doi: 10.1093/database/bax020.
10
Assembly: a resource for assembled genomes at NCBI.组装:美国国立医学图书馆(NCBI)中已组装基因组的资源。
Nucleic Acids Res. 2016 Jan 4;44(D1):D73-80. doi: 10.1093/nar/gkv1226. Epub 2015 Nov 17.