• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

序列图中的距离索引和种子聚类。

Distance indexing and seed clustering in sequence graphs.

机构信息

Department of Biomolecular Engineering, University of California Santa Cruz Genomics Institute, Santa Cruz, CA 95060, USA.

出版信息

Bioinformatics. 2020 Jul 1;36(Suppl_1):i146-i153. doi: 10.1093/bioinformatics/btaa446.

DOI:10.1093/bioinformatics/btaa446
PMID:32657356
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7355256/
Abstract

MOTIVATION

Graph representations of genomes are capable of expressing more genetic variation and can therefore better represent a population than standard linear genomes. However, due to the greater complexity of genome graphs relative to linear genomes, some functions that are trivial on linear genomes become much more difficult in genome graphs. Calculating distance is one such function that is simple in a linear genome but complicated in a graph context. In read mapping algorithms such distance calculations are fundamental to determining if seed alignments could belong to the same mapping.

RESULTS

We have developed an algorithm for quickly calculating the minimum distance between positions on a sequence graph using a minimum distance index. We have also developed an algorithm that uses the distance index to cluster seeds on a graph. We demonstrate that our implementations of these algorithms are efficient and practical to use for a new generation of mapping algorithms based upon genome graphs.

AVAILABILITY AND IMPLEMENTATION

Our algorithms have been implemented as part of the vg toolkit and are available at https://github.com/vgteam/vg.

摘要

动机

基因组的图形表示能够表达更多的遗传变异,因此可以比标准的线性基因组更好地表示群体。然而,由于基因组图形相对于线性基因组的复杂性增加,一些在线性基因组上很简单的功能在基因组图形中变得更加困难。计算距离就是这样一个功能,它在线性基因组中很简单,但在图形上下文中却很复杂。在读取映射算法中,这些距离计算对于确定种子比对是否可以属于同一映射是非常基础的。

结果

我们开发了一种使用最小距离索引快速计算序列图上位置之间最小距离的算法。我们还开发了一种使用距离索引对图上的种子进行聚类的算法。我们证明,我们对这些算法的实现对于基于基因组图形的新一代映射算法来说是高效和实用的。

可用性和实现

我们的算法已经作为 vg 工具包的一部分实现,并可在 https://github.com/vgteam/vg 上获得。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/c54319de755d/btaa446f9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/da8524f58936/btaa446f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/b67b5992c497/btaa446f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/d63b1d2b1e8b/btaa446f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/ef4095cf93a4/btaa446f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/657adb2fea06/btaa446f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/6770c4f94243/btaa446f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/4faef0ac82a3/btaa446f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/72bd44580b51/btaa446f8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/c54319de755d/btaa446f9.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/da8524f58936/btaa446f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/b67b5992c497/btaa446f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/d63b1d2b1e8b/btaa446f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/ef4095cf93a4/btaa446f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/657adb2fea06/btaa446f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/6770c4f94243/btaa446f6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/4faef0ac82a3/btaa446f7.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/72bd44580b51/btaa446f8.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/d343/7355256/c54319de755d/btaa446f9.jpg

相似文献

1
Distance indexing and seed clustering in sequence graphs.序列图中的距离索引和种子聚类。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i146-i153. doi: 10.1093/bioinformatics/btaa446.
2
Haplotype-aware graph indexes.单体型感知图索引。
Bioinformatics. 2020 Jan 15;36(2):400-407. doi: 10.1093/bioinformatics/btz575.
3
Sequence tube maps: making graph genomes intuitive to commuters.序列管图:让图基因组更容易被通勤者理解。
Bioinformatics. 2019 Dec 15;35(24):5318-5320. doi: 10.1093/bioinformatics/btz597.
4
Efficient short read mapping to a pangenome that is represented by a graph of ED strings.高效的短读映射到由 ED 字符串图表示的泛基因组。
Bioinformatics. 2023 May 4;39(5). doi: 10.1093/bioinformatics/btad320.
5
Efficient dynamic variation graphs.高效动态变化图。
Bioinformatics. 2021 Jan 29;36(21):5139-5144. doi: 10.1093/bioinformatics/btaa640.
6
Chaining for accurate alignment of erroneous long reads to acyclic variation graphs.基于无环变异图的错误长读精确比对链。
Bioinformatics. 2023 Aug 1;39(8). doi: 10.1093/bioinformatics/btad460.
7
Fully-sensitive seed finding in sequence graphs using a hybrid index.使用混合索引在序列图中进行完全敏感的种子发现。
Bioinformatics. 2019 Jul 15;35(14):i81-i89. doi: 10.1093/bioinformatics/btz341.
8
Unbiased pangenome graphs.无偏泛基因组图。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac743.
9
Bit-parallel sequence-to-graph alignment.位并行序列到图的对齐。
Bioinformatics. 2019 Oct 1;35(19):3599-3607. doi: 10.1093/bioinformatics/btz162.
10
BubbleGun: enumerating bubbles and superbubbles in genome graphs.BubbleGun:基因组图中的泡和超泡枚举。
Bioinformatics. 2022 Sep 2;38(17):4217-4219. doi: 10.1093/bioinformatics/btac448.

引用本文的文献

1
Personalized pangenome references.个性化泛基因组参考序列。
Nat Methods. 2024 Nov;21(11):2017-2023. doi: 10.1038/s41592-024-02407-2. Epub 2024 Sep 11.
2
Maximum-scoring path sets on pangenome graphs of constant treewidth.常树宽泛基因组图上的最大得分路径集
Front Bioinform. 2024 Jul 1;4:1391086. doi: 10.3389/fbinf.2024.1391086. eCollection 2024.
3
Label-guided seed-chain-extend alignment on annotated De Bruijn graphs.带标签的种子链扩展对齐标注的 De Bruijn 图。

本文引用的文献

1
Bit-parallel sequence-to-graph alignment.位并行序列到图的对齐。
Bioinformatics. 2019 Oct 1;35(19):3599-3607. doi: 10.1093/bioinformatics/btz162.
2
Fast and accurate genomic analyses using genome graphs.利用基因组图谱进行快速准确的基因组分析。
Nat Genet. 2019 Feb;51(2):354-362. doi: 10.1038/s41588-018-0316-4. Epub 2019 Jan 14.
3
Variation graph toolkit improves read mapping by representing genetic variation in the reference.变异图谱工具包通过表示参考中的遗传变异来提高读映射质量。
Bioinformatics. 2024 Jun 28;40(Suppl 1):i337-i346. doi: 10.1093/bioinformatics/btae226.
4
Aligning distant sequences to graphs using long seed sketches.使用长种子草图对齐图上的远距离序列。
Genome Res. 2023 Jul;33(7):1208-1217. doi: 10.1101/gr.277659.123. Epub 2023 Apr 18.
5
Pangenomics enables genotyping of known structural variants in 5202 diverse genomes.泛基因组学能够对 5202 个不同基因组中的已知结构变异进行基因分型。
Science. 2021 Dec 17;374(6574):abg8871. doi: 10.1126/science.abg8871.
6
A variant selection framework for genome graphs.基因组图的变体选择框架。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i460-i467. doi: 10.1093/bioinformatics/btab302.
Nat Biotechnol. 2018 Oct;36(9):875-879. doi: 10.1038/nbt.4227. Epub 2018 Aug 20.
4
Superbubbles, Ultrabubbles, and Cacti.超级气泡、超气泡与仙人掌。
J Comput Biol. 2018 Jul;25(7):649-663. doi: 10.1089/cmb.2017.0251. Epub 2018 Feb 20.
5
Genome graphs and the evolution of genome inference.基因组图谱与基因组推断的演变
Genome Res. 2017 May;27(5):665-676. doi: 10.1101/gr.214155.116. Epub 2017 Mar 30.
6
Computational pan-genomics: status, promises and challenges.计算泛基因组学:现状、前景与挑战。
Brief Bioinform. 2018 Jan 1;19(1):118-135. doi: 10.1093/bib/bbw089.
7
Extensive sequencing of seven human genomes to characterize benchmark reference materials.对七个人类基因组进行广泛测序以表征基准参考材料。
Sci Data. 2016 Jun 7;3:160025. doi: 10.1038/sdata.2016.25.
8
Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences.Minimap和miniasm:用于有噪声长序列的快速映射和从头组装。
Bioinformatics. 2016 Jul 15;32(14):2103-10. doi: 10.1093/bioinformatics/btw152. Epub 2016 Mar 19.
9
Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls.整合人类序列数据集提供了一个基准 SNP 和 indel 基因型调用资源。
Nat Biotechnol. 2014 Mar;32(3):246-51. doi: 10.1038/nbt.2835. Epub 2014 Feb 16.
10
Simultaneous alignment of short reads against multiple genomes.同时将短读段比对到多个基因组上。
Genome Biol. 2009;10(9):R98. doi: 10.1186/gb-2009-10-9-r98. Epub 2009 Sep 17.