• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

关于德布鲁因图的表示。

On the representation of de Bruijn graphs.

作者信息

Chikhi Rayan, Limasset Antoine, Jackman Shaun, Simpson Jared T, Medvedev Paul

机构信息

1 Department of Computer Science and Engineering, The Pennsylvania State University , State College, Pennsylvania.

出版信息

J Comput Biol. 2015 May;22(5):336-52. doi: 10.1089/cmb.2014.0160. Epub 2015 Jan 28.

DOI:10.1089/cmb.2014.0160
PMID:25629448
Abstract

The de Bruijn graph plays an important role in bioinformatics, especially in the context of de novo assembly. However, the representation of the de Bruijn graph in memory is a computational bottleneck for many assemblers. Recent papers proposed a navigational data structure approach in order to improve memory usage. We prove several theoretical space lower bounds to show the limitations of these types of approaches. We further design and implement a general data structure (dbgfm) and demonstrate its use on a human whole-genome dataset, achieving space usage of 1.5 GB and a 46% improvement over previous approaches. As part of dbgfm, we develop the notion of frequency-based minimizers and show how it can be used to enumerate all maximal simple paths of the de Bruijn graph using only 43 MB of memory. Finally, we demonstrate that our approach can be integrated into an existing assembler by modifying the ABySS software to use dbgfm.

摘要

德布鲁因图在生物信息学中起着重要作用,尤其是在从头组装的背景下。然而,德布鲁因图在内存中的表示对于许多组装器来说是一个计算瓶颈。最近的论文提出了一种导航数据结构方法,以提高内存使用效率。我们证明了几个理论空间下限,以展示这些类型方法的局限性。我们进一步设计并实现了一种通用数据结构(dbgfm),并在人类全基因组数据集上展示了它的使用情况,实现了1.5GB的空间使用量,比以前的方法提高了46%。作为dbgfm的一部分,我们提出了基于频率的最小化器的概念,并展示了如何仅使用43MB的内存来枚举德布鲁因图的所有最大简单路径。最后,我们证明了我们的方法可以通过修改ABySS软件以使用dbgfm集成到现有的组装器中。

相似文献

1
On the representation of de Bruijn graphs.关于德布鲁因图的表示。
J Comput Biol. 2015 May;22(5):336-52. doi: 10.1089/cmb.2014.0160. Epub 2015 Jan 28.
2
Benchmarking of de novo assembly algorithms for Nanopore data reveals optimal performance of OLC approaches.用于纳米孔数据的从头组装算法基准测试揭示了重叠布局一致(OLC)方法的最佳性能。
BMC Genomics. 2016 Aug 22;17 Suppl 7(Suppl 7):507. doi: 10.1186/s12864-016-2895-8.
3
BrownieAligner: accurate alignment of Illumina sequencing data to de Bruijn graphs.BrownieAligner:Illumina 测序数据到 de Bruijn 图的精确比对。
BMC Bioinformatics. 2018 Sep 4;19(1):311. doi: 10.1186/s12859-018-2319-7.
4
dipSPAdes: Assembler for Highly Polymorphic Diploid Genomes.dipSPAdes:用于高度多态二倍体基因组的组装器。
J Comput Biol. 2015 Jun;22(6):528-45. doi: 10.1089/cmb.2014.0153. Epub 2015 Mar 3.
5
Integrating long-range connectivity information into de Bruijn graphs.将长程连接信息整合到 de Bruijn 图中。
Bioinformatics. 2018 Aug 1;34(15):2556-2565. doi: 10.1093/bioinformatics/bty157.
6
Heuristic pairwise alignment of de Bruijn graphs to facilitate simultaneous transcript discovery in related organisms from RNA-Seq data.用于促进从RNA测序数据中同时发现相关生物体中转录本的de Bruijn图启发式成对比对。
BMC Genomics. 2015;16 Suppl 11(Suppl 11):S5. doi: 10.1186/1471-2164-16-S11-S5. Epub 2015 Nov 10.
7
Memory efficient assembly of human genome.人类基因组的内存高效组装
J Bioinform Comput Biol. 2015 Apr;13(2):1550008. doi: 10.1142/S0219720015500080. Epub 2014 Dec 17.
8
Assembly of long error-prone reads using de Bruijn graphs.使用德布鲁因图组装长易错读段。
Proc Natl Acad Sci U S A. 2016 Dec 27;113(52):E8396-E8405. doi: 10.1073/pnas.1604560113. Epub 2016 Dec 12.
9
Efficient parallel and out of core algorithms for constructing large bi-directed de Bruijn graphs.用于构建大型双向 de Bruijn 图的高效并行和外核算法。
BMC Bioinformatics. 2010 Nov 15;11:560. doi: 10.1186/1471-2105-11-560.
10
FastEtch: A Fast Sketch-Based Assembler for Genomes.FastEtch:一种基于草图的快速基因组装配器。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Jul-Aug;16(4):1091-1106. doi: 10.1109/TCBB.2017.2737999. Epub 2017 Sep 11.

引用本文的文献

1
GreedyMini: generating low-density DNA minimizers.GreedyMini:生成低密度DNA最小化子
Bioinformatics. 2025 Jul 1;41(Supplement_1):i275-i284. doi: 10.1093/bioinformatics/btaf251.
2
K2R: Tinted de Bruijn graphs implementation for efficient read extraction from sequencing datasets.K2R:用于从测序数据集中高效提取 reads 的带颜色的德布鲁因图实现。
Bioinform Adv. 2025 May 14;5(1):vbaf111. doi: 10.1093/bioadv/vbaf111. eCollection 2025.
3
Fast and Scalable Parallel External-Memory Construction of Colored Compacted de Bruijn Graphs with Cuttlefish 3.
使用Cuttlefish 3进行彩色压缩德布鲁因图的快速且可扩展的并行外部内存构建
bioRxiv. 2025 Feb 6:2025.02.02.636161. doi: 10.1101/2025.02.02.636161.
4
Gra-CRC-miRTar: The pre-trained nucleotide-to-graph neural networks to identify potential miRNA targets in colorectal cancer.Gra-CRC-miRTar:用于识别结直肠癌中潜在miRNA靶点的预训练核苷酸到图形神经网络。
Comput Struct Biotechnol J. 2024 Jul 18;23:3020-3029. doi: 10.1016/j.csbj.2024.07.014. eCollection 2024 Dec.
5
Methods for Pangenomic Core Detection.泛基因组核心检测方法。
Methods Mol Biol. 2024;2802:73-106. doi: 10.1007/978-1-0716-3838-5_4.
6
Gra-CRC-miRTar: The pre-trained nucleotide-to-graph neural networks to identify potential miRNA targets in colorectal cancer.Gra-CRC-miRTar:用于识别结直肠癌中潜在miRNA靶点的预训练核苷酸到图形神经网络。
bioRxiv. 2024 Apr 20:2024.04.15.589599. doi: 10.1101/2024.04.15.589599.
7
Creating and Using Minimizer Sketches in Computational Genomics.在计算基因组学中创建和使用最小草图。
J Comput Biol. 2023 Dec;30(12):1251-1276. doi: 10.1089/cmb.2023.0094. Epub 2023 Aug 30.
8
Scalable sequence database search using partitioned aggregated Bloom comb trees.基于分区聚合布隆过滤树的可扩展序列数据库搜索。
Bioinformatics. 2023 Jun 30;39(39 Suppl 1):i252-i259. doi: 10.1093/bioinformatics/btad225.
9
Locality-preserving minimal perfect hashing of k-mers.保局最小完美哈希的 k- -mer。
Bioinformatics. 2023 Jun 30;39(Suppl 1):i534-i543. doi: 10.1093/bioinformatics/btad219.
10
Scalable, ultra-fast, and low-memory construction of compacted de Bruijn graphs with Cuttlefish 2.使用 Cuttlefish 2 实现可扩展、超快速和低内存消耗的紧凑 de Bruijn 图构建。
Genome Biol. 2022 Sep 8;23(1):190. doi: 10.1186/s13059-022-02743-6.