• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于布隆过滤器的空间高效且精确的德布鲁因图表示。

Space-efficient and exact de Bruijn graph representation based on a Bloom filter.

作者信息

Chikhi Rayan, Rizk Guillaume

机构信息

Computer Science department, ENS Cachan / IRISA / INRIA, Rennes 35042, France.

出版信息

Algorithms Mol Biol. 2013 Sep 16;8(1):22. doi: 10.1186/1748-7188-8-22.

DOI:10.1186/1748-7188-8-22
PMID:24040893
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3848682/
Abstract

BACKGROUND

The de Bruijn graph data structure is widely used in next-generation sequencing (NGS). Many programs, e.g. de novo assemblers, rely on in-memory representation of this graph. However, current techniques for representing the de Bruijn graph of a human genome require a large amount of memory (≥30 GB).

RESULTS

We propose a new encoding of the de Bruijn graph, which occupies an order of magnitude less space than current representations. The encoding is based on a Bloom filter, with an additional structure to remove critical false positives.

CONCLUSIONS

An assembly software implementing this structure, Minia, performed a complete de novo assembly of human genome short reads using 5.7 GB of memory in 23 hours.

摘要

背景

德布鲁因图数据结构在下一代测序(NGS)中被广泛使用。许多程序,例如从头组装器,依赖于该图的内存表示。然而,目前用于表示人类基因组德布鲁因图的技术需要大量内存(≥30GB)。

结果

我们提出了一种新的德布鲁因图编码方式,其占用的空间比当前表示方式少一个数量级。该编码基于布隆过滤器,并带有一个额外的结构来消除关键的误报。

结论

一个实现这种结构的组装软件Minia,在23小时内使用5.7GB内存完成了人类基因组短读长的完整从头组装。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/30efb9dae39d/1748-7188-8-22-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/fb48fe5f672c/1748-7188-8-22-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/60dfa10feef5/1748-7188-8-22-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/30efb9dae39d/1748-7188-8-22-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/fb48fe5f672c/1748-7188-8-22-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/60dfa10feef5/1748-7188-8-22-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/2189/3848682/30efb9dae39d/1748-7188-8-22-3.jpg

相似文献

1
Space-efficient and exact de Bruijn graph representation based on a Bloom filter.基于布隆过滤器的空间高效且精确的德布鲁因图表示。
Algorithms Mol Biol. 2013 Sep 16;8(1):22. doi: 10.1186/1748-7188-8-22.
2
deBGR: an efficient and near-exact representation of the weighted de Bruijn graph.deBGR:一种高效且近乎精确的加权 de Bruijn 图表示方法。
Bioinformatics. 2017 Jul 15;33(14):i133-i141. doi: 10.1093/bioinformatics/btx261.
3
FastEtch: A Fast Sketch-Based Assembler for Genomes.FastEtch:一种基于草图的快速基因组装配器。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Jul-Aug;16(4):1091-1106. doi: 10.1109/TCBB.2017.2737999. Epub 2017 Sep 11.
4
Evaluating de Bruijn graph assemblers on 454 transcriptomic data.评估 454 转录组数据的 de Bruijn 图组装程序。
PLoS One. 2012;7(12):e51188. doi: 10.1371/journal.pone.0051188. Epub 2012 Dec 7.
5
MegaGTA: a sensitive and accurate metagenomic gene-targeted assembler using iterative de Bruijn graphs.MegaGTA:一种使用迭代德布鲁因图的灵敏且准确的宏基因组基因靶向组装器。
BMC Bioinformatics. 2017 Oct 16;18(Suppl 12):408. doi: 10.1186/s12859-017-1825-3.
6
On the representation of de Bruijn graphs.关于德布鲁因图的表示。
J Comput Biol. 2015 May;22(5):336-52. doi: 10.1089/cmb.2014.0160. Epub 2015 Jan 28.
7
HaVec: An Efficient de Bruijn Graph Construction Algorithm for Genome Assembly.HaVec:一种用于基因组组装的高效德布鲁因图构建算法
Int J Genomics. 2017;2017:6120980. doi: 10.1155/2017/6120980. Epub 2017 Aug 27.
8
Multiplex de Bruijn graphs enable genome assembly from long, high-fidelity reads.多重 de Bruijn 图可从长的、高保真的读取中进行基因组组装。
Nat Biotechnol. 2022 Jul;40(7):1075-1081. doi: 10.1038/s41587-022-01220-6. Epub 2022 Feb 28.
9
Clover: a clustering-oriented de novo assembler for Illumina sequences.Clover:一款面向聚类的 Illumina 序列从头组装程序。
BMC Bioinformatics. 2020 Nov 17;21(1):528. doi: 10.1186/s12859-020-03788-9.
10
Benchmarking of de novo assembly algorithms for Nanopore data reveals optimal performance of OLC approaches.用于纳米孔数据的从头组装算法基准测试揭示了重叠布局一致(OLC)方法的最佳性能。
BMC Genomics. 2016 Aug 22;17 Suppl 7(Suppl 7):507. doi: 10.1186/s12864-016-2895-8.

引用本文的文献

1
SSR_VibraProfiler: a Python package for accurate classification of varieties using SSRs with intra-variety specificity and inter-variety polymorphism.SSR_VibraProfiler:一个用于使用具有品种内特异性和品种间多态性的简单序列重复(SSR)对品种进行准确分类的Python软件包。
Plant Methods. 2025 May 16;21(1):61. doi: 10.1186/s13007-025-01380-x.
2
Fast and Scalable Parallel External-Memory Construction of Colored Compacted de Bruijn Graphs with Cuttlefish 3.使用Cuttlefish 3进行彩色压缩德布鲁因图的快速且可扩展的并行外部内存构建
bioRxiv. 2025 Feb 6:2025.02.02.636161. doi: 10.1101/2025.02.02.636161.
3
-mer approaches for biodiversity genomics.

本文引用的文献

1
DSK: k-mer counting with very low memory usage.DSK:使用极低内存进行 k-mer 计数。
Bioinformatics. 2013 Mar 1;29(5):652-3. doi: 10.1093/bioinformatics/btt020. Epub 2013 Jan 16.
2
Scaling metagenome sequence assembly with probabilistic de Bruijn graphs.基于概率有向图的宏基因组序列组装规模化方法。
Proc Natl Acad Sci U S A. 2012 Aug 14;109(33):13272-7. doi: 10.1073/pnas.1121464109. Epub 2012 Jul 30.
3
KISSPLICE: de-novo calling alternative splicing events from RNA-seq data.KISSPLICE:从 RNA-seq 数据中进行新的剪接事件调用。
用于生物多样性基因组学的-mer方法。
Genome Res. 2025 Feb 14;35(2):219-230. doi: 10.1101/gr.279452.124.
4
Phylogeographic and genetic insights into Sinonychia martensi: an endemic cave-dwelling harvestman in Beijing.关于中华巨齿蛉的系统地理学和遗传学见解:一种北京特有的洞穴栖息盲蛛。
BMC Ecol Evol. 2025 Jan 8;25(1):5. doi: 10.1186/s12862-024-02341-z.
5
Structural variation in the pangenome of wild and domesticated barley.野生和驯化大麦泛基因组中的结构变异
Nature. 2024 Dec;636(8043):654-662. doi: 10.1038/s41586-024-08187-1. Epub 2024 Nov 13.
6
Phylogeny and evolution of hemipteran insects based on expanded genomic and transcriptomic data.基于扩展基因组和转录组数据的半翅目昆虫的系统发育和进化。
BMC Biol. 2024 Sep 2;22(1):190. doi: 10.1186/s12915-024-01991-1.
7
Maptcha: an efficient parallel workflow for hybrid genome scaffolding.Maptcha:一种用于混合基因组支架构建的高效并行工作流程。
BMC Bioinformatics. 2024 Aug 8;25(1):263. doi: 10.1186/s12859-024-05878-4.
8
Label-guided seed-chain-extend alignment on annotated De Bruijn graphs.带标签的种子链扩展对齐标注的 De Bruijn 图。
Bioinformatics. 2024 Jun 28;40(Suppl 1):i337-i346. doi: 10.1093/bioinformatics/btae226.
9
Conway-Bromage-Lyndon (CBL): an exact, dynamic representation of k-mer sets.康威-布罗姆-林登 (CBL):一种精确的、动态的 k-mer 集表示方法。
Bioinformatics. 2024 Jun 28;40(Suppl 1):i48-i57. doi: 10.1093/bioinformatics/btae217.
10
Theoretical Analysis of Sequencing Bioinformatics Algorithms and Beyond.测序生物信息学算法及其他方面的理论分析
Commun ACM. 2023 Jul;66(7):118-125. doi: 10.1145/3571723. Epub 2023 Jun 22.
BMC Bioinformatics. 2012 Apr 19;13 Suppl 6(Suppl 6):S5. doi: 10.1186/1471-2105-13-S6-S5.
4
Exploiting sparseness in de novo genome assembly.从头组装基因组中的稀疏性利用。
BMC Bioinformatics. 2012 Apr 19;13 Suppl 6(Suppl 6):S1. doi: 10.1186/1471-2105-13-S6-S1.
5
Mapsembler, targeted and micro assembly of large NGS datasets on a desktop computer.Mapsembler,在台式计算机上对大型 NGS 数据集进行靶向和微组装。
BMC Bioinformatics. 2012 Mar 23;13:48. doi: 10.1186/1471-2105-13-48.
6
De novo assembly and genotyping of variants using colored de Bruijn graphs.利用有色 de Bruijn 图进行从头组装和变体基因分型。
Nat Genet. 2012 Jan 8;44(2):226-32. doi: 10.1038/ng.1028.
7
GAGE: A critical evaluation of genome assemblies and assembly algorithms.盖奇:基因组组装和算法的关键评估。
Genome Res. 2012 Mar;22(3):557-67. doi: 10.1101/gr.131383.111. Epub 2012 Jan 6.
8
Meta-IDBA: a de Novo assembler for metagenomic data.Meta-IDBA:一种用于宏基因组数据的从头组装程序。
Bioinformatics. 2011 Jul 1;27(13):i94-101. doi: 10.1093/bioinformatics/btr216.
9
Targeted assembly of short sequence reads.靶向组装短序列读段。
PLoS One. 2011 May 11;6(5):e19816. doi: 10.1371/journal.pone.0019816.
10
Full-length transcriptome assembly from RNA-Seq data without a reference genome.无参考基因组的 RNA-Seq 数据的全长转录组组装。
Nat Biotechnol. 2011 May 15;29(7):644-52. doi: 10.1038/nbt.1883.