• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

deBGR:一种高效且近乎精确的加权 de Bruijn 图表示方法。

deBGR: an efficient and near-exact representation of the weighted de Bruijn graph.

机构信息

Department of Computer Science, Stony Brook University, Stony Brook, NY, USA.

VMWare, Inc., Palo Alto, CA.

出版信息

Bioinformatics. 2017 Jul 15;33(14):i133-i141. doi: 10.1093/bioinformatics/btx261.

DOI:10.1093/bioinformatics/btx261
PMID:28881995
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC5870571/
Abstract

MOTIVATION

Almost all de novo short-read genome and transcriptome assemblers start by building a representation of the de Bruijn Graph of the reads they are given as input. Even when other approaches are used for subsequent assembly (e.g. when one is using 'long read' technologies like those offered by PacBio or Oxford Nanopore), efficient k -mer processing is still crucial for accurate assembly, and state-of-the-art long-read error-correction methods use de Bruijn Graphs. Because of the centrality of de Bruijn Graphs, researchers have proposed numerous methods for representing de Bruijn Graphs compactly. Some of these proposals sacrifice accuracy to save space. Further, none of these methods store abundance information, i.e. the number of times that each k -mer occurs, which is key in transcriptome assemblers.

RESULTS

We present a method for compactly representing the weighted de Bruijn Graph (i.e. with abundance information) with essentially no errors. Our representation yields zero errors while increasing the space requirements by less than 18-28% compared to the approximate de Bruijn graph representation in Squeakr. Our technique is based on a simple invariant that all weighted de Bruijn Graphs must satisfy, and hence is likely to be of general interest and applicable in most weighted de Bruijn Graph-based systems.

AVAILABILITY AND IMPLEMENTATION

https://github.com/splatlab/debgr .

CONTACT

rob.patro@cs.stonybrook.edu.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

几乎所有从头开始的短读基因组和转录组装配器都从构建输入的读取的 de Bruijn 图的表示开始。即使在后续组装中使用其他方法(例如,当使用 PacBio 或 Oxford Nanopore 等“长读”技术时),高效的 k-mer 处理对于准确组装仍然至关重要,并且最先进的长读纠错方法使用 de Bruijn 图。由于 de Bruijn 图的中心性,研究人员已经提出了许多方法来紧凑地表示 de Bruijn 图。其中一些提案为了节省空间而牺牲了准确性。此外,这些方法都没有存储丰度信息,即每个 k-mer 出现的次数,这在转录组装配器中是关键。

结果

我们提出了一种紧凑表示加权 de Bruijn 图(即具有丰度信息)的方法,几乎没有错误。与 Squeakr 中的近似 de Bruijn 图表示相比,我们的表示方法增加的空间需求不到 18-28%,同时增加的错误为零。我们的技术基于所有加权 de Bruijn 图都必须满足的简单不变量,因此可能具有普遍的兴趣并且适用于大多数基于加权 de Bruijn 图的系统。

可用性和实现

https://github.com/splatlab/debgr。

联系方式

rob.patro@cs.stonybrook.edu。

补充信息

补充数据可在 Bioinformatics 在线获取。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/adb975841ba1/btx261f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/4cee6493a46c/btx261f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/b99166a82a9d/btx261f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/adb975841ba1/btx261f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/4cee6493a46c/btx261f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/b99166a82a9d/btx261f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ed32/5870571/adb975841ba1/btx261f3.jpg

相似文献

1
deBGR: an efficient and near-exact representation of the weighted de Bruijn graph.deBGR:一种高效且近乎精确的加权 de Bruijn 图表示方法。
Bioinformatics. 2017 Jul 15;33(14):i133-i141. doi: 10.1093/bioinformatics/btx261.
2
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
3
Integrating long-range connectivity information into de Bruijn graphs.将长程连接信息整合到 de Bruijn 图中。
Bioinformatics. 2018 Aug 1;34(15):2556-2565. doi: 10.1093/bioinformatics/bty157.
4
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
5
Lossless indexing with counting de Bruijn graphs.基于计数型 de Bruijn 图的无损索引
Genome Res. 2022 Sep 27;32(9):1754-1764. doi: 10.1101/gr.276607.122.
6
Integration of string and de Bruijn graphs for genome assembly.用于基因组组装的弦图与德布鲁因图整合
Bioinformatics. 2016 May 1;32(9):1301-7. doi: 10.1093/bioinformatics/btw011. Epub 2016 Jan 10.
7
Toward perfect reads: self-correction of short reads via mapping on de Bruijn graphs.迈向完美读段:通过在 De Bruijn 图上进行映射来自我纠正短读段。
Bioinformatics. 2020 Mar 1;36(5):1374-1381. doi: 10.1093/bioinformatics/btz102.
8
Inference of viral quasispecies with a paired de Bruijn graph.基于配对 de Bruijn 图的病毒准种推断。
Bioinformatics. 2021 May 1;37(4):473-481. doi: 10.1093/bioinformatics/btaa782.
9
Benchmarking of de novo assembly algorithms for Nanopore data reveals optimal performance of OLC approaches.用于纳米孔数据的从头组装算法基准测试揭示了重叠布局一致(OLC)方法的最佳性能。
BMC Genomics. 2016 Aug 22;17 Suppl 7(Suppl 7):507. doi: 10.1186/s12864-016-2895-8.
10
MBG: Minimizer-based sparse de Bruijn Graph construction.MBG:基于最小化器的稀疏德布鲁因图构建。
Bioinformatics. 2021 Aug 25;37(16):2476-2478. doi: 10.1093/bioinformatics/btab004.

引用本文的文献

1
Applications of de Bruijn graphs in microbiome research.德布鲁因图在微生物组研究中的应用。
Imeta. 2022 Mar 1;1(1):e4. doi: 10.1002/imt2.4. eCollection 2022 Mar.
2
On weighted k-mer dictionaries.关于加权k-元字典。
Algorithms Mol Biol. 2023 Jun 17;18(1):3. doi: 10.1186/s13015-023-00226-2.
3
Easy353: A Tool to Get Angiosperms353 Genes for Phylogenomic Research.Easy353:一个用于系统基因组学研究的被子植物 353 基因的工具。

本文引用的文献

1
Squeakr: an exact and approximate k-mer counting system.Squeakr:一种精确和近似的 k-mer 计数系统。
Bioinformatics. 2018 Feb 15;34(4):568-575. doi: 10.1093/bioinformatics/btx636.
2
kWIP: The k-mer weighted inner product, a de novo estimator of genetic similarity.kWIP:k-mer加权内积,一种遗传相似性的从头估计器。
PLoS Comput Biol. 2017 Sep 5;13(9):e1005727. doi: 10.1371/journal.pcbi.1005727. eCollection 2017 Sep.
3
Canu: scalable and accurate long-read assembly via adaptive -mer weighting and repeat separation.Canu:通过自适应k-mer加权和重复序列分离实现可扩展且准确的长读长序列拼接
Mol Biol Evol. 2022 Dec 5;39(12). doi: 10.1093/molbev/msac261.
4
An incrementally updatable and scalable system for large-scale sequence search using the Bentley-Saxe transformation.一种使用本特利-萨克斯变换进行大规模序列搜索的增量可更新且可扩展的系统。
Bioinformatics. 2022 Jun 13;38(12):3155-3163. doi: 10.1093/bioinformatics/btac142.
5
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.
6
Representation of -Mer Sets Using Spectrum-Preserving String Sets.使用谱保持串集表示 -Mer 集。
J Comput Biol. 2021 Apr;28(4):381-394. doi: 10.1089/cmb.2020.0431. Epub 2020 Dec 7.
7
An Efficient, Scalable, and Exact Representation of High-Dimensional Color Information Enabled Using de Bruijn Graph Search.使用德布鲁因图搜索实现高维颜色信息的高效、可扩展且精确表示。
J Comput Biol. 2020 Apr;27(4):485-499. doi: 10.1089/cmb.2019.0322. Epub 2020 Mar 16.
8
When the levee breaks: a practical guide to sketching algorithms for processing the flood of genomic data.决堤之时:算法速写实用指南,助你应对基因组洪流。
Genome Biol. 2019 Sep 13;20(1):199. doi: 10.1186/s13059-019-1809-x.
9
Dynamic compression schemes for graph coloring.用于图着色的动态压缩方案。
Bioinformatics. 2019 Feb 1;35(3):407-414. doi: 10.1093/bioinformatics/bty632.
10
Mantis: A Fast, Small, and Exact Large-Scale Sequence-Search Index.螳螂:一种快速、小巧、精确的大规模序列搜索索引。
Cell Syst. 2018 Aug 22;7(2):201-207.e4. doi: 10.1016/j.cels.2018.05.021. Epub 2018 Jun 20.
Genome Res. 2017 May;27(5):722-736. doi: 10.1101/gr.215087.116. Epub 2017 Mar 15.
4
Improved assembly of noisy long reads by k-mer validation.通过k-mer验证改进嘈杂长读段的组装。
Genome Res. 2016 Dec;26(12):1710-1720. doi: 10.1101/gr.209247.116. Epub 2016 Oct 7.
5
Improving Bloom Filter Performance on Sequence Data Using k-mer Bloom Filters.使用k-mer布隆过滤器提高序列数据上的布隆过滤器性能。
J Comput Biol. 2017 Jun;24(6):547-557. doi: 10.1089/cmb.2016.0155. Epub 2016 Nov 9.
6
Accurate self-correction of errors in long reads using de Bruijn graphs.使用德布鲁因图对长读段中的错误进行准确的自我校正。
Bioinformatics. 2017 Mar 15;33(6):799-806. doi: 10.1093/bioinformatics/btw321.
7
BinPacker: Packing-Based De Novo Transcriptome Assembly from RNA-seq Data.BinPacker:基于装箱法的RNA测序数据从头转录组组装
PLoS Comput Biol. 2016 Feb 19;12(2):e1004772. doi: 10.1371/journal.pcbi.1004772. eCollection 2016 Feb.
8
Fast search of thousands of short-read sequencing experiments.快速搜索数千个短读长测序实验。
Nat Biotechnol. 2016 Mar;34(3):300-2. doi: 10.1038/nbt.3442. Epub 2016 Feb 8.
9
Bridger: a new framework for de novo transcriptome assembly using RNA-seq data.布里杰:一种使用RNA测序数据进行从头转录组组装的新框架。
Genome Biol. 2015 Feb 11;16(1):30. doi: 10.1186/s13059-015-0596-2.
10
These are not the k-mers you are looking for: efficient online k-mer counting using a probabilistic data structure.这些不是你要找的k-mer:使用概率数据结构进行高效在线k-mer计数。
PLoS One. 2014 Jul 25;9(7):e101271. doi: 10.1371/journal.pone.0101271. eCollection 2014.