• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用 Cuttlefish 2 实现可扩展、超快速和低内存消耗的紧凑 de Bruijn 图构建。

Scalable, ultra-fast, and low-memory construction of compacted de Bruijn graphs with Cuttlefish 2.

机构信息

Department of Computer Science, University of Maryland, College Park, USA.

Center for Bioinformatics and Computational Biology, University of Maryland, College Park, USA.

出版信息

Genome Biol. 2022 Sep 8;23(1):190. doi: 10.1186/s13059-022-02743-6.

DOI:10.1186/s13059-022-02743-6
PMID:36076275
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC9454175/
Abstract

The de Bruijn graph is a key data structure in modern computational genomics, and construction of its compacted variant resides upstream of many genomic analyses. As the quantity of genomic data grows rapidly, this often forms a computational bottleneck. We present Cuttlefish 2, significantly advancing the state-of-the-art for this problem. On a commodity server, it reduces the graph construction time for 661K bacterial genomes, of size 2.58Tbp, from 4.5 days to 17-23 h; and it constructs the graph for 1.52Tbp white spruce reads in approximately 10 h, while the closest competitor requires 54-58 h, using considerably more memory.

摘要

de Bruijn 图是现代计算基因组学中的关键数据结构,其精简变体的构建位于许多基因组分析的上游。随着基因组数据量的快速增长,这通常会形成计算瓶颈。我们提出了 Cuttlefish 2,显著推进了这个问题的现有技术水平。在一台商用服务器上,它将 661K 个大小为 2.58Tbp 的细菌基因组的图构建时间从 4.5 天缩短到 17-23 小时;它大约在 10 小时内构建了 1.52Tbp 的白色云杉读取的图,而最接近的竞争对手则需要 54-58 小时,并且使用了更多的内存。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/6e915efa6a8f/13059_2022_2743_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/44f8fbb3d1df/13059_2022_2743_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/4e9a38ad6d2b/13059_2022_2743_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/0abfc045200f/13059_2022_2743_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/6e915efa6a8f/13059_2022_2743_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/44f8fbb3d1df/13059_2022_2743_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/4e9a38ad6d2b/13059_2022_2743_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/0abfc045200f/13059_2022_2743_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0128/9454175/6e915efa6a8f/13059_2022_2743_Fig4_HTML.jpg

相似文献

1
Scalable, ultra-fast, and low-memory construction of compacted de Bruijn graphs with Cuttlefish 2.使用 Cuttlefish 2 实现可扩展、超快速和低内存消耗的紧凑 de Bruijn 图构建。
Genome Biol. 2022 Sep 8;23(1):190. doi: 10.1186/s13059-022-02743-6.
2
Cuttlefish: fast, parallel and low-memory compaction of de Bruijn graphs from large-scale genome collections.乌贼算法:从大规模基因组集合中快速、并行且低内存消耗的 de Bruijn 图压缩。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i177-i186. doi: 10.1093/bioinformatics/btab309.
3
Extremely fast construction and querying of compacted and colored de Bruijn graphs with GGCAT.使用 GGCAT 实现紧凑且着色的 de Bruijn 图的快速构建和查询。
Genome Res. 2023 Jul;33(7):1198-1207. doi: 10.1101/gr.277615.122. Epub 2023 May 30.
4
A space and time-efficient index for the compacted colored de Bruijn graph.一种用于压缩彩色 de Bruijn 图的空间和时间高效索引。
Bioinformatics. 2018 Jul 1;34(13):i169-i177. doi: 10.1093/bioinformatics/bty292.
5
Integrating long-range connectivity information into de Bruijn graphs.将长程连接信息整合到 de Bruijn 图中。
Bioinformatics. 2018 Aug 1;34(15):2556-2565. doi: 10.1093/bioinformatics/bty157.
6
Compacting de Bruijn graphs from sequencing data quickly and in low memory.从测序数据中快速且低内存地压缩德布鲁因图。
Bioinformatics. 2016 Jun 15;32(12):i201-i208. doi: 10.1093/bioinformatics/btw279.
7
Toward perfect reads: self-correction of short reads via mapping on de Bruijn graphs.迈向完美读段:通过在 De Bruijn 图上进行映射来自我纠正短读段。
Bioinformatics. 2020 Mar 1;36(5):1374-1381. doi: 10.1093/bioinformatics/btz102.
8
Read mapping on de Bruijn graphs.在德布鲁因图上进行读段映射。
BMC Bioinformatics. 2016 Jun 16;17(1):237. doi: 10.1186/s12859-016-1103-9.
9
Multiplex de Bruijn graphs enable genome assembly from long, high-fidelity reads.多重 de Bruijn 图可从长的、高保真的读取中进行基因组组装。
Nat Biotechnol. 2022 Jul;40(7):1075-1081. doi: 10.1038/s41587-022-01220-6. Epub 2022 Feb 28.
10
deGSM: Memory Scalable Construction Of Large Scale de Bruijn Graph.deGSM:大规模 de Bruijn 图的可扩展存储构建。
IEEE/ACM Trans Comput Biol Bioinform. 2021 Nov-Dec;18(6):2157-2166. doi: 10.1109/TCBB.2019.2913932. Epub 2021 Dec 8.

引用本文的文献

1
Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity.洛根:行星尺度的基因组组装研究生命的多样性。
bioRxiv. 2025 Sep 1:2024.07.30.605881. doi: 10.1101/2024.07.30.605881.
2
Bioinformatic Methodologies in Assessing Gut Microbiota.评估肠道微生物群的生物信息学方法
Microbiol Res (Pavia). 2024 Dec;15(4):2554-2574. doi: 10.3390/microbiolres15040170. Epub 2024 Dec 3.
3
QCatch: A framework for quality control assessment and analysis of single-cell sequencing data.QCatch:用于单细胞测序数据质量控制评估与分析的框架。

本文引用的文献

1
Sparse and skew hashing of K-mers.K- -mer 的稀疏和偏斜哈希。
Bioinformatics. 2022 Jun 24;38(Suppl 1):i185-i194. doi: 10.1093/bioinformatics/btac245.
2
An incrementally updatable and scalable system for large-scale sequence search using the Bentley-Saxe transformation.一种使用本特利-萨克斯变换进行大规模序列搜索的增量可更新且可扩展的系统。
Bioinformatics. 2022 Jun 13;38(12):3155-3163. doi: 10.1093/bioinformatics/btac142.
3
Exploring bacterial diversity via a curated and searchable snapshot of archived DNA sequences.通过对存档DNA序列的精心整理和可搜索快照探索细菌多样性。
bioRxiv. 2025 Jun 22:2025.06.15.659779. doi: 10.1101/2025.06.15.659779.
4
The open-closed mod-minimizer algorithm.开闭模极小化算法。
Algorithms Mol Biol. 2025 Mar 17;20(1):4. doi: 10.1186/s13015-025-00270-0.
5
Fast and Scalable Parallel External-Memory Construction of Colored Compacted de Bruijn Graphs with Cuttlefish 3.使用Cuttlefish 3进行彩色压缩德布鲁因图的快速且可扩展的并行外部内存构建
bioRxiv. 2025 Feb 6:2025.02.02.636161. doi: 10.1101/2025.02.02.636161.
6
MUSET: set of utilities for constructing abundance unitig matrices from sequencing data.MUSET:用于从测序数据构建丰度单元矩阵的实用工具集。
Bioinformatics. 2025 Mar 4;41(3). doi: 10.1093/bioinformatics/btaf054.
7
A stepwise guide for pangenome development in crop plants: an alfalfa (Medicago sativa) case study.作物泛基因组开发的分步指南:以紫花苜蓿(Medicago sativa)为例。
BMC Genomics. 2024 Oct 31;25(1):1022. doi: 10.1186/s12864-024-10931-w.
8
When less is more: sketching with minimizers in genomics.少即是多:基因组学中的最小化器草图。
Genome Biol. 2024 Oct 14;25(1):270. doi: 10.1186/s13059-024-03414-4.
9
Conway-Bromage-Lyndon (CBL): an exact, dynamic representation of k-mer sets.康威-布罗姆-林登 (CBL):一种精确的、动态的 k-mer 集表示方法。
Bioinformatics. 2024 Jun 28;40(Suppl 1):i48-i57. doi: 10.1093/bioinformatics/btae217.
10
Compression algorithm for colored de Bruijn graphs.彩色德布鲁因图的压缩算法。
Algorithms Mol Biol. 2024 May 26;19(1):20. doi: 10.1186/s13015-024-00254-6.
PLoS Biol. 2021 Nov 9;19(11):e3001421. doi: 10.1371/journal.pbio.3001421. eCollection 2021 Nov.
4
Minimizer-space de Bruijn graphs: Whole-genome assembly of long reads in minutes on a personal computer.最小化空间 de Bruijn 图:在个人计算机上数分钟内完成长读段的全基因组组装。
Cell Syst. 2021 Oct 20;12(10):958-968.e6. doi: 10.1016/j.cels.2021.08.009. Epub 2021 Sep 14.
5
HumGut: a comprehensive human gut prokaryotic genomes collection filtered by metagenome data.HumGut:基于宏基因组数据过滤的综合人类肠道原核基因组集。
Microbiome. 2021 Jul 31;9(1):165. doi: 10.1186/s40168-021-01114-w.
6
Cuttlefish: fast, parallel and low-memory compaction of de Bruijn graphs from large-scale genome collections.乌贼算法:从大规模基因组集合中快速、并行且低内存消耗的 de Bruijn 图压缩。
Bioinformatics. 2021 Jul 12;37(Suppl_1):i177-i186. doi: 10.1093/bioinformatics/btab309.
7
PuffAligner: a fast, efficient and accurate aligner based on the Pufferfish index.PuffAligner:基于 Pufferfish 索引的快速、高效、准确的比对工具。
Bioinformatics. 2021 Nov 18;37(22):4048-4055. doi: 10.1093/bioinformatics/btab408.
8
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.
9
BLight: efficient exact associative structure for k-mers.BLight:用于k-mer的高效精确关联结构。
Bioinformatics. 2021 Sep 29;37(18):2858-2865. doi: 10.1093/bioinformatics/btab217.
10
Scalable multiple whole-genome alignment and locally collinear block construction with SibeliaZ.使用 SibeliaZ 进行可扩展的多基因组全序列比对和局部共线性块构建。
Nat Commun. 2020 Dec 10;11(1):6327. doi: 10.1038/s41467-020-19777-8.