• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过系统发育压缩对微生物基因组进行高效且稳健的搜索。

Efficient and robust search of microbial genomes via phylogenetic compression.

作者信息

Břinda Karel, Lima Leandro, Pignotti Simone, Quinones-Olvera Natalia, Salikhov Kamil, Chikhi Rayan, Kucherov Gregory, Iqbal Zamin, Baym Michael

机构信息

Inria, Irisa, Univ. Rennes, Rennes, France.

Department of Biomedical Informatics, Harvard Medical School, Boston, MA, USA.

出版信息

Nat Methods. 2025 Apr;22(4):692-697. doi: 10.1038/s41592-025-02625-2. Epub 2025 Apr 9.

DOI:10.1038/s41592-025-02625-2
PMID:40205174
Abstract

Comprehensive collections approaching millions of sequenced genomes have become central information sources in the life sciences. However, the rapid growth of these collections has made it effectively impossible to search these data using tools such as the Basic Local Alignment Search Tool (BLAST) and its successors. Here, we present a technique called phylogenetic compression, which uses evolutionary history to guide compression and efficiently search large collections of microbial genomes using existing algorithms and data structures. We show that, when applied to modern diverse collections approaching millions of genomes, lossless phylogenetic compression improves the compression ratios of assemblies, de Bruijn graphs and k-mer indexes by one to two orders of magnitude. Additionally, we develop a pipeline for a BLAST-like search over these phylogeny-compressed reference data, and demonstrate it can align genes, plasmids or entire sequencing experiments against all sequenced bacteria until 2019 on ordinary desktop computers within a few hours. Phylogenetic compression has broad applications in computational biology and may provide a fundamental design principle for future genomics infrastructure.

摘要

接近数百万个测序基因组的综合数据集已成为生命科学中的核心信息来源。然而,这些数据集的快速增长使得使用诸如基本局部比对搜索工具(BLAST)及其后续工具来搜索这些数据几乎变得不可能。在此,我们提出了一种称为系统发育压缩的技术,该技术利用进化历史来指导压缩,并使用现有的算法和数据结构有效地搜索大量微生物基因组集合。我们表明,当应用于接近数百万个基因组的现代多样化集合时,无损系统发育压缩将组装体、德布鲁因图和k-mer索引的压缩率提高了一到两个数量级。此外,我们开发了一种用于对这些系统发育压缩的参考数据进行类似BLAST搜索的流程,并证明它可以在普通台式计算机上几小时内将基因、质粒或整个测序实验与截至2019年的所有已测序细菌进行比对。系统发育压缩在计算生物学中具有广泛的应用,并可能为未来的基因组学基础设施提供一个基本的设计原则。

相似文献

1
Efficient and robust search of microbial genomes via phylogenetic compression.通过系统发育压缩对微生物基因组进行高效且稳健的搜索。
Nat Methods. 2025 Apr;22(4):692-697. doi: 10.1038/s41592-025-02625-2. Epub 2025 Apr 9.
2
Efficient and Robust Search of Microbial Genomes via Phylogenetic Compression.通过系统发育压缩对微生物基因组进行高效且稳健的搜索
bioRxiv. 2024 May 11:2023.04.15.536996. doi: 10.1101/2023.04.15.536996.
3
Distributed hybrid-indexing of compressed pan-genomes for scalable and fast sequence alignment.压缩泛基因组的分布式混合索引,实现可扩展和快速的序列比对。
PLoS One. 2021 Aug 3;16(8):e0255260. doi: 10.1371/journal.pone.0255260. eCollection 2021.
4
Where the Patterns Are: Repetition-Aware Compression for Colored de Bruijn Graphs.模式所在:带重复感知的彩色 de Bruijn 图压缩。
J Comput Biol. 2024 Oct;31(10):1022-1044. doi: 10.1089/cmb.2024.0714. Epub 2024 Oct 9.
5
Enhanced Compression of -Mer Sets with Counters via de Bruijn Graphs.通过 de Bruijn 图对 -Mer 集进行增强型压缩与计数器。
J Comput Biol. 2024 Jun;31(6):524-538. doi: 10.1089/cmb.2024.0530. Epub 2024 May 31.
6
SCALCE: boosting sequence compression algorithms using locally consistent encoding.SCALCE:使用局部一致编码提升序列压缩算法。
Bioinformatics. 2012 Dec 1;28(23):3051-7. doi: 10.1093/bioinformatics/bts593. Epub 2012 Oct 9.
7
panX: pan-genome analysis and exploration.panX:泛基因组分析与探索。
Nucleic Acids Res. 2018 Jan 9;46(1):e5. doi: 10.1093/nar/gkx977.
8
zDB: bacterial comparative genomics made easy.zDB:轻松进行细菌比较基因组学研究。
mSystems. 2024 Jul 23;9(7):e0047324. doi: 10.1128/msystems.00473-24. Epub 2024 Jun 28.
9
Improving transmission efficiency of large sequence alignment/map (SAM) files.提高大规模序列比对/映射(SAM)文件的传输效率。
PLoS One. 2011;6(12):e28251. doi: 10.1371/journal.pone.0028251. Epub 2011 Dec 2.
10
AMRomics: a scalable workflow to analyze large microbial genome collections.AMRomics:一种可扩展的工作流程,用于分析大型微生物基因组数据集。
BMC Genomics. 2024 Jul 22;25(1):709. doi: 10.1186/s12864-024-10620-8.

引用本文的文献

1
CREMSA: compressed indexing of (ultra) large multiple sequence alignments.CREMSA:(超)大型多序列比对的压缩索引
Bioinformatics. 2025 Jul 1;41(Supplement_1):i246-i254. doi: 10.1093/bioinformatics/btaf211.
2
Where the Patterns Are: Repetition-Aware Compression for Colored de Bruijn Graphs.模式所在:带重复感知的彩色 de Bruijn 图压缩。
J Comput Biol. 2024 Oct;31(10):1022-1044. doi: 10.1089/cmb.2024.0714. Epub 2024 Oct 9.

本文引用的文献

1
AGC: compact representation of assembled genomes with fast queries and updates.AGC:带快速查询和更新功能的组装基因组的紧凑表示。
Bioinformatics. 2023 Mar 1;39(3). doi: 10.1093/bioinformatics/btad097.
2
Metagenome analysis using the Kraken software suite.基于 Kraken 软件套件的宏基因组分析。
Nat Protoc. 2022 Dec;17(12):2815-2839. doi: 10.1038/s41596-022-00738-y. Epub 2022 Sep 28.
3
MBGC: Multiple Bacteria Genome Compressor.MBGC:多细菌基因组压缩器。
Gigascience. 2022 Jan 27;11. doi: 10.1093/gigascience/giab099.
4
Bacterial genomic epidemiology with mixed samples.混合样本的细菌基因组流行病学研究。
Microb Genom. 2021 Nov;7(11). doi: 10.1099/mgen.0.000691.
5
Exploring bacterial diversity via a curated and searchable snapshot of archived DNA sequences.通过对存档DNA序列的精心整理和可搜索快照探索细菌多样性。
PLoS Biol. 2021 Nov 9;19(11):e3001421. doi: 10.1371/journal.pbio.3001421. eCollection 2021 Nov.
6
Disk compression of k-mer sets.k-mer集的磁盘压缩
Algorithms Mol Biol. 2021 Jun 21;16(1):10. doi: 10.1186/s13015-021-00192-7.
7
Simplitigs as an efficient and scalable representation of de Bruijn graphs.Simplitigs 作为一种高效且可扩展的 de Bruijn 图表示方法。
Genome Biol. 2021 Apr 6;22(1):96. doi: 10.1186/s13059-021-02297-z.
8
Data structures based on -mers for querying large collections of sequencing data sets.基于 - 元的序列数据集查询的大型数据集的数据结构。
Genome Res. 2021 Jan;31(1):1-12. doi: 10.1101/gr.260604.119. Epub 2020 Dec 16.
9
Representation of -Mer Sets Using Spectrum-Preserving String Sets.使用谱保持串集表示 -Mer 集。
J Comput Biol. 2021 Apr;28(4):381-394. doi: 10.1089/cmb.2020.0431. Epub 2020 Dec 7.
10
Contaminant DNA in bacterial sequencing experiments is a major source of false genetic variability.细菌测序实验中的污染物 DNA 是虚假遗传变异的主要来源。
BMC Biol. 2020 Mar 2;18(1):24. doi: 10.1186/s12915-020-0748-z.