• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

DEPP:深度学习可利用单基因拓展物种树。

DEPP: Deep Learning Enables Extending Species Trees using Single Genes.

机构信息

Department of Electrical and Computer Engineering, UC San Diego, 9500 Gilman Drive, La Jolla, CA 92093, USA.

Bioinformatics and Systems Biology Graduate Program, UC San Diego, 9500 Gilman Drive, La Jolla, CA 92093, USA.

出版信息

Syst Biol. 2023 May 19;72(1):17-34. doi: 10.1093/sysbio/syac031.

DOI:10.1093/sysbio/syac031
PMID:35485976
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10198656/
Abstract

Placing new sequences onto reference phylogenies is increasingly used for analyzing environmental samples, especially microbiomes. Existing placement methods assume that query sequences have evolved under specific models directly on the reference phylogeny. For example, they assume single-gene data (e.g., 16S rRNA amplicons) have evolved under the GTR model on a gene tree. Placement, however, often has a more ambitious goal: extending a (genome-wide) species tree given data from individual genes without knowing the evolutionary model. Addressing this challenging problem requires new directions. Here, we introduce Deep-learning Enabled Phylogenetic Placement (DEPP), an algorithm that learns to extend species trees using single genes without prespecified models. In simulations and on real data, we show that DEPP can match the accuracy of model-based methods without any prior knowledge of the model. We also show that DEPP can update the multilocus microbial tree-of-life with single genes with high accuracy. We further demonstrate that DEPP can combine 16S and metagenomic data onto a single tree, enabling community structure analyses that take advantage of both sources of data. [Deep learning; gene tree discordance; metagenomics; microbiome analyses; neural networks; phylogenetic placement.].

摘要

将新序列放置到参考系统发育树上的方法越来越多地用于分析环境样本,特别是微生物组。现有的放置方法假设查询序列是在参考系统发育树上的特定模型下直接进化的。例如,它们假设单基因数据(例如 16S rRNA 扩增子)是在基因树上的 GTR 模型下进化的。然而,放置通常有更雄心勃勃的目标:在不知道进化模型的情况下,根据来自单个基因的数据扩展(全基因组)种系树。解决这个具有挑战性的问题需要新的方向。在这里,我们引入了深度学习支持的系统发育放置(DEPP)算法,这是一种使用没有先验模型的单个基因来学习扩展种系树的算法。在模拟和真实数据中,我们表明 DEPP 可以在没有任何模型先验知识的情况下匹配基于模型方法的准确性。我们还表明,DEPP 可以使用单个基因以高精度更新微生物多基因树。我们进一步证明,DEPP 可以将 16S 和宏基因组数据合并到单个树上,从而能够进行利用这两种数据来源的群落结构分析。[深度学习;基因树分歧;宏基因组学;微生物组分析;神经网络;系统发育放置。]

相似文献

1
DEPP: Deep Learning Enables Extending Species Trees using Single Genes.DEPP:深度学习可利用单基因拓展物种树。
Syst Biol. 2023 May 19;72(1):17-34. doi: 10.1093/sysbio/syac031.
2
Scaling DEPP phylogenetic placement to ultra-large reference trees: a tree-aware ensemble approach.将 DEPP 系统发育定位扩展到超大规模参考树:一种基于树的集成方法。
Bioinformatics. 2024 Jun 3;40(6). doi: 10.1093/bioinformatics/btae361.
3
Phylogeny-based classification of microbial communities.基于系统发育的微生物群落分类。
Bioinformatics. 2014 Feb 15;30(4):449-56. doi: 10.1093/bioinformatics/btt700. Epub 2013 Dec 24.
4
SEPP: SATé-enabled phylogenetic placement.SEPP:基于SATé的系统发育定位
Pac Symp Biocomput. 2012:247-58. doi: 10.1142/9789814366496_0024.
5
Fast and accurate distance-based phylogenetic placement using divide and conquer.基于划分与征服的快速准确基于距离的系统发育定位方法
Mol Ecol Resour. 2022 Apr;22(3):1213-1227. doi: 10.1111/1755-0998.13527. Epub 2021 Oct 26.
6
Deep learning for predicting 16S rRNA gene copy number.深度学习预测 16S rRNA 基因拷贝数。
Sci Rep. 2024 Jun 20;14(1):14282. doi: 10.1038/s41598-024-64658-5.
7
VITCOMIC2: visualization tool for the phylogenetic composition of microbial communities based on 16S rRNA gene amplicons and metagenomic shotgun sequencing.VITCOMIC2:基于16S rRNA基因扩增子和宏基因组鸟枪法测序的微生物群落系统发育组成可视化工具。
BMC Syst Biol. 2018 Mar 19;12(Suppl 2):30. doi: 10.1186/s12918-018-0545-2.
8
Reconstructing 16S rRNA genes in metagenomic data.重建宏基因组数据中的 16S rRNA 基因。
Bioinformatics. 2015 Jun 15;31(12):i35-43. doi: 10.1093/bioinformatics/btv231.
9
From learning taxonomies to phylogenetic learning: integration of 16S rRNA gene data into FAME-based bacterial classification.从学习分类学到系统发育学习:将 16S rRNA 基因数据整合到基于 FAME 的细菌分类中。
BMC Bioinformatics. 2010 Jan 30;11:69. doi: 10.1186/1471-2105-11-69.
10
PhyloPlus: a Universal Tool for Phylogenetic Interrogation of Metagenomic Communities.PhyloPlus:元基因组群落系统发育探究的通用工具
mBio. 2023 Feb 28;14(1):e0345522. doi: 10.1128/mbio.03455-22. Epub 2023 Jan 16.

引用本文的文献

1
PhyloTune: An efficient method to accelerate phylogenetic updates using a pretrained DNA language model.PhyloTune:一种使用预训练DNA语言模型加速系统发育更新的有效方法。
Nat Commun. 2025 Jul 26;16(1):6905. doi: 10.1038/s41467-025-61684-3.
2
Phyloformer: Fast, Accurate, and Versatile Phylogenetic Reconstruction with Deep Neural Networks.Phyloformer:使用深度神经网络进行快速、准确且通用的系统发育重建。
Mol Biol Evol. 2025 Apr 1;42(4). doi: 10.1093/molbev/msaf051.
3
Evaluating the method reproducibility of deep learning models in biodiversity research.评估深度学习模型在生物多样性研究中的方法可重复性。
PeerJ Comput Sci. 2025 Feb 5;11:e2618. doi: 10.7717/peerj-cs.2618. eCollection 2025.
4
Sequence Modeling Is Not Evolutionary Reasoning.序列建模并非进化推理。
bioRxiv. 2025 Jun 27:2025.01.17.633626. doi: 10.1101/2025.01.17.633626.
5
Constructing phylogenetic trees for microbiome data analysis: A mini-review.构建用于微生物组数据分析的系统发育树:一篇综述短文
Comput Struct Biotechnol J. 2024 Oct 24;23:3859-3868. doi: 10.1016/j.csbj.2024.10.032. eCollection 2024 Dec.
6
Reliable estimation of tree branch lengths using deep neural networks.利用深度神经网络可靠估计树枝长度。
PLoS Comput Biol. 2024 Aug 5;20(8):e1012337. doi: 10.1371/journal.pcbi.1012337. eCollection 2024 Aug.
7
Toward a Semi-Supervised Learning Approach to Phylogenetic Estimation.迈向基于半监督学习的系统发育估计方法。
Syst Biol. 2024 Oct 30;73(5):789-806. doi: 10.1093/sysbio/syae029.
8
Scaling DEPP phylogenetic placement to ultra-large reference trees: a tree-aware ensemble approach.将 DEPP 系统发育定位扩展到超大规模参考树:一种基于树的集成方法。
Bioinformatics. 2024 Jun 3;40(6). doi: 10.1093/bioinformatics/btae361.
9
A Guide to Phylogenomic Inference.系统发育基因组推断指南。
Methods Mol Biol. 2024;2802:267-345. doi: 10.1007/978-1-0716-3838-5_11.
10
Median quartet tree search algorithms using optimal subtree prune and regraft.使用最优子树剪枝与重新嫁接的中位数四重奏树搜索算法
Algorithms Mol Biol. 2024 Mar 13;19(1):12. doi: 10.1186/s13015-024-00257-3.

本文引用的文献

1
Quantifying the uncertainty of assembly-free genome-wide distance estimates and phylogenetic relationships using subsampling.使用子采样量化无组装全基因组距离估计和系统发育关系的不确定性。
Cell Syst. 2022 Oct 19;13(10):817-829.e3. doi: 10.1016/j.cels.2022.06.007.
2
TreeSwift: A massively scalable Python tree package.TreeSwift:一个大规模可扩展的Python树包。
SoftwareX. 2020 Jan-Jun;11. doi: 10.1016/j.softx.2020.100436. Epub 2020 Mar 4.
3
Re-evaluating Deep Neural Networks for Phylogeny Estimation: The Issue of Taxon Sampling.重新评估用于系统发育估计的深度神经网络:分类单元采样问题。
J Comput Biol. 2022 Jan;29(1):74-89. doi: 10.1089/cmb.2021.0383. Epub 2022 Jan 5.
4
Completing gene trees without species trees in sub-quadratic time.在亚二次时间内不依赖物种树完成基因树构建。
Bioinformatics. 2022 Mar 4;38(6):1532-1541. doi: 10.1093/bioinformatics/btab875.
5
Fast and accurate distance-based phylogenetic placement using divide and conquer.基于划分与征服的快速准确基于距离的系统发育定位方法
Mol Ecol Resour. 2022 Apr;22(3):1213-1227. doi: 10.1111/1755-0998.13527. Epub 2021 Oct 26.
6
A new phylogenetic protocol: dealing with model misspecification and confirmation bias in molecular phylogenetics.一种新的系统发育分析方法:应对分子系统发育中的模型误设和确认偏差
NAR Genom Bioinform. 2020 Jun 23;2(2):lqaa041. doi: 10.1093/nargab/lqaa041. eCollection 2020 Jun.
7
Beyond DNA barcoding: The unrealized potential of genome skim data in sample identification.超越 DNA 条形码:基因组 skimming 数据在样本鉴定中的未实现潜力。
Mol Ecol. 2020 Jul;29(14):2521-2534. doi: 10.1111/mec.15507. Epub 2020 Jun 29.
8
Precise phylogenetic analysis of microbial isolates and genomes from metagenomes using PhyloPhlAn 3.0.基于 PhyloPhlAn 3.0 对宏基因组中的微生物分离株和基因组进行精确的系统发育分析。
Nat Commun. 2020 May 19;11(1):2500. doi: 10.1038/s41467-020-16366-7.
9
A complete domain-to-species taxonomy for Bacteria and Archaea.细菌和古菌的完整域到种分类 taxonomy。
Nat Biotechnol. 2020 Sep;38(9):1079-1086. doi: 10.1038/s41587-020-0501-8. Epub 2020 Apr 27.
10
Deep Residual Neural Networks Resolve Quartet Molecular Phylogenies.深度残差神经网络解决四重分子系统发育问题。
Mol Biol Evol. 2020 May 1;37(5):1495-1507. doi: 10.1093/molbev/msz307.