• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

开发一种新的基于系统发育的随机森林模型用于功能宏基因组学。

Developing a New Phylogeny-Driven Random Forest Model for Functional Metagenomics.

出版信息

IEEE Trans Nanobioscience. 2023 Oct;22(4):763-770. doi: 10.1109/TNB.2023.3283462. Epub 2023 Oct 3.

DOI:10.1109/TNB.2023.3283462
PMID:37279136
Abstract

Metagenomics is an unobtrusive science linking microbial genes to biological functions or environmental states. Classifying microbial genes into their functional repertoire is an important task in the downstream analysis of Metagenomic studies. The task involves Machine Learning (ML) based supervised methods to achieve good classification performance. Random Forest (RF) has been applied rigorously to microbial gene abundance profiles, mapping them to functional phenotypes. The current research targets tuning RF by the evolutionary ancestry of microbial phylogeny, developing a Phylogeny-RF model for functional classification of metagenomes. This method facilitates capturing the effects of phylogenetic relatedness in an ML classifier itself rather than just applying a supervised classifier over the raw abundances of microbial genes. The idea is rooted in the fact that closely related microbes by phylogeny are highly correlated and tend to have similar genetic and phenotypic traits. Such microbes behave similarly; and hence tend to be selected together, or one of these could be dropped from the analysis, to improve the ML process. The proposed Phylogeny-RF algorithm has been compared with state-of-the-art classification methods including RF and the phylogeny-aware methods of MetaPhyl and PhILR, using three real-world 16S rRNA metagenomic datasets. It has been observed that the proposed method not only achieved significantly better performance than the traditional RF model but also performed better than the other phylogeny-driven benchmarks (p < 0.05). For example, Phylogeny-RF attained a highest AUC of 0.949 and Kappa of 0.891 over soil microbiomes in comparison to other benchmarks.

摘要

宏基因组学是一门不引人注目的科学,它将微生物基因与生物功能或环境状态联系起来。将微生物基因分类到其功能库中是宏基因组学研究下游分析的一项重要任务。这项任务涉及基于机器学习 (ML) 的监督方法,以实现良好的分类性能。随机森林 (RF) 已被严格应用于微生物基因丰度谱,将其映射到功能表型上。目前的研究目标是通过微生物系统发育的进化史来调整 RF,开发一种用于宏基因组功能分类的系统发育-RF 模型。该方法有助于在 ML 分类器本身中捕获系统发育相关性的影响,而不仅仅是在微生物基因的原始丰度上应用监督分类器。这一想法源于这样一个事实,即通过系统发育密切相关的微生物高度相关,并且往往具有相似的遗传和表型特征。这些微生物表现相似;因此,它们往往会被一起选择,或者其中一个可以从分析中删除,以改善 ML 过程。所提出的系统发育-RF 算法已与包括 RF 在内的最先进的分类方法以及 MetaPhyl 和 PhILR 的系统发育感知方法进行了比较,使用了三个真实的 16S rRNA 宏基因组数据集。结果表明,该方法不仅显著优于传统的 RF 模型,而且优于其他系统发育驱动的基准(p<0.05)。例如,与其他基准相比,Phylogeny-RF 在土壤微生物组中获得了最高的 AUC 为 0.949 和 Kappa 为 0.891。

相似文献

1
Developing a New Phylogeny-Driven Random Forest Model for Functional Metagenomics.开发一种新的基于系统发育的随机森林模型用于功能宏基因组学。
IEEE Trans Nanobioscience. 2023 Oct;22(4):763-770. doi: 10.1109/TNB.2023.3283462. Epub 2023 Oct 3.
2
Phy-PMRFI: Phylogeny-Aware Prediction of Metagenomic Functions Using Random Forest Feature Importance.Phy-PMRFI:基于随机森林特征重要性的宏基因组功能预测的系统发育感知方法
IEEE Trans Nanobioscience. 2019 Jul;18(3):273-282. doi: 10.1109/TNB.2019.2912824. Epub 2019 Apr 24.
3
Phylogeny-based classification of microbial communities.基于系统发育的微生物群落分类。
Bioinformatics. 2014 Feb 15;30(4):449-56. doi: 10.1093/bioinformatics/btt700. Epub 2013 Dec 24.
4
Interpretable metric learning in comparative metagenomics: The adaptive Haar-like distance.比较宏基因组学中的可解释度量学习:自适应 Haar 样距离。
PLoS Comput Biol. 2024 May 20;20(5):e1011543. doi: 10.1371/journal.pcbi.1011543. eCollection 2024 May.
5
Piphillin: Improved Prediction of Metagenomic Content by Direct Inference from Human Microbiomes.Piphillin:通过直接从人类微生物组进行推断改进宏基因组内容预测
PLoS One. 2016 Nov 7;11(11):e0166104. doi: 10.1371/journal.pone.0166104. eCollection 2016.
6
Profiling microbial strains in urban environments using metagenomic sequencing data.利用宏基因组测序数据对城市环境中的微生物菌株进行分析。
Biol Direct. 2018 May 9;13(1):9. doi: 10.1186/s13062-018-0211-z.
7
Massive metagenomic data analysis using abundance-based machine learning.基于丰度的机器学习在海量宏基因组数据分析中的应用。
Biol Direct. 2019 Aug 1;14(1):12. doi: 10.1186/s13062-019-0242-0.
8
Incorporating genome-based phylogeny and functional similarity into diversity assessments helps to resolve a global collection of human gut metagenomes.将基于基因组的系统发育和功能相似性纳入多样性评估有助于解决全球人类肠道宏基因组的收集问题。
Environ Microbiol. 2022 Sep;24(9):3966-3984. doi: 10.1111/1462-2920.15910. Epub 2022 Jan 31.
9
Vikodak--A Modular Framework for Inferring Functional Potential of Microbial Communities from 16S Metagenomic Datasets.Vikodak——一个用于从16S宏基因组数据集中推断微生物群落功能潜力的模块化框架。
PLoS One. 2016 Feb 5;11(2):e0148347. doi: 10.1371/journal.pone.0148347. eCollection 2016.
10
Cultivation-independent genomes greatly expand taxonomic-profiling capabilities of mOTUs across various environments.非培养基因组极大地扩展了 mOTU 在各种环境中的分类鉴定能力。
Microbiome. 2022 Dec 5;10(1):212. doi: 10.1186/s40168-022-01410-z.

引用本文的文献

1
Diversity and Composition of Soil Acidobacterial Communities in Different Temperate Forest Types of Northeast China.中国东北不同温带森林类型土壤酸杆菌群落的多样性与组成
Microorganisms. 2024 May 10;12(5):963. doi: 10.3390/microorganisms12050963.
2
Spatial Variations in the Nasal Microbiota of Staff Working in a Healthcare-Associated Research Core Facility.医疗机构相关研究核心设施工作的员工鼻腔微生物组的空间差异。
Med Princ Pract. 2024;33(1):66-73. doi: 10.1159/000535983. Epub 2023 Dec 26.