• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

AUC-RF:一种使用随机森林进行基因组分析的新策略。

AUC-RF: a new strategy for genomic profiling with random forest.

作者信息

Calle M Luz, Urrea Victor, Boulesteix Anne-Laure, Malats Nuria

机构信息

Systems Biology Department, University of Vic, Spain. malu.calle @ uvic.cat

出版信息

Hum Hered. 2011;72(2):121-32. doi: 10.1159/000330778. Epub 2011 Oct 11.

DOI:10.1159/000330778
PMID:21996641
Abstract

OBJECTIVE

Genomic profiling, the use of genetic variants at multiple loci simultaneously for the prediction of disease risk, requires the selection of a set of genetic variants that best predicts disease status. The goal of this work was to provide a new selection algorithm for genomic profiling.

METHODS

We propose a new algorithm for genomic profiling based on optimizing the area under the receiver operating characteristic curve (AUC) of the random forest (RF). The proposed strategy implements a backward elimination process based on the initial ranking of variables.

RESULTS AND CONCLUSIONS

We demonstrate the advantage of using the AUC instead of the classification error as a measure of predictive accuracy of RF. In particular, we show that the use of the classification error is especially inappropriate when dealing with unbalanced data sets. The new procedure for variable selection and prediction, namely AUC-RF, is illustrated with data from a bladder cancer study and also with simulated data. The algorithm is publicly available as an R package, named AUCRF, at http://cran.r-project.org/.

摘要

目的

基因组分析,即同时利用多个位点的基因变异来预测疾病风险,需要选择一组能最佳预测疾病状态的基因变异。这项工作的目标是提供一种用于基因组分析的新选择算法。

方法

我们基于优化随机森林(RF)的受试者工作特征曲线(AUC)下的面积,提出了一种用于基因组分析的新算法。所提出的策略基于变量的初始排名实施向后消除过程。

结果与结论

我们证明了使用AUC而非分类误差作为RF预测准确性度量的优势。特别是,我们表明在处理不平衡数据集时,使用分类误差尤其不合适。通过膀胱癌研究的数据以及模拟数据说明了用于变量选择和预测的新程序,即AUC-RF。该算法作为一个名为AUCRF的R包在http://cran.r-project.org/上公开可用。

相似文献

1
AUC-RF: a new strategy for genomic profiling with random forest.AUC-RF:一种使用随机森林进行基因组分析的新策略。
Hum Hered. 2011;72(2):121-32. doi: 10.1159/000330778. Epub 2011 Oct 11.
2
GeneSrF and varSelRF: a web-based tool and R package for gene selection and classification using random forest.GeneSrF和varSelRF:一个用于基因选择和分类的基于网络的工具及R包,采用随机森林方法。
BMC Bioinformatics. 2007 Sep 3;8:328. doi: 10.1186/1471-2105-8-328.
3
Statistical geometry based prediction of nonsynonymous SNP functional effects using random forest and neuro-fuzzy classifiers.基于统计几何学,使用随机森林和神经模糊分类器预测非同义单核苷酸多态性的功能效应
Proteins. 2008 Jun;71(4):1930-9. doi: 10.1002/prot.21838.
4
Tumor classification ranking from microarray data.基于微阵列数据的肿瘤分类排名
BMC Genomics. 2008 Sep 16;9 Suppl 2(Suppl 2):S21. doi: 10.1186/1471-2164-9-S2-S21.
5
A novel feature selection approach for biomedical data classification.一种用于生物医学数据分类的新特征选择方法。
J Biomed Inform. 2010 Feb;43(1):15-23. doi: 10.1016/j.jbi.2009.07.008. Epub 2009 Jul 30.
6
Identification of differential gene expression for microarray data using recursive random forest.使用递归随机森林识别微阵列数据中的差异基因表达
Chin Med J (Engl). 2008 Dec 20;121(24):2492-6.
7
penalizedSVM: a R-package for feature selection SVM classification.惩罚支持向量机:一个用于特征选择支持向量机分类的R包。
Bioinformatics. 2009 Jul 1;25(13):1711-2. doi: 10.1093/bioinformatics/btp286. Epub 2009 Apr 27.
8
An extension of the receiver operating characteristic curve and AUC-optimal classification.ROC 曲线的扩展和 AUC 最优分类。
Neural Comput. 2012 Oct;24(10):2789-824. doi: 10.1162/NECO_a_00336. Epub 2012 Jun 26.
9
Integration of pathway knowledge into a reweighted recursive feature elimination approach for risk stratification of cancer patients.将通路知识整合到重新加权递归特征消除方法中,用于癌症患者的风险分层。
Bioinformatics. 2010 Sep 1;26(17):2136-44. doi: 10.1093/bioinformatics/btq345. Epub 2010 Jun 30.
10
Random forests ensemble classifier trained with data resampling strategy to improve cardiac arrhythmia diagnosis.基于数据重采样策略训练的随机森林集成分类器,用于改善心律失常诊断。
Comput Biol Med. 2011 May;41(5):265-71. doi: 10.1016/j.compbiomed.2011.03.001. Epub 2011 Mar 17.

引用本文的文献

1
Comprehensive Proteomics and Machine Learning Analysis to Distinguish Follicular Adenoma and Follicular Thyroid Carcinoma from Indeterminate Thyroid Nodules.综合蛋白质组学与机器学习分析以区分不确定甲状腺结节中的滤泡性腺瘤和滤泡状甲状腺癌。
Endocrinol Metab (Seoul). 2025 Aug;40(4):623-636. doi: 10.3803/EnM.2024.2208. Epub 2025 Apr 10.
2
Out of (the) bag-encoding categorical predictors impacts out-of-bag samples.对分类预测变量进行袋外编码会影响袋外样本。
PeerJ Comput Sci. 2024 Nov 18;10:e2445. doi: 10.7717/peerj-cs.2445. eCollection 2024.
3
Experimental validation and comprehensive analysis of m6A methylation regulators in intervertebral disc degeneration subpopulation classification.
对椎间盘退变亚群分类中 m6A 甲基化调节剂的实验验证和综合分析。
Sci Rep. 2024 Apr 10;14(1):8417. doi: 10.1038/s41598-024-58888-w.
4
Microbial and metabolomic profiles of type 1 diabetes with depression: A case-control study.1 型糖尿病伴抑郁的微生物和代谢组学特征:病例对照研究。
J Diabetes. 2024 Apr;16(4):e13542. doi: 10.1111/1753-0407.13542.
5
Identifying metabolic adaptations characteristic of cardiotoxicity using paired transcriptomics and metabolomics data integrated with a computational model of heart metabolism.利用配对转录组学和代谢组学数据并结合心脏代谢计算模型,识别心脏毒性特有的代谢适应性。
PLoS Comput Biol. 2024 Feb 29;20(2):e1011919. doi: 10.1371/journal.pcbi.1011919. eCollection 2024 Feb.
6
Breast cancer prediction using different machine learning methods applying multi factors.应用多因素的不同机器学习方法进行乳腺癌预测。
J Cancer Res Clin Oncol. 2023 Dec;149(19):17133-17146. doi: 10.1007/s00432-023-05388-5. Epub 2023 Sep 29.
7
Predicting whether patients will achieve minimal clinically important differences following hip or knee arthroplasty.预测髋关节或膝关节置换术后患者是否会达到最小临床重要差异。
Bone Joint Res. 2023 Sep 1;12(9):512-521. doi: 10.1302/2046-3758.129.BJR-2023-0070.R2.
8
Machine learning in predicting -score in the Oxford classification system of IgA nephropathy.机器学习在预测 IgA 肾病牛津分类系统中的 -score 中的应用。
Front Immunol. 2023 Aug 4;14:1224631. doi: 10.3389/fimmu.2023.1224631. eCollection 2023.
9
Artificial Intelligence: A Promising Tool in Exploring the Phytomicrobiome in Managing Disease and Promoting Plant Health.人工智能:探索植物微生物组以管理疾病和促进植物健康的一种有前景的工具。
Plants (Basel). 2023 Apr 30;12(9):1852. doi: 10.3390/plants12091852.
10
Urban flood risk differentiation under land use scenario simulation.土地利用情景模拟下的城市洪水风险分化
iScience. 2023 Mar 23;26(4):106479. doi: 10.1016/j.isci.2023.106479. eCollection 2023 Apr 21.