Suppr超能文献

使用集成方法处理预测蛋白质-蛋白质相互作用中的不平衡数据。

Using ensemble methods to deal with imbalanced data in predicting protein-protein interactions.

机构信息

College of Computer Science, Sichuan University, Chengdu 610065, PR China.

出版信息

Comput Biol Chem. 2012 Feb;36:36-41. doi: 10.1016/j.compbiolchem.2011.12.003. Epub 2012 Jan 3.

Abstract

In proteins, the number of interacting pairs is usually much smaller than the number of non-interacting ones. So the imbalanced data problem will arise in the field of protein-protein interactions (PPIs) prediction. In this article, we introduce two ensemble methods to solve the imbalanced data problem. These ensemble methods combine the based-cluster under-sampling technique and the fusion classifiers. And then we evaluate the ensemble methods using a dataset from Database of Interacting Proteins (DIP) with 10-fold cross validation. All the prediction models achieve area under the receiver operating characteristic curve (AUC) value about 95%. Our results show that the ensemble classifiers are quite effective in predicting PPIs; we also gain some valuable conclusions on the performance of ensemble methods for PPIs in imbalanced data. The prediction software and all dataset employed in the work can be obtained for free at http://cic.scu.edu.cn/bioinformatics/Ensemble_PPIs/index.html.

摘要

在蛋白质中,相互作用的对的数量通常远小于非相互作用的对的数量。因此,在蛋白质-蛋白质相互作用(PPIs)预测领域会出现数据不平衡问题。在本文中,我们介绍了两种集成方法来解决数据不平衡问题。这些集成方法结合了基于聚类的欠采样技术和融合分类器。然后,我们使用来自交互蛋白数据库(DIP)的数据集进行了 10 倍交叉验证来评估集成方法。所有预测模型的接收者操作特征曲线(ROC)下面积(AUC)值均约为 95%。我们的结果表明,集成分类器在预测 PPIs 方面非常有效;我们还获得了一些关于集成方法在不平衡数据中预测 PPIs 性能的有价值的结论。该工作中使用的预测软件和所有数据集都可以在 http://cic.scu.edu.cn/bioinformatics/Ensemble_PPIs/index.html 上免费获得。

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验