• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于进化聚类的合成过采样集成(ECO-Ensemble)在不平衡学习中的应用。

Evolutionary Cluster-Based Synthetic Oversampling Ensemble (ECO-Ensemble) for Imbalance Learning.

出版信息

IEEE Trans Cybern. 2017 Sep;47(9):2850-2861. doi: 10.1109/TCYB.2016.2579658. Epub 2016 Jun 21.

DOI:10.1109/TCYB.2016.2579658
PMID:27337735
Abstract

Class imbalance problems, where the number of samples in each class is unequal, is prevalent in numerous real world machine learning applications. Traditional methods which are biased toward the majority class are ineffective due to the relative severity of misclassifying rare events. This paper proposes a novel evolutionary cluster-based oversampling ensemble framework, which combines a novel cluster-based synthetic data generation method with an evolutionary algorithm (EA) to create an ensemble. The proposed synthetic data generation method is based on contemporary ideas of identifying oversampling regions using clusters. The novel use of EA serves a twofold purpose of optimizing the parameters of the data generation method while generating diverse examples leveraging on the characteristics of EAs, reducing overall computational cost. The proposed method is evaluated on a set of 40 imbalance datasets obtained from the University of California, Irvine, database, and outperforms current state-of-the-art ensemble algorithms tackling class imbalance problems.

摘要

类不平衡问题,即每个类别的样本数量不等,在众多现实世界的机器学习应用中普遍存在。传统方法偏向于多数类,由于稀有事件的误分类相对严重,因此效果不佳。本文提出了一种新颖的基于进化聚类的过采样集成框架,该框架结合了一种新颖的基于聚类的合成数据生成方法和一种进化算法 (EA) 来创建一个集成。所提出的合成数据生成方法基于使用聚类来识别过采样区域的现代思想。EA 的新颖用途有两个目的:优化数据生成方法的参数,同时利用 EA 的特点生成多样化的示例,从而降低整体计算成本。所提出的方法在一组从加利福尼亚大学欧文分校数据库获得的 40 个不平衡数据集上进行了评估,优于当前解决类不平衡问题的最先进的集成算法。

相似文献

1
Evolutionary Cluster-Based Synthetic Oversampling Ensemble (ECO-Ensemble) for Imbalance Learning.基于进化聚类的合成过采样集成(ECO-Ensemble)在不平衡学习中的应用。
IEEE Trans Cybern. 2017 Sep;47(9):2850-2861. doi: 10.1109/TCYB.2016.2579658. Epub 2016 Jun 21.
2
Biased Random Forest For Dealing With the Class Imbalance Problem.用于处理类别不平衡问题的有偏随机森林
IEEE Trans Neural Netw Learn Syst. 2019 Jul;30(7):2163-2172. doi: 10.1109/TNNLS.2018.2878400. Epub 2018 Nov 20.
3
Progressive Semisupervised Learning of Multiple Classifiers.多分类器的渐进式半监督学习。
IEEE Trans Cybern. 2018 Feb;48(2):689-702. doi: 10.1109/TCYB.2017.2651114. Epub 2017 Jan 19.
4
A Novel Ensemble Method for Imbalanced Data Learning: Bagging of Extrapolation-SMOTE SVM.一种用于不平衡数据学习的新型集成方法:外推-SMOTE支持向量机的装袋法
Comput Intell Neurosci. 2017;2017:1827016. doi: 10.1155/2017/1827016. Epub 2017 Jan 30.
5
Multicluster Class-Balanced Ensemble.多簇类平衡集成
IEEE Trans Neural Netw Learn Syst. 2021 Mar;32(3):1014-1025. doi: 10.1109/TNNLS.2020.2979839. Epub 2021 Mar 1.
6
Evolutionary undersampling for classification with imbalanced datasets: proposals and taxonomy.用于不平衡数据集分类的进化欠采样:提议与分类法
Evol Comput. 2009 Fall;17(3):275-306. doi: 10.1162/evco.2009.17.3.275.
7
Immune centroids oversampling method for binary classification.用于二分类的免疫质心过采样方法。
Comput Intell Neurosci. 2015;2015:109806. doi: 10.1155/2015/109806. Epub 2015 Mar 5.
8
Hybrid fuzzy cluster ensemble framework for tumor clustering from biomolecular data.用于从生物分子数据中进行肿瘤聚类的混合模糊聚类集成框架。
IEEE/ACM Trans Comput Biol Bioinform. 2013 May-Jun;10(3):657-70. doi: 10.1109/TCBB.2013.59.
9
Comparing Sampling Strategies for Tackling Imbalanced Data in Human Activity Recognition.比较处理人体活动识别中不平衡数据的采样策略。
Sensors (Basel). 2022 Feb 11;22(4):1373. doi: 10.3390/s22041373.
10
Imbalanced Protein Data Classification Using Ensemble FTM-SVM.使用集成FTM-SVM的不平衡蛋白质数据分类
IEEE Trans Nanobioscience. 2015 Jun;14(4):350-359. doi: 10.1109/TNB.2015.2431292. Epub 2015 May 8.

引用本文的文献

1
Development and Validation of Data-Level Innovation Data-Balancing Machine Learning Models for Predicting Optimal Implantable Collamer Lens Size and Postoperative Vault.用于预测最佳可植入胶原晶状体尺寸和术后房角高度的数据级创新数据平衡机器学习模型的开发与验证
Ophthalmol Ther. 2024 Jan;13(1):267-286. doi: 10.1007/s40123-023-00841-7. Epub 2023 Nov 9.
2
Improved method of structure-based virtual screening based on ensemble learning.基于集成学习的改进型基于结构的虚拟筛选方法。
RSC Adv. 2020 Feb 19;10(13):7609-7618. doi: 10.1039/c9ra09211k. eCollection 2020 Feb 18.
3
Over- and Under-sampling Approach for Extremely Imbalanced and Small Minority Data Problem in Health Record Analysis.
健康记录分析中针对极度不平衡和少量少数群体数据问题的过采样和欠采样方法。
Front Public Health. 2020 May 19;8:178. doi: 10.3389/fpubh.2020.00178. eCollection 2020.
4
An Overlapping Cell Image Synthesis Method for Imbalance Data.重叠细胞图像合成方法用于不平衡数据。
Anal Cell Pathol (Amst). 2018 Jul 9;2018:7919503. doi: 10.1155/2018/7919503. eCollection 2018.