• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于对具有集值特征的分类数据进行聚类的算法。

An Algorithm for Clustering Categorical Data With Set-Valued Features.

作者信息

Huang Joshua Zhexue

出版信息

IEEE Trans Neural Netw Learn Syst. 2018 Oct;29(10):4593-4606. doi: 10.1109/TNNLS.2017.2770167. Epub 2017 Nov 29.

DOI:10.1109/TNNLS.2017.2770167
PMID:29990068
Abstract

In data mining, objects are often represented by a set of features, where each feature of an object has only one value. However, in reality, some features can take on multiple values, for instance, a person with several job titles, hobbies, and email addresses. These features can be referred to as set-valued features and are often treated with dummy features when using existing data mining algorithms to analyze data with set-valued features. In this paper, we propose an SV- $k$ -modes algorithm that clusters categorical data with set-valued features. In this algorithm, a distance function is defined between two objects with set-valued features, and a set-valued mode representation of cluster centers is proposed. We develop a heuristic method to update cluster centers in the iterative clustering process and an initialization algorithm to select the initial cluster centers. The convergence and complexity of the SV- $k$ -modes algorithm are analyzed. Experiments are conducted on both synthetic data and real data from five different applications. The experimental results have shown that the SV- $k$ -modes algorithm performs better when clustering real data than do three other categorical clustering algorithms and that the algorithm is scalable to large data.

摘要

在数据挖掘中,对象通常由一组特征表示,其中对象的每个特征只有一个值。然而,在现实中,一些特征可以具有多个值,例如,一个人有多个职位、爱好和电子邮件地址。这些特征可称为多值特征,在使用现有数据挖掘算法分析具有多值特征的数据时,通常会用虚拟特征来处理。在本文中,我们提出了一种SV-$k$-模式算法,用于对具有多值特征的分类数据进行聚类。在该算法中,定义了两个具有多值特征的对象之间的距离函数,并提出了聚类中心的多值模式表示。我们开发了一种启发式方法来在迭代聚类过程中更新聚类中心,以及一种初始化算法来选择初始聚类中心。分析了SV-$k$-模式算法的收敛性和复杂度。在来自五个不同应用的合成数据和真实数据上进行了实验。实验结果表明,在对真实数据进行聚类时,SV-$k$-模式算法比其他三种分类聚类算法表现更好,并且该算法可扩展到大数据。

相似文献

1
An Algorithm for Clustering Categorical Data With Set-Valued Features.一种用于对具有集值特征的分类数据进行聚类的算法。
IEEE Trans Neural Netw Learn Syst. 2018 Oct;29(10):4593-4606. doi: 10.1109/TNNLS.2017.2770167. Epub 2017 Nov 29.
2
Clustering Categorical Data Using Community Detection Techniques.使用社区发现技术对分类数据进行聚类。
Comput Intell Neurosci. 2017;2017:8986360. doi: 10.1155/2017/8986360. Epub 2017 Dec 21.
3
The impact of cluster representatives on the convergence of the k-modes type clustering.聚类代表对 k-均值聚类收敛性的影响。
IEEE Trans Pattern Anal Mach Intell. 2013 Jun;35(6):1509-22. doi: 10.1109/TPAMI.2012.228.
4
Space Structure and Clustering of Categorical Data.空间结构与分类数据聚类。
IEEE Trans Neural Netw Learn Syst. 2016 Oct;27(10):2047-59. doi: 10.1109/TNNLS.2015.2451151. Epub 2015 Oct 2.
5
On the impact of dissimilarity measure in k-modes clustering algorithm.关于差异度量在k-模式聚类算法中的影响。
IEEE Trans Pattern Anal Mach Intell. 2007 Mar;29(3):503-7. doi: 10.1109/TPAMI.2007.53.
6
A Global-Relationship Dissimilarity Measure for the -Modes Clustering Algorithm.用于 - 模式聚类算法的全局关系差异度量
Comput Intell Neurosci. 2017;2017:3691316. doi: 10.1155/2017/3691316. Epub 2017 Mar 28.
7
A novel artificial bee colony based clustering algorithm for categorical data.一种用于分类数据的基于新型人工蜂群的聚类算法。
PLoS One. 2015 May 20;10(5):e0127125. doi: 10.1371/journal.pone.0127125. eCollection 2015.
8
Rough set based information theoretic approach for clustering uncertain categorical data.基于粗糙集的信息论聚类不确定分类数据方法。
PLoS One. 2022 May 13;17(5):e0265190. doi: 10.1371/journal.pone.0265190. eCollection 2022.
9
An Initialization Method Based on Hybrid Distance for k-Means Algorithm.一种基于混合距离的k均值算法初始化方法
Neural Comput. 2017 Nov;29(11):3094-3117. doi: 10.1162/neco_a_01014. Epub 2017 Sep 28.
10
Cluster Validation Method for Determining the Number of Clusters in Categorical Sequences.类别序列中确定聚类数量的聚类验证方法。
IEEE Trans Neural Netw Learn Syst. 2017 Dec;28(12):2936-2948. doi: 10.1109/TNNLS.2016.2608354. Epub 2016 Sep 27.

引用本文的文献

1
Multi-modality risk prediction of cardiovascular diseases for breast cancer cohort in the All of Us Research Program.“我们所有人”研究项目中乳腺癌队列心血管疾病的多模态风险预测
J Am Med Inform Assoc. 2024 Dec 1;31(12):2800-2810. doi: 10.1093/jamia/ocae199.