• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

基于基因本体论注释评估基因表达数据的聚类算法。

Evaluation of clustering algorithms for gene expression data using gene ontology annotations.

机构信息

Department of Biomedical Engineering, Institute of Basic Medical Sciences, Chinese Academy of Medical Sciences, School of Basic Medicine, Peking Union Medical College, Beijing 100005, China.

出版信息

Chin Med J (Engl). 2012 Sep;125(17):3048-52.

PMID:22932178
Abstract

BACKGROUND

Clustering is a useful exploratory technique for interpreting gene expression data to reveal groups of genes sharing common functional attributes. Biologists frequently face the problem of choosing an appropriate algorithm. We aimed to provide a standalone, easily accessible and biologically oriented criterion for expression data clustering evaluation.

METHODS

An external criterion utilizing annotation based similarities between genes is proposed in this work. Gene ontology information is employed as the annotation source. Comparisons among six widely used clustering algorithms over various types of gene expression data sets were carried out based on the criterion proposed.

RESULTS

The rank of these algorithms given by the criterion coincides with our common knowledge. Single-linkage has significantly poorer performance, even worse than the random algorithm. Ward's method archives the best performance in most cases.

CONCLUSIONS

The criterion proposed has a strong ability to distinguish among different clustering algorithms with different distance measurements. It is also demonstrated that analyzing main contributors of the criterion may offer some guidelines in finding local compact clusters. As an addition, we suggest using Ward's algorithm for gene expression data analysis.

摘要

背景

聚类是一种有用的探索性技术,用于解释基因表达数据,以揭示具有共同功能属性的基因群。生物学家经常面临选择合适算法的问题。我们旨在为表达数据聚类评估提供一个独立的、易于访问的和具有生物学导向的标准。

方法

本工作提出了一种利用基因间基于注释相似性的外部标准。基因本体信息被用作注释来源。根据所提出的标准,对六种广泛使用的聚类算法在各种类型的基因表达数据集上的性能进行了比较。

结果

该标准给出的这些算法的排名与我们的常识相符。单链接算法的性能明显较差,甚至比随机算法还要差。沃德方法在大多数情况下表现最好。

结论

所提出的标准具有区分不同距离度量的聚类算法的强大能力。此外,我们还表明,分析标准的主要贡献者可能为找到局部紧凑聚类提供一些指导。作为补充,我们建议在基因表达数据分析中使用 Ward 算法。

相似文献

1
Evaluation of clustering algorithms for gene expression data using gene ontology annotations.基于基因本体论注释评估基因表达数据的聚类算法。
Chin Med J (Engl). 2012 Sep;125(17):3048-52.
2
Clustering of change patterns using Fourier coefficients.使用傅里叶系数对变化模式进行聚类。
Bioinformatics. 2008 Jan 15;24(2):184-91. doi: 10.1093/bioinformatics/btm568. Epub 2007 Nov 19.
3
Detecting clusters of different geometrical shapes in microarray gene expression data.在微阵列基因表达数据中检测不同几何形状的聚类。
Bioinformatics. 2005 May 1;21(9):1927-34. doi: 10.1093/bioinformatics/bti251. Epub 2005 Jan 12.
4
Analysis of a Gibbs sampler method for model-based clustering of gene expression data.一种基于模型的基因表达数据聚类的吉布斯采样器方法分析。
Bioinformatics. 2008 Jan 15;24(2):176-83. doi: 10.1093/bioinformatics/btm562. Epub 2007 Nov 22.
5
Annotation-based distance measures for patient subgroup discovery in clinical microarray studies.临床微阵列研究中用于发现患者亚组的基于注释的距离度量。
Bioinformatics. 2007 Sep 1;23(17):2256-64. doi: 10.1093/bioinformatics/btm322. Epub 2007 Jun 22.
6
Weighted rank aggregation of cluster validation measures: a Monte Carlo cross-entropy approach.聚类验证指标的加权排序聚合:一种蒙特卡洛交叉熵方法。
Bioinformatics. 2007 Jul 1;23(13):1607-15. doi: 10.1093/bioinformatics/btm158. Epub 2007 May 5.
7
Application of Multi-SOM clustering approach to macrophage gene expression analysis.多自组织映射聚类方法在巨噬细胞基因表达分析中的应用。
Infect Genet Evol. 2009 May;9(3):328-36. doi: 10.1016/j.meegid.2008.09.009. Epub 2008 Oct 17.
8
GO functional similarity clustering depends on similarity measure, clustering method, and annotation completeness.GO 功能相似性聚类取决于相似性度量、聚类方法和注释完整性。
BMC Bioinformatics. 2019 Mar 27;20(1):155. doi: 10.1186/s12859-019-2752-2.
9
A model selection criterion for model-based clustering of annotated gene expression data.一种用于带注释基因表达数据的基于模型聚类的模型选择标准。
Stat Appl Genet Mol Biol. 2015 Nov;14(5):413-28. doi: 10.1515/sagmb-2014-0095.
10
Divisive Correlation Clustering Algorithm (DCCA) for grouping of genes: detecting varying patterns in expression profiles.用于基因分组的分裂相关聚类算法(DCCA):检测表达谱中的变化模式。
Bioinformatics. 2008 Jun 1;24(11):1359-66. doi: 10.1093/bioinformatics/btn133. Epub 2008 Apr 10.

引用本文的文献

1
Quantitative assessment of gene expression network module-validation methods.基因表达网络模块验证方法的定量评估。
Sci Rep. 2015 Oct 16;5:15258. doi: 10.1038/srep15258.
2
Single cell transcriptional analysis reveals novel innate immune cell types.单细胞转录组分析揭示新型固有免疫细胞类型。
PeerJ. 2014 Jun 24;2:e452. doi: 10.7717/peerj.452. eCollection 2014.