Suppr超能文献

蛋白质组学数据挖掘中层次聚类方法的评估

Assessment of hierarchical clustering methodologies for proteomic data mining.

作者信息

Meunier Bruno, Dumas Emilie, Piec Isabelle, Béchet Daniel, Hébraud Michel, Hocquette Jean-François

机构信息

UR 1213, Unité de Recherches sur les Herbivores, Equipe Croissance et Métabolisme du Muscle, INRA de Clermont-Ferrand/Theix, F-63122 [corrected] Saint-Genès Champanelle, France.

出版信息

J Proteome Res. 2007 Jan;6(1):358-66. doi: 10.1021/pr060343h.

Abstract

Hierarchical clustering methodology is a powerful data mining approach for a first exploration of proteomic data. It enables samples or proteins to be grouped blindly according to their expression profiles. Nevertheless, the clustering results depend on parameters such as data preprocessing, between-profile similarity measurement, and the dendrogram construction procedure. We assessed several clustering strategies by calculating the F-measure, a widely used quality metric. The combination, on logged matrix, of Pearson correlation and Ward's methods for data aggregation is among the best clustering strategies, at least with the data sets we studied. This study was carried out using PermutMatrix, a freely available software derived from transcriptomics.

摘要

层次聚类方法是一种强大的数据挖掘方法,可用于蛋白质组学数据的初步探索。它能够根据样本或蛋白质的表达谱将它们盲目分组。然而,聚类结果取决于数据预处理、谱间相似性测量以及树状图构建过程等参数。我们通过计算F值(一种广泛使用的质量指标)评估了几种聚类策略。至少对于我们研究的数据集而言,在对数矩阵上结合Pearson相关性和Ward方法进行数据聚合是最佳的聚类策略之一。本研究使用PermutMatrix进行,这是一种源自转录组学的免费软件。

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验