• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用 ClustEval 指导生物医学聚类。

Guiding biomedical clustering with ClustEval.

机构信息

Institute of Mathematics and Computer Science, University of Southern Denmark, Odense, Denmark.

Department of Experimental Bioinformatics, TUM School of Life Sciences Weihenstephan, Technical University of Munich, Munich, Germany.

出版信息

Nat Protoc. 2018 Jun;13(6):1429-1444. doi: 10.1038/nprot.2018.038. Epub 2018 May 24.

DOI:10.1038/nprot.2018.038
PMID:29844526
Abstract

Clustering is a popular technique for discovering groups of similar objects in large datasets. It is nowadays applied in all areas of life sciences, from biomedicine to physics. However, designing high-quality cluster analyses is a tedious and complicated task with manifold choices along the way. As a cluster analysis is often the first step of a succeeding downstream analysis, the clustering must be reliable, reproducible, and of the highest quality. To address these challenges, we recently developed ClustEval, an integrated and extensible platform for the automated and standardized design and execution of complex cluster analyses. It allows researchers to design and carry out cluster analyses involving a large number of clustering methods applied to many, large datasets. ClustEval helps to shed light on all major aspects of cluster analysis, from choosing the right similarity function to using validity indices and data preprocessing protocols. Only this high degree of automation allows the researcher to easily run a clustering task with many different tools, parameters, and settings in order to gain the best possible outcome. In this paper, we guide the user step by step through three fundamentally important and widely applicable use cases: (i) identification of the best clustering method for a new, user-given protein sequence similarity dataset; (ii) evaluation of the performance of a new, user-given clustering method (densityCut) against the state of the art; and (iii) prediction of the best method for a new protein sequence similarity dataset. This protocol guides the user through the most important features of ClustEval and takes ∼4 h to complete.

摘要

聚类是一种在大型数据集发现相似对象的常用技术。如今,它已应用于生命科学的各个领域,从生物医学到物理学。然而,设计高质量的聚类分析是一项繁琐而复杂的任务,需要沿着许多路径做出多种选择。由于聚类分析通常是后续下游分析的第一步,因此聚类必须是可靠的、可重现的,且质量最高的。为了解决这些挑战,我们最近开发了 ClustEval,这是一个集成和可扩展的平台,用于自动化和标准化复杂聚类分析的设计和执行。它允许研究人员设计和执行涉及大量聚类方法的聚类分析,并将其应用于许多大型数据集。ClustEval 有助于阐明聚类分析的所有主要方面,从选择正确的相似性函数到使用有效性指数和数据预处理协议。只有这种高度的自动化才能使研究人员能够轻松地使用许多不同的工具、参数和设置运行聚类任务,以获得最佳的结果。在本文中,我们逐步指导用户完成三个非常重要且广泛适用的用例:(i)为新的用户给定蛋白质序列相似性数据集识别最佳聚类方法;(ii)评估新的用户给定聚类方法(densityCut)与现有方法的性能;以及 (iii)预测新蛋白质序列相似性数据集的最佳方法。该方案指导用户了解 ClustEval 的最重要特征,大约需要 4 小时完成。

相似文献

1
Guiding biomedical clustering with ClustEval.用 ClustEval 指导生物医学聚类。
Nat Protoc. 2018 Jun;13(6):1429-1444. doi: 10.1038/nprot.2018.038. Epub 2018 May 24.
2
Comparing the performance of biomedical clustering methods.比较生物医学聚类方法的性能。
Nat Methods. 2015 Nov;12(11):1033-8. doi: 10.1038/nmeth.3583. Epub 2015 Sep 21.
3
densityCut: an efficient and versatile topological approach for automatic clustering of biological data.密度切割:一种用于生物数据自动聚类的高效且通用的拓扑方法。
Bioinformatics. 2016 Sep 1;32(17):2567-76. doi: 10.1093/bioinformatics/btw227. Epub 2016 Apr 23.
4
Visualization and clustering of high-dimensional transcriptome data using GATE.使用GATE对高维转录组数据进行可视化和聚类分析。
Methods Mol Biol. 2014;1150:131-9. doi: 10.1007/978-1-4939-0512-6_7.
5
Clustering algorithms in biomedical research: a review.生物医学研究中的聚类算法:综述。
IEEE Rev Biomed Eng. 2010;3:120-54. doi: 10.1109/RBME.2010.2083647.
6
Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata.通过聚类进行清理:解决生物医学元数据中数据质量问题的方法。
BMC Bioinformatics. 2017 Sep 18;18(1):415. doi: 10.1186/s12859-017-1832-4.
7
An interactive approach to multiobjective clustering of gene expression patterns.一种基因表达模式的交互式多目标聚类方法。
IEEE Trans Biomed Eng. 2013 Jan;60(1):35-41. doi: 10.1109/TBME.2012.2220765. Epub 2012 Sep 28.
8
SCPS: a fast implementation of a spectral method for detecting protein families on a genome-wide scale.SCPS:一种快速实现的基于谱方法的全基因组蛋白质家族检测。
BMC Bioinformatics. 2010 Mar 9;11:120. doi: 10.1186/1471-2105-11-120.
9
Interpreting and visualizing ChIP-seq data with the seqMINER software.使用seqMINER软件解读和可视化ChIP-seq数据。
Methods Mol Biol. 2014;1150:141-52. doi: 10.1007/978-1-4939-0512-6_8.
10
[Cluster analysis in biomedical researches].[生物医学研究中的聚类分析]
Patol Fiziol Eksp Ter. 2013 Oct-Dec(4):84-96.

引用本文的文献

1
Computational analyses of mechanism of action (MoA): data, methods and integration.作用机制的计算分析:数据、方法与整合
RSC Chem Biol. 2021 Dec 22;3(2):170-200. doi: 10.1039/d1cb00069a. eCollection 2022 Feb 9.
2
Distance-based clustering challenges for unbiased benchmarking studies.基于距离的聚类挑战对于无偏基准研究。
Sci Rep. 2021 Sep 23;11(1):18988. doi: 10.1038/s41598-021-98126-1.
3
Causal Network Inference for Neural Ensemble Activity.因果网络推断神经集合活动。

本文引用的文献

1
Clustering of Biological Datasets in the Era of Big Data.大数据时代生物数据集的聚类
J Integr Bioinform. 2016 Dec 22;13(1):300. doi: 10.2390/biecoll-jib-2016-300.
2
SCOPe: Manual Curation and Artifact Removal in the Structural Classification of Proteins - extended Database.SCOPe:蛋白质结构分类中的人工整理与伪迹去除——扩展数据库
J Mol Biol. 2017 Feb 3;429(3):348-355. doi: 10.1016/j.jmb.2016.11.023. Epub 2016 Nov 30.
3
densityCut: an efficient and versatile topological approach for automatic clustering of biological data.
Neuroinformatics. 2021 Jul;19(3):515-527. doi: 10.1007/s12021-020-09505-4. Epub 2021 Jan 4.
密度切割:一种用于生物数据自动聚类的高效且通用的拓扑方法。
Bioinformatics. 2016 Sep 1;32(17):2567-76. doi: 10.1093/bioinformatics/btw227. Epub 2016 Apr 23.
4
Comparing the performance of biomedical clustering methods.比较生物医学聚类方法的性能。
Nat Methods. 2015 Nov;12(11):1033-8. doi: 10.1038/nmeth.3583. Epub 2015 Sep 21.
5
Machine learning. Clustering by fast search and find of density peaks.机器学习。基于密度峰值的快速搜索和发现的聚类。
Science. 2014 Jun 27;344(6191):1492-6. doi: 10.1126/science.1242072.
6
SCOPe: Structural Classification of Proteins--extended, integrating SCOP and ASTRAL data and classification of new structures.SCOPe:蛋白质结构分类——扩展版,整合了 SCOP 和 ASTRAL 数据以及新结构的分类。
Nucleic Acids Res. 2014 Jan;42(Database issue):D304-9. doi: 10.1093/nar/gkt1240. Epub 2013 Dec 3.
7
Density parameter estimation for finding clusters of homologous proteins--tracing actinobacterial pathogenicity lifestyles.用于发现同源蛋白簇的密度参数估计——追踪放线菌的致病性生活方式。
Bioinformatics. 2013 Jan 15;29(2):215-22. doi: 10.1093/bioinformatics/bts653. Epub 2012 Nov 9.
8
Detecting overlapping protein complexes in protein-protein interaction networks.检测蛋白质-蛋白质相互作用网络中的重叠蛋白质复合物。
Nat Methods. 2012 Mar 18;9(5):471-2. doi: 10.1038/nmeth.1938.
9
A cluster separation measure.一种聚类分离度量。
IEEE Trans Pattern Anal Mach Intell. 1979 Feb;1(2):224-7.
10
Comprehensive cluster analysis with Transitivity Clustering.使用传递闭包聚类进行全面的聚类分析。
Nat Protoc. 2011 Mar;6(3):285-95. doi: 10.1038/nprot.2010.197. Epub 2011 Feb 10.