• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

超聚类:用于并行无监督聚类优化的灵活工具。

Hypercluster: a flexible tool for parallelized unsupervised clustering optimization.

机构信息

Institute of Systems Genetics, New York University Grossman School of Medicine, New York, NY, 10016, USA.

Department of Medicine, New York University Grossman School of Medicine, New York, NY, 10016, USA.

出版信息

BMC Bioinformatics. 2020 Sep 29;21(1):428. doi: 10.1186/s12859-020-03774-1.

DOI:10.1186/s12859-020-03774-1
PMID:32993491
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7525959/
Abstract

BACKGROUND

Unsupervised clustering is a common and exceptionally useful tool for large biological datasets. However, clustering requires upfront algorithm and hyperparameter selection, which can introduce bias into the final clustering labels. It is therefore advisable to obtain a range of clustering results from multiple models and hyperparameters, which can be cumbersome and slow.

RESULTS

We present hypercluster, a python package and SnakeMake pipeline for flexible and parallelized clustering evaluation and selection. Users can efficiently evaluate a huge range of clustering results from multiple models and hyperparameters to identify an optimal model.

CONCLUSIONS

Hypercluster improves ease of use, robustness and reproducibility for unsupervised clustering application for high throughput biology. Hypercluster is available on pip and bioconda; installation, documentation and example workflows can be found at: https://github.com/ruggleslab/hypercluster .

摘要

背景

无监督聚类是处理大型生物学数据集的常用且非常有用的工具。然而,聚类需要事先选择算法和超参数,这可能会给最终的聚类标签带来偏差。因此,从多个模型和超参数中获得一系列聚类结果是明智的,但是这可能会很繁琐和缓慢。

结果

我们提出了 hypercluster,这是一个 Python 包和 SnakeMake 管道,用于灵活且并行的聚类评估和选择。用户可以从多个模型和超参数中高效地评估大量的聚类结果,以确定最佳模型。

结论

hypercluster 提高了高通量生物学中无监督聚类应用的易用性、鲁棒性和可重复性。hypercluster 可通过 pip 和 bioconda 获得;安装、文档和示例工作流程可在以下网址找到:https://github.com/ruggleslab/hypercluster 。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/296c/7525959/922ca883c607/12859_2020_3774_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/296c/7525959/922ca883c607/12859_2020_3774_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/296c/7525959/922ca883c607/12859_2020_3774_Fig1_HTML.jpg

相似文献

1
Hypercluster: a flexible tool for parallelized unsupervised clustering optimization.超聚类:用于并行无监督聚类优化的灵活工具。
BMC Bioinformatics. 2020 Sep 29;21(1):428. doi: 10.1186/s12859-020-03774-1.
2
Unsupervised ranking of clustering algorithms by INFOMAX.基于 INFOMAX 的无监督聚类算法排序。
PLoS One. 2020 Oct 26;15(10):e0239331. doi: 10.1371/journal.pone.0239331. eCollection 2020.
3
SIMBSIG: similarity search and clustering for biobank-scale data.SIMBSIG:用于生物库规模数据的相似性搜索和聚类。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac829.
4
DiviK: divisive intelligent K-means for hands-free unsupervised clustering in big biological data.DiviK:用于生物大数据无监督聚类的可分离智能 K 均值算法。
BMC Bioinformatics. 2022 Dec 12;23(1):538. doi: 10.1186/s12859-022-05093-z.
5
Meta-analysis of cell- specific transcriptomic data using fuzzy c-means clustering discovers versatile viral responsive genes.使用模糊c均值聚类对细胞特异性转录组数据进行荟萃分析,发现了多种病毒反应基因。
BMC Bioinformatics. 2017 Jun 6;18(1):295. doi: 10.1186/s12859-017-1669-x.
6
Combined Mapping of Multiple clUsteriNg ALgorithms (COMMUNAL): A Robust Method for Selection of Cluster Number, K.多种聚类算法的联合映射(COMMUNAL):一种选择聚类数K的稳健方法。
Sci Rep. 2015 Nov 19;5:16971. doi: 10.1038/srep16971.
7
Evaluating single-cell cluster stability using the Jaccard similarity index.使用 Jaccard 相似性指数评估单细胞聚类稳定性。
Bioinformatics. 2021 Aug 9;37(15):2212-2214. doi: 10.1093/bioinformatics/btaa956.
8
Misty Mountain clustering: application to fast unsupervised flow cytometry gating.迷雾山脉聚类:在快速无监督流式细胞术门控中的应用。
BMC Bioinformatics. 2010 Oct 9;11:502. doi: 10.1186/1471-2105-11-502.
9
AutoClassWeb: a simple web interface for Bayesian clustering of omics data.AutoClassWeb:一个用于组学数据贝叶斯聚类的简单 Web 界面。
BMC Res Notes. 2022 Jul 7;15(1):241. doi: 10.1186/s13104-022-06129-6.
10
ShinyLearner: A containerized benchmarking tool for machine-learning classification of tabular data.ShinyLearner:一个用于表格数据机器学习分类的容器化基准测试工具。
Gigascience. 2020 Apr 1;9(4). doi: 10.1093/gigascience/giaa026.

引用本文的文献

1
Democratizing cheminformatics: interpretable chemical grouping using an automated KNIME workflow.化学信息学的民主化:使用自动化的KNIME工作流程进行可解释的化学分组
J Cheminform. 2024 Aug 16;16(1):101. doi: 10.1186/s13321-024-00894-1.
2
Cytocipher determines significantly different populations of cells in single-cell RNA-seq data.Cytocipher 可在单细胞 RNA-seq 数据中确定显著不同的细胞群体。
Bioinformatics. 2023 Jul 1;39(7). doi: 10.1093/bioinformatics/btad435.

本文引用的文献

1
Prediction of new associations between ncRNAs and diseases exploiting multi-type hierarchical clustering.利用多类型层次聚类技术预测 ncRNAs 与疾病之间的新关联。
BMC Bioinformatics. 2020 Feb 24;21(1):70. doi: 10.1186/s12859-020-3392-2.
2
SciPy 1.0: fundamental algorithms for scientific computing in Python.SciPy 1.0:Python 中的科学计算基础算法。
Nat Methods. 2020 Mar;17(3):261-272. doi: 10.1038/s41592-019-0686-2. Epub 2020 Feb 3.
3
A comparison framework and guideline of clustering methods for mass cytometry data.
一种用于质谱细胞术数据的聚类方法的比较框架和指南。
Genome Biol. 2019 Dec 23;20(1):297. doi: 10.1186/s13059-019-1917-7.
4
Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis.单细胞 RNA-seq 分析中降维方法的准确性、鲁棒性和可扩展性。
Genome Biol. 2019 Dec 10;20(1):269. doi: 10.1186/s13059-019-1898-6.
5
The bone marrow microenvironment at single-cell resolution.单细胞分辨率下的骨髓微环境。
Nature. 2019 May;569(7755):222-228. doi: 10.1038/s41586-019-1104-8. Epub 2019 Apr 10.
6
Publisher Correction: Challenges in unsupervised clustering of single-cell RNA-seq data.出版商更正:单细胞RNA测序数据无监督聚类中的挑战。
Nat Rev Genet. 2019 May;20(5):310. doi: 10.1038/s41576-019-0095-5.
7
Clustering algorithms: A comparative approach.聚类算法:一种比较方法。
PLoS One. 2019 Jan 15;14(1):e0210236. doi: 10.1371/journal.pone.0210236. eCollection 2019.
8
Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer.起源细胞模式主导了 33 种癌症类型的 10000 个肿瘤的分子分类。
Cell. 2018 Apr 5;173(2):291-304.e6. doi: 10.1016/j.cell.2018.03.022.
9
DNA methylation-based classification of central nervous system tumours.基于 DNA 甲基化的中枢神经系统肿瘤分类。
Nature. 2018 Mar 22;555(7697):469-474. doi: 10.1038/nature26000. Epub 2018 Mar 14.
10
Prognostic value of PAM50 and risk of recurrence score in patients with early-stage breast cancer with long-term follow-up.PAM50 和复发风险评分在长期随访的早期乳腺癌患者中的预后价值。
Breast Cancer Res. 2017 Nov 14;19(1):120. doi: 10.1186/s13058-017-0911-9.