• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

可扩展的贝叶斯非参数聚类与分类

Scalable Bayesian Nonparametric Clustering and Classification.

作者信息

Ni Yang, Müller Peter, Diesendruck Maurice, Williamson Sinead, Zhu Yitan, Ji Yuan

机构信息

Department of Statistics, Texas A&M University.

Department of Statistics and Data Sciences, The University of Texas at Austin.

出版信息

J Comput Graph Stat. 2020;29(1):53-65. doi: 10.1080/10618600.2019.1624366. Epub 2019 Jul 19.

DOI:10.1080/10618600.2019.1624366
PMID:32982129
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7518195/
Abstract

We develop a scalable multi-step Monte Carlo algorithm for inference under a large class of nonparametric Bayesian models for clustering and classification. Each step is "embarrassingly parallel" and can be implemented using the same Markov chain Monte Carlo sampler. The simplicity and generality of our approach makes inference for a wide range of Bayesian nonparametric mixture models applicable to large datasets. Specifically, we apply the approach to inference under a product partition model with regression on covariates. We show results for inference with two motivating data sets: a large set of electronic health records (EHR) and a bank telemarketing dataset. We find interesting clusters and competitive classification performance relative to other widely used competing classifiers. Supplementary materials for this article are available online.

摘要

我们开发了一种可扩展的多步蒙特卡罗算法,用于在一大类用于聚类和分类的非参数贝叶斯模型下进行推理。每一步都是“易于并行化的”,并且可以使用相同的马尔可夫链蒙特卡罗采样器来实现。我们方法的简单性和通用性使得对适用于大型数据集的广泛贝叶斯非参数混合模型进行推理成为可能。具体来说,我们将该方法应用于具有协变量回归的乘积划分模型下的推理。我们展示了对两个具有启发性的数据集进行推理的结果:一大组电子健康记录(EHR)和一个银行电话营销数据集。相对于其他广泛使用的竞争分类器,我们发现了有趣的聚类和具有竞争力的分类性能。本文的补充材料可在线获取。

相似文献

1
Scalable Bayesian Nonparametric Clustering and Classification.可扩展的贝叶斯非参数聚类与分类
J Comput Graph Stat. 2020;29(1):53-65. doi: 10.1080/10618600.2019.1624366. Epub 2019 Jul 19.
2
Consensus Monte Carlo for Random Subsets using Shared Anchors.使用共享锚点的随机子集的共识蒙特卡罗方法。
J Comput Graph Stat. 2020;29(4):703-714. doi: 10.1080/10618600.2020.1737085. Epub 2020 Apr 15.
3
Fast Bayesian Inference in Dirichlet Process Mixture Models.狄利克雷过程混合模型中的快速贝叶斯推理
J Comput Graph Stat. 2011 Jan 1;20(1). doi: 10.1198/jcgs.2010.07081.
4
Scalable Bayesian Inference for Coupled Hidden Markov and Semi-Markov Models.耦合隐马尔可夫模型和半马尔可夫模型的可扩展贝叶斯推理
J Comput Graph Stat. 2019 Sep 18;29(2):238-249. doi: 10.1080/10618600.2019.1654880. eCollection 2020.
5
Bayesian inference for continuous-time hidden Markov models with an unknown number of states.具有未知状态数的连续时间隐马尔可夫模型的贝叶斯推断。
Stat Comput. 2021;31(5):57. doi: 10.1007/s11222-021-10032-8. Epub 2021 Aug 10.
6
Adaptive Incremental Mixture Markov Chain Monte Carlo.自适应增量混合马尔可夫链蒙特卡罗方法
J Comput Graph Stat. 2019;28(4):790-805. doi: 10.1080/10618600.2019.1598872. Epub 2019 Jun 7.
7
Fast genomic prediction of breeding values using parallel Markov chain Monte Carlo with convergence diagnosis.利用具有收敛诊断的并行马尔可夫链蒙特卡罗方法快速预测育种值。
BMC Bioinformatics. 2018 Jan 3;19(1):3. doi: 10.1186/s12859-017-2003-3.
8
Modeling Massive Spatial Datasets Using a Conjugate Bayesian Linear Modeling Framework.使用共轭贝叶斯线性建模框架对大规模空间数据集进行建模。
Spat Stat. 2020 Jun;37. doi: 10.1016/j.spasta.2020.100417. Epub 2020 Feb 7.
9
An Annealed Sequential Monte Carlo Method for Bayesian Phylogenetics.退火序贯蒙特卡罗方法在贝叶斯系统发育学中的应用。
Syst Biol. 2020 Jan 1;69(1):155-183. doi: 10.1093/sysbio/syz028.
10
A Nonparametric Bayesian Model for Local Clustering with Application to Proteomics.一种用于局部聚类的非参数贝叶斯模型及其在蛋白质组学中的应用
J Am Stat Assoc. 2013 Jan 1;108(503). doi: 10.1080/01621459.2013.784705.

引用本文的文献

1
Escaping The Curse of Dimensionality in Bayesian Model-Based Clustering.摆脱基于贝叶斯模型的聚类中的维度诅咒
J Mach Learn Res. 2023 Apr;24.
2
VICatMix: variational Bayesian clustering and variable selection for discrete biomedical data.VICatMix:用于离散生物医学数据的变分贝叶斯聚类和变量选择
Bioinform Adv. 2025 Mar 17;5(1):vbaf055. doi: 10.1093/bioadv/vbaf055. eCollection 2025.
3
Multi-way overlapping clustering by Bayesian tensor decomposition.基于贝叶斯张量分解的多路重叠聚类
Stat Interface. 2024;17(2):219-230. doi: 10.4310/23-sii790. Epub 2024 Feb 1.
4
Functional connectivity across the human subcortical auditory system using an autoregressive matrix-Gaussian copula graphical model approach with partial correlations.使用具有偏相关的自回归矩阵-高斯Copula图形模型方法对人类皮质下听觉系统进行功能连接分析。
Imaging Neurosci (Camb). 2024;2. doi: 10.1162/imag_a_00258. Epub 2024 Aug 12.
5
Bayesian Double Feature Allocation for Phenotyping with Electronic Health Records.用于电子健康记录表型分析的贝叶斯双特征分配法
J Am Stat Assoc. 2020;115(532):1620-1634. doi: 10.1080/01621459.2019.1686985. Epub 2019 Dec 9.
6
Federated Learning for Sparse Bayesian Models with Applications to Electronic Health Records and Genomics.基于联邦学习的稀疏贝叶斯模型及其在电子健康记录和基因组学中的应用。
Pac Symp Biocomput. 2023;28:484-495.
7
Consensus clustering for Bayesian mixture models.贝叶斯混合模型的一致性聚类。
BMC Bioinformatics. 2022 Jul 21;23(1):290. doi: 10.1186/s12859-022-04830-8.
8
Bayesian biclustering for microbial metagenomic sequencing data via multinomial matrix factorization.基于多项矩阵分解的微生物宏基因组测序数据的贝叶斯双聚类分析。
Biostatistics. 2022 Jul 18;23(3):891-909. doi: 10.1093/biostatistics/kxab002.
9
Consensus Monte Carlo for Random Subsets using Shared Anchors.使用共享锚点的随机子集的共识蒙特卡罗方法。
J Comput Graph Stat. 2020;29(4):703-714. doi: 10.1080/10618600.2020.1737085. Epub 2020 Apr 15.
10
A Bayesian approach to restricted latent class models for scientifically structured clustering of multivariate binary outcomes.一种贝叶斯方法,用于对多元二分类结局进行科学结构聚类的约束潜类模型。
Biometrics. 2021 Dec;77(4):1431-1444. doi: 10.1111/biom.13388. Epub 2020 Oct 28.

本文引用的文献

1
Two-Stage Metropolis-Hastings for Tall Data.用于高维数据的两阶段 metropolis-Hastings 算法
J Classif. 2018 Apr;35(1):29-51. doi: 10.1007/s00357-018-9248-z. Epub 2018 Mar 16.
2
Optimal Bayesian estimators for latent variable cluster models.潜在变量聚类模型的最优贝叶斯估计量。
Stat Comput. 2018;28(6):1169-1186. doi: 10.1007/s11222-017-9786-y. Epub 2017 Oct 31.
3
Heterogeneous reciprocal graphical models.异质互反图形模型。
Biometrics. 2018 Jun;74(2):606-615. doi: 10.1111/biom.12791. Epub 2017 Oct 10.
4
Identifying Mixtures of Mixtures Using Bayesian Estimation.使用贝叶斯估计识别混合混合物。
J Comput Graph Stat. 2017 Apr 3;26(2):285-295. doi: 10.1080/10618600.2016.1200472. Epub 2017 Apr 24.
5
Sparse covariance estimation in heterogeneous samples.异质样本中的稀疏协方差估计
Electron J Stat. 2011;5:981-1014. doi: 10.1214/11-EJS634. Epub 2011 Sep 15.
6
Are Gibbs-Type Priors the Most Natural Generalization of the Dirichlet Process?吉布斯先验是否是狄利克雷过程最自然的推广?
IEEE Trans Pattern Anal Mach Intell. 2015 Feb;37(2):212-29. doi: 10.1109/TPAMI.2013.217.
7
Piecewise Approximate Bayesian Computation: fast inference for discretely observed Markov models using a factorised posterior distribution.分段近似贝叶斯计算:利用因子化后验分布对离散观测马尔可夫模型进行快速推断。
Stat Comput. 2015;25(2):289-301. doi: 10.1007/s11222-013-9432-2. Epub 2013 Nov 29.
8
Quantum support vector machine for big data classification.用于大数据分类的量子支持向量机。
Phys Rev Lett. 2014 Sep 26;113(13):130503. doi: 10.1103/PhysRevLett.113.130503. Epub 2014 Sep 25.
9
Defining Predictive Probability Functions for Species Sampling Models.定义物种抽样模型的预测概率函数。
Stat Sci. 2013;28(2):209-222. doi: 10.1214/12-sts407.
10
Semiparametric Bayesian classification with longitudinal markers.具有纵向标记的半参数贝叶斯分类
J R Stat Soc Ser C Appl Stat. 2007 Mar;56(2):119-37. doi: 10.1111/j.1467-9876.2007.00569.x.