• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用夏尔马-米塔尔熵估计主题建模性能。

Estimating Topic Modeling Performance with Sharma-Mittal Entropy.

作者信息

Koltcov Sergei, Ignatenko Vera, Koltsova Olessia

机构信息

St. Petersburg School of Physics, Mathematics, and Computer Science, National Research University Higher School of Economics, Kantemirovskaya Ulitsa, 3A, St. Petersburg 194100, Russia.

出版信息

Entropy (Basel). 2019 Jul 5;21(7):660. doi: 10.3390/e21070660.

DOI:10.3390/e21070660
PMID:33267374
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7515157/
Abstract

Topic modeling is a popular approach for clustering text documents. However, current tools have a number of unsolved problems such as instability and a lack of criteria for selecting the values of model parameters. In this work, we propose a method to solve partially the problems of optimizing model parameters, simultaneously accounting for semantic stability. Our method is inspired by the concepts from statistical physics and is based on Sharma-Mittal entropy. We test our approach on two models: probabilistic Latent Semantic Analysis (pLSA) and Latent Dirichlet Allocation (LDA) with Gibbs sampling, and on two datasets in different languages. We compare our approach against a number of standard metrics, each of which is able to account for just one of the parameters of our interest. We demonstrate that Sharma-Mittal entropy is a convenient tool for selecting both the number of topics and the values of hyper-parameters, simultaneously controlling for semantic stability, which none of the existing metrics can do. Furthermore, we show that concepts from statistical physics can be used to contribute to theory construction for machine learning, a rapidly-developing sphere that currently lacks a consistent theoretical ground.

摘要

主题建模是一种用于对文本文件进行聚类的常用方法。然而,当前的工具存在许多未解决的问题,例如不稳定性以及缺乏选择模型参数值的标准。在这项工作中,我们提出了一种方法,以部分解决优化模型参数的问题,同时兼顾语义稳定性。我们的方法受到统计物理学概念的启发,并基于夏尔马 - 米塔尔熵。我们在两个模型上测试了我们的方法:概率潜在语义分析(pLSA)和采用吉布斯采样的潜在狄利克雷分配(LDA),以及在两个不同语言的数据集上进行测试。我们将我们的方法与一些标准指标进行比较,每个标准指标只能考虑我们感兴趣的一个参数。我们证明,夏尔马 - 米塔尔熵是一种方便的工具,可用于选择主题数量和超参数值,同时控制语义稳定性,而现有的指标都无法做到这一点。此外,我们表明统计物理学的概念可用于为机器学习的理论构建做出贡献,机器学习是一个快速发展的领域,目前缺乏一致的理论基础。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/649682bcbabe/entropy-21-00660-g011.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/563e4318e8c0/entropy-21-00660-g0A1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/466e7c2715ef/entropy-21-00660-g0A2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/95caebf0d34c/entropy-21-00660-g0A3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/d27c06e2f317/entropy-21-00660-g0A4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/04486c662aaf/entropy-21-00660-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/628bf1aea350/entropy-21-00660-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/bc5399963b95/entropy-21-00660-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/23873719f0eb/entropy-21-00660-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/e04c7d7608e9/entropy-21-00660-g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/5b8c95d52385/entropy-21-00660-g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/f118842a4965/entropy-21-00660-g007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/1c9684fa330e/entropy-21-00660-g008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/18e2142fd341/entropy-21-00660-g009.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/31f75b1d955f/entropy-21-00660-g010.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/649682bcbabe/entropy-21-00660-g011.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/563e4318e8c0/entropy-21-00660-g0A1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/466e7c2715ef/entropy-21-00660-g0A2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/95caebf0d34c/entropy-21-00660-g0A3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/d27c06e2f317/entropy-21-00660-g0A4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/04486c662aaf/entropy-21-00660-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/628bf1aea350/entropy-21-00660-g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/bc5399963b95/entropy-21-00660-g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/23873719f0eb/entropy-21-00660-g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/e04c7d7608e9/entropy-21-00660-g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/5b8c95d52385/entropy-21-00660-g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/f118842a4965/entropy-21-00660-g007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/1c9684fa330e/entropy-21-00660-g008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/18e2142fd341/entropy-21-00660-g009.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/31f75b1d955f/entropy-21-00660-g010.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f6f3/7515157/649682bcbabe/entropy-21-00660-g011.jpg

相似文献

1
Estimating Topic Modeling Performance with Sharma-Mittal Entropy.用夏尔马-米塔尔熵估计主题建模性能。
Entropy (Basel). 2019 Jul 5;21(7):660. doi: 10.3390/e21070660.
2
Analyzing the Influence of Hyper-parameters and Regularizers of Topic Modeling in Terms of Renyi Entropy.从雷尼熵的角度分析主题模型超参数和正则化器的影响。
Entropy (Basel). 2020 Mar 30;22(4):394. doi: 10.3390/e22040394.
3
Renormalization Analysis of Topic Models.主题模型的重归一化分析
Entropy (Basel). 2020 May 16;22(5):556. doi: 10.3390/e22050556.
4
Evaluation of clustering and topic modeling methods over health-related tweets and emails.健康相关推文和电子邮件的聚类和主题建模方法评估。
Artif Intell Med. 2021 Jul;117:102096. doi: 10.1016/j.artmed.2021.102096. Epub 2021 May 7.
5
Investigating the Efficient Use of Word Embedding with Neural-Topic Models for Interpretable Topics from Short Texts.研究基于神经主题模型的词向量有效利用,以实现短文本的可解释主题。
Sensors (Basel). 2022 Jan 23;22(3):852. doi: 10.3390/s22030852.
6
Inequalities for Jensen-Sharma-Mittal and Jeffreys-Sharma-Mittal Type -Divergences.关于詹森 - 沙玛 - 米塔尔型和杰弗里斯 - 沙玛 - 米塔尔型散度的不等式。
Entropy (Basel). 2021 Dec 16;23(12):1688. doi: 10.3390/e23121688.
7
An integrated clustering and BERT framework for improved topic modeling.一种用于改进主题建模的集成聚类和BERT框架。
Int J Inf Technol. 2023;15(4):2187-2195. doi: 10.1007/s41870-023-01268-w. Epub 2023 May 6.
8
On the --Mutual Information and the --Capacities.关于——互信息与——容量。 (原文中两个破折号处内容缺失,可能影响准确理解)
Entropy (Basel). 2021 Jun 1;23(6):702. doi: 10.3390/e23060702.
9
Web content topic modeling using LDA and HTML tags.使用潜在狄利克雷分配(LDA)和HTML标签的网页内容主题建模
PeerJ Comput Sci. 2023 Jul 11;9:e1459. doi: 10.7717/peerj-cs.1459. eCollection 2023.
10
Random forests with parametric entropy-based information gains for classification and regression problems.用于分类和回归问题的、具有基于参数熵的信息增益的随机森林。
PeerJ Comput Sci. 2024 Jan 3;10:e1775. doi: 10.7717/peerj-cs.1775. eCollection 2024.

引用本文的文献

1
Topic models with elements of neural networks: investigation of stability, coherence, and determining the optimal number of topics.
PeerJ Comput Sci. 2024 Jan 3;10:e1758. doi: 10.7717/peerj-cs.1758. eCollection 2024.
2
Inequalities for Jensen-Sharma-Mittal and Jeffreys-Sharma-Mittal Type -Divergences.关于詹森 - 沙玛 - 米塔尔型和杰弗里斯 - 沙玛 - 米塔尔型散度的不等式。
Entropy (Basel). 2021 Dec 16;23(12):1688. doi: 10.3390/e23121688.
3
Analysis and tuning of hierarchical topic models based on Renyi entropy approach.基于雷尼熵方法的层次主题模型分析与调优

本文引用的文献

1
An overview of topic modeling and its current applications in bioinformatics.主题建模概述及其在生物信息学中的当前应用。
Springerplus. 2016 Sep 20;5(1):1608. doi: 10.1186/s40064-016-3252-8. eCollection 2016.
2
Rényi entropy, abundance distribution, and the equivalence of ensembles.Renyi 熵、丰度分布和系综等价。
Phys Rev E. 2016 May;93(5):052418. doi: 10.1103/PhysRevE.93.052418. Epub 2016 May 24.
3
A heuristic approach to determine an appropriate number of topics in topic modeling.一种用于确定主题建模中合适主题数量的启发式方法。
PeerJ Comput Sci. 2021 Jul 29;7:e608. doi: 10.7717/peerj-cs.608. eCollection 2021.
4
On the --Mutual Information and the --Capacities.关于——互信息与——容量。 (原文中两个破折号处内容缺失,可能影响准确理解)
Entropy (Basel). 2021 Jun 1;23(6):702. doi: 10.3390/e23060702.
5
Renormalization Analysis of Topic Models.主题模型的重归一化分析
Entropy (Basel). 2020 May 16;22(5):556. doi: 10.3390/e22050556.
6
Analyzing the Influence of Hyper-parameters and Regularizers of Topic Modeling in Terms of Renyi Entropy.从雷尼熵的角度分析主题模型超参数和正则化器的影响。
Entropy (Basel). 2020 Mar 30;22(4):394. doi: 10.3390/e22040394.
7
Topic Analysis of UK Fitness to Practise Cases: What Lessons Can Be Learnt?英国执业资格案例的主题分析:能吸取哪些教训?
Pharmacy (Basel). 2019 Sep 4;7(3):130. doi: 10.3390/pharmacy7030130.
BMC Bioinformatics. 2015;16 Suppl 13(Suppl 13):S8. doi: 10.1186/1471-2105-16-S13-S8. Epub 2015 Sep 25.
4
Thermodynamics and signatures of criticality in a network of neurons.神经元网络中的热力学与临界特征
Proc Natl Acad Sci U S A. 2015 Sep 15;112(37):11508-13. doi: 10.1073/pnas.1514188112. Epub 2015 Sep 1.
5
Zipf's word frequency law in natural language: a critical review and future directions.自然语言中的齐普夫词频定律:批判性综述与未来方向
Psychon Bull Rev. 2014 Oct;21(5):1112-30. doi: 10.3758/s13423-014-0585-6.
6
Thermodynamic equilibrium and its stability for microcanonical systems described by the Sharma-Taneja-Mittal entropy.
Phys Rev E Stat Nonlin Soft Matter Phys. 2005 Aug;72(2 Pt 2):026123. doi: 10.1103/PhysRevE.72.026123. Epub 2005 Aug 19.
7
Finding scientific topics.寻找科学主题。
Proc Natl Acad Sci U S A. 2004 Apr 6;101 Suppl 1(Suppl 1):5228-35. doi: 10.1073/pnas.0307752101. Epub 2004 Feb 10.