• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

语言树与压缩

Language trees and zipping.

作者信息

Benedetto Dario, Caglioti Emanuele, Loreto Vittorio

机构信息

La Sapienza University, Mathematics Department, Piazzale Aldo Moro 5, 00185 Rome, Italy.

出版信息

Phys Rev Lett. 2002 Jan 28;88(4):048702. doi: 10.1103/PhysRevLett.88.048702. Epub 2002 Jan 8.

DOI:10.1103/PhysRevLett.88.048702
PMID:11801178
Abstract

In this Letter we present a very general method for extracting information from a generic string of characters, e.g., a text, a DNA sequence, or a time series. Based on data-compression techniques, its key point is the computation of a suitable measure of the remoteness of two bodies of knowledge. We present the implementation of the method to linguistic motivated problems, featuring highly accurate results for language recognition, authorship attribution, and language classification.

摘要

在本信函中,我们提出了一种非常通用的方法,用于从一串通用字符中提取信息,例如文本、DNA序列或时间序列。基于数据压缩技术,其关键点在于计算两个知识体之间合适的距离度量。我们展示了该方法在语言相关问题上的实现,在语言识别、作者身份归属和语言分类方面具有高度准确的结果。

相似文献

1
Language trees and zipping.语言树与压缩
Phys Rev Lett. 2002 Jan 28;88(4):048702. doi: 10.1103/PhysRevLett.88.048702. Epub 2002 Jan 8.
2
Comment on "Language trees and zipping".关于《语言树与压缩》的评论。
Phys Rev Lett. 2003 Feb 28;90(8):089803; author reply 089804. doi: 10.1103/PhysRevLett.90.089803. Epub 2003 Feb 27.
3
Symbolic dynamic filtering and language measure for behavior identification of mobile robots.用于移动机器人行为识别的符号动态滤波与语言测度
IEEE Trans Syst Man Cybern B Cybern. 2012 Jun;42(3):647-59. doi: 10.1109/TSMCB.2011.2172419. Epub 2011 Nov 3.
4
Natural language morphology integration in off-line Arabic optical text recognition.离线阿拉伯语光学文本识别中的自然语言形态学整合
IEEE Trans Syst Man Cybern B Cybern. 2011 Apr;41(2):579-90. doi: 10.1109/TSMCB.2010.2072990. Epub 2010 Sep 30.
5
Syllable language models for Mandarin speech recognition: exploiting character language models.基于音节的汉语语音识别语言模型:利用汉字语言模型。
J Acoust Soc Am. 2013 Jan;133(1):519-28. doi: 10.1121/1.4768800.
6
A gradient-descent-based approach for transparent linguistic interface generation in fuzzy models.一种基于梯度下降的方法,用于在模糊模型中生成透明语言界面。
IEEE Trans Syst Man Cybern B Cybern. 2010 Oct;40(5):1219-30. doi: 10.1109/TSMCB.2009.2036443. Epub 2009 Dec 4.
7
Status of text-mining techniques applied to biomedical text.应用于生物医学文本的文本挖掘技术现状。
Drug Discov Today. 2006 Apr;11(7-8):315-25. doi: 10.1016/j.drudis.2006.02.011.
8
Extraction and use of linguistic patterns for modelling medical guidelines.用于医学指南建模的语言模式提取与应用
Artif Intell Med. 2007 Feb;39(2):137-49. doi: 10.1016/j.artmed.2006.07.012. Epub 2006 Sep 11.
9
Assessment of approximate string matching in a biomedical text retrieval problem.生物医学文本检索问题中近似字符串匹配的评估
Comput Biol Med. 2005 Oct;35(8):717-24. doi: 10.1016/j.compbiomed.2004.06.002.
10
Classification integration and reclassification using constraint databases.分类整合和再分类使用约束数据库。
Artif Intell Med. 2010 Jun;49(2):79-91. doi: 10.1016/j.artmed.2010.02.003. Epub 2010 Apr 8.

引用本文的文献

1
Synthetic eco-evolutionary dynamics in simple molecular environment.简单分子环境中的合成生态进化动力学。
Elife. 2024 Mar 26;12:RP90156. doi: 10.7554/eLife.90156.
2
Efficiency of the Moscow Stock Exchange before 2022.2022年之前莫斯科证券交易所的效率。
Entropy (Basel). 2022 Aug 25;24(9):1184. doi: 10.3390/e24091184.
3
Corpus-based typology: applications, challenges and some solutions.基于语料库的类型学:应用、挑战及一些解决方案。
Linguist Typol. 2022 May 25;26(1):129-160. doi: 10.1515/lingty-2020-0118. Epub 2021 Mar 30.
4
A Quick and Easy Way to Estimate Entropy and Mutual Information for Neuroscience.一种用于神经科学的快速简便的熵和互信息估计方法。
Front Neuroinform. 2021 Jun 15;15:596443. doi: 10.3389/fninf.2021.596443. eCollection 2021.
5
Empirical Estimation of Information Measures: A Literature Guide.信息度量的实证估计:文献指南
Entropy (Basel). 2019 Jul 24;21(8):720. doi: 10.3390/e21080720.
6
Maximum entropy models capture melodic styles.最大熵模型捕捉旋律风格。
Sci Rep. 2017 Aug 23;7(1):9172. doi: 10.1038/s41598-017-08028-4.
7
Connections of Grasping and Horizontal Hand Movements with Articulation in Czech Speakers.以捷克语为母语者抓握和手部水平运动与言语清晰度之间的关联。
Front Psychol. 2017 Apr 5;8:516. doi: 10.3389/fpsyg.2017.00516. eCollection 2017.
8
Generalising Ward's Method for Use with Manhattan Distances.推广沃德法以用于曼哈顿距离。
PLoS One. 2017 Jan 13;12(1):e0168288. doi: 10.1371/journal.pone.0168288. eCollection 2017.
9
Medical Image Retrieval Using Vector Quantization and Fuzzy S-tree.基于矢量量化和模糊S树的医学图像检索
J Med Syst. 2017 Feb;41(2):18. doi: 10.1007/s10916-016-0659-2. Epub 2016 Dec 15.
10
Comparison of next-generation sequencing samples using compression-based distances and its application to phylogenetic reconstruction.使用基于压缩的距离比较下一代测序样本及其在系统发育重建中的应用。
BMC Res Notes. 2014 May 29;7:320. doi: 10.1186/1756-0500-7-320.