• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物医学文本检索问题中近似字符串匹配的评估

Assessment of approximate string matching in a biomedical text retrieval problem.

作者信息

Wang J F, Li Z R, Cai C Z, Chen Y Z

机构信息

Department of Computational Science, National University of Singapore, Blk SOC1, Level 7, 3 Science Drive 2, Singapore 117543, Singapore.

出版信息

Comput Biol Med. 2005 Oct;35(8):717-24. doi: 10.1016/j.compbiomed.2004.06.002.

DOI:10.1016/j.compbiomed.2004.06.002
PMID:16124992
Abstract

Text-based search is widely used for biomedical data mining and knowledge discovery. Character errors in literatures affect the accuracy of data mining. Methods for solving this problem are being explored. This work tests the usefulness of the Smith-Waterman algorithm with affine gap penalty as a method for biomedical literature retrieval. Names of medicinal herbs collected from herbal medicine literatures are matched with those from medicinal chemistry literatures by using this algorithm at different string identity levels (80-100%). The optimum performance is at string identity of 88%, at which the recall and precision are 96.9% and 97.3%, respectively. Our study suggests that the Smith-Waterman algorithm is useful for improving the success rate of biomedical text retrieval.

摘要

基于文本的搜索广泛应用于生物医学数据挖掘和知识发现。文献中的字符错误会影响数据挖掘的准确性。解决这一问题的方法正在探索中。本研究测试了带仿射空位罚分的史密斯-沃特曼算法作为生物医学文献检索方法的有效性。通过使用该算法,在不同字符串一致性水平(80%-100%)下,将从草药文献中收集的草药名称与药物化学文献中的名称进行匹配。最佳性能出现在字符串一致性为88%时,此时召回率和精确率分别为96.9%和97.3%。我们的研究表明,史密斯-沃特曼算法有助于提高生物医学文本检索的成功率。

相似文献

1
Assessment of approximate string matching in a biomedical text retrieval problem.生物医学文本检索问题中近似字符串匹配的评估
Comput Biol Med. 2005 Oct;35(8):717-24. doi: 10.1016/j.compbiomed.2004.06.002.
2
Discovering patterns to extract protein-protein interactions from full texts.从全文中发现提取蛋白质-蛋白质相互作用的模式。
Bioinformatics. 2004 Dec 12;20(18):3604-12. doi: 10.1093/bioinformatics/bth451. Epub 2004 Jul 29.
3
Automatic extraction of acronym-meaning pairs from MEDLINE databases.从医学文献数据库中自动提取首字母缩略词及其含义对。
Stud Health Technol Inform. 2001;84(Pt 1):371-5.
4
Status of text-mining techniques applied to biomedical text.应用于生物医学文本的文本挖掘技术现状。
Drug Discov Today. 2006 Apr;11(7-8):315-25. doi: 10.1016/j.drudis.2006.02.011.
5
Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature.利用基于词典的生物实体名称识别在生物医学文献中的性能。
Comput Biol Chem. 2008 Aug;32(4):287-91. doi: 10.1016/j.compbiolchem.2008.03.008. Epub 2008 Apr 1.
6
Improving the precision of the keyword-matching pornographic text filtering method using a hybrid model.使用混合模型提高关键词匹配色情文本过滤方法的精度。
J Zhejiang Univ Sci. 2004 Sep;5(9):1106-13. doi: 10.1631/jzus.2004.1106.
7
Term identification in the biomedical literature.生物医学文献中的术语识别。
J Biomed Inform. 2004 Dec;37(6):512-26. doi: 10.1016/j.jbi.2004.08.004.
8
Discovering novel causal patterns from biomedical natural-language texts using Bayesian nets.使用贝叶斯网络从生物医学自然语言文本中发现新的因果模式。
IEEE Trans Inf Technol Biomed. 2008 Nov;12(6):714-22. doi: 10.1109/TITB.2008.920793.
9
Using MEDLINE as a knowledge source for disambiguating abbreviations and acronyms in full-text biomedical journal articles.使用MEDLINE作为知识来源来消除全文生物医学期刊文章中缩写词和首字母缩略词的歧义。
J Biomed Inform. 2007 Apr;40(2):150-9. doi: 10.1016/j.jbi.2006.06.001. Epub 2006 Jun 7.
10
Gene name identification and normalization using a model organism database.使用模式生物数据库进行基因名称识别与标准化
J Biomed Inform. 2004 Dec;37(6):396-410. doi: 10.1016/j.jbi.2004.08.010.

引用本文的文献

1
A fuzzy-match search engine for physician directories.一个用于医师名录的模糊匹配搜索引擎。
JMIR Med Inform. 2014 Nov 4;2(2):e30. doi: 10.2196/medinform.3463.
2
Mapping biological entities using the longest approximately common prefix method.使用最长近似公共前缀方法对生物实体进行映射。
BMC Bioinformatics. 2014 Jun 14;15:187. doi: 10.1186/1471-2105-15-187.
3
Bioinformatics opportunities for identification and study of medicinal plants.生物信息学在药用植物鉴定和研究中的机遇。
Brief Bioinform. 2013 Mar;14(2):238-50. doi: 10.1093/bib/bbs021. Epub 2012 May 15.