• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种基于词典的简单实用方法,用于识别医学在线数据库(Medline)摘要中的蛋白质。

A simple and practical dictionary-based approach for identification of proteins in Medline abstracts.

作者信息

Egorov Sergei, Yuryev Anton, Daraselia Nikolai

机构信息

Ariadne Genomics, Inc, Rockville, MD 20850, USA.

出版信息

J Am Med Inform Assoc. 2004 May-Jun;11(3):174-8. doi: 10.1197/jamia.M1453. Epub 2004 Feb 5.

DOI:10.1197/jamia.M1453
PMID:14764613
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC400515/
Abstract

OBJECTIVE

The aim of this study was to develop a practical and efficient protein identification system for biomedical corpora.

DESIGN

The developed system, called ProtScan, utilizes a carefully constructed dictionary of mammalian proteins in conjunction with a specialized tokenization algorithm to identify and tag protein name occurrences in biomedical texts and also takes advantage of Medline "Name-of-Substance" (NOS) annotation. The dictionaries for ProtScan were constructed in a semi-automatic way from various public-domain sequence databases followed by an intensive expert curation step.

MEASUREMENTS

The recall and precision of the system have been determined using 1000 randomly selected and hand-tagged Medline abstracts.

RESULTS

The developed system is capable of identifying protein occurrences in Medline abstracts with a 98% precision and 88% recall. It was also found to be capable of processing approximately 300 abstracts per second. Without utilization of NOS annotation, precision and recall were found to be 98.5% and 84%, respectively.

CONCLUSION

The developed system appears to be well suited for protein-based Medline indexing and can help to improve biomedical information retrieval. Further approaches to ProtScan's recall improvement also are discussed.

摘要

目的

本研究的目的是为生物医学语料库开发一个实用且高效的蛋白质识别系统。

设计

所开发的系统名为ProtScan,它利用精心构建的哺乳动物蛋白质词典,结合一种专门的分词算法,来识别和标记生物医学文本中出现的蛋白质名称,并且还利用了Medline的“物质名称”(NOS)注释。ProtScan的词典是以半自动方式从各种公共领域序列数据库构建的,随后经过深入的专家编纂步骤。

测量

使用1000篇随机选择并人工标注的Medline摘要来确定该系统的召回率和精确率。

结果

所开发的系统能够以98%的精确率和88%的召回率识别Medline摘要中的蛋白质出现情况。还发现它能够每秒处理大约300篇摘要。在不使用NOS注释的情况下,精确率和召回率分别为98.5%和84%。

结论

所开发的系统似乎非常适合基于蛋白质的Medline索引,并且有助于改善生物医学信息检索。还讨论了进一步提高ProtScan召回率的方法。

相似文献

1
A simple and practical dictionary-based approach for identification of proteins in Medline abstracts.一种基于词典的简单实用方法,用于识别医学在线数据库(Medline)摘要中的蛋白质。
J Am Med Inform Assoc. 2004 May-Jun;11(3):174-8. doi: 10.1197/jamia.M1453. Epub 2004 Feb 5.
2
Finding relevant references to genes and proteins in Medline using a Bayesian approach.使用贝叶斯方法在医学在线数据库(Medline)中查找与基因和蛋白质相关的参考文献。
Bioinformatics. 2002 Nov;18(11):1515-22. doi: 10.1093/bioinformatics/18.11.1515.
3
Protein names precisely peeled off free text.蛋白质名称从自由文本中精确提取。
Bioinformatics. 2004 Aug 4;20 Suppl 1:i241-7. doi: 10.1093/bioinformatics/bth904.
4
Gene and protein nomenclature in public databases.公共数据库中的基因和蛋白质命名法。
BMC Bioinformatics. 2006 Aug 9;7:372. doi: 10.1186/1471-2105-7-372.
5
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
6
Playing biology's name game: identifying protein names in scientific text.玩生物学的命名游戏:识别科学文本中的蛋白质名称。
Pac Symp Biocomput. 2003:403-14.
7
Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification.在用于基因和蛋白质名称识别的字典方法中提高召回率的技术评估。
J Biomed Inform. 2007 Jun;40(3):316-24. doi: 10.1016/j.jbi.2006.09.002. Epub 2006 Sep 24.
8
Improving the performance of dictionary-based approaches in protein name recognition.提高基于词典方法在蛋白质名称识别中的性能。
J Biomed Inform. 2004 Dec;37(6):461-70. doi: 10.1016/j.jbi.2004.08.003.
9
Literature mining and database annotation of protein phosphorylation using a rule-based system.使用基于规则的系统对蛋白质磷酸化进行文献挖掘和数据库注释。
Bioinformatics. 2005 Jun 1;21(11):2759-65. doi: 10.1093/bioinformatics/bti390. Epub 2005 Apr 6.
10
Creating an online dictionary of abbreviations from MEDLINE.创建一个来自医学文献数据库(MEDLINE)的缩写在线词典。
J Am Med Inform Assoc. 2002 Nov-Dec;9(6):612-20. doi: 10.1197/jamia.m1139.

引用本文的文献

1
BIONDA: a free database for a fast information on published biomarkers.BIONDA:一个免费数据库,可快速获取已发表生物标志物的信息。
Bioinform Adv. 2021 Aug 18;1(1):vbab015. doi: 10.1093/bioadv/vbab015. eCollection 2021.
2
Deoxyribozymes and bioinformatics: complementary tools to investigate axon regeneration.脱氧核酶与生物信息学:研究轴突再生的互补工具。
Cell Tissue Res. 2012 Jul;349(1):181-200. doi: 10.1007/s00441-011-1291-6. Epub 2011 Dec 22.
3
BioTagger-GM: a gene/protein name recognition system.生物标记器-GM:一种基因/蛋白质名称识别系统。
J Am Med Inform Assoc. 2009 Mar-Apr;16(2):247-55. doi: 10.1197/jamia.M2844. Epub 2008 Dec 11.
4
A novel biological function for CD44 in axon growth of retinal ganglion cells identified by a bioinformatics approach.通过生物信息学方法鉴定出CD44在视网膜神经节细胞轴突生长中的一种新生物学功能。
J Neurochem. 2007 Nov;103(4):1491-505. doi: 10.1111/j.1471-4159.2007.04858.x. Epub 2007 Aug 30.
5
Automatic extraction of gene ontology annotation and its correlation with clusters in protein networks.基因本体注释的自动提取及其与蛋白质网络中聚类的相关性。
BMC Bioinformatics. 2007 Jul 10;8:243. doi: 10.1186/1471-2105-8-243.
6
SemCat: semantically categorized entities for genomics.SemCat:用于基因组学的语义分类实体。
AMIA Annu Symp Proc. 2006;2006:754-8.

本文引用的文献

1
A probabilistic model for identifying protein names and their name boundaries.一种用于识别蛋白质名称及其名称边界的概率模型。
Proc IEEE Comput Soc Bioinform Conf. 2003;2:251-8.
2
A simple algorithm for identifying abbreviation definitions in biomedical text.一种用于识别生物医学文本中缩写定义的简单算法。
Pac Symp Biocomput. 2003:451-62.
3
A biological named entity recognizer.一个生物命名实体识别器。
Pac Symp Biocomput. 2003:427-38. doi: 10.1142/9789812776303_0040.
4
Protein names and how to find them.蛋白质名称及其查找方法。
Int J Med Inform. 2002 Dec 4;67(1-3):49-61. doi: 10.1016/s1386-5056(02)00052-7.
5
Creating an online dictionary of abbreviations from MEDLINE.创建一个来自医学文献数据库(MEDLINE)的缩写在线词典。
J Am Med Inform Assoc. 2002 Nov-Dec;9(6):612-20. doi: 10.1197/jamia.m1139.
6
Tagging gene and protein names in biomedical text.在生物医学文本中标记基因和蛋白质名称。
Bioinformatics. 2002 Aug;18(8):1124-32. doi: 10.1093/bioinformatics/18.8.1124.
7
Using BLAST for identifying gene and protein names in journal articles.利用BLAST在期刊文章中识别基因和蛋白质名称。
Gene. 2000 Dec 23;259(1-2):245-52. doi: 10.1016/s0378-1119(00)00431-5.
8
Detecting Gene Symbols and Names in Biological Texts: A First Step toward Pertinent Information Extraction.检测生物文本中的基因符号和名称:迈向相关信息提取的第一步。
Genome Inform Ser Workshop Genome Inform. 1998;9:72-80.
9
Toward information extraction: identifying protein names from biological papers.迈向信息提取:从生物学论文中识别蛋白质名称。
Pac Symp Biocomput. 1998:707-18.