• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于识别蛋白质名称及其名称边界的概率模型。

A probabilistic model for identifying protein names and their name boundaries.

作者信息

Seki Kazuhiro, Mostafa Javed

机构信息

Laboratory of Applied Informatics Research, Indiana University, Bloomington, 47405-3907, USA.

出版信息

Proc IEEE Comput Soc Bioinform Conf. 2003;2:251-8.

PMID:16452800
Abstract

This paper proposes a method for identifying protein names in biomedical texts with an emphasis on detecting protein name boundaries. We use a probabilistic model which exploits several surface clues characterizing protein names and incorporates word classes for generalization. In contrast to previously proposed methods, our approach does not rely on natural language processing tools such as part-of-speech taggers and syntactic parsers, so as to reduce processing overhead and the potential number of probabilistic parameters to be estimated. A notion of certainty is also proposed to improve precision for identification. We implemented a protein name identification system based on our proposed method, and evaluated the system on real-world biomedical texts in conjunction with the previous work. The results showed that overall our system performs comparably to the state-of-the-art protein name identification system and that higher performance is achieved for compound names. In addition, it is demonstrated that our system can further improve precision by restricting the system output to those names with high certainties.

摘要

本文提出了一种在生物医学文本中识别蛋白质名称的方法,重点在于检测蛋白质名称的边界。我们使用一种概率模型,该模型利用了表征蛋白质名称的几个表面线索,并纳入词类进行泛化。与先前提出的方法不同,我们的方法不依赖诸如词性标注器和句法分析器等自然语言处理工具,以减少处理开销和待估计的概率参数数量。还提出了确定性的概念以提高识别的精度。我们基于所提出的方法实现了一个蛋白质名称识别系统,并结合先前的工作在真实世界的生物医学文本上对该系统进行了评估。结果表明,总体而言我们的系统与最先进的蛋白质名称识别系统性能相当,并且对于复合名称有更高的性能表现。此外,还证明了我们的系统可以通过将系统输出限制为具有高确定性的名称来进一步提高精度。

相似文献

1
A probabilistic model for identifying protein names and their name boundaries.一种用于识别蛋白质名称及其名称边界的概率模型。
Proc IEEE Comput Soc Bioinform Conf. 2003;2:251-8.
2
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
3
Two learning approaches for protein name extraction.两种蛋白质名称提取的学习方法。
J Biomed Inform. 2009 Dec;42(6):1046-55. doi: 10.1016/j.jbi.2009.05.004. Epub 2009 May 13.
4
Recognizing names in biomedical texts using mutual information independence model and SVM plus sigmoid.使用互信息独立性模型和支持向量机加 sigmoid 函数识别生物医学文本中的名称。
Int J Med Inform. 2006 Jun;75(6):456-67. doi: 10.1016/j.ijmedinf.2005.06.012. Epub 2005 Aug 19.
5
Use of morphological analysis in protein name recognition.形态分析在蛋白质名称识别中的应用。
J Biomed Inform. 2004 Dec;37(6):471-82. doi: 10.1016/j.jbi.2004.08.001.
6
Gene name ambiguity of eukaryotic nomenclatures.真核生物命名法中的基因名称歧义。
Bioinformatics. 2005 Jan 15;21(2):248-56. doi: 10.1093/bioinformatics/bth496. Epub 2004 Aug 27.
7
Probabilistic finite-state machines--part II.概率有限状态机——第二部分。
IEEE Trans Pattern Anal Mach Intell. 2005 Jul;27(7):1026-39. doi: 10.1109/TPAMI.2005.148.
8
GAPSCORE: finding gene and protein names one word at a time.GAPSCORE:每次逐个查找基因和蛋白质名称。
Bioinformatics. 2004 Jan 22;20(2):216-25. doi: 10.1093/bioinformatics/btg393.
9
Probabilistic finite-state machines--part I.概率有限状态机——第一部分。
IEEE Trans Pattern Anal Mach Intell. 2005 Jul;27(7):1013-25. doi: 10.1109/TPAMI.2005.147.
10
Discovering patterns to extract protein-protein interactions from full texts.从全文中发现提取蛋白质-蛋白质相互作用的模式。
Bioinformatics. 2004 Dec 12;20(18):3604-12. doi: 10.1093/bioinformatics/bth451. Epub 2004 Jul 29.

引用本文的文献

1
Semi-supervised learning from small annotated data and large unlabeled data for fine-grained Participants, Intervention, Comparison, and Outcomes entity recognition.从小规模标注数据和大规模未标注数据中进行半监督学习,用于细粒度的参与者、干预措施、对照和结果实体识别。
J Am Med Inform Assoc. 2025 Mar 1;32(3):555-565. doi: 10.1093/jamia/ocae326.
2
Zero-shot Learning with Minimum Instruction to Extract Social Determinants and Family History from Clinical Notes using GPT Model.使用GPT模型从临床记录中提取社会决定因素和家族病史的最少指令零样本学习
Proc IEEE Int Conf Big Data. 2023 Dec;2023:1476-1480. doi: 10.1109/BigData59044.2023.10386811.
3
A Deep Language Model for Symptom Extraction From Clinical Text and its Application to Extract COVID-19 Symptoms From Social Media.
一种从临床文本中提取症状的深度语言模型及其在从社交媒体中提取 COVID-19 症状的应用。
IEEE J Biomed Health Inform. 2022 Apr;26(4):1737-1748. doi: 10.1109/JBHI.2021.3123192. Epub 2022 Apr 14.
4
Retrieval with gene queries.使用基因查询进行检索。
BMC Bioinformatics. 2006 Apr 21;7:220. doi: 10.1186/1471-2105-7-220.
5
Various criteria in the evaluation of biomedical named entity recognition.生物医学命名实体识别评估中的各种标准。
BMC Bioinformatics. 2006 Feb 24;7:92. doi: 10.1186/1471-2105-7-92.
6
Systematic feature evaluation for gene name recognition.基因名称识别的系统特征评估
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S9. doi: 10.1186/1471-2105-6-S1-S9. Epub 2005 May 24.
7
A simple and practical dictionary-based approach for identification of proteins in Medline abstracts.一种基于词典的简单实用方法,用于识别医学在线数据库(Medline)摘要中的蛋白质。
J Am Med Inform Assoc. 2004 May-Jun;11(3):174-8. doi: 10.1197/jamia.M1453. Epub 2004 Feb 5.