• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

两种蛋白质名称提取的学习方法。

Two learning approaches for protein name extraction.

机构信息

Department of Computer Engineering, Bilkent University, Ankara, Turkey.

出版信息

J Biomed Inform. 2009 Dec;42(6):1046-55. doi: 10.1016/j.jbi.2009.05.004. Epub 2009 May 13.

DOI:10.1016/j.jbi.2009.05.004
PMID:19446044
Abstract

Protein name extraction, one of the basic tasks in automatic extraction of information from biological texts, remains challenging. In this paper, we explore the use of two different machine learning techniques and present the results of the conducted experiments. In the first method, Bigram language model is used to extract protein names. In the latter, we use an automatic rule learning method that can identify protein names located in the biological texts. In both cases, we generalize protein names by using hierarchically categorized syntactic token types. We conducted our experiments on two different datasets. Our first method based on Bigram language model achieved an F-score of 67.7% on the YAPEX dataset and 66.8% on the GENIA corpus. The developed rule learning method obtained 61.8% F-score value on the YAPEX dataset and 61.0% on the GENIA corpus. The results of the comparative experiments demonstrate that both techniques are applicable to the task of automatic protein name extraction, a prerequisite for the large-scale processing of biomedical literature.

摘要

蛋白质名称提取是从生物文本中自动提取信息的基本任务之一,仍然具有挑战性。在本文中,我们探索了两种不同的机器学习技术的应用,并呈现了所进行实验的结果。在第一种方法中,使用二元语法语言模型提取蛋白质名称。在后一种方法中,我们使用一种自动规则学习方法,可以识别位于生物文本中的蛋白质名称。在这两种情况下,我们通过使用分层分类的句法标记类型来泛化蛋白质名称。我们在两个不同的数据集上进行了实验。我们基于二元语法语言模型的第一种方法在 YAPEX 数据集上获得了 67.7%的 F 分数,在 GENIA 语料库上获得了 66.8%的 F 分数。开发的规则学习方法在 YAPEX 数据集上获得了 61.8%的 F 分数,在 GENIA 语料库上获得了 61.0%的 F 分数。比较实验的结果表明,这两种技术都适用于自动蛋白质名称提取任务,这是大规模处理生物医学文献的前提。

相似文献

1
Two learning approaches for protein name extraction.两种蛋白质名称提取的学习方法。
J Biomed Inform. 2009 Dec;42(6):1046-55. doi: 10.1016/j.jbi.2009.05.004. Epub 2009 May 13.
2
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
3
Using name-internal and contextual features to classify biological terms.利用名称内部特征和上下文特征对生物学术语进行分类。
J Biomed Inform. 2004 Dec;37(6):498-511. doi: 10.1016/j.jbi.2004.08.007.
4
Comparison of character-level and part of speech features for name recognition in biomedical texts.生物医学文本中用于名称识别的字符级特征与词性特征比较。
J Biomed Inform. 2004 Dec;37(6):423-35. doi: 10.1016/j.jbi.2004.08.008.
5
Improving the performance of dictionary-based approaches in protein name recognition.提高基于词典方法在蛋白质名称识别中的性能。
J Biomed Inform. 2004 Dec;37(6):461-70. doi: 10.1016/j.jbi.2004.08.003.
6
Recognizing names in biomedical texts using mutual information independence model and SVM plus sigmoid.使用互信息独立性模型和支持向量机加 sigmoid 函数识别生物医学文本中的名称。
Int J Med Inform. 2006 Jun;75(6):456-67. doi: 10.1016/j.ijmedinf.2005.06.012. Epub 2005 Aug 19.
7
Building a protein name dictionary from full text: a machine learning term extraction approach.从全文构建蛋白质名称词典:一种机器学习术语提取方法。
BMC Bioinformatics. 2005 Apr 7;6:88. doi: 10.1186/1471-2105-6-88.
8
Use of morphological analysis in protein name recognition.形态分析在蛋白质名称识别中的应用。
J Biomed Inform. 2004 Dec;37(6):471-82. doi: 10.1016/j.jbi.2004.08.001.
9
Comparative experiments on learning information extractors for proteins and their interactions.蛋白质及其相互作用的学习信息提取器的比较实验。
Artif Intell Med. 2005 Feb;33(2):139-55. doi: 10.1016/j.artmed.2004.07.016.
10
Gene name ambiguity of eukaryotic nomenclatures.真核生物命名法中的基因名称歧义。
Bioinformatics. 2005 Jan 15;21(2):248-56. doi: 10.1093/bioinformatics/bth496. Epub 2004 Aug 27.

引用本文的文献

1
BICEPP: an example-based statistical text mining method for predicting the binary characteristics of drugs.BICEPP:一种基于实例的统计文本挖掘方法,用于预测药物的二元特征。
BMC Bioinformatics. 2011 Apr 21;12:112. doi: 10.1186/1471-2105-12-112.