• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物创意任务1A:使用随机标记器进行实体识别。

BioCreAtIvE task1A: entity identification with a stochastic tagger.

作者信息

Kinoshita Shuhei, Cohen K Bretonnel, Ogren Philip V, Hunter Lawrence

机构信息

Center for Computational Pharmacology, University of Colorado School of Medicine, Denver, Colorado, USA.

出版信息

BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S4. doi: 10.1186/1471-2105-6-S1-S4. Epub 2005 May 24.

DOI:10.1186/1471-2105-6-S1-S4
PMID:15960838
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC1869018/
Abstract

BACKGROUND

Our approach to Task 1A was inspired by Tanabe and Wilbur's ABGene system. Like Tanabe and Wilbur, we approached the problem as one of part-of-speech tagging, adding a GENE tag to the standard tag set. Where their system uses the Brill tagger, we used TnT, the Trigrams 'n' Tags HMM-based part-of-speech tagger. Based on careful error analysis, we implemented a set of post-processing rules to correct both false positives and false negatives. We participated in both the open and the closed divisions; for the open division, we made use of data from NCBI.

RESULTS

Our base system without post-processing achieved a precision and recall of 68.0% and 77.2%, respectively, giving an F-measure of 72.3%. The full system with post-processing achieved a precision and recall of 80.3% and 80.5% giving an F-measure of 80.4%. We achieved a slight improvement (F-measure = 80.9%) by employing a dictionary-based post-processing step for the open division. We placed third in both the open and the closed division.

CONCLUSION

Our results show that a part-of-speech tagger can be augmented with post-processing rules resulting in an entity identification system that competes well with other approaches.

摘要

背景

我们处理任务1A的方法受到了田边和威尔伯的ABGene系统的启发。和田边与威尔伯一样,我们将这个问题视为词性标注问题之一,在标准标签集中添加了一个“基因”(GENE)标签。他们的系统使用的是布里尔标注器,而我们使用的是TnT,即基于隐马尔可夫模型的三元组词性标注器。基于细致的错误分析,我们实施了一套后处理规则来纠正误报和漏报。我们参加了开放组和封闭组的比赛;对于开放组,我们利用了来自美国国立医学图书馆的数据库的数据。

结果

我们未经后处理的基础系统的精确率和召回率分别为68.0%和77.2%,F值为72.3%。经过后处理的完整系统的精确率和召回率分别为80.3%和80.5%,F值为80.4%。通过对开放组采用基于词典的后处理步骤,我们略有改进(F值 = 80.9%)。我们在开放组和封闭组比赛中均获得了第三名。

结论

我们的结果表明,词性标注器可以通过后处理规则得到增强,从而形成一个能与其他方法相媲美的实体识别系统。

相似文献

1
BioCreAtIvE task1A: entity identification with a stochastic tagger.生物创意任务1A:使用随机标记器进行实体识别。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S4. doi: 10.1186/1471-2105-6-S1-S4. Epub 2005 May 24.
2
Integrating high dimensional bi-directional parsing models for gene mention tagging.整合用于基因提及标记的高维双向解析模型。
Bioinformatics. 2008 Jul 1;24(13):i286-94. doi: 10.1093/bioinformatics/btn183.
3
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
4
Gene name identification and normalization using a model organism database.使用模式生物数据库进行基因名称识别与标准化
J Biomed Inform. 2004 Dec;37(6):396-410. doi: 10.1016/j.jbi.2004.08.010.
5
A hybrid named entity tagger for tagging human proteins/genes.一种用于标记人类蛋白质/基因的混合命名实体标记器。
Int J Data Min Bioinform. 2014;10(3):315-28. doi: 10.1504/ijdmb.2014.064545.
6
Soft tagging of overlapping high confidence gene mention variants for cross-species full-text gene normalization.重叠高置信度基因提及变体的软标记用于跨物种全文基因归一化。
BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S6. doi: 10.1186/1471-2105-12-S8-S6.
7
Multilingual part-of-speech tagging with weightless neural networks.使用无权重神经网络进行多语言词性标注。
Neural Netw. 2015 Jun;66:11-21. doi: 10.1016/j.neunet.2015.02.012. Epub 2015 Mar 2.
8
Improved part-of-speech prediction in suffix analysis.后缀分析中的改进词性预测。
PLoS One. 2013 Oct 4;8(10):e76042. doi: 10.1371/journal.pone.0076042. eCollection 2013.
9
A token centric part-of-speech tagger for biomedical text.一种用于生物医学文本的以词元为中心的词性标注器。
Artif Intell Med. 2014 May;61(1):11-20. doi: 10.1016/j.artmed.2014.03.005. Epub 2014 Mar 26.
10
dTagger: a POS tagger.dTagger:一种词性标注器。
AMIA Annu Symp Proc. 2006;2006:200-3.

引用本文的文献

1
Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles.科罗拉多生物医学期刊文章丰富注释全文(CRAFT)语料库中的共指标注与消解
BMC Bioinformatics. 2017 Aug 17;18(1):372. doi: 10.1186/s12859-017-1775-9.
2
A framework for ontology-based question answering with application to parasite immunology.一个基于本体的问答框架及其在寄生虫免疫学中的应用。
J Biomed Semantics. 2015 Jul 17;6:31. doi: 10.1186/s13326-015-0029-x. eCollection 2015.
3
Wide-coverage relation extraction from MEDLINE using deep syntax.

本文引用的文献

1
A simple algorithm for identifying abbreviation definitions in biomedical text.一种用于识别生物医学文本中缩写定义的简单算法。
Pac Symp Biocomput. 2003:451-62.
2
Tagging gene and protein names in biomedical text.在生物医学文本中标记基因和蛋白质名称。
Bioinformatics. 2002 Aug;18(8):1124-32. doi: 10.1093/bioinformatics/18.8.1124.
3
Toward information extraction: identifying protein names from biological papers.迈向信息提取:从生物学论文中识别蛋白质名称。
使用深度句法从医学文献数据库(MEDLINE)中进行广泛覆盖的关系提取。
BMC Bioinformatics. 2015 Apr 1;16:107. doi: 10.1186/s12859-015-0538-8.
4
Biomedical named entity extraction: some issues of corpus compatibilities.生物医学命名实体提取:语料库兼容性的一些问题。
Springerplus. 2013 Nov 12;2:601. doi: 10.1186/2193-1801-2-601. eCollection 2013.
5
Identifying the status of genetic lesions in cancer clinical trial documents using machine learning.利用机器学习识别癌症临床试验文件中的遗传病变状态。
BMC Genomics. 2012;13 Suppl 8(Suppl 8):S21. doi: 10.1186/1471-2164-13-S8-S21. Epub 2012 Dec 17.
6
Concept recognition for extracting protein interaction relations from biomedical text.从生物医学文本中提取蛋白质相互作用关系的概念识别
Genome Biol. 2008;9 Suppl 2(Suppl 2):S9. doi: 10.1186/gb-2008-9-s2-s9. Epub 2008 Sep 1.
7
Introducing meta-services for biomedical information extraction.介绍用于生物医学信息提取的元服务。
Genome Biol. 2008;9 Suppl 2(Suppl 2):S6. doi: 10.1186/gb-2008-9-s2-s6. Epub 2008 Sep 1.
8
Overview of BioCreative II gene normalization.生物创意II基因标准化概述。
Genome Biol. 2008;9 Suppl 2(Suppl 2):S3. doi: 10.1186/gb-2008-9-s2-s3. Epub 2008 Sep 1.
9
An open-source framework for large-scale, flexible evaluation of biomedical text mining systems.一个用于大规模、灵活评估生物医学文本挖掘系统的开源框架。
J Biomed Discov Collab. 2008 Jan 29;3:1. doi: 10.1186/1747-5333-3-1.
10
SemCat: semantically categorized entities for genomics.SemCat:用于基因组学的语义分类实体。
AMIA Annu Symp Proc. 2006;2006:754-8.
Pac Symp Biocomput. 1998:707-18.