• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

文本侦探:一种用于生物医学文本中基因注释的基于规则的系统。

Text detective: a rule-based system for gene annotation in biomedical texts.

作者信息

Tamames Javier

机构信息

Alma Bioinformatics S,L, Ronda de Poniente 4, 28750 Tres Cantos, Madrid, Spain.

出版信息

BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S10. doi: 10.1186/1471-2105-6-S1-S10. Epub 2005 May 24.

DOI:10.1186/1471-2105-6-S1-S10
PMID:15960822
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC1869003/
Abstract

BACKGROUND

The identification of mentions of gene or gene products in biomedical texts is a critical step in the development of text mining applications in biosciences. The complexity and ambiguity of gene nomenclature makes this a very difficult task.

METHODS

Here we present a novel approach based on a combination of carefully designed rules and several lexicons of biological concepts, implemented in the Text Detective system. Text Detective is able to normalize the results of gene mentions found by offering the appropriate database reference.

RESULTS

In BioCreAtIvE evaluation, Text Detective achieved results of 84% precision, 71% recall for task 1A, and 79% precision, 71% recall for mouse genes in task 1B.

摘要

背景

在生物医学文本中识别基因或基因产物的提及是生物科学文本挖掘应用开发中的关键步骤。基因命名法的复杂性和模糊性使其成为一项非常困难的任务。

方法

在此,我们提出一种基于精心设计的规则与多个生物概念词汇表相结合的新方法,该方法在文本侦探系统中得以实现。文本侦探能够通过提供适当的数据库参考来规范所发现的基因提及结果。

结果

在BioCreAtIvE评估中,文本侦探在任务1A中实现了84%的精确率、71%的召回率,在任务1B中对于小鼠基因实现了79%的精确率、71%的召回率。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/05759d8f6bc1/1471-2105-6-S1-S10-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/bad4da70bcc4/1471-2105-6-S1-S10-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/2f164b254d11/1471-2105-6-S1-S10-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/d70e6376da17/1471-2105-6-S1-S10-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/d39e5060dd87/1471-2105-6-S1-S10-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/05759d8f6bc1/1471-2105-6-S1-S10-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/bad4da70bcc4/1471-2105-6-S1-S10-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/2f164b254d11/1471-2105-6-S1-S10-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/d70e6376da17/1471-2105-6-S1-S10-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/d39e5060dd87/1471-2105-6-S1-S10-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/f4fb/1869003/05759d8f6bc1/1471-2105-6-S1-S10-5.jpg

相似文献

1
Text detective: a rule-based system for gene annotation in biomedical texts.文本侦探:一种用于生物医学文本中基因注释的基于规则的系统。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S10. doi: 10.1186/1471-2105-6-S1-S10. Epub 2005 May 24.
2
Evaluation of BioCreAtIvE assessment of task 2.生物创意任务2评估的评价
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S16. doi: 10.1186/1471-2105-6-S1-S16. Epub 2005 May 24.
3
A sentence sliding window approach to extract protein annotations from biomedical articles.一种用于从生物医学文章中提取蛋白质注释的句子滑动窗口方法。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S19. doi: 10.1186/1471-2105-6-S1-S19. Epub 2005 May 24.
4
An evaluation of GO annotation retrieval for BioCreAtIvE and GOA.对生物创意(BioCreAtIvE)和基因本体注释(GOA)的基因本体(GO)注释检索的评估。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S17. doi: 10.1186/1471-2105-6-S1-S17. Epub 2005 May 24.
5
Finding genomic ontology terms in text using evidence content.利用证据内容在文本中查找基因组本体术语。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S21. doi: 10.1186/1471-2105-6-S1-S21. Epub 2005 May 24.
6
ProMiner: rule-based protein and gene entity recognition.ProMiner:基于规则的蛋白质和基因实体识别
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S14. doi: 10.1186/1471-2105-6-S1-S14. Epub 2005 May 24.
7
Learning statistical models for annotating proteins with function information using biomedical text.利用生物医学文本学习用于用功能信息注释蛋白质的统计模型。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S18. doi: 10.1186/1471-2105-6-S1-S18. Epub 2005 May 24.
8
Figure text extraction in biomedical literature.生物医学文献中的图表文本提取。
PLoS One. 2011 Jan 13;6(1):e15338. doi: 10.1371/journal.pone.0015338.
9
Evaluation of text-mining systems for biology: overview of the Second BioCreative community challenge.生物学文本挖掘系统评估:第二届生物创意社区挑战赛概述
Genome Biol. 2008;9 Suppl 2(Suppl 2):S1. doi: 10.1186/gb-2008-9-s2-s1. Epub 2008 Sep 1.
10
Exploring the boundaries: gene and protein identification in biomedical text.探索边界:生物医学文本中的基因与蛋白质识别
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S5. doi: 10.1186/1471-2105-6-S1-S5. Epub 2005 May 24.

引用本文的文献

1
A method for automatically extracting infectious disease-related primers and probes from the literature.一种从文献中自动提取传染病相关引物和探针的方法。
BMC Bioinformatics. 2010 Aug 3;11:410. doi: 10.1186/1471-2105-11-410.
2
EnvMine: a text-mining system for the automatic extraction of contextual information.EnvMine:一个文本挖掘系统,用于自动提取上下文信息。
BMC Bioinformatics. 2010 Jun 1;11:294. doi: 10.1186/1471-2105-11-294.
3
Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text.

本文引用的文献

1
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
2
Tough mining: the challenges of searching the scientific literature.艰难的挖掘:搜索科学文献的挑战。
PLoS Biol. 2003 Nov;1(2):E48. doi: 10.1371/journal.pbio.0000048. Epub 2003 Nov 17.
3
Extracting synonymous gene and protein terms from biological literature.从生物学文献中提取同义基因和蛋白质术语。
Pharmspresso:一种用于从全文中提取药物基因组学概念和关系的文本挖掘工具。
BMC Bioinformatics. 2009 Feb 5;10 Suppl 2(Suppl 2):S6. doi: 10.1186/1471-2105-10-S2-S6.
4
A cascaded approach to normalising gene mentions in biomedical literature.一种用于规范生物医学文献中基因提及的级联方法。
Bioinformation. 2007 Dec 30;2(5):197-206. doi: 10.6026/97320630002197.
5
BioCAD: an information fusion platform for bio-network inference and analysis.BioCAD:一个用于生物网络推理与分析的信息融合平台。
BMC Bioinformatics. 2007 Nov 27;8 Suppl 9(Suppl 9):S2. doi: 10.1186/1471-2105-8-S9-S2.
6
Automated recognition of malignancy mentions in biomedical literature.生物医学文献中恶性肿瘤提及的自动识别。
BMC Bioinformatics. 2006 Nov 7;7:492. doi: 10.1186/1471-2105-7-492.
7
Quantitative assessment of dictionary-based protein named entity tagging.基于词典的蛋白质命名实体标注的定量评估
J Am Med Inform Assoc. 2006 Sep-Oct;13(5):497-507. doi: 10.1197/jamia.M2085. Epub 2006 Jun 23.
8
The success (or not) of HUGO nomenclature.人类基因组组织(HUGO)命名法的成功(与否)。
Genome Biol. 2006;7(5):402. doi: 10.1186/gb-2006-7-5-402. Epub 2006 May 15.
9
ProMiner: rule-based protein and gene entity recognition.ProMiner:基于规则的蛋白质和基因实体识别
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S14. doi: 10.1186/1471-2105-6-S1-S14. Epub 2005 May 24.
10
Overview of BioCreAtIvE task 1B: normalized gene lists.生物创意任务1B概述:标准化基因列表。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S11. doi: 10.1186/1471-2105-6-S1-S11. Epub 2005 May 24.
Bioinformatics. 2003;19 Suppl 1:i340-9. doi: 10.1093/bioinformatics/btg1047.
4
Tagging gene and protein names in biomedical text.在生物医学文本中标记基因和蛋白质名称。
Bioinformatics. 2002 Aug;18(8):1124-32. doi: 10.1093/bioinformatics/18.8.1124.
5
What's in a name?名字里有什么?
Genome Biol. 2002;3(4):COMMENT1005. doi: 10.1186/gb-2002-3-4-comment1005. Epub 2002 Mar 26.
6
Toward information extraction: identifying protein names from biological papers.迈向信息提取:从生物学论文中识别蛋白质名称。
Pac Symp Biocomput. 1998:707-18.