• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物创意任务1A:基因提及发现评估。

BioCreAtIvE task 1A: gene mention finding evaluation.

作者信息

Yeh Alexander, Morgan Alexander, Colosimo Marc, Hirschman Lynette

机构信息

The MITRE Corporation, 202 Burlington Road, Bedford, MA 01730, USA.

出版信息

BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S2. doi: 10.1186/1471-2105-6-S1-S2. Epub 2005 May 24.

DOI:10.1186/1471-2105-6-S1-S2
PMID:15960832
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC1869012/
Abstract

BACKGROUND

The biological research literature is a major repository of knowledge. As the amount of literature increases, it will get harder to find the information of interest on a particular topic. There has been an increasing amount of work on text mining this literature, but comparing this work is hard because of a lack of standards for making comparisons. To address this, we worked with colleagues at the Protein Design Group, CNB-CSIC, Madrid to develop BioCreAtIvE (Critical Assessment for Information Extraction in Biology), an open common evaluation of systems on a number of biological text mining tasks. We report here on task 1A, which deals with finding mentions of genes and related entities in text. "Finding mentions" is a basic task, which can be used as a building block for other text mining tasks. The task makes use of data and evaluation software provided by the (US) National Center for Biotechnology Information (NCBI).

RESULTS

15 teams took part in task 1A. A number of teams achieved scores over 80% F-measure (balanced precision and recall). The teams that tried to use their task 1A systems to help on other BioCreAtIvE tasks reported mixed results.

CONCLUSION

The 80% plus F-measure results are good, but still somewhat lag the best scores achieved in some other domains such as newswire, due in part to the complexity and length of gene names, compared to person or organization names in newswire.

摘要

背景

生物学研究文献是知识的主要宝库。随着文献数量的增加,要找到特定主题的相关信息变得更加困难。目前已有越来越多关于对这类文献进行文本挖掘的工作,但由于缺乏用于比较的标准,比较这些工作存在困难。为解决这一问题,我们与马德里西班牙国家研究委员会蛋白质设计小组的同事合作,开发了BioCreAtIvE(生物学信息提取关键评估),这是对一系列生物学文本挖掘任务的系统进行的公开通用评估。我们在此报告任务1A,该任务涉及在文本中查找基因及相关实体的提及。“查找提及”是一项基本任务,可作为其他文本挖掘任务的构建基础。该任务使用了(美国)国家生物技术信息中心(NCBI)提供的数据和评估软件。

结果

15个团队参与了任务1A。一些团队的F值(平衡精确率和召回率)超过了80%。那些试图使用其任务1A系统来辅助完成其他BioCreAtIvE任务的团队,结果参差不齐。

结论

超过80%的F值结果不错,但仍略落后于诸如新闻专线等其他领域所取得的最佳分数,部分原因在于与新闻专线中的人名或组织名相比,基因名称的复杂性和长度。

相似文献

1
BioCreAtIvE task 1A: gene mention finding evaluation.生物创意任务1A:基因提及发现评估。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S2. doi: 10.1186/1471-2105-6-S1-S2. Epub 2005 May 24.
2
Evaluation of text-mining systems for biology: overview of the Second BioCreative community challenge.生物学文本挖掘系统评估:第二届生物创意社区挑战赛概述
Genome Biol. 2008;9 Suppl 2(Suppl 2):S1. doi: 10.1186/gb-2008-9-s2-s1. Epub 2008 Sep 1.
3
Overview of the BioCreative III Workshop.第三届生物创意研讨会概述。
BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S1. doi: 10.1186/1471-2105-12-S8-S1.
4
Evaluation of BioCreAtIvE assessment of task 2.生物创意任务2评估的评价
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S16. doi: 10.1186/1471-2105-6-S1-S16. Epub 2005 May 24.
5
Overview of BioCreAtIvE: critical assessment of information extraction for biology.生物创意(BioCreAtIvE)概述:生物学信息提取的批判性评估
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S1. doi: 10.1186/1471-2105-6-S1-S1. Epub 2005 May 24.
6
Recognition of protein/gene names from text using an ensemble of classifiers.使用分类器集成从文本中识别蛋白质/基因名称。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S7. doi: 10.1186/1471-2105-6-S1-S7. Epub 2005 May 24.
7
BioCreative III interactive task: an overview.BioCreative III 交互式任务概述。
BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S4. doi: 10.1186/1471-2105-12-S8-S4.
8
Gene name identification and normalization using a model organism database.使用模式生物数据库进行基因名称识别与标准化
J Biomed Inform. 2004 Dec;37(6):396-410. doi: 10.1016/j.jbi.2004.08.010.
9
Overview of BioCreAtIvE task 1B: normalized gene lists.生物创意任务1B概述:标准化基因列表。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S11. doi: 10.1186/1471-2105-6-S1-S11. Epub 2005 May 24.
10
Text mining in livestock animal science: introducing the potential of text mining to animal sciences.文本挖掘在畜牧动物科学中的应用:介绍文本挖掘在动物科学中的应用潜力。
J Anim Sci. 2012 Oct;90(10):3666-76. doi: 10.2527/jas.2011-4841. Epub 2012 Jun 4.

引用本文的文献

1
Mining microbe-disease interactions from literature via a transfer learning model.通过迁移学习模型从文献中挖掘微生物-疾病相互作用。
BMC Bioinformatics. 2021 Sep 10;22(1):432. doi: 10.1186/s12859-021-04346-7.
2
PGxCorpus, a manually annotated corpus for pharmacogenomics.PGxCorpus,一个用于药物基因组学的人工标注语料库。
Sci Data. 2020 Jan 2;7(1):3. doi: 10.1038/s41597-019-0342-9.
3
Precursor-induced conditional random fields: connecting separate entities by induction for improved clinical named entity recognition.诱导前条件随机场:通过诱导连接独立实体以提高临床命名实体识别。

本文引用的文献

1
Identifying gene and protein mentions in text using conditional random fields.使用条件随机场识别文本中的基因和蛋白质提及。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S6. doi: 10.1186/1471-2105-6-S1-S6. Epub 2005 May 24.
2
Exploring the boundaries: gene and protein identification in biomedical text.探索边界:生物医学文本中的基因与蛋白质识别
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S5. doi: 10.1186/1471-2105-6-S1-S5. Epub 2005 May 24.
3
GENETAG: a tagged corpus for gene/protein named entity recognition.GENETAG:一个用于基因/蛋白质命名实体识别的带标注语料库。
BMC Med Inform Decis Mak. 2019 Jul 15;19(1):132. doi: 10.1186/s12911-019-0865-1.
4
Open Agile text mining for bioinformatics: the PubAnnotation ecosystem.开放的生物信息学敏捷文本挖掘:PubAnnotation 生态系统。
Bioinformatics. 2019 Nov 1;35(21):4372-4380. doi: 10.1093/bioinformatics/btz227.
5
CRFVoter: gene and protein related object recognition using a conglomerate of CRF-based tools.CRFVoter:使用基于条件随机场工具集合的基因和蛋白质相关对象识别
J Cheminform. 2019 Mar 14;11(1):21. doi: 10.1186/s13321-019-0343-x.
6
Preparing next-generation scientists for biomedical big data: artificial intelligence approaches.为生物医学大数据培养下一代科学家:人工智能方法。
Per Med. 2019 May 1;16(3):247-257. doi: 10.2217/pme-2018-0145. Epub 2019 Feb 14.
7
Exploiting and assessing multi-source data for supervised biomedical named entity recognition.利用和评估多源数据进行有监督的生物医学命名实体识别。
Bioinformatics. 2018 Jul 15;34(14):2474-2482. doi: 10.1093/bioinformatics/bty152.
8
Clinical Information Extraction at the CLEF eHealth Evaluation lab 2016.2016年CLEF电子健康评估实验室的临床信息提取
CEUR Workshop Proc. 2016 Sep;1609:28-42.
9
Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles.科罗拉多生物医学期刊文章丰富注释全文(CRAFT)语料库中的共指标注与消解
BMC Bioinformatics. 2017 Aug 17;18(1):372. doi: 10.1186/s12859-017-1775-9.
10
BELMiner: adapting a rule-based relation extraction system to extract biological expression language statements from bio-medical literature evidence sentences.BELMiner:调整基于规则的关系提取系统,以从生物医学文献证据句子中提取生物表达语言陈述。
Database (Oxford). 2017 Jan 1;2017(1). doi: 10.1093/database/baw156.
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S3. doi: 10.1186/1471-2105-6-S1-S3. Epub 2005 May 24.
4
Evaluation of BioCreAtIvE assessment of task 2.生物创意任务2评估的评价
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S16. doi: 10.1186/1471-2105-6-S1-S16. Epub 2005 May 24.
5
Automatically annotating documents with normalized gene lists.使用标准化基因列表自动注释文档。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S13. doi: 10.1186/1471-2105-6-S1-S13. Epub 2005 May 24.
6
Evaluation of text data mining for database curation: lessons learned from the KDD Challenge Cup.用于数据库管理的文本数据挖掘评估:从知识发现与数据挖掘竞赛杯赛中学到的经验教训。
Bioinformatics. 2003;19 Suppl 1:i331-9. doi: 10.1093/bioinformatics/btg1046.
7
Rutabaga by any other name: extracting biological names.换个名字的芜菁:提取生物名称。
J Biomed Inform. 2002 Aug;35(4):247-59. doi: 10.1016/s1532-0464(03)00014-5.
8
Accomplishments and challenges in literature data mining for biology.生物学文献数据挖掘中的成就与挑战
Bioinformatics. 2002 Dec;18(12):1553-61. doi: 10.1093/bioinformatics/18.12.1553.