• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

从文本实体对中提取生物医学事件。

Extracting biomedical events from pairs of text entities.

作者信息

Liu Xiao, Bordes Antoine, Grandvalet Yves

出版信息

BMC Bioinformatics. 2015;16 Suppl 10(Suppl 10):S8. doi: 10.1186/1471-2105-16-S10-S8. Epub 2015 Jul 13.

DOI:10.1186/1471-2105-16-S10-S8
PMID:26201478
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4511465/
Abstract

BACKGROUND

Huge amounts of electronic biomedical documents, such as molecular biology reports or genomic papers are generated daily. Nowadays, these documents are mainly available in the form of unstructured free texts, which require heavy processing for their registration into organized databases. This organization is instrumental for information retrieval, enabling to answer the advanced queries of researchers and practitioners in biology, medicine, and related fields. Hence, the massive data flow calls for efficient automatic methods of text-mining that extract high-level information, such as biomedical events, from biomedical text. The usual computational tools of Natural Language Processing cannot be readily applied to extract these biomedical events, due to the peculiarities of the domain. Indeed, biomedical documents contain highly domain-specific jargon and syntax. These documents also describe distinctive dependencies, making text-mining in molecular biology a specific discipline.

RESULTS

We address biomedical event extraction as the classification of pairs of text entities into the classes corresponding to event types. The candidate pairs of text entities are recursively provided to a multiclass classifier relying on Support Vector Machines. This recursive process extracts events involving other events as arguments. Compared to joint models based on Markov Random Fields, our model simplifies inference and hence requires shorter training and prediction times along with lower memory capacity. Compared to usual pipeline approaches, our model passes over a complex intermediate problem, while making a more extensive usage of sophisticated joint features between text entities. Our method focuses on the core event extraction of the Genia task of BioNLP challenges yielding the best result reported so far on the 2013 edition.

摘要

背景

每天都会产生大量的电子生物医学文档,如分子生物学报告或基因组论文。如今,这些文档主要以非结构化自由文本的形式存在,要将其录入有组织的数据库需要进行大量处理。这种组织对于信息检索至关重要,能够回答生物学、医学及相关领域研究人员和从业者的高级查询。因此,海量数据流需要高效的自动文本挖掘方法,从生物医学文本中提取高级信息,如生物医学事件。由于该领域的特殊性,常用的自然语言处理计算工具无法直接用于提取这些生物医学事件。实际上,生物医学文档包含高度特定领域的行话和句法。这些文档还描述了独特的依存关系,使得分子生物学中的文本挖掘成为一门特定学科。

结果

我们将生物医学事件提取视为将文本实体对分类到对应事件类型的类别中。候选文本实体对被递归地提供给一个依赖支持向量机的多类分类器。这个递归过程提取以其他事件为论据的事件。与基于马尔可夫随机场的联合模型相比,我们的模型简化了推理,因此训练和预测时间更短,内存容量更低。与常用的流水线方法相比,我们的模型跳过了一个复杂的中间问题,同时更广泛地使用了文本实体之间复杂的联合特征。我们的方法专注于生物自然语言处理挑战中Genia任务的核心事件提取,在2013年版本中取得了迄今为止报告的最佳结果。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/c857cb4f0eb2/1471-2105-16-S10-S8-6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/c27ea6c9eb81/1471-2105-16-S10-S8-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/4520625f6285/1471-2105-16-S10-S8-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/d82a92547589/1471-2105-16-S10-S8-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/9b5cd71f780e/1471-2105-16-S10-S8-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/4f53eeb1f238/1471-2105-16-S10-S8-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/c857cb4f0eb2/1471-2105-16-S10-S8-6.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/c27ea6c9eb81/1471-2105-16-S10-S8-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/4520625f6285/1471-2105-16-S10-S8-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/d82a92547589/1471-2105-16-S10-S8-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/9b5cd71f780e/1471-2105-16-S10-S8-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/4f53eeb1f238/1471-2105-16-S10-S8-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6d6b/4511465/c857cb4f0eb2/1471-2105-16-S10-S8-6.jpg

相似文献

1
Extracting biomedical events from pairs of text entities.从文本实体对中提取生物医学事件。
BMC Bioinformatics. 2015;16 Suppl 10(Suppl 10):S8. doi: 10.1186/1471-2105-16-S10-S8. Epub 2015 Jul 13.
2
Development of an information retrieval tool for biomedical patents.生物医学专利信息检索工具的开发。
Comput Methods Programs Biomed. 2018 Jun;159:125-134. doi: 10.1016/j.cmpb.2018.03.012. Epub 2018 Mar 14.
3
Structured learning for spatial information extraction from biomedical text: bacteria biotopes.从生物医学文本中提取空间信息的结构化学习:细菌生物栖息地
BMC Bioinformatics. 2015 Apr 25;16:129. doi: 10.1186/s12859-015-0542-z.
4
A Novel Sample Selection Strategy for Imbalanced Data of Biomedical Event Extraction with Joint Scoring Mechanism.一种基于联合评分机制的生物医学事件抽取不平衡数据的新型样本选择策略。
Comput Math Methods Med. 2016;2016:7536494. doi: 10.1155/2016/7536494. Epub 2016 Dec 14.
5
Event extraction with complex event classification using rich features.利用丰富特征进行复杂事件分类的事件抽取。
J Bioinform Comput Biol. 2010 Feb;8(1):131-46. doi: 10.1142/s0219720010004586.
6
Knowledge based word-concept model estimation and refinement for biomedical text mining.用于生物医学文本挖掘的基于知识的词概念模型估计与优化。
J Biomed Inform. 2015 Feb;53:300-7. doi: 10.1016/j.jbi.2014.11.015. Epub 2014 Dec 12.
7
Automatic identification and classification of noun argument structures in biomedical literature.生物医学文献中名词论元结构的自动识别与分类。
IEEE/ACM Trans Comput Biol Bioinform. 2012 Nov-Dec;9(6):1639-48. doi: 10.1109/TCBB.2012.111.
8
An Overview of Biomolecular Event Extraction from Scientific Documents.科学文献中生物分子事件提取概述
Comput Math Methods Med. 2015;2015:571381. doi: 10.1155/2015/571381. Epub 2015 Oct 26.
9
A Relation Extraction Framework for Biomedical Text Using Hybrid Feature Set.一种使用混合特征集的生物医学文本关系提取框架。
Comput Math Methods Med. 2015;2015:910423. doi: 10.1155/2015/910423. Epub 2015 Aug 10.
10
Extracting Inter-Sentence Relations for Associating Biological Context with Events in Biomedical Texts.提取句间关系,将生物背景与生物医学文本中的事件关联起来。
IEEE/ACM Trans Comput Biol Bioinform. 2020 Nov-Dec;17(6):1895-1906. doi: 10.1109/TCBB.2019.2904231. Epub 2020 Dec 8.

本文引用的文献

1
UniProt: a hub for protein information.通用蛋白质数据库(UniProt):蛋白质信息中心。
Nucleic Acids Res. 2015 Jan;43(Database issue):D204-12. doi: 10.1093/nar/gku989. Epub 2014 Oct 27.
2
The MIntAct project--IntAct as a common curation platform for 11 molecular interaction databases.MIntAct 项目——将 IntAct 作为 11 个分子相互作用数据库的通用协同策展平台。
Nucleic Acids Res. 2014 Jan;42(Database issue):D358-63. doi: 10.1093/nar/gkt1115. Epub 2013 Nov 13.
3
Combining joint models for biomedical event extraction.联合模型在生物医学事件抽取中的应用。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S9. doi: 10.1186/1471-2105-13-S11-S9.
4
Semantically linking molecular entities in literature through entity relationships.通过实体关系对文献中的分子实体进行语义链接。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S6. doi: 10.1186/1471-2105-13-S11-S6.
5
Biomedical event extraction from abstracts and full papers using search-based structured prediction.基于搜索的结构化预测在摘要和全文中进行生物医学事件抽取。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S5. doi: 10.1186/1471-2105-13-S11-S5.
6
University of Turku in the BioNLP'11 Shared Task.图尔库大学在 BioNLP'11 共享任务中的贡献。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S4. doi: 10.1186/1471-2105-13-S11-S4.
7
Overview of the ID, EPI and REL tasks of BioNLP Shared Task 2011.生物自然语言处理共享任务 2011 的 ID、EPI 和 REL 任务概述。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S2. doi: 10.1186/1471-2105-13-S11-S2.
8
The Genia Event and Protein Coreference tasks of the BioNLP Shared Task 2011.2011 年生物自然语言处理共享任务的 Genia 事件和蛋白质共指任务。
BMC Bioinformatics. 2012 Jun 26;13 Suppl 11(Suppl 11):S1. doi: 10.1186/1471-2105-13-S11-S1.
9
Event extraction with complex event classification using rich features.利用丰富特征进行复杂事件分类的事件抽取。
J Bioinform Comput Biol. 2010 Feb;8(1):131-46. doi: 10.1142/s0219720010004586.