• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

生物语料库中实体注释的分析。

An analysis on the entity annotations in biological corpora.

作者信息

Neves Mariana

机构信息

Hasso-Plattner-Institut, Potsdam Universität, Potsdam, Germany.

出版信息

F1000Res. 2014 Apr 25;3:96. doi: 10.12688/f1000research.3216.1. eCollection 2014.

DOI:10.12688/f1000research.3216.1
PMID:25254099
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4168744/
Abstract

Collection of documents annotated with semantic entities and relationships are crucial resources to support development and evaluation of text mining solutions for the biomedical domain. Here I present an overview of 36 corpora and show an analysis on the semantic annotations they contain. Annotations for entity types were classified into six semantic groups and an overview on the semantic entities which can be found in each corpus is shown. Results show that while some semantic entities, such as genes, proteins and chemicals are consistently annotated in many collections, corpora available for diseases, variations and mutations are still few, in spite of their importance in the biological domain.

摘要

带有语义实体和关系注释的文档集合是支持生物医学领域文本挖掘解决方案开发和评估的关键资源。在此,我概述了36个语料库,并对它们包含的语义注释进行了分析。实体类型的注释被分为六个语义组,并展示了每个语料库中可找到的语义实体概述。结果表明,虽然一些语义实体,如基因、蛋白质和化学物质在许多集合中都有一致的注释,但尽管疾病、变异和突变在生物领域很重要,可用于它们的语料库仍然很少。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b410/4168744/f78f457d4964/f1000research-3-3456-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b410/4168744/f78f457d4964/f1000research-3-3456-g0000.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/b410/4168744/f78f457d4964/f1000research-3-3456-g0000.jpg

相似文献

1
An analysis on the entity annotations in biological corpora.生物语料库中实体注释的分析。
F1000Res. 2014 Apr 25;3:96. doi: 10.12688/f1000research.3216.1. eCollection 2014.
2
FoodBase corpus: a new resource of annotated food entities.FoodBase 语料库:一个新的带注释食物实体资源。
Database (Oxford). 2019 Jan 1;2019. doi: 10.1093/database/baz121.
3
Assessment of NER solutions against the first and second CALBC Silver Standard Corpus.针对首个和第二个CALBC银标准语料库对命名实体识别解决方案进行评估。
J Biomed Semantics. 2011 Oct 6;2 Suppl 5(Suppl 5):S11. doi: 10.1186/2041-1480-2-S5-S11.
4
Assessment of disease named entity recognition on a corpus of annotated sentences.基于带注释句子语料库的疾病命名实体识别评估。
BMC Bioinformatics. 2008 Apr 11;9 Suppl 3(Suppl 3):S3. doi: 10.1186/1471-2105-9-S3-S3.
5
Investigating heterogeneous protein annotations toward cross-corpora utilization.研究跨语料库利用的异构蛋白质注释。
BMC Bioinformatics. 2009 Dec 9;10:403. doi: 10.1186/1471-2105-10-403.
6
CALBC silver standard corpus.CALBC银标准语料库。
J Bioinform Comput Biol. 2010 Feb;8(1):163-79. doi: 10.1142/s0219720010004562.
7
COPIOUS: A gold standard corpus of named entities towards extracting species occurrence from biodiversity literature.COPIOUS:一个用于从生物多样性文献中提取物种出现信息的命名实体黄金标准语料库。
Biodivers Data J. 2019 Jan 22(7):e29626. doi: 10.3897/BDJ.7.e29626. eCollection 2019.
8
Enriching a biomedical event corpus with meta-knowledge annotation.用元知识标注丰富生物医学事件语料库。
BMC Bioinformatics. 2011 Oct 10;12:393. doi: 10.1186/1471-2105-12-393.
9
Gold-standard ontology-based anatomical annotation in the CRAFT Corpus.CRAFT语料库中基于金标准本体的解剖学标注
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax087.
10
ECO-CollecTF: A Corpus of Annotated Evidence-Based Assertions in Biomedical Manuscripts.ECO-CollecTF:生物医学手稿中带注释的循证断言语料库。
Front Res Metr Anal. 2021 Jul 13;6:674205. doi: 10.3389/frma.2021.674205. eCollection 2021.

引用本文的文献

1
Chemical identification and indexing in full-text articles: an overview of the NLM-Chem track at BioCreative VII.全文文章中的化学物质鉴定与标引:NLM-Chem 在 BioCreative VII 挑战赛中的概述
Database (Oxford). 2023 Mar 7;2023. doi: 10.1093/database/baad005.
2
NLM-Chem, a new resource for chemical entity recognition in PubMed full text literature.NLM-Chem,一个用于 PubMed 全文文献中化学实体识别的新资源。
Sci Data. 2021 Mar 25;8(1):91. doi: 10.1038/s41597-021-00875-1.
3
RCorp: a resource for chemical disease semantic extraction in Chinese.

本文引用的文献

1
Anatomical entity mention recognition at literature scale.文献级别的解剖实体提及识别。
Bioinformatics. 2014 Mar 15;30(6):868-75. doi: 10.1093/bioinformatics/btt580. Epub 2013 Oct 25.
2
BioC: a minimalist approach to interoperability for biomedical text processing.BioC:一种用于生物医学文本处理的最小互操作方法。
Database (Oxford). 2013 Sep 18;2013:bat064. doi: 10.1093/database/bat064. Print 2013.
3
DNorm: disease name normalization with pairwise learning to rank.DNorm:基于对分学习排序的疾病名称标准化。
RCorp:一个用于中文化学疾病语义提取的资源。
BMC Med Inform Decis Mak. 2019 Dec 5;19(Suppl 5):234. doi: 10.1186/s12911-019-0936-3.
4
Gold-standard ontology-based anatomical annotation in the CRAFT Corpus.CRAFT语料库中基于金标准本体的解剖学标注
Database (Oxford). 2017 Jan 1;2017. doi: 10.1093/database/bax087.
5
Next generation community assessment of biomedical entity recognition web servers: metrics, performance, interoperability aspects of BeCalm.生物医学实体识别网络服务器的下一代社区评估:BeCalm的指标、性能及互操作性方面
J Cheminform. 2019 Jun 24;11(1):42. doi: 10.1186/s13321-019-0363-6.
6
Establishing a baseline for literature mining human genetic variants and their relationships to disease cohorts.建立用于挖掘人类遗传变异及其与疾病队列关系的文献基线。
BMC Med Inform Decis Mak. 2016 Jul 18;16 Suppl 1(Suppl 1):68. doi: 10.1186/s12911-016-0294-3.
7
BioCreative V CDR task corpus: a resource for chemical disease relation extraction.生物创意V化学疾病关系提取任务语料库:化学疾病关系提取的资源。
Database (Oxford). 2016 May 9;2016. doi: 10.1093/database/baw068. Print 2016.
Bioinformatics. 2013 Nov 15;29(22):2909-17. doi: 10.1093/bioinformatics/btt474. Epub 2013 Aug 21.
4
The DDI corpus: an annotated corpus with pharmacological substances and drug-drug interactions.DDI 语料库:一个带有药理学物质和药物相互作用注释的语料库。
J Biomed Inform. 2013 Oct;46(5):914-20. doi: 10.1016/j.jbi.2013.07.011. Epub 2013 Jul 29.
5
The SPECIES and ORGANISMS Resources for Fast and Accurate Identification of Taxonomic Names in Text.用于快速准确识别文本中分类名称的物种和生物体资源。
PLoS One. 2013 Jun 18;8(6):e65390. doi: 10.1371/journal.pone.0065390. Print 2013.
6
Preliminary evaluation of the CellFinder literature curation pipeline for gene expression in kidney cells and anatomical parts.初步评估 CellFinder 文献整理管道在肾脏细胞和解剖部位基因表达中的应用。
Database (Oxford). 2013 Apr 18;2013:bat020. doi: 10.1093/database/bat020. Print 2013.
7
Annotating the biomedical literature for the human variome.注释人类变异组的生物医学文献。
Database (Oxford). 2013 Apr 12;2013:bat019. doi: 10.1093/database/bat019. Print 2013.
8
An integrated pharmacokinetics ontology and corpus for text mining.一个用于文本挖掘的整合药理学本体和语料库。
BMC Bioinformatics. 2013 Feb 1;14:35. doi: 10.1186/1471-2105-14-35.
9
A survey on annotation tools for the biomedical literature.一份关于生物医学文献注释工具的调查。
Brief Bioinform. 2014 Mar;15(2):327-40. doi: 10.1093/bib/bbs084. Epub 2012 Dec 18.
10
Concept annotation in the CRAFT corpus.概念标注在 CRAFT 语料库中。
BMC Bioinformatics. 2012 Jul 9;13:161. doi: 10.1186/1471-2105-13-161.