Suppr超能文献

GENIA语料库——用于生物文本挖掘的语义标注语料库。

GENIA corpus--semantically annotated corpus for bio-textmining.

作者信息

Kim J-D, Ohta T, Tateisi Y, Tsujii J

机构信息

CREST, Japan Science and Technology Corporation, Hongo, Bunkyo-ku, Tokyo, 113-0033, Japan.

出版信息

Bioinformatics. 2003;19 Suppl 1:i180-2. doi: 10.1093/bioinformatics/btg1023.

Abstract

MOTIVATION

Natural language processing (NLP) methods are regarded as being useful to raise the potential of text mining from biological literature. The lack of an extensively annotated corpus of this literature, however, causes a major bottleneck for applying NLP techniques. GENIA corpus is being developed to provide reference materials to let NLP techniques work for bio-textmining.

RESULTS

GENIA corpus version 3.0 consisting of 2000 MEDLINE abstracts has been released with more than 400,000 words and almost 100,000 annotations for biological terms.

摘要

动机

自然语言处理(NLP)方法被认为有助于提升从生物文献中进行文本挖掘的潜力。然而,这类文献缺乏广泛注释的语料库,这成为应用NLP技术的一个主要瓶颈。正在开发基因注释(GENIA)语料库,以提供参考资料,使NLP技术能够用于生物文本挖掘。

结果

已发布了由2000篇MEDLINE摘要组成的基因注释语料库3.0版本,其包含超过400,000个单词以及近100,000个生物学术语注释。

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验