• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

国民总收入语料库版本1.0:用于支持生物医学信息提取的基因组学与信息学注释全文语料库。

GNI Corpus Version 1.0: Annotated Full-Text Corpus of Genomics & Informatics to Support Biomedical Information Extraction.

作者信息

Oh So-Yeon, Kim Ji-Hyeon, Kim Seo-Jin, Nam Hee-Jo, Park Hyun-Seok

机构信息

Bioinformatics Laboratory, ELTEC College of Engineering, Ewha Womans University, Seoul 03760, Korea.

Center for Convergence Research of Advanced Technologies, Ewha Womans University, Seoul 03760, Korea.

出版信息

Genomics Inform. 2018 Sep;16(3):75-77. doi: 10.5808/GI.2018.16.3.75. Epub 2018 Sep 30.

DOI:10.5808/GI.2018.16.3.75
PMID:30309207
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6187819/
Abstract

Genomics & Informatics (NLM title abbreviation: Genomics Inform) is the official journal of the Korea Genome Organization. Text corpus for this journal annotated with various levels of linguistic information would be a valuable resource as the process of information extraction requires syntactic, semantic, and higher levels of natural language processing. In this study, we publish our new corpus called GNI Corpus version 1.0, extracted and annotated from full texts of Genomics & Informatics, with NLTK (Natural Language ToolKit)-based text mining script. The preliminary version of the corpus could be used as a training and testing set of a system that serves a variety of functions for future biomedical text mining.

摘要

《基因组学与信息学》(NLM 标题缩写:Genomics Inform)是韩国基因组组织的官方期刊。由于信息提取过程需要句法、语义及更高层次的自然语言处理,因此标注有不同语言信息层次的该期刊文本语料库将是一种宝贵资源。在本研究中,我们发布了名为 GNI 语料库 1.0 版的新语料库,它是使用基于 NLTK(自然语言工具包)的文本挖掘脚本从《基因组学与信息学》的全文中提取并标注的。该语料库的初步版本可作为一个系统的训练和测试集,该系统可为未来的生物医学文本挖掘提供多种功能。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f9b/6187819/a6f4994c5c48/gi-2018-16-3-75f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f9b/6187819/a6f4994c5c48/gi-2018-16-3-75f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f9b/6187819/a6f4994c5c48/gi-2018-16-3-75f1.jpg

相似文献

1
GNI Corpus Version 1.0: Annotated Full-Text Corpus of Genomics & Informatics to Support Biomedical Information Extraction.国民总收入语料库版本1.0:用于支持生物医学信息提取的基因组学与信息学注释全文语料库。
Genomics Inform. 2018 Sep;16(3):75-77. doi: 10.5808/GI.2018.16.3.75. Epub 2018 Sep 30.
2
Opinion: Strategy of Semi-Automatically Annotating Full Text Corpus of Genomics & Informatics.观点:基因组学与信息学全文语料库半自动标注策略。
Genomics Inform. 2018 Dec;16(4):e40. doi: 10.5808/GI.2018.16.4.e40. Epub 2018 Dec 28.
3
A corpus of full-text journal articles is a robust evaluation tool for revealing differences in performance of biomedical natural language processing tools.语料库全文期刊文章是一种强大的评估工具,可用于揭示生物医学自然语言处理工具性能的差异。
BMC Bioinformatics. 2012 Aug 17;13:207. doi: 10.1186/1471-2105-13-207.
4
Building a comprehensive syntactic and semantic corpus of Chinese clinical texts.构建中文临床文本的综合句法和语义语料库。
J Biomed Inform. 2017 May;69:203-217. doi: 10.1016/j.jbi.2017.04.006. Epub 2017 Apr 9.
5
Organizing an in-class hackathon to correct PDF-to-text conversion errors of Genomics & Informatics 1.0.组织一场课堂内的黑客马拉松活动,以纠正《基因组学与信息学1.0》中PDF到文本转换的错误。
Genomics Inform. 2020 Sep;18(3):e33. doi: 10.5808/GI.2020.18.3.e33. Epub 2020 Sep 17.
6
Mining of relations between proteins over biomedical scientific literature using a deep-linguistic approach.使用深度语言方法挖掘生物医学科学文献中蛋白质之间的关系。
Artif Intell Med. 2007 Feb;39(2):127-36. doi: 10.1016/j.artmed.2006.08.005. Epub 2006 Oct 18.
7
The interaction of domain knowledge and linguistic structure in natural language processing: interpreting hypernymic propositions in biomedical text.自然语言处理中领域知识与语言结构的相互作用:解读生物医学文本中的上位命题
J Biomed Inform. 2003 Dec;36(6):462-77. doi: 10.1016/j.jbi.2003.11.003.
8
Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles.科罗拉多生物医学期刊文章丰富注释全文(CRAFT)语料库中的共指标注与消解
BMC Bioinformatics. 2017 Aug 17;18(1):372. doi: 10.1186/s12859-017-1775-9.
9
Using the PubAnnotation ecosystem to perform agile text mining on Genomics & Informatics: a tutorial review.利用PubAnnotation生态系统对基因组学与信息学进行敏捷文本挖掘:教程综述
Genomics Inform. 2020 Jun;18(2):e13. doi: 10.5808/GI.2020.18.2.e13. Epub 2020 Jun 16.
10
Construction of an annotated corpus to support biomedical information extraction.构建带注释语料库以支持生物医学信息抽取。
BMC Bioinformatics. 2009 Oct 23;10:349. doi: 10.1186/1471-2105-10-349.

引用本文的文献

1
Estimation of the journal distance of Genomics & Informatics from other bioinformatics-driven journals, 2003-2018.2003年至2018年期间《基因组学与信息学》与其他生物信息学驱动期刊的期刊距离估计。
Genomics Inform. 2021 Dec;19(4):e51. doi: 10.5808/gi.21074. Epub 2021 Dec 31.
2
Organizing an in-class hackathon to correct PDF-to-text conversion errors of Genomics & Informatics 1.0.组织一场课堂内的黑客马拉松活动,以纠正《基因组学与信息学1.0》中PDF到文本转换的错误。
Genomics Inform. 2020 Sep;18(3):e33. doi: 10.5808/GI.2020.18.3.e33. Epub 2020 Sep 17.
3
Using the PubAnnotation ecosystem to perform agile text mining on Genomics & Informatics: a tutorial review.

本文引用的文献

1
Creative Commons licenses and the non-commercial condition: Implications for the re-use of biodiversity information.知识共享许可协议与非商业条件:对生物多样性信息再利用的影响
Zookeys. 2011(150):127-49. doi: 10.3897/zookeys.150.2189. Epub 2011 Nov 28.
2
Frontiers of biomedical text mining: current progress.生物医学文本挖掘前沿:当前进展
Brief Bioinform. 2007 Sep;8(5):358-75. doi: 10.1093/bib/bbm045. Epub 2007 Oct 30.
3
A survey of current work in biomedical text mining.生物医学文本挖掘的当前工作调查。
利用PubAnnotation生态系统对基因组学与信息学进行敏捷文本挖掘:教程综述
Genomics Inform. 2020 Jun;18(2):e13. doi: 10.5808/GI.2020.18.2.e13. Epub 2020 Jun 16.
4
Trends in Genomics & Informatics: a statistical review of publications from 2003 to 2018 focusing on the most-studied genes and document clusters.《基因组学与信息学趋势:2003年至2018年出版物的统计回顾,重点关注研究最多的基因和文献集群》
Genomics Inform. 2019 Sep;17(3):e25. doi: 10.5808/GI.2019.17.3.e25. Epub 2019 Sep 27.
5
Opinion: Strategy of Semi-Automatically Annotating Full Text Corpus of Genomics & Informatics.观点:基因组学与信息学全文语料库半自动标注策略。
Genomics Inform. 2018 Dec;16(4):e40. doi: 10.5808/GI.2018.16.4.e40. Epub 2018 Dec 28.
Brief Bioinform. 2005 Mar;6(1):57-71. doi: 10.1093/bib/6.1.57.