• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

GNAT 库,用于本地和远程基因提及标准化。

The GNAT library for local and remote gene mention normalization.

机构信息

Pharma Research and Early Development, Hoffmann-La Roche Inc., Nutley, NJ 07110, USA.

出版信息

Bioinformatics. 2011 Oct 1;27(19):2769-71. doi: 10.1093/bioinformatics/btr455. Epub 2011 Aug 3.

DOI:10.1093/bioinformatics/btr455
PMID:21813477
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3179658/
Abstract

SUMMARY

Identifying mentions of named entities, such as genes or diseases, and normalizing them to database identifiers have become an important step in many text and data mining pipelines. Despite this need, very few entity normalization systems are publicly available as source code or web services for biomedical text mining. Here we present the Gnat Java library for text retrieval, named entity recognition, and normalization of gene and protein mentions in biomedical text. The library can be used as a component to be integrated with other text-mining systems, as a framework to add user-specific extensions, and as an efficient stand-alone application for the identification of gene and protein names for data analysis. On the BioCreative III test data, the current version of Gnat achieves a Tap-20 score of 0.1987.

AVAILABILITY

The library and web services are implemented in Java and the sources are available from http://gnat.sourceforge.net.

CONTACT

jorg.hakenberg@roche.com.

摘要

摘要

在许多文本和数据挖掘管道中,识别命名实体(如基因或疾病)并将其标准化为数据库标识符已成为一个重要步骤。尽管有这种需求,但很少有实体标准化系统以生物医学文本挖掘的源代码或 Web 服务的形式公开提供。在这里,我们介绍 Gnat Java 库,用于文本检索、命名实体识别以及生物医学文本中基因和蛋白质提及的标准化。该库可作为与其他文本挖掘系统集成的组件、作为添加用户特定扩展的框架,以及作为用于数据分析的基因和蛋白质名称识别的高效独立应用程序。在 BioCreative III 测试数据上,当前版本的 Gnat 的 Tap-20 得分为 0.1987。

可用性

该库和 Web 服务是用 Java 实现的,源代码可从 http://gnat.sourceforge.net 获得。

联系方式

jorg.hakenberg@roche.com。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc21/3179658/da7336210c1f/btr455f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc21/3179658/da7336210c1f/btr455f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bc21/3179658/da7336210c1f/btr455f1.jpg

相似文献

1
The GNAT library for local and remote gene mention normalization.GNAT 库,用于本地和远程基因提及标准化。
Bioinformatics. 2011 Oct 1;27(19):2769-71. doi: 10.1093/bioinformatics/btr455. Epub 2011 Aug 3.
2
Inter-species normalization of gene mentions with GNAT.使用GNAT对基因提及进行种间标准化。
Bioinformatics. 2008 Aug 15;24(16):i126-132. doi: 10.1093/bioinformatics/btn299.
3
TaggerOne: joint named entity recognition and normalization with semi-Markov Models.TaggerOne:使用半马尔可夫模型进行联合命名实体识别与归一化
Bioinformatics. 2016 Sep 15;32(18):2839-46. doi: 10.1093/bioinformatics/btw343. Epub 2016 Jun 9.
4
A method for named entity normalization in biomedical articles: application to diseases and plants.一种生物医学文章中命名实体规范化的方法:应用于疾病和植物
BMC Bioinformatics. 2017 Oct 13;18(1):451. doi: 10.1186/s12859-017-1857-8.
5
BioCreative III interactive task: an overview.BioCreative III 交互式任务概述。
BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S4. doi: 10.1186/1471-2105-12-S8-S4.
6
Integrating various resources for gene name normalization.整合各种资源进行基因名称标准化。
PLoS One. 2012;7(9):e43558. doi: 10.1371/journal.pone.0043558. Epub 2012 Sep 12.
7
Moara: a Java library for extracting and normalizing gene and protein mentions.Moara:一个用于提取和规范化基因和蛋白质提及的 Java 库。
BMC Bioinformatics. 2010 Mar 26;11:157. doi: 10.1186/1471-2105-11-157.
8
Full-text chemical identification with improved generalizability and tagging consistency.全文化学物质识别,具有更好的泛化能力和标签一致性。
Database (Oxford). 2022 Sep 28;2022. doi: 10.1093/database/baac074.
9
FamPlex: a resource for entity recognition and relationship resolution of human protein families and complexes in biomedical text mining.FamPlex:生物医学文本挖掘中人类蛋白质家族和复合物的实体识别和关系解析资源。
BMC Bioinformatics. 2018 Jun 28;19(1):248. doi: 10.1186/s12859-018-2211-5.
10
Overview of the BioCreative III Workshop.第三届生物创意研讨会概述。
BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S1. doi: 10.1186/1471-2105-12-S8-S1.

引用本文的文献

1
Assessing Artificial Intelligence (AI) Implementation for Assisting Gene Linking (at the National Library of Medicine).评估人工智能(AI)在辅助基因关联方面的应用(于美国国立医学图书馆)
JAMIA Open. 2025 Jan 7;8(1):ooae129. doi: 10.1093/jamiaopen/ooae129. eCollection 2025 Feb.
2
GNorm2: an improved gene name recognition and normalization system.GNorm2:一种改进的基因名称识别和标准化系统。
Bioinformatics. 2023 Oct 3;39(10). doi: 10.1093/bioinformatics/btad599.
3
Edge Weight Updating Neural Network for Named Entity Normalization.

本文引用的文献

1
Annotating genes and genomes with DNA sequences extracted from biomedical articles.从生物医学文章中提取的 DNA 序列注释基因和基因组。
Bioinformatics. 2011 Apr 1;27(7):980-6. doi: 10.1093/bioinformatics/btr043. Epub 2011 Feb 16.
2
GeneTUKit: a software for document-level gene normalization.Genetukit:一种用于文档级基因标准化的软件。
Bioinformatics. 2011 Apr 1;27(7):1032-3. doi: 10.1093/bioinformatics/btr042. Epub 2011 Feb 8.
3
Threshold Average Precision (TAP-k): a measure of retrieval designed for bioinformatics.阈平均值精度(TAP-k):一种专为生物信息学设计的检索度量标准。
用于命名实体规范化的边权重更新神经网络
Neural Process Lett. 2022 Dec 21:1-22. doi: 10.1007/s11063-022-11102-2.
4
Assigning species information to corresponding genes by a sequence labeling framework.通过序列标注框架为相应的基因分配物种信息。
Database (Oxford). 2022 Oct 13;2022. doi: 10.1093/database/baac090.
5
Joint Learning for Biomedical NER and Entity Normalization: Encoding Schemes, Counterfactual Examples, and Zero-Shot Evaluation.生物医学命名实体识别与实体归一化的联合学习:编码方案、反事实示例和零样本评估
ACM BCB. 2021 Aug;2021. doi: 10.1145/3459930.3469533. Epub 2021 Aug 1.
6
Large-scale literature mining to assess the relation between anti-cancer drugs and cancer types.大规模文献挖掘评估抗癌药物与癌症类型的关系。
J Transl Med. 2021 Jun 26;19(1):274. doi: 10.1186/s12967-021-02941-z.
7
NLM-Gene, a richly annotated gold standard dataset for gene entities that addresses ambiguity and multi-species gene recognition.NLM-Gene,一个丰富注释的基因实体黄金标准数据集,解决了模糊性和多物种基因识别问题。
J Biomed Inform. 2021 Jun;118:103779. doi: 10.1016/j.jbi.2021.103779. Epub 2021 Apr 9.
8
Recent advances of automated methods for searching and extracting genomic variant information from biomedical literature.自动化方法在从生物医学文献中搜索和提取基因组变异信息方面的最新进展。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa142.
9
OGER++: hybrid multi-type entity recognition.OGER++:混合多类型实体识别
J Cheminform. 2019 Jan 21;11(1):7. doi: 10.1186/s13321-018-0326-3.
10
A method for named entity normalization in biomedical articles: application to diseases and plants.一种生物医学文章中命名实体规范化的方法:应用于疾病和植物
BMC Bioinformatics. 2017 Oct 13;18(1):451. doi: 10.1186/s12859-017-1857-8.
Bioinformatics. 2010 Jul 15;26(14):1708-13. doi: 10.1093/bioinformatics/btq270. Epub 2010 May 26.
4
LINNAEUS: a species name identification system for biomedical literature.林奈氏:生物医学文献的物种名称识别系统。
BMC Bioinformatics. 2010 Feb 11;11:85. doi: 10.1186/1471-2105-11-85.
5
Overview of BioCreative II gene normalization.生物创意II基因标准化概述。
Genome Biol. 2008;9 Suppl 2(Suppl 2):S3. doi: 10.1186/gb-2008-9-s2-s3. Epub 2008 Sep 1.
6
Inter-species normalization of gene mentions with GNAT.使用GNAT对基因提及进行种间标准化。
Bioinformatics. 2008 Aug 15;24(16):i126-132. doi: 10.1093/bioinformatics/btn299.
7
BANNER: an executable survey of advances in biomedical named entity recognition.横幅:生物医学命名实体识别进展的可执行调查。
Pac Symp Biocomput. 2008:652-63.
8
The success (or not) of HUGO nomenclature.人类基因组组织(HUGO)命名法的成功(与否)。
Genome Biol. 2006;7(5):402. doi: 10.1186/gb-2006-7-5-402. Epub 2006 May 15.
9
Overview of BioCreAtIvE task 1B: normalized gene lists.生物创意任务1B概述:标准化基因列表。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S11. doi: 10.1186/1471-2105-6-S1-S11. Epub 2005 May 24.