• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

GAPSCORE:每次逐个查找基因和蛋白质名称。

GAPSCORE: finding gene and protein names one word at a time.

作者信息

Chang Jeffrey T, Schütze Hinrich, Altman Russ B

机构信息

Department of Genetics, Stanford Medical Center, 300 Pasteur Drive, Lane L 301, Mail Code 5120, Stanford, CA 94305-5120, USA.

出版信息

Bioinformatics. 2004 Jan 22;20(2):216-25. doi: 10.1093/bioinformatics/btg393.

DOI:10.1093/bioinformatics/btg393
PMID:14734313
Abstract

MOTIVATION

New high-throughput technologies have accelerated the accumulation of knowledge about genes and proteins. However, much knowledge is still stored as written natural language text. Therefore, we have developed a new method, GAPSCORE, to identify gene and protein names in text. GAPSCORE scores words based on a statistical model of gene names that quantifies their appearance, morphology and context.

RESULTS

We evaluated GAPSCORE against the Yapex data set and achieved an F-score of 82.5% (83.3% recall, 81.5% precision) for partial matches and 57.6% (58.5% recall, 56.7% precision) for exact matches. Since the method is statistical, users can choose score cutoffs that adjust the performance according to their needs.

AVAILABILITY

GAPSCORE is available at http://bionlp.stanford.edu/gapscore/

摘要

动机

新的高通量技术加速了关于基因和蛋白质知识的积累。然而,许多知识仍以书面自然语言文本的形式存储。因此,我们开发了一种新方法GAPSCORE,用于识别文本中的基因和蛋白质名称。GAPSCORE基于基因名称的统计模型对单词进行评分,该模型量化了它们的出现频率、形态和上下文。

结果

我们针对Yapex数据集对GAPSCORE进行了评估,部分匹配的F值为82.5%(召回率83.3%,精确率81.5%),完全匹配的F值为57.6%(召回率58.5%,精确率56.7%)。由于该方法是基于统计的,用户可以根据自己的需求选择调整性能的分数阈值。

可用性

GAPSCORE可在http://bionlp.stanford.edu/gapscore/获取。

相似文献

1
GAPSCORE: finding gene and protein names one word at a time.GAPSCORE:每次逐个查找基因和蛋白质名称。
Bioinformatics. 2004 Jan 22;20(2):216-25. doi: 10.1093/bioinformatics/btg393.
2
Recognizing names in biomedical texts: a machine learning approach.识别生物医学文本中的名称:一种机器学习方法。
Bioinformatics. 2004 May 1;20(7):1178-90. doi: 10.1093/bioinformatics/bth060. Epub 2004 Feb 10.
3
Protein names precisely peeled off free text.蛋白质名称从自由文本中精确提取。
Bioinformatics. 2004 Aug 4;20 Suppl 1:i241-7. doi: 10.1093/bioinformatics/bth904.
4
Gene symbol disambiguation using knowledge-based profiles.使用基于知识的概况进行基因符号消歧。
Bioinformatics. 2007 Apr 15;23(8):1015-22. doi: 10.1093/bioinformatics/btm056. Epub 2007 Feb 21.
5
Automatic extraction of gene/protein biological functions from biomedical text.从生物医学文本中自动提取基因/蛋白质的生物学功能。
Bioinformatics. 2005 Apr 1;21(7):1227-36. doi: 10.1093/bioinformatics/bti084. Epub 2004 Oct 27.
6
Information extraction from biomedical text.从生物医学文本中提取信息。
J Biomed Inform. 2002 Aug;35(4):260-4. doi: 10.1016/s1532-0464(03)00015-7.
7
Gene name ambiguity of eukaryotic nomenclatures.真核生物命名法中的基因名称歧义。
Bioinformatics. 2005 Jan 15;21(2):248-56. doi: 10.1093/bioinformatics/bth496. Epub 2004 Aug 27.
8
Finding relevant references to genes and proteins in Medline using a Bayesian approach.使用贝叶斯方法在医学在线数据库(Medline)中查找与基因和蛋白质相关的参考文献。
Bioinformatics. 2002 Nov;18(11):1515-22. doi: 10.1093/bioinformatics/18.11.1515.
9
Hairpins in bookstacks: information retrieval from biomedical text.书库中的发夹:从生物医学文本中检索信息
Brief Bioinform. 2005 Sep;6(3):222-38. doi: 10.1093/bib/6.3.222.
10
Discovering patterns to extract protein-protein interactions from the literature: Part II.从文献中发现用于提取蛋白质-蛋白质相互作用的模式:第二部分。
Bioinformatics. 2005 Aug 1;21(15):3294-300. doi: 10.1093/bioinformatics/bti493. Epub 2005 May 12.

引用本文的文献

1
BCC-NER: bidirectional, contextual clues named entity tagger for gene/protein mention recognition.BCC-NER:用于基因/蛋白质提及识别的双向上下文线索命名实体标记器。
EURASIP J Bioinform Syst Biol. 2017 Dec;2017(1):7. doi: 10.1186/s13637-017-0060-6. Epub 2017 May 5.
2
Developing a hybrid dictionary-based bio-entity recognition technique.开发一种基于混合字典的生物实体识别技术。
BMC Med Inform Decis Mak. 2015;15 Suppl 1(Suppl 1):S9. doi: 10.1186/1472-6947-15-S1-S9. Epub 2015 May 20.
3
Using nanoinformatics methods for automatically identifying relevant nanotoxicology entities from the literature.
利用纳米信息学方法从文献中自动识别相关的纳米毒理学实体。
Biomed Res Int. 2013;2013:410294. doi: 10.1155/2013/410294. Epub 2012 Dec 27.
4
Systematic identification of pharmacogenomics information from clinical trials.从临床试验中系统地识别药物基因组学信息。
J Biomed Inform. 2012 Oct;45(5):870-8. doi: 10.1016/j.jbi.2012.04.005. Epub 2012 Apr 24.
5
eFIP: a tool for mining functional impact of phosphorylation from literature.eFIP:一种从文献中挖掘磷酸化功能影响的工具。
Methods Mol Biol. 2011;694:63-75. doi: 10.1007/978-1-60761-977-2_5.
6
Recent progress in automatically extracting information from the pharmacogenomic literature.从药物基因组学文献中自动提取信息的最新进展。
Pharmacogenomics. 2010 Oct;11(10):1467-89. doi: 10.2217/pgs.10.136.
7
BIOADI: a machine learning approach to identifying abbreviations and definitions in biological literature.BIOADI:一种用于识别生物文献中缩写词和定义的机器学习方法。
BMC Bioinformatics. 2009 Dec 3;10 Suppl 15(Suppl 15):S7. doi: 10.1186/1471-2105-10-S15-S7.
8
3D-footprint: a database for the structural analysis of protein-DNA complexes.3D 足迹:用于蛋白质-DNA 复合物结构分析的数据库。
Nucleic Acids Res. 2010 Jan;38(Database issue):D91-7. doi: 10.1093/nar/gkp781. Epub 2009 Sep 18.
9
EnzyMiner: automatic identification of protein level mutations and their impact on target enzymes from PubMed abstracts.EnzyMiner:从PubMed摘要中自动识别蛋白质水平突变及其对靶酶的影响。
BMC Bioinformatics. 2009 Aug 27;10 Suppl 8(Suppl 8):S2. doi: 10.1186/1471-2105-10-S8-S2.
10
BioTagger-GM: a gene/protein name recognition system.生物标记器-GM:一种基因/蛋白质名称识别系统。
J Am Med Inform Assoc. 2009 Mar-Apr;16(2):247-55. doi: 10.1197/jamia.M2844. Epub 2008 Dec 11.