• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

文本挖掘与蛋白质注释:蛋白质描述语句的构建与应用

Text mining and protein annotations: the construction and use of protein description sentences.

作者信息

Krallinger Martin, Malik Rainer, Valencia Alfonso

机构信息

Dep. Struct. Comp. Biology Spanish National Cancer Centre (CNIO), Melchor Fernández Almagro, 3, E-28029 Madrid, Spain.

出版信息

Genome Inform. 2006;17(2):121-30.

PMID:17503385
Abstract

Existing biological knowledge stored as structured database records has been extracted manually by database curators analyzing the scientific literature. Most of this information was derived from sentences which describe biologically relevant aspects of genes and gene products. We introduce the Protein description sentence (Prodisen) corpus, a useful resource for the automatic identification and construction of text-based protein and gene description records using information extraction and text classification techniques. Basic guidelines and criteria relevant for the construction of a text corpus of functional descriptions of genes and proteins are proposed. The steps used for the corpus construction and its features are presented. Moreover, some of the potential applications of the Prodisen corpus for biomedical text mining purposes are explored and the obtained results are presented.

摘要

作为结构化数据库记录存储的现有生物学知识已由数据库管理员通过分析科学文献手动提取。这些信息大多来自描述基因和基因产物生物学相关方面的句子。我们引入了蛋白质描述句子(Prodisen)语料库,这是一个利用信息提取和文本分类技术自动识别和构建基于文本的蛋白质和基因描述记录的有用资源。提出了与构建基因和蛋白质功能描述文本语料库相关的基本指南和标准。介绍了语料库构建所采用的步骤及其特点。此外,还探讨了Prodisen语料库在生物医学文本挖掘方面的一些潜在应用,并展示了所获得的结果。

相似文献

1
Text mining and protein annotations: the construction and use of protein description sentences.文本挖掘与蛋白质注释:蛋白质描述语句的构建与应用
Genome Inform. 2006;17(2):121-30.
2
Evaluation of BioCreAtIvE assessment of task 2.生物创意任务2评估的评价
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S16. doi: 10.1186/1471-2105-6-S1-S16. Epub 2005 May 24.
3
PRIME: automatically extracted PRotein Interactions and Molecular Information databasE.PRIME:自动提取的蛋白质相互作用与分子信息数据库。
In Silico Biol. 2005;5(1):9-20.
4
Automatic extraction of gene/protein biological functions from biomedical text.从生物医学文本中自动提取基因/蛋白质的生物学功能。
Bioinformatics. 2005 Apr 1;21(7):1227-36. doi: 10.1093/bioinformatics/bti084. Epub 2004 Oct 27.
5
Text mining.文本挖掘
Methods Mol Biol. 2008;453:471-91. doi: 10.1007/978-1-60327-429-6_25.
6
TCMGeneDIT: a database for associated traditional Chinese medicine, gene and disease information using text mining.TCMGeneDIT:一个利用文本挖掘技术整合中医、基因和疾病信息的数据库。
BMC Complement Altern Med. 2008 Oct 14;8:58. doi: 10.1186/1472-6882-8-58.
7
Facts from text: can text mining help to scale-up high-quality manual curation of gene products with ontologies?文本中的事实:文本挖掘能否助力利用本体对基因产物进行大规模高质量人工编目?
Brief Bioinform. 2008 Nov;9(6):466-78. doi: 10.1093/bib/bbn043. Epub 2008 Dec 6.
8
An evaluation of GO annotation retrieval for BioCreAtIvE and GOA.对生物创意(BioCreAtIvE)和基因本体注释(GOA)的基因本体(GO)注释检索的评估。
BMC Bioinformatics. 2005;6 Suppl 1(Suppl 1):S17. doi: 10.1186/1471-2105-6-S1-S17. Epub 2005 May 24.
9
Building a protein name dictionary from full text: a machine learning term extraction approach.从全文构建蛋白质名称词典:一种机器学习术语提取方法。
BMC Bioinformatics. 2005 Apr 7;6:88. doi: 10.1186/1471-2105-6-88.
10
Status of text-mining techniques applied to biomedical text.应用于生物医学文本的文本挖掘技术现状。
Drug Discov Today. 2006 Apr;11(7-8):315-25. doi: 10.1016/j.drudis.2006.02.011.

引用本文的文献

1
Predicting protein functions by applying predicate logic to biomedical literature.通过将谓词逻辑应用于生物医学文献来预测蛋白质功能。
BMC Bioinformatics. 2019 Feb 8;20(1):71. doi: 10.1186/s12859-019-2594-y.
2
Linking genes to literature: text mining, information extraction, and retrieval applications for biology.将基因与文献相联系:生物学的文本挖掘、信息提取及检索应用
Genome Biol. 2008;9 Suppl 2(Suppl 2):S8. doi: 10.1186/gb-2008-9-s2-s8. Epub 2008 Sep 1.
3
Overview of the protein-protein interaction annotation extraction task of BioCreative II.
生物创意II蛋白质-蛋白质相互作用注释提取任务概述。
Genome Biol. 2008;9 Suppl 2(Suppl 2):S4. doi: 10.1186/gb-2008-9-s2-s4. Epub 2008 Sep 1.
4
New challenges for text mining: mapping between text and manually curated pathways.文本挖掘的新挑战:文本与人工整理通路之间的映射
BMC Bioinformatics. 2008 Apr 11;9 Suppl 3(Suppl 3):S5. doi: 10.1186/1471-2105-9-S3-S5.
5
Assessment of disease named entity recognition on a corpus of annotated sentences.基于带注释句子语料库的疾病命名实体识别评估。
BMC Bioinformatics. 2008 Apr 11;9 Suppl 3(Suppl 3):S3. doi: 10.1186/1471-2105-9-S3-S3.