• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

LSAT:了解医学在线数据库(MEDLINE)中的可变转录本

LSAT: learning about alternative transcripts in MEDLINE.

作者信息

Shah Parantu K, Bork Peer

机构信息

European Molecular Biology Laboratory, Heidelberg, Germany.

出版信息

Bioinformatics. 2006 Apr 1;22(7):857-65. doi: 10.1093/bioinformatics/btk044. Epub 2006 Jan 12.

DOI:10.1093/bioinformatics/btk044
PMID:16410322
Abstract

MOTIVATION

Generation of alternative transcripts from the same gene is an important biological event due to their contribution in creating functional diversity in eukaryotes. In this work, we choose the task of extracting information around this complex topic using a two-step procedure involving machine learning and information extraction.

RESULTS

In the first step, we trained a classifier that inductively learns to identify sentences about physiological transcript diversity from the MEDLINE abstracts. Using a large hand-built corpus, we compared the sentence classification performance of various text categorization methods. Support vector machines (SVMs) followed by the maximum entropy classifier outperformed other methods for the sentence classification task. The SVM with the radial basis function kernel and optimized parameters achieved Fbeta-measure of 91% during the 4-fold cross validation and of 74% when applied to all sentences in more than 12 million abstracts of MEDLINE. In the second step, we identified eight frequently present semantic categories in the sentences and performed a limited amount of semantic role labeling. The role labeling step also achieved very high Fbeta-measure for all eight categories.

AVAILABILITY

The results of our two-step procedure are summarized in the LSAT database of alternative transcripts. LSAT is available at http://www.bork.embl.de/LSAT CONTACT: shah@embl.de

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

同一基因产生可变转录本是一个重要的生物学事件,因为它们有助于在真核生物中创造功能多样性。在这项工作中,我们选择了一项任务,即通过涉及机器学习和信息提取的两步程序来提取围绕这个复杂主题的信息。

结果

在第一步中,我们训练了一个分类器,该分类器通过归纳学习从MEDLINE摘要中识别有关生理转录本多样性的句子。使用一个大型手工构建的语料库,我们比较了各种文本分类方法的句子分类性能。支持向量机(SVM)其次是最大熵分类器在句子分类任务中优于其他方法。具有径向基函数核和优化参数的SVM在4折交叉验证期间实现了91%的Fbeta值,在应用于MEDLINE超过1200万篇摘要中的所有句子时实现了74%的Fbeta值。在第二步中,我们识别了句子中八个经常出现的语义类别,并进行了有限数量的语义角色标注。角色标注步骤在所有八个类别中也实现了非常高的Fbeta值。

可用性

我们两步程序的结果总结在可变转录本的LSAT数据库中。LSAT可在http://www.bork.embl.de/LSAT获得 联系方式:shah@embl.de

补充信息

补充数据可在《生物信息学》在线获取。

相似文献

1
LSAT: learning about alternative transcripts in MEDLINE.LSAT:了解医学在线数据库(MEDLINE)中的可变转录本
Bioinformatics. 2006 Apr 1;22(7):857-65. doi: 10.1093/bioinformatics/btk044. Epub 2006 Jan 12.
2
Comparative experiments on learning information extractors for proteins and their interactions.蛋白质及其相互作用的学习信息提取器的比较实验。
Artif Intell Med. 2005 Feb;33(2):139-55. doi: 10.1016/j.artmed.2004.07.016.
3
An automated procedure to identify biomedical articles that contain cancer-associated gene variants.一种识别包含癌症相关基因变异的生物医学文章的自动化程序。
Hum Mutat. 2006 Sep;27(9):957-64. doi: 10.1002/humu.20363.
4
Enhancing MEDLINE document clustering by incorporating MeSH semantic similarity.通过整合 MeSH 语义相似度来增强 MEDLINE 文档聚类。
Bioinformatics. 2009 Aug 1;25(15):1944-51. doi: 10.1093/bioinformatics/btp338. Epub 2009 Jun 3.
5
Extraction of regulatory gene/protein networks from Medline.从医学在线数据库中提取调控基因/蛋白质网络。
Bioinformatics. 2006 Mar 15;22(6):645-50. doi: 10.1093/bioinformatics/bti597. Epub 2005 Jul 26.
6
Bio-medical entity extraction using support vector machines.使用支持向量机进行生物医学实体提取。
Artif Intell Med. 2005 Feb;33(2):125-37. doi: 10.1016/j.artmed.2004.07.019.
7
BioContrasts: extracting and exploiting protein-protein contrastive relations from biomedical literature.生物对比:从生物医学文献中提取并利用蛋白质-蛋白质对比关系
Bioinformatics. 2006 Mar 1;22(5):597-605. doi: 10.1093/bioinformatics/btk016. Epub 2005 Dec 20.
8
Protein names precisely peeled off free text.蛋白质名称从自由文本中精确提取。
Bioinformatics. 2004 Aug 4;20 Suppl 1:i241-7. doi: 10.1093/bioinformatics/bth904.
9
Text similarity: an alternative way to search MEDLINE.文本相似度:一种检索MEDLINE的替代方法。
Bioinformatics. 2006 Sep 15;22(18):2298-304. doi: 10.1093/bioinformatics/btl388. Epub 2006 Aug 22.
10
A multiple kernel support vector machine scheme for feature selection and rule extraction from gene expression data of cancer tissue.一种用于从癌组织基因表达数据中进行特征选择和规则提取的多核支持向量机方案。
Artif Intell Med. 2007 Oct;41(2):161-75. doi: 10.1016/j.artmed.2007.07.008. Epub 2007 Sep 11.

引用本文的文献

1
Splicing signature database development to delineate cancer pathways using literature mining and transcriptome machine learning.利用文献挖掘和转录组机器学习开发剪接特征数据库以描绘癌症通路。
Comput Struct Biotechnol J. 2023 Mar 2;21:1978-1988. doi: 10.1016/j.csbj.2023.02.052. eCollection 2023.
2
Domain adaptation for semantic role labeling of clinical text.临床文本语义角色标注的领域适应
J Am Med Inform Assoc. 2015 Sep;22(5):967-79. doi: 10.1093/jamia/ocu048. Epub 2015 Jun 10.
3
DigSee: Disease gene search engine with evidence sentences (version cancer).
DigSee:带证据句的疾病基因搜索引擎(癌症版)。
Nucleic Acids Res. 2013 Jul;41(Web Server issue):W510-7. doi: 10.1093/nar/gkt531. Epub 2013 Jun 12.
4
Caipirini: using gene sets to rank literature.卡皮尔尼:使用基因集对文献进行排名。
BioData Min. 2012 Feb 1;5(1):1. doi: 10.1186/1756-0381-5-1.
5
Biomedical text mining and its applications.生物医学文本挖掘及其应用。
PLoS Comput Biol. 2009 Dec;5(12):e1000597. doi: 10.1371/journal.pcbi.1000597. Epub 2009 Dec 24.
6
Semi-automatic conversion of BioProp semantic annotation to PASBio annotation.将生物属性语义注释半自动转换为PASBio注释。
BMC Bioinformatics. 2008 Dec 12;9 Suppl 12(Suppl 12):S18. doi: 10.1186/1471-2105-9-S12-S18.
7
Intrinsic evaluation of text mining tools may not predict performance on realistic tasks.文本挖掘工具的内在评估可能无法预测其在实际任务中的表现。
Pac Symp Biocomput. 2008:640-51.
8
BIOSMILE: a semantic role labeling system for biomedical verbs using a maximum-entropy model with automatically generated template features.BIOSMILE:一种用于生物医学动词的语义角色标注系统,它使用带有自动生成模板特征的最大熵模型。
BMC Bioinformatics. 2007 Sep 1;8:325. doi: 10.1186/1471-2105-8-325.