• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

利用中程 DNA 模式进行序列分类:二进制抽象马尔可夫模型。

Exploiting mid-range DNA patterns for sequence classification: binary abstraction Markov models.

机构信息

Department of Medicine, University of Toledo, Health Science Campus, Toledo, OH 43614, USA.

出版信息

Nucleic Acids Res. 2012 Jun;40(11):4765-73. doi: 10.1093/nar/gks154. Epub 2012 Feb 16.

DOI:10.1093/nar/gks154
PMID:22344692
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3367190/
Abstract

Messenger RNA sequences possess specific nucleotide patterns distinguishing them from non-coding genomic sequences. In this study, we explore the utilization of modified Markov models to analyze sequences up to 44 bp, far beyond the 8-bp limit of conventional Markov models, for exon/intron discrimination. In order to analyze nucleotide sequences of this length, their information content is first reduced by conversion into shorter binary patterns via the application of numerous abstraction schemes. After the conversion of genomic sequences to binary strings, homogenous Markov models trained on the binary sequences are used to discriminate between exons and introns. We term this approach the Binary Abstraction Markov Model (BAMM). High-quality abstraction schemes for exon/intron discrimination are selected using optimization algorithms on supercomputers. The best MM classifiers are then combined using support vector machines into a single classifier. With this approach, over 95% classification accuracy is achieved without taking reading frame into account. With further development, the BAMM approach can be applied to sequences lacking the genetic code such as ncRNAs and 5'-untranslated regions.

摘要

信使 RNA 序列具有特定的核苷酸模式,将其与非编码基因组序列区分开来。在这项研究中,我们探索了使用改进的马尔可夫模型来分析长达 44 个碱基的序列,远远超过传统马尔可夫模型 8 个碱基的限制,以进行外显子/内含子区分。为了分析这种长度的核苷酸序列,首先通过应用大量抽象方案将其信息内容转换为更短的二进制模式进行转换。将基因组序列转换为二进制字符串后,使用在二进制序列上训练的同质马尔可夫模型来区分外显子和内含子。我们将这种方法称为二进制抽象马尔可夫模型(BAMM)。使用超级计算机上的优化算法选择用于外显子/内含子区分的高质量抽象方案。然后,使用支持向量机将最佳 MM 分类器组合成单个分类器。通过这种方法,在不考虑阅读框的情况下,分类准确率超过 95%。随着进一步的发展,BAMM 方法可以应用于缺乏遗传密码的序列,如 ncRNAs 和 5'-非翻译区。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a667/3367190/3ed9ad55fde3/gks154f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a667/3367190/3ed9ad55fde3/gks154f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a667/3367190/3ed9ad55fde3/gks154f1.jpg

相似文献

1
Exploiting mid-range DNA patterns for sequence classification: binary abstraction Markov models.利用中程 DNA 模式进行序列分类:二进制抽象马尔可夫模型。
Nucleic Acids Res. 2012 Jun;40(11):4765-73. doi: 10.1093/nar/gks154. Epub 2012 Feb 16.
2
Determination of eukaryotic protein coding regions using neural networks and information theory.使用神经网络和信息论确定真核生物蛋白质编码区域
J Mol Biol. 1992 Jul 20;226(2):471-9. doi: 10.1016/0022-2836(92)90961-i.
3
Integrated entropy-based approach for analyzing exons and introns in DNA sequences.基于信息熵的方法综合分析 DNA 序列中的外显子和内含子。
BMC Bioinformatics. 2019 Jun 10;20(Suppl 8):283. doi: 10.1186/s12859-019-2772-y.
4
Representation of DNA sequences in genetic codon context with applications in exon and intron prediction.遗传密码子背景下DNA序列的表示及其在外显子和内含子预测中的应用。
J Bioinform Comput Biol. 2015 Apr;13(2):1550004. doi: 10.1142/S0219720015500043. Epub 2014 Dec 10.
5
GeneGenerator--a flexible algorithm for gene prediction and its application to maize sequences.基因生成器——一种用于基因预测的灵活算法及其在玉米序列中的应用。
Bioinformatics. 1998;14(3):232-43. doi: 10.1093/bioinformatics/14.3.232.
6
Finding genes in DNA with a Hidden Markov Model.使用隐马尔可夫模型在DNA中寻找基因。
J Comput Biol. 1997 Summer;4(2):127-41. doi: 10.1089/cmb.1997.4.127.
7
Detection of compositional constraints in nucleic acid sequences using neural networks.利用神经网络检测核酸序列中的组成限制。
Comput Appl Biosci. 1995 Feb;11(1):29-37. doi: 10.1093/bioinformatics/11.1.29.
8
Gene prediction with a hidden Markov model and a new intron submodel.基于隐马尔可夫模型和新型内含子子模型的基因预测
Bioinformatics. 2003 Oct;19 Suppl 2:ii215-25. doi: 10.1093/bioinformatics/btg1080.
9
Classification of short human exons and introns based on statistical features.基于统计特征的人类短外显子和内含子分类
Phys Rev E Stat Nonlin Soft Matter Phys. 2003 Jun;67(6 Pt 1):061916. doi: 10.1103/PhysRevE.67.061916. Epub 2003 Jun 27.
10
Coding exon detection using comparative sequences.利用比较序列检测编码外显子
J Comput Biol. 2006 Jul-Aug;13(6):1148-64. doi: 10.1089/cmb.2006.13.1148.

引用本文的文献

1
LABEL: fast and accurate lineage assignment with assessment of H5N1 and H9N2 influenza A hemagglutinins.标签:通过评估甲型H5N1和H9N2流感血凝素实现快速准确的谱系分配
PLoS One. 2014 Jan 23;9(1):e86921. doi: 10.1371/journal.pone.0086921. eCollection 2014.

本文引用的文献

1
Mid-range inhomogeneity of eukaryotic genomes.真核生物基因组的中等程度不均匀性。
ScientificWorldJournal. 2011 Apr 5;11:842-54. doi: 10.1100/tsw.2011.82.
2
Computational methods for ab initio and comparative gene finding.从头预测和比较基因发现的计算方法。
Methods Mol Biol. 2010;609:269-84. doi: 10.1007/978-1-60327-241-4_16.
3
The SR protein family.SR 蛋白家族。
Genome Biol. 2009;10(10):242. doi: 10.1186/gb-2009-10-10-242. Epub 2009 Oct 27.
4
mGene: accurate SVM-based gene finding with an application to nematode genomes.mGene:基于 SVM 的精确基因预测方法及其在线虫基因组中的应用。
Genome Res. 2009 Nov;19(11):2133-43. doi: 10.1101/gr.090597.108. Epub 2009 Jun 29.
5
The evolution of isochore patterns in vertebrate genomes.脊椎动物基因组中同线区模式的演变。
BMC Genomics. 2009 Apr 3;10:146. doi: 10.1186/1471-2164-10-146.
6
Gene prediction in novel fungal genomes using an ab initio algorithm with unsupervised training.使用具有无监督训练的从头算算法在新型真菌基因组中进行基因预测。
Genome Res. 2008 Dec;18(12):1979-90. doi: 10.1101/gr.081612.108. Epub 2008 Aug 29.
7
Calculation of splicing potential from the Alternative Splicing Mutation Database.从可变剪接突变数据库计算剪接潜力。
BMC Res Notes. 2008;1:4. doi: 10.1186/1756-0500-1-4. Epub 2008 Feb 26.
8
The Alternative Splicing Mutation Database: a hub for investigations of alternative splicing using mutational evidence.可变剪接突变数据库:一个利用突变证据进行可变剪接研究的中心。
BMC Res Notes. 2008;1:3. doi: 10.1186/1756-0500-1-3. Epub 2008 Feb 26.
9
Gene prediction: compare and CONTRAST.基因预测:比较与对比。
Genome Biol. 2007;8(12):233. doi: 10.1186/gb-2007-8-12-233.
10
Advances in the Exon-Intron Database (EID).外显子-内含子数据库(EID)的进展。
Brief Bioinform. 2006 Jun;7(2):178-85. doi: 10.1093/bib/bbl003. Epub 2006 Mar 9.