• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

与串联重复序列比对的概率方法。

Probabilistic approaches to alignment with tandem repeats.

作者信息

Nánási Michal, Vinař Tomáš, Brejová Broňa

机构信息

Department of Computer Science, Faculty of Mathematics, Physics, and Informatics, Comenius University, Mlynská dolina, 842 48 Bratislava, Slovakia.

出版信息

Algorithms Mol Biol. 2014 Mar 1;9(1):3. doi: 10.1186/1748-7188-9-3.

DOI:10.1186/1748-7188-9-3
PMID:24580741
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3975930/
Abstract

BACKGROUND

Short tandem repeats are ubiquitous in genomic sequences and due to their complex evolutionary history pose a challenge for sequence alignment tools.

RESULTS

To better account for the presence of tandem repeats in pairwise sequence alignments, we propose a simple tractable pair hidden Markov model that explicitly models their presence. Using the framework of gain functions, we design several optimization criteria for decoding this model and describe resulting decoding algorithms, ranging from the traditional Viterbi and posterior decoding to block-based decoding algorithms tailored to our model. We compare the accuracy of individual decoding algorithms on simulated and real data and find that our approach is superior to the classical three-state pair HMM.

CONCLUSIONS

Our study illustrates versatility of pair hidden Markov models coupled with appropriate decoding criteria as a modeling tool for capturing complex sequence features.

摘要

背景

短串联重复序列在基因组序列中普遍存在,由于其复杂的进化历史,给序列比对工具带来了挑战。

结果

为了在双序列比对中更好地考虑串联重复序列的存在,我们提出了一个简单易处理的配对隐马尔可夫模型,该模型明确地对其存在进行建模。利用增益函数框架,我们设计了几种用于解码此模型的优化标准,并描述了由此产生的解码算法,从传统的维特比解码和后验解码到针对我们模型定制的基于块的解码算法。我们在模拟数据和真实数据上比较了各个解码算法的准确性,发现我们的方法优于经典的三状态配对隐马尔可夫模型。

结论

我们的研究说明了配对隐马尔可夫模型与适当的解码标准相结合作为捕获复杂序列特征的建模工具的通用性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00b4/3975930/2825fd14534a/1748-7188-9-3-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00b4/3975930/2825fd14534a/1748-7188-9-3-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/00b4/3975930/2825fd14534a/1748-7188-9-3-3.jpg

相似文献

1
Probabilistic approaches to alignment with tandem repeats.与串联重复序列比对的概率方法。
Algorithms Mol Biol. 2014 Mar 1;9(1):3. doi: 10.1186/1748-7188-9-3.
2
Implementing EM and Viterbi algorithms for Hidden Markov Model in linear memory.在线性内存中实现隐马尔可夫模型的期望最大化(EM)算法和维特比(Viterbi)算法。
BMC Bioinformatics. 2008 Apr 30;9:224. doi: 10.1186/1471-2105-9-224.
3
ProbPFP: a multiple sequence alignment algorithm combining hidden Markov model optimized by particle swarm optimization with partition function.ProbPFP:一种通过粒子群优化算法优化的隐马尔可夫模型与分区函数相结合的多序列比对算法。
BMC Bioinformatics. 2019 Nov 25;20(Suppl 18):573. doi: 10.1186/s12859-019-3132-7.
4
Sequence alignments and pair hidden Markov models using evolutionary history.使用进化历史的序列比对和配对隐马尔可夫模型。
J Mol Biol. 2003 Oct 17;333(2):453-60. doi: 10.1016/j.jmb.2003.08.015.
5
Sequence alignment by passing messages.通过传递消息进行序列比对。
BMC Genomics. 2014;15 Suppl 1(Suppl 1):S14. doi: 10.1186/1471-2164-15-S1-S14. Epub 2014 Jan 24.
6
Positional statistical significance in sequence alignment.序列比对中的位置统计显著性。
J Comput Biol. 1999 Summer;6(2):253-9. doi: 10.1089/cmb.1999.6.253.
7
MGP-HMM: Detecting genome-wide CNVs using an HMM for modeling mate pair insertion sizes and read counts.MGP-HMM:使用隐马尔可夫模型(HMM)检测全基因组拷贝数变异(CNV),该模型用于对配对末端插入片段大小和读数计数进行建模。
Math Biosci. 2016 Sep;279:53-62. doi: 10.1016/j.mbs.2016.07.006. Epub 2016 Jul 16.
8
Uncertainty in homology inferences: assessing and improving genomic sequence alignment.同源性推断中的不确定性:评估和改进基因组序列比对
Genome Res. 2008 Feb;18(2):298-309. doi: 10.1101/gr.6725608. Epub 2007 Dec 11.
9
Pair hidden Markov models on tree structures.树结构上的成对隐马尔可夫模型。
Bioinformatics. 2003;19 Suppl 1:i232-40. doi: 10.1093/bioinformatics/btg1032.
10
Evolutionary triplet models of structured RNA.结构化RNA的进化三联体模型
PLoS Comput Biol. 2009 Aug;5(8):e1000483. doi: 10.1371/journal.pcbi.1000483. Epub 2009 Aug 28.

引用本文的文献

1
ULTRA-effective labeling of tandem repeats in genomic sequence.基因组序列中串联重复序列的超高效标记
Bioinform Adv. 2024 Oct 9;4(1):vbae149. doi: 10.1093/bioadv/vbae149. eCollection 2024.
2
Insertions and Deletions: Computational Methods, Evolutionary Dynamics, and Biological Applications.插入和缺失:计算方法、进化动态和生物应用。
Mol Biol Evol. 2024 Sep 4;41(9). doi: 10.1093/molbev/msae177.
3
ULTRA-Effective Labeling of Repetitive Genomic Sequence.重复基因组序列的超高效标记

本文引用的文献

1
The UCSC Genome Browser database: extensions and updates 2013.UCSC 基因组浏览器数据库:扩展和更新 2013 年版
Nucleic Acids Res. 2013 Jan;41(Database issue):D64-9. doi: 10.1093/nar/gks1048. Epub 2012 Nov 15.
2
A lossy compression technique enabling duplication-aware sequence alignment.一种有损压缩技术,支持具有重复检测功能的序列比对。
Evol Bioinform Online. 2012;8:171-80. doi: 10.4137/EBO.S9131. Epub 2012 Apr 2.
3
A probabilistic model for sequence alignment with context-sensitive indels.一种用于具有上下文敏感插入缺失的序列比对的概率模型。
bioRxiv. 2024 Jun 4:2024.06.03.597269. doi: 10.1101/2024.06.03.597269.
4
ULTRA: A Model Based Tool to Detect Tandem Repeats.ULTRA:一种基于模型的串联重复序列检测工具。
ACM BCB. 2018 Aug-Sep;2018:37-46. doi: 10.1145/3233547.3233604.
5
Variable-order sequence modeling improves bacterial strain discrimination for Ion Torrent DNA reads.可变阶序列建模可提高对Ion Torrent DNA读数的细菌菌株鉴别能力。
BMC Bioinformatics. 2017 Jun 12;18(1):299. doi: 10.1186/s12859-017-1710-0.
6
Split-alignment of genomes finds orthologies more accurately.基因组的分裂比对能更准确地找到直系同源基因。
Genome Biol. 2015 May 21;16(1):106. doi: 10.1186/s13059-015-0670-9.
J Comput Biol. 2011 Nov;18(11):1449-64. doi: 10.1089/cmb.2011.0157. Epub 2011 Sep 27.
4
PHAST and RPHAST: phylogenetic analysis with space/time models.PHAST 和 RPHAST:时空模型的系统发育分析。
Brief Bioinform. 2011 Jan;12(1):41-51. doi: 10.1093/bib/bbq072. Epub 2010 Dec 21.
5
A new repeat-masking method enables specific detection of homologous sequences.一种新的重复序列屏蔽方法可实现同源序列的特异性检测。
Nucleic Acids Res. 2011 Mar;39(4):e23. doi: 10.1093/nar/gkq1212. Epub 2010 Nov 24.
6
Variable tandem repeats accelerate evolution of coding and regulatory sequences.可变串联重复加速编码和调控序列的进化。
Annu Rev Genet. 2010;44:445-77. doi: 10.1146/annurev-genet-072610-155046.
7
Genome-wide functional element detection using pairwise statistical alignment outperforms multiple genome footprinting techniques.使用成对统计比对进行全基因组功能元件检测优于多种基因组足迹技术。
Bioinformatics. 2010 Sep 1;26(17):2116-20. doi: 10.1093/bioinformatics/btq360. Epub 2010 Jul 7.
8
A fast and specific alignment method for minisatellite maps.一种快速且特异的微卫星图谱排列方法。
Evol Bioinform Online. 2007 Feb 22;2:303-20.
9
Prediction of RNA secondary structure using generalized centroid estimators.使用广义质心估计器预测RNA二级结构。
Bioinformatics. 2009 Feb 15;25(4):465-73. doi: 10.1093/bioinformatics/btn601. Epub 2008 Dec 18.
10
Uncertainty in homology inferences: assessing and improving genomic sequence alignment.同源性推断中的不确定性:评估和改进基因组序列比对
Genome Res. 2008 Feb;18(2):298-309. doi: 10.1101/gr.6725608. Epub 2007 Dec 11.