• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

系统发育树模型中的充分统计量和期望最大化算法。

Sufficient statistics and expectation maximization algorithms in phylogenetic tree models.

机构信息

Department of Computational Biology, Faculty of Frontier Science, The University of Tokyo, Kashiwa, Chiba 277-8561, Japan.

出版信息

Bioinformatics. 2011 Sep 1;27(17):2346-53. doi: 10.1093/bioinformatics/btr420. Epub 2011 Jul 14.

DOI:10.1093/bioinformatics/btr420
PMID:21757463
Abstract

MOTIVATION

Measuring evolutionary conservation is a routine step in the identification of functional elements in genome sequences. Although a number of studies have proposed methods that use the continuous time Markov models (CTMMs) to find evolutionarily constrained elements, their probabilistic structures have been less frequently investigated.

RESULTS

In this article, we investigate a sufficient statistic for CTMMs. The statistic is composed of the fractional duration of nucleotide characters over evolutionary time, F(d), and the number of substitutions occurring in phylogenetic trees, N(s). We first derive basic properties of the sufficient statistic. Then, we derive an expectation maximization (EM) algorithm for estimating the parameters of a phylogenetic model, which iteratively computes the expectation values of the sufficient statistic. We show that the EM algorithm exhibits much faster convergence than other optimization methods that use numerical gradient descent algorithms. Finally, we investigate the genome-wide distribution of fractional duration time F(d) which, unlike the number of substitutions N(s), has rarely been investigated. We show that F(d) has evolutionary information that is distinct from that in N(s), which may be useful for detecting novel types of evolutionary constraints existing in the human genome.

AVAILABILITY

The C++ source code of the 'Fdur' software is available at http://www.ncrna.org/software/fdur/

CONTACT

kiryu-h@k.u-tokyo.ac.jp

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

在基因组序列中识别功能元件是衡量进化保守性的常规步骤。尽管已经有许多研究提出了使用连续时间马尔可夫模型(CTMM)来寻找进化受约束的元件的方法,但它们的概率结构却很少被研究。

结果

在本文中,我们研究了 CTMM 的一个充分统计量。该统计量由核苷酸字符在进化时间上的分数持续时间 F(d)和系统发育树中发生的替换数 N(s)组成。我们首先推导了充分统计量的基本性质。然后,我们推导出了一种用于估计系统发育模型参数的期望最大化(EM)算法,该算法通过迭代计算充分统计量的期望值得出。我们表明,EM 算法比使用数值梯度下降算法的其他优化方法具有更快的收敛速度。最后,我们研究了分数持续时间 F(d)的全基因组分布,与替换数 N(s)不同,F(d)很少被研究。我们表明,F(d)具有与 N(s)不同的进化信息,这可能有助于检测人类基因组中存在的新型进化约束类型。

可用性

“Fdur”软件的 C++源代码可在 http://www.ncrna.org/software/fdur/ 获得。

联系方式

kiryu-h@k.u-tokyo.ac.jp

补充信息

补充数据可在生物信息学在线获得。

相似文献

1
Sufficient statistics and expectation maximization algorithms in phylogenetic tree models.系统发育树模型中的充分统计量和期望最大化算法。
Bioinformatics. 2011 Sep 1;27(17):2346-53. doi: 10.1093/bioinformatics/btr420. Epub 2011 Jul 14.
2
Identifying novel constrained elements by exploiting biased substitution patterns.通过利用偏向性替代模式识别新型受限元件。
Bioinformatics. 2009 Jun 15;25(12):i54-62. doi: 10.1093/bioinformatics/btp190.
3
A structural EM algorithm for phylogenetic inference.一种用于系统发育推断的结构化期望最大化算法。
J Comput Biol. 2002;9(2):331-53. doi: 10.1089/10665270252935494.
4
Modified variational Bayes EM estimation of hidden Markov tree model of cell lineages.基于隐马尔可夫树模型的细胞谱系的修正变分贝叶斯 EM 估计。
Bioinformatics. 2009 Nov 1;25(21):2824-30. doi: 10.1093/bioinformatics/btp456. Epub 2009 Jul 23.
5
Bayesian coestimation of phylogeny and sequence alignment.系统发育与序列比对的贝叶斯联合估计
BMC Bioinformatics. 2005 Apr 1;6:83. doi: 10.1186/1471-2105-6-83.
6
markophylo: Markov chain analysis on phylogenetic trees.马尔科菲洛:系统发育树上的马尔可夫链分析
Bioinformatics. 2016 Jan 1;32(1):130-2. doi: 10.1093/bioinformatics/btv541. Epub 2015 Sep 11.
7
PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny.PhyloGibbs:一种整合了系统发育的吉布斯采样基序查找器。
PLoS Comput Biol. 2005 Dec;1(7):e67. doi: 10.1371/journal.pcbi.0010067. Epub 2005 Dec 9.
8
On the quality of tree-based protein classification.论基于树的蛋白质分类的质量。
Bioinformatics. 2005 May 1;21(9):1876-90. doi: 10.1093/bioinformatics/bti244. Epub 2005 Jan 12.
9
Tumor phylogeny inference using tree-constrained importance sampling.基于树约束重要抽样的肿瘤系统发育推断。
Bioinformatics. 2017 Jul 15;33(14):i152-i160. doi: 10.1093/bioinformatics/btx270.
10
Species Tree Inference Using a Mixture Model.使用混合模型进行种系发生树推断。
Mol Biol Evol. 2015 Sep;32(9):2469-82. doi: 10.1093/molbev/msv115. Epub 2015 May 11.

引用本文的文献

1
Mirage: estimation of ancestral gene-copy numbers by considering different evolutionary patterns among gene families.Mirage:通过考虑基因家族间不同进化模式来估计祖先基因拷贝数
Bioinform Adv. 2021 Jul 30;1(1):vbab014. doi: 10.1093/bioadv/vbab014. eCollection 2021.
2
Mirage 2.0: fast and memory-efficient reconstruction of gene-content evolution considering heterogeneous evolutionary patterns among gene families.幻影 2.0:考虑基因家族之间异质进化模式的快速且节省内存的基因内容进化重建。
Bioinformatics. 2022 Aug 10;38(16):4039-4041. doi: 10.1093/bioinformatics/btac433.
3
TMRS: an algorithm for computing the time to the most recent substitution event from a multiple alignment column.
TMRS:一种用于从多序列比对列计算最近替换事件时间的算法。
Algorithms Mol Biol. 2019 Nov 18;14:23. doi: 10.1186/s13015-019-0158-3. eCollection 2019.
4
SCOUP: a probabilistic model based on the Ornstein-Uhlenbeck process to analyze single-cell expression data during differentiation.SCOUP:一种基于奥恩斯坦-乌伦贝克过程的概率模型,用于分析分化过程中的单细胞表达数据。
BMC Bioinformatics. 2016 Jun 8;17(1):232. doi: 10.1186/s12859-016-1109-3.