Suppr超能文献

马尔可夫链的模式统计与参数估计的敏感性

Pattern statistics on Markov chains and sensitivity to parameter estimation.

作者信息

Nuel Grégory

机构信息

Laboratoire Statistique et Génome, University of Evry, CNRS (8071), INRA(1152), 523, place des terrasses de I'Agora, 91034 Evry CEDEX, France.

出版信息

Algorithms Mol Biol. 2006 Oct 17;1:17. doi: 10.1186/1748-7188-1-17.

Abstract

BACKGROUND

In order to compute pattern statistics in computational biology a Markov model is commonly used to take into account the sequence composition. Usually its parameter must be estimated. The aim of this paper is to determine how sensitive these statistics are to parameter estimation, and what are the consequences of this variability on pattern studies (finding the most over-represented words in a genome, the most significant common words to a set of sequences,...).

RESULTS

In the particular case where pattern statistics (overlap counting only) computed through binomial approximations we use the delta-method to give an explicit expression of sigma, the standard deviation of a pattern statistic. This result is validated using simulations and a simple pattern study is also considered.

CONCLUSION

We establish that the use of high order Markov model could easily lead to major mistakes due to the high sensitivity of pattern statistics to parameter estimation.

摘要

背景

为了在计算生物学中计算模式统计量,通常使用马尔可夫模型来考虑序列组成。通常其参数必须进行估计。本文的目的是确定这些统计量对参数估计的敏感程度,以及这种变异性对模式研究(在基因组中找到最过度出现的单词、一组序列中最显著的共同单词等)有什么后果。

结果

在通过二项式近似计算模式统计量(仅重叠计数)的特定情况下,我们使用德尔塔方法给出模式统计量标准差σ的显式表达式。该结果通过模拟得到验证,并且还考虑了一个简单的模式研究。

结论

我们确定,由于模式统计量对参数估计的高度敏感性,使用高阶马尔可夫模型很容易导致重大错误。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/94a1/1647278/6bb06ed7e6f4/1748-7188-1-17-1.jpg

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验