• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

马尔可夫链中词频分布概述。

An overview on the distribution of word counts in Markov chains.

作者信息

Schbath S

机构信息

Institut National de la Recherche Agronomique, Unité de Biométrie, Jouy-en-Josas, France.

出版信息

J Comput Biol. 2000 Feb-Apr;7(1-2):193-201. doi: 10.1089/10665270050081469.

DOI:10.1089/10665270050081469
PMID:10890396
Abstract

In this paper, we give an overview about the different results existing on the statistical distribution of word counts in a Markovian sequence of letters. Results concerning the number of overlapping occurrences, the number of renewals and the number of clumps will be presented. Counts of single words and also multiple words are considered. Most of the results are approximations as the length of the sequence tends to infinity. We will see that Gaussian approximations switch to (compound) Poisson approximations for rare words. Modeling DNA sequences or proteins by stationary Markov chains, these results can be used to study the statistical frequency of motifs in a given sequence.

摘要

在本文中,我们概述了关于马尔可夫字母序列中单词计数统计分布的不同现有结果。将给出关于重叠出现次数、更新次数和团块数量的结果。同时考虑单个单词和多个单词的计数。大多数结果是序列长度趋于无穷时的近似值。我们将看到,对于罕见单词,高斯近似会转变为(复合)泊松近似。通过平稳马尔可夫链对DNA序列或蛋白质进行建模,这些结果可用于研究给定序列中基序的统计频率。

相似文献

1
An overview on the distribution of word counts in Markov chains.马尔可夫链中词频分布概述。
J Comput Biol. 2000 Feb-Apr;7(1-2):193-201. doi: 10.1089/10665270050081469.
2
Probabilistic and statistical properties of words: an overview.词汇的概率与统计特性:综述
J Comput Biol. 2000 Feb-Apr;7(1-2):1-46. doi: 10.1089/10665270050081360.
3
Compound Poisson and Poisson process approximations for occurrences of multiple words in Markov chains.马尔可夫链中多个单词出现次数的复合泊松和泊松过程近似
J Comput Biol. 1998 Summer;5(2):223-53. doi: 10.1089/cmb.1998.5.223.
4
LD-SPatt: large deviations statistics for patterns on Markov chains.LD-SPatt:马尔可夫链上模式的大偏差统计
J Comput Biol. 2004;11(6):1023-33. doi: 10.1089/cmb.2004.11.1023.
5
Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences.用于DNA序列统计分析的不同马尔可夫链模型中的特殊基序。
J Comput Biol. 1995 Fall;2(3):417-37. doi: 10.1089/cmb.1995.2.417.
6
Counting of oligomers in sequences generated by markov chains for DNA motif discovery.用于DNA基序发现的马尔可夫链生成序列中寡聚物的计数。
J Bioinform Comput Biol. 2009 Feb;7(1):39-54. doi: 10.1142/s0219720009003935.
7
Identification of Words in Biological Sequences Under the Semi-Markov Hypothesis.半马尔可夫假设下生物序列中单词的识别
J Comput Biol. 2020 May;27(5):683-697. doi: 10.1089/cmb.2019.0253. Epub 2019 Sep 23.
8
Exact distribution for the local score of one i.i.d. random sequence.一个独立同分布随机序列局部得分的精确分布。
J Comput Biol. 2001;8(4):373-80. doi: 10.1089/106652701752236197.
9
Using hidden Markov models to align multiple sequences.使用隐马尔可夫模型对多个序列进行比对。
Cold Spring Harb Protoc. 2009 Jul;2009(7):pdb.top41. doi: 10.1101/pdb.top41.
10
Drifting Markov models with polynomial drift and applications to DNA sequences.具有多项式漂移的漂移马尔可夫模型及其在DNA序列中的应用。
Stat Appl Genet Mol Biol. 2008;7(1):Article6. doi: 10.2202/1544-6115.1326. Epub 2008 Feb 21.

引用本文的文献

1
Kemeny Constant-Based Optimization of Network Clustering Using Graph Neural Networks.基于凯梅尼常数的图神经网络网络聚类优化
J Phys Chem B. 2024 Aug 29;128(34):8103-8115. doi: 10.1021/acs.jpcb.3c08213. Epub 2024 Aug 15.
2
Statistical modelling of bacterial promoter sequences for regulatory motif discovery with the help of transcriptome data: application to .利用转录组数据对细菌启动子序列进行调控基序发现的统计建模:在.中的应用
J R Soc Interface. 2020 Oct;17(171):20200600. doi: 10.1098/rsif.2020.0600. Epub 2020 Oct 7.
3
MOST+: A de novo motif finding approach combining genomic sequence and heterogeneous genome-wide signatures.
MOST+:一种结合基因组序列和异质全基因组特征的从头基序发现方法。
BMC Genomics. 2015;16 Suppl 7(Suppl 7):S13. doi: 10.1186/1471-2164-16-S7-S13. Epub 2015 Jun 11.
4
cWords - systematic microRNA regulatory motif discovery from mRNA expression data.cWords——从mRNA表达数据中系统发现微小RNA调控基序
Silence. 2013 May 20;4(1):2. doi: 10.1186/1758-907X-4-2.
5
Normal and compound poisson approximations for pattern occurrences in NGS reads.下一代测序(NGS)读段中模式出现的正态和复合泊松近似
J Comput Biol. 2012 Jun;19(6):839-54. doi: 10.1089/cmb.2012.0029.
6
The power of detecting enriched patterns: an HMM approach.检测富集模式的能力:一种隐马尔可夫模型方法。
J Comput Biol. 2010 Apr;17(4):581-92. doi: 10.1089/cmb.2009.0218.
7
Abundant oligonucleotides common to most bacteria.在大多数细菌中都存在丰富的寡核苷酸。
PLoS One. 2010 Mar 23;5(3):e9841. doi: 10.1371/journal.pone.0009841.
8
Nucleotide frequency variation across human genes.人类基因间的核苷酸频率变异。
Genome Res. 2003 Dec;13(12):2594-601. doi: 10.1101/gr.1317703. Epub 2003 Nov 12.
9
Computational approaches to identify promoters and cis-regulatory elements in plant genomes.用于识别植物基因组中启动子和顺式调控元件的计算方法。
Plant Physiol. 2003 Jul;132(3):1162-76. doi: 10.1104/pp.102.017715.