• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用减少的n元语法的异位度量对DNA序列进行聚类。

Clustering DNA sequences using the out-of-place measure with reduced n-grams.

作者信息

Huang Hsin-Hsiung, Yu Chenglong

机构信息

Department of Statistics, University of Central Florida, Orlando, FL 32816, USA.

Mind and Brain Theme, South Australian Health and Medical Research Institute, North Terrace, Adelaide, SA 5000, Australia; School of Medicine, Flinders University, Adelaide, SA 5001, Australia.

出版信息

J Theor Biol. 2016 Oct 7;406:61-72. doi: 10.1016/j.jtbi.2016.06.029. Epub 2016 Jun 29.

DOI:10.1016/j.jtbi.2016.06.029
PMID:27375217
Abstract

The alignment-free n-gram based method with the out-of-place measures as the distance has been successfully applied to automatic text or natural languages categorization in real time. However, it is not clear about its performance and the selection of n for comparing genome sequences. Here we propose a symmetric version of the out-of-place measure and a new approach for finding the optimal range of n to construct a phylogenetic tree with the symmetric out-of-place measures. Our method is then applied to real genome sequence datasets. The resulting phylogenetic trees are matching with the standard biological classification. It shows that our proposed method is a very powerful tool for phylogenetic analysis in terms of both classification accuracy and computation efficiency.

摘要

基于无比对的n元语法方法,以错位度量作为距离,已成功应用于实时自动文本或自然语言分类。然而,其在比较基因组序列时的性能以及n的选择尚不清楚。在此,我们提出了错位度量的对称版本以及一种寻找n的最优范围的新方法,以用对称错位度量构建系统发育树。然后我们将我们的方法应用于真实的基因组序列数据集。所得的系统发育树与标准生物学分类相匹配。这表明我们提出的方法在分类准确性和计算效率方面都是用于系统发育分析的非常强大的工具。

相似文献

1
Clustering DNA sequences using the out-of-place measure with reduced n-grams.使用减少的n元语法的异位度量对DNA序列进行聚类。
J Theor Biol. 2016 Oct 7;406:61-72. doi: 10.1016/j.jtbi.2016.06.029. Epub 2016 Jun 29.
2
ALFRED: A Practical Method for Alignment-Free Distance Computation.阿尔弗雷德:一种无比对距离计算的实用方法。
J Comput Biol. 2016 Jun;23(6):452-60. doi: 10.1089/cmb.2015.0217. Epub 2016 May 3.
3
Visual exploration of parameter influence on phylogenetic trees.参数对系统发育树影响的可视化探索。
IEEE Comput Graph Appl. 2014 Mar-Apr;34(2):48-56. doi: 10.1109/MCG.2014.2.
4
On the quality of tree-based protein classification.论基于树的蛋白质分类的质量。
Bioinformatics. 2005 May 1;21(9):1876-90. doi: 10.1093/bioinformatics/bti244. Epub 2005 Jan 12.
5
A measure of DNA sequence similarity by Fourier Transform with applications on hierarchical clustering.一种通过傅里叶变换衡量DNA序列相似性及其在层次聚类中的应用
J Theor Biol. 2014 Oct 21;359:18-28. doi: 10.1016/j.jtbi.2014.05.043. Epub 2014 Jun 6.
6
An improved model for whole genome phylogenetic analysis by Fourier transform.一种通过傅里叶变换进行全基因组系统发育分析的改进模型。
J Theor Biol. 2015 Oct 7;382:99-110. doi: 10.1016/j.jtbi.2015.06.033. Epub 2015 Jul 4.
7
A configuration space of homologous proteins conserving mutual information and allowing a phylogeny inference based on pair-wise Z-score probabilities.同源蛋白质的一种构象空间,其保留互信息并允许基于成对Z分数概率进行系统发育推断。
BMC Bioinformatics. 2005 Mar 10;6:49. doi: 10.1186/1471-2105-6-49.
8
fastDNAmL: a tool for construction of phylogenetic trees of DNA sequences using maximum likelihood.fastDNAmL:一种使用最大似然法构建DNA序列系统发育树的工具。
Comput Appl Biosci. 1994 Feb;10(1):41-8. doi: 10.1093/bioinformatics/10.1.41.
9
Simultaneous statistical multiple alignment and phylogeny reconstruction.同时进行统计多重比对和系统发育重建。
Syst Biol. 2005 Aug;54(4):548-61. doi: 10.1080/10635150590950371.
10
Sequence comparison alignment-free approach based on suffix tree and L-words frequency.基于后缀树和L-词频的序列比较免比对方法。
ScientificWorldJournal. 2012;2012:450124. doi: 10.1100/2012/450124. Epub 2012 Sep 10.

引用本文的文献

1
On the Verge of Life: Distribution of Nucleotide Sequences in Viral RNAs.生命的边缘:病毒RNA中核苷酸序列的分布
Biosemiotics. 2021;14(2):253-269. doi: 10.1007/s12304-021-09403-5. Epub 2021 Feb 17.
2
Viral Phylogenomics Using an Alignment-Free Method: A Three-Step Approach to Determine Optimal Length of k-mer.基于无比对方法的病毒系统发生基因组学:确定 k-mer 最优长度的三步法。
Sci Rep. 2017 Jan 19;7:40712. doi: 10.1038/srep40712.