• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用多个参数集进行局部序列比对的成对统计显著性以及参数集变化罚分的经验依据。

Pairwise statistical significance of local sequence alignment using multiple parameter sets and empirical justification of parameter set change penalty.

作者信息

Agrawal Ankit, Huang Xiaoqiu

机构信息

Department of Computer Science, Iowa State University, 226 Atanasoff Hall, Ames, IA 50011-1041, USA.

出版信息

BMC Bioinformatics. 2009 Mar 19;10 Suppl 3(Suppl 3):S1. doi: 10.1186/1471-2105-10-S3-S1.

DOI:10.1186/1471-2105-10-S3-S1
PMID:19344477
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC2665049/
Abstract

BACKGROUND

Accurate estimation of statistical significance of a pairwise alignment is an important problem in sequence comparison. Recently, a comparative study of pairwise statistical significance with database statistical significance was conducted. In this paper, we extend the earlier work on pairwise statistical significance by incorporating with it the use of multiple parameter sets.

RESULTS

Results for a knowledge discovery application of homology detection reveal that using multiple parameter sets for pairwise statistical significance estimates gives better coverage than using a single parameter set, at least at some error levels. Further, the results of pairwise statistical significance using multiple parameter sets are shown to be significantly better than database statistical significance estimates reported by BLAST and PSI-BLAST, and comparable and at times significantly better than SSEARCH. Using non-zero parameter set change penalty values give better performance than zero penalty.

CONCLUSION

The fact that the homology detection performance does not degrade when using multiple parameter sets is a strong evidence for the validity of the assumption that the alignment score distribution follows an extreme value distribution even when using multiple parameter sets. Parameter set change penalty is a useful parameter for alignment using multiple parameter sets. Pairwise statistical significance using multiple parameter sets can be effectively used to determine the relatedness of a (or a few) pair(s) of sequences without performing a time-consuming database search.

摘要

背景

准确估计成对序列比对的统计显著性是序列比较中的一个重要问题。最近,有人对成对统计显著性与数据库统计显著性进行了比较研究。在本文中,我们通过结合使用多个参数集来扩展早期关于成对统计显著性的工作。

结果

同源性检测知识发现应用的结果表明,至少在某些错误水平下,使用多个参数集进行成对统计显著性估计比使用单个参数集具有更好的覆盖率。此外,使用多个参数集的成对统计显著性结果显示明显优于BLAST和PSI-BLAST报告的数据库统计显著性估计,并且与SSEARCH相当,有时甚至明显更好。使用非零参数集变化惩罚值比零惩罚具有更好的性能。

结论

使用多个参数集时同源性检测性能不会下降这一事实有力地证明了即使使用多个参数集,比对得分分布仍遵循极值分布这一假设的有效性。参数集变化惩罚是使用多个参数集进行比对时的一个有用参数。使用多个参数集的成对统计显著性可有效地用于确定一对(或几对)序列的相关性,而无需进行耗时的数据库搜索。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/3124985dbec4/1471-2105-10-S3-S1-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/f856c336484e/1471-2105-10-S3-S1-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/00b0f3fa6ac8/1471-2105-10-S3-S1-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/a4b373d5ca73/1471-2105-10-S3-S1-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/7739e038096f/1471-2105-10-S3-S1-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/3124985dbec4/1471-2105-10-S3-S1-5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/f856c336484e/1471-2105-10-S3-S1-1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/00b0f3fa6ac8/1471-2105-10-S3-S1-2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/a4b373d5ca73/1471-2105-10-S3-S1-3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/7739e038096f/1471-2105-10-S3-S1-4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/49b2/2665049/3124985dbec4/1471-2105-10-S3-S1-5.jpg

相似文献

1
Pairwise statistical significance of local sequence alignment using multiple parameter sets and empirical justification of parameter set change penalty.使用多个参数集进行局部序列比对的成对统计显著性以及参数集变化罚分的经验依据。
BMC Bioinformatics. 2009 Mar 19;10 Suppl 3(Suppl 3):S1. doi: 10.1186/1471-2105-10-S3-S1.
2
Pairwise statistical significance of local sequence alignment using sequence-specific and position-specific substitution matrices.使用序列特异性和位置特异性取代矩阵进行局部序列比对的成对统计显著性。
IEEE/ACM Trans Comput Biol Bioinform. 2011 Jan-Mar;8(1):194-205. doi: 10.1109/TCBB.2009.69.
3
PSIBLAST_PairwiseStatSig: reordering PSI-BLAST hits using pairwise statistical significance.PSI-BLAST成对统计显著性:使用成对统计显著性对PSI-BLAST命中结果进行重新排序。
Bioinformatics. 2009 Apr 15;25(8):1082-3. doi: 10.1093/bioinformatics/btp089. Epub 2009 Feb 27.
4
Pairwise statistical significance and empirical determination of effective gap opening penalties for protein local sequence alignment.蛋白质局部序列比对中有效空位开放罚分的成对统计显著性和经验确定
Int J Comput Biol Drug Des. 2008;1(4):347-67. doi: 10.1504/ijcbdd.2008.022207.
5
Sequence-specific sequence comparison using pairwise statistical significance.基于成对统计显著性的序列特异性序列比较。
Adv Exp Med Biol. 2011;696:297-306. doi: 10.1007/978-1-4419-7046-6_30.
6
Structure alignment based on coding of local geometric measures.基于局部几何度量编码的结构比对。
BMC Bioinformatics. 2006 Jul 14;7:346. doi: 10.1186/1471-2105-7-346.
7
Dynamic use of multiple parameter sets in sequence alignment.在序列比对中动态地依次使用多个参数集。
Nucleic Acids Res. 2007;35(2):678-86. doi: 10.1093/nar/gkl1063. Epub 2006 Dec 19.
8
Increased coverage obtained by combination of methods for protein sequence database searching.通过蛋白质序列数据库搜索方法的组合获得更高的覆盖率。
Bioinformatics. 2003 Jul 22;19(11):1397-403. doi: 10.1093/bioinformatics/btg156.
9
Statistical evaluation and comparison of a pairwise alignment algorithm that a priori assigns the number of gaps rather than employing gap penalties.一种先验分配空位数量而非采用空位罚分的两两比对算法的统计评估与比较。
Bioinformatics. 2005 Apr 15;21(8):1421-8. doi: 10.1093/bioinformatics/bti198. Epub 2004 Dec 10.
10
Evolution of biological sequences implies an extreme value distribution of type I for both global and local pairwise alignment scores.生物序列的进化意味着全局和局部两两比对得分都呈I型极值分布。
BMC Bioinformatics. 2008 Aug 7;9:332. doi: 10.1186/1471-2105-9-332.

引用本文的文献

1
SubVis: an interactive R package for exploring the effects of multiple substitution matrices on pairwise sequence alignment.SubVis:一个用于探索多个替换矩阵对成对序列比对影响的交互式R包。
PeerJ. 2017 Jun 27;5:e3492. doi: 10.7717/peerj.3492. eCollection 2017.
2
PFASUM: a substitution matrix from Pfam structural alignments.PFASUM:一种来自Pfam结构比对的替换矩阵。
BMC Bioinformatics. 2017 Jun 5;18(1):293. doi: 10.1186/s12859-017-1703-z.
3
Addressing inaccuracies in BLOSUM computation improves homology search performance.解决BLOSUM计算中的不准确问题可提高同源性搜索性能。

本文引用的文献

1
Maximum-likelihood estimation of the statistical distribution of Smith-Waterman local sequence similarity scores.史密斯-沃特曼局部序列相似性得分统计分布的最大似然估计。
Bull Math Biol. 1992 Jan;54(1):59-75. doi: 10.1007/BF02458620.
2
Pairwise statistical significance and empirical determination of effective gap opening penalties for protein local sequence alignment.蛋白质局部序列比对中有效空位开放罚分的成对统计显著性和经验确定
Int J Comput Biol Drug Des. 2008;1(4):347-67. doi: 10.1504/ijcbdd.2008.022207.
3
Local sequence alignments statistics: deviations from Gumbel statistics in the rare-event tail.
BMC Bioinformatics. 2016 Apr 27;17:189. doi: 10.1186/s12859-016-1060-3.
4
Accelerating pairwise statistical significance estimation for local alignment by harvesting GPU's power.利用 GPU 加速局部比对的成对统计显著性估计。
BMC Bioinformatics. 2012 Apr 12;13 Suppl 5(Suppl 5):S3. doi: 10.1186/1471-2105-13-S5-S3.
5
Where does the alignment score distribution shape come from?对齐得分分布的形状来自哪里?
Evol Bioinform Online. 2010 Dec 12;6:159-87. doi: 10.4137/EBO.S5875.
6
A genome alignment algorithm based on compression.基于压缩的基因组比对算法。
BMC Bioinformatics. 2010 Dec 16;11:599. doi: 10.1186/1471-2105-11-599.
局部序列比对统计:罕见事件尾部与耿贝尔统计的偏差。
Algorithms Mol Biol. 2007 Jul 11;2:9. doi: 10.1186/1748-7188-2-9.
4
Dynamic use of multiple parameter sets in sequence alignment.在序列比对中动态地依次使用多个参数集。
Nucleic Acids Res. 2007;35(2):678-86. doi: 10.1093/nar/gkl1063. Epub 2006 Dec 19.
5
Retrieval accuracy, statistical significance and compositional similarity in protein sequence database searches.蛋白质序列数据库搜索中的检索准确性、统计显著性和组成相似性。
Nucleic Acids Res. 2006;34(20):5966-73. doi: 10.1093/nar/gkl731. Epub 2006 Oct 26.
6
Statistical significance in biological sequence analysis.生物序列分析中的统计学显著性
Brief Bioinform. 2006 Mar;7(1):2-24. doi: 10.1093/bib/bbk001.
7
The Gumbel pre-factor k for gapped local alignment can be estimated from simulations of global alignment.用于间隙局部比对的耿贝尔前置因子k可通过全局比对模拟来估计。
Nucleic Acids Res. 2005 Sep 6;33(15):4987-94. doi: 10.1093/nar/gki800. Print 2005.
8
Toward an accurate statistics of gapped alignments.迈向空位比对的精确统计。
Bull Math Biol. 2005 Jan;67(1):169-91. doi: 10.1016/j.bulm.2004.07.001.
9
Sensitivity and selectivity in protein structure comparison.蛋白质结构比较中的敏感性和选择性。
Protein Sci. 2004 Mar;13(3):773-85. doi: 10.1110/ps.03328504.
10
A generalized global alignment algorithm.一种广义全局比对算法。
Bioinformatics. 2003 Jan 22;19(2):228-33. doi: 10.1093/bioinformatics/19.2.228.