• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用低复杂度滤波器进行同源检测程序的基准测试。

Benchmarking homology detection procedures with low complexity filters.

机构信息

Stockholm Bioinformatics Center, Stockholm University, SE-10691 Stockholm, Sweden.

出版信息

Bioinformatics. 2009 Oct 1;25(19):2500-5. doi: 10.1093/bioinformatics/btp446. Epub 2009 Jul 20.

DOI:10.1093/bioinformatics/btp446
PMID:19620098
Abstract

BACKGROUND

Low-complexity sequence regions present a common problem in finding true homologs to a protein query sequence. Several solutions to this have been suggested, but a detailed comparison between these on challenging data has so far been lacking. A common benchmark for homology detection procedures is to use SCOP/ASTRAL domain sequences belonging to the same or different superfamilies, but these contain almost no low complexity sequences.

RESULTS

We here introduce an alternative benchmarking strategy based around Pfam domains and clans on whole-proteome data sets. This gives a realistic level of low complexity sequences. We used it to evaluate all six built-in BLAST low complexity filter settings as well as a range of settings in the MSPcrunch post-processing filter. The effect on alignment length was also assessed.

CONCLUSION

Score matrix adjustment methods provide a low false positive rate at a relatively small loss in sensitivity relative to no filtering, across the range of test conditions we apply. MSPcrunch achieved even less loss in sensitivity, but at a higher false positive rate. A drawback of the score matrix adjustment methods is however that the alignments often become truncated.

AVAILABILITY

Perl scripts for MSPcrunch BLAST filtering and for generating the benchmark dataset are available at http://sonnhammer.sbc.su.se/download/software/MSPcrunch+Blixem/benchmark.tar.gz

摘要

背景

在寻找蛋白质查询序列的真正同源物时,低复杂度序列区域是一个常见的问题。已经提出了几种解决此问题的方法,但迄今为止,这些方法在具有挑战性的数据上的详细比较还很缺乏。同源性检测程序的一个常见基准是使用属于同一或不同超家族的 SCOP/ASTRAL 结构域序列,但这些序列几乎不含低复杂度序列。

结果

我们在这里引入了一种基于 Pfam 结构域和全蛋白质数据集上的族的替代基准测试策略。这提供了一个真实的低复杂度序列水平。我们使用它来评估所有内置 BLAST 低复杂度过滤器设置以及 MSPcrunch 后处理过滤器中的一系列设置。还评估了对对齐长度的影响。

结论

评分矩阵调整方法在相对较小的敏感性损失下提供了较低的假阳性率,与不进行过滤相比,在我们应用的测试条件范围内都是如此。MSPcrunch 甚至以更高的假阳性率实现了更低的敏感性损失。然而,评分矩阵调整方法的一个缺点是,对齐通常会变得截断。

可用性

用于 MSPcrunch BLAST 过滤和生成基准数据集的 Perl 脚本可在 http://sonnhammer.sbc.su.se/download/software/MSPcrunch+Blixem/benchmark.tar.gz 获得。

相似文献

1
Benchmarking homology detection procedures with low complexity filters.使用低复杂度滤波器进行同源检测程序的基准测试。
Bioinformatics. 2009 Oct 1;25(19):2500-5. doi: 10.1093/bioinformatics/btp446. Epub 2009 Jul 20.
2
Fast model-based protein homology detection without alignment.基于快速模型的无需比对的蛋白质同源性检测。
Bioinformatics. 2007 Jul 15;23(14):1728-36. doi: 10.1093/bioinformatics/btm247. Epub 2007 May 8.
3
AutoSCOP: automated prediction of SCOP classifications using unique pattern-class mappings.AutoSCOP:使用独特的模式-类别映射自动预测SCOP分类
Bioinformatics. 2007 May 15;23(10):1203-10. doi: 10.1093/bioinformatics/btm089. Epub 2007 Mar 22.
4
Remote homology detection of integral membrane proteins using conserved sequence features.利用保守序列特征进行整合膜蛋白的远程同源性检测。
Proteins. 2008 May 15;71(3):1387-99. doi: 10.1002/prot.21825.
5
Accurate domain identification with structure-anchored hidden Markov models, saHMMs.基于结构锚定隐马尔可夫模型(saHMMs)的精确领域识别。
Proteins. 2009 Aug 1;76(2):343-52. doi: 10.1002/prot.22349.
6
Benchmarking PSI-BLAST in genome annotation.在基因组注释中对PSI-BLAST进行基准测试。
J Mol Biol. 1999 Nov 12;293(5):1257-71. doi: 10.1006/jmbi.1999.3233.
7
BAliBASE 3.0: latest developments of the multiple sequence alignment benchmark.BAliBASE 3.0:多序列比对基准测试的最新进展。
Proteins. 2005 Oct 1;61(1):127-36. doi: 10.1002/prot.20527.
8
Predicting protein function from domain content.从结构域组成预测蛋白质功能。
Bioinformatics. 2008 Aug 1;24(15):1681-7. doi: 10.1093/bioinformatics/btn312. Epub 2008 Jun 30.
9
transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences.transAlign:利用氨基酸促进蛋白质编码DNA序列的多重比对。
BMC Bioinformatics. 2005 Jun 22;6:156. doi: 10.1186/1471-2105-6-156.
10
A Shannon entropy-based filter detects high- quality profile-profile alignments in searches for remote homologues.一种基于香农熵的过滤器在搜索远源同源物时可检测到高质量的序列轮廓比对。
Proteins. 2004 Feb 1;54(2):351-60. doi: 10.1002/prot.10564.

引用本文的文献

1
Human tRNAs with inosine 34 are essential to efficiently translate eukarya-specific low-complexity proteins.含有肌苷34的人类转运RNA对于有效翻译真核生物特有的低复杂性蛋白质至关重要。
Nucleic Acids Res. 2021 Jul 9;49(12):7011-7034. doi: 10.1093/nar/gkab461.
2
MultiDomainBenchmark: a multi-domain query and subject database suite.多领域基准测试:一个多领域查询和主题数据库套件。
BMC Bioinformatics. 2019 Feb 14;20(1):77. doi: 10.1186/s12859-019-2660-5.
3
Benchmarking the next generation of homology inference tools.对下一代同源性推断工具进行基准测试。
Bioinformatics. 2016 Sep 1;32(17):2636-41. doi: 10.1093/bioinformatics/btw305. Epub 2016 Jun 1.
4
eggNOG v4.0: nested orthology inference across 3686 organisms.eggNOG v4.0:跨越 3686 个生物体的嵌套同源推断。
Nucleic Acids Res. 2014 Jan;42(Database issue):D231-9. doi: 10.1093/nar/gkt1253. Epub 2013 Dec 1.
5
The challenge of increasing Pfam coverage of the human proteome.提高 Pfam 对人类蛋白质组覆盖范围的挑战。
Database (Oxford). 2013 Apr 19;2013:bat023. doi: 10.1093/database/bat023. Print 2013.
6
Gentle masking of low-complexity sequences improves homology search.低复杂度序列的柔和屏蔽可提高同源搜索性能。
PLoS One. 2011;6(12):e28819. doi: 10.1371/journal.pone.0028819. Epub 2011 Dec 19.
7
InParanoid 7: new algorithms and tools for eukaryotic orthology analysis.InParanoid 7:真核生物直系同源分析的新算法和工具。
Nucleic Acids Res. 2010 Jan;38(Database issue):D196-203. doi: 10.1093/nar/gkp931. Epub 2009 Nov 5.