Suppr超能文献

多领域基准测试:一个多领域查询和主题数据库套件。

MultiDomainBenchmark: a multi-domain query and subject database suite.

机构信息

TSYS School of Computer Science, Columbus State University, 4225 University Avenue, Columbus, 31907, GA, USA.

National Center for Biotechnology Information, Bethesda, National Institutes of Health, 8600 Rockville Pike, Bethesda, 20894, MD, USA.

出版信息

BMC Bioinformatics. 2019 Feb 14;20(1):77. doi: 10.1186/s12859-019-2660-5.

Abstract

BACKGROUND

Genetic sequence database retrieval benchmarks play an essential role in evaluating the performance of sequence searching tools. To date, all phylogenetically diverse benchmarks known to the authors include only query sequences with single protein domains. Domains are the primary building blocks of protein structure and function. Independently, each domain can fulfill a single function, but most proteins (>80% in Metazoa) exist as multi-domain proteins. Multiple domain units combine in various arrangements or architectures to create different functions and are often under evolutionary pressures to yield new ones. Thus, it is crucial to create gold standards reflecting the multi-domain complexity of real proteins to more accurately evaluate sequence searching tools.

DESCRIPTION

This work introduces MultiDomainBenchmark (MDB), a database suite of 412 curated multi-domain queries and 227,512 target sequences, representing at least 5108 species and 1123 phylogenetically divergent protein families, their relevancy annotation, and domain location. Here, we use the benchmark to evaluate the performance of two commonly used sequence searching tools, BLAST/PSI-BLAST and HMMER. Additionally, we introduce a novel classification technique for multi-domain proteins to evaluate how well an algorithm recovers a domain architecture.

CONCLUSION

MDB is publicly available at http://csc.columbusstate.edu/carroll/MDB/ .

摘要

背景

遗传序列数据库检索基准在评估序列搜索工具的性能方面起着至关重要的作用。迄今为止,作者所知道的所有具有系统发育多样性的基准都只包含具有单个蛋白质结构域的查询序列。结构域是蛋白质结构和功能的主要组成部分。每个结构域都可以独立完成单个功能,但大多数蛋白质(在 Metazoa 中超过 80%)都以多结构域蛋白质的形式存在。多个结构域单元以各种排列或架构组合在一起,形成不同的功能,并且经常受到进化压力的影响,以产生新的功能。因此,创建反映真实蛋白质的多结构域复杂性的黄金标准对于更准确地评估序列搜索工具至关重要。

描述

这项工作介绍了 MultiDomainBenchmark(MDB),这是一个由 412 个经过精心整理的多结构域查询和 227,512 个目标序列组成的数据库套件,代表至少 5108 个物种和 1123 个具有系统发育差异的蛋白质家族,以及它们的相关性注释和结构域位置。在这里,我们使用该基准来评估两种常用的序列搜索工具 BLAST/PSI-BLAST 和 HMMER 的性能。此外,我们还引入了一种新的多结构域蛋白质分类技术,以评估算法恢复结构域架构的效果如何。

结论

MDB 可在 http://csc.columbusstate.edu/carroll/MDB/ 上公开获取。

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验