Suppr超能文献

对高度同源序列进行聚类以减小大型蛋白质数据库的规模。

Clustering of highly homologous sequences to reduce the size of large protein databases.

作者信息

Li W, Jaroszewski L, Godzik A

机构信息

San Diego Supercomputer Center, La Jolla, CA 92093, USA.

出版信息

Bioinformatics. 2001 Mar;17(3):282-3. doi: 10.1093/bioinformatics/17.3.282.

Abstract

We present a fast and flexible program for clustering large protein databases at different sequence identity levels. It takes less than 2 h for the all-against-all sequence comparison and clustering of the non-redundant protein database of over 560,000 sequences on a high-end PC. The output database, including only the representative sequences, can be used for more efficient and sensitive database searches.

摘要

我们提出了一个快速且灵活的程序,用于在不同序列同一性水平上对大型蛋白质数据库进行聚类。在高端个人计算机上,对超过560,000个序列的非冗余蛋白质数据库进行全对全序列比较和聚类所需时间不到2小时。输出数据库仅包含代表性序列,可用于更高效、灵敏的数据库搜索。

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验