Suppr超能文献

一种用于数据库搜索和聚类的集合论方法。

A set-theoretic approach to database searching and clustering.

作者信息

Krause A, Vingron M

机构信息

Deutsches Krebsforschungszentrum (DKFZ), Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany.

出版信息

Bioinformatics. 1998 Jun;14(5):430-8. doi: 10.1093/bioinformatics/14.5.430.

Abstract

MOTIVATION

In this paper, we introduce an iterative method of database searching and apply it to design a database clustering algorithm applicable to an entire protein database. The clustering procedure relies on the quality of the database searching routine and further improves its results based on a set-theoretic analysis of a highly redundant yet efficient to generate cluster system.

RESULTS

Overall, we achieve unambiguous assignment of 80% of SWISS-PROT sequences to non-overlapping sequence clusters in an entirely automatic fashion. Our results are compared to an expert-generated clustering for validation. The database searching method is fast and the clustering technique does not require time-consuming all-against-all comparison. This allows for fast clustering of large amounts of sequences.

AVAILABILITY

The resulting clustering for the PIR1 (Release 51) and SWISS-PROT (Release 34) databases is available over the Internet from http://www.dkfz-heidelberg.de/tbi/services/modest/b rowsesysters.pl.

CONTACT

a.krause@dkfz-heidelberg.de; m.vingron@dkfz-heidelberg.de

摘要

动机

在本文中,我们介绍了一种数据库搜索的迭代方法,并将其应用于设计一种适用于整个蛋白质数据库的数据库聚类算法。聚类过程依赖于数据库搜索程序的质量,并基于对一个高度冗余但高效生成聚类系统的集合论分析进一步改进其结果。

结果

总体而言,我们以完全自动的方式将80%的SWISS-PROT序列明确分配到非重叠序列聚类中。我们的结果与专家生成的聚类结果进行比较以进行验证。数据库搜索方法速度快,聚类技术不需要耗时的全对全比较。这使得能够快速对大量序列进行聚类。

可用性

通过互联网可从http://www.dkfz-heidelberg.de/tbi/services/modest/browsesysters.pl获取针对PIR1(第51版)和SWISS-PROT(第34版)数据库生成的聚类结果。

联系方式

a.krause@dkfz-heidelberg.dem.vingron@dkfz-heidelberg.de

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验