• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

一种用于数据库搜索和聚类的集合论方法。

A set-theoretic approach to database searching and clustering.

作者信息

Krause A, Vingron M

机构信息

Deutsches Krebsforschungszentrum (DKFZ), Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany.

出版信息

Bioinformatics. 1998 Jun;14(5):430-8. doi: 10.1093/bioinformatics/14.5.430.

DOI:10.1093/bioinformatics/14.5.430
PMID:9682056
Abstract

MOTIVATION

In this paper, we introduce an iterative method of database searching and apply it to design a database clustering algorithm applicable to an entire protein database. The clustering procedure relies on the quality of the database searching routine and further improves its results based on a set-theoretic analysis of a highly redundant yet efficient to generate cluster system.

RESULTS

Overall, we achieve unambiguous assignment of 80% of SWISS-PROT sequences to non-overlapping sequence clusters in an entirely automatic fashion. Our results are compared to an expert-generated clustering for validation. The database searching method is fast and the clustering technique does not require time-consuming all-against-all comparison. This allows for fast clustering of large amounts of sequences.

AVAILABILITY

The resulting clustering for the PIR1 (Release 51) and SWISS-PROT (Release 34) databases is available over the Internet from http://www.dkfz-heidelberg.de/tbi/services/modest/b rowsesysters.pl.

CONTACT

a.krause@dkfz-heidelberg.de; m.vingron@dkfz-heidelberg.de

摘要

动机

在本文中,我们介绍了一种数据库搜索的迭代方法,并将其应用于设计一种适用于整个蛋白质数据库的数据库聚类算法。聚类过程依赖于数据库搜索程序的质量,并基于对一个高度冗余但高效生成聚类系统的集合论分析进一步改进其结果。

结果

总体而言,我们以完全自动的方式将80%的SWISS-PROT序列明确分配到非重叠序列聚类中。我们的结果与专家生成的聚类结果进行比较以进行验证。数据库搜索方法速度快,聚类技术不需要耗时的全对全比较。这使得能够快速对大量序列进行聚类。

可用性

通过互联网可从http://www.dkfz-heidelberg.de/tbi/services/modest/browsesysters.pl获取针对PIR1(第51版)和SWISS-PROT(第34版)数据库生成的聚类结果。

联系方式

a.krause@dkfz-heidelberg.de;m.vingron@dkfz-heidelberg.de

相似文献

1
A set-theoretic approach to database searching and clustering.一种用于数据库搜索和聚类的集合论方法。
Bioinformatics. 1998 Jun;14(5):430-8. doi: 10.1093/bioinformatics/14.5.430.
2
WWW access to the SYSTERS protein sequence cluster set.通过万维网访问SYSTERS蛋白质序列聚类集。
Bioinformatics. 1999 Mar;15(3):262-3. doi: 10.1093/bioinformatics/15.3.262.
3
SSMAL: similarity searching with alignment graphs.SSMAL:使用比对图进行相似性搜索。
Bioinformatics. 1998;14(6):508-15. doi: 10.1093/bioinformatics/14.6.508.
4
A New Method for Database Searching and Clustering.一种用于数据库搜索和聚类的新方法。
Genome Inform Ser Workshop Genome Inform. 1997;8:90-99.
5
Automated protein sequence database classification. II. Delineation Of domain boundaries from sequence similarities.自动化蛋白质序列数据库分类。II. 从序列相似性描绘结构域边界
Bioinformatics. 1998;14(2):174-87. doi: 10.1093/bioinformatics/14.2.174.
6
Removing near-neighbour redundancy from large protein sequence collections.去除大型蛋白质序列集合中的近邻冗余。
Bioinformatics. 1998 Jun;14(5):423-9. doi: 10.1093/bioinformatics/14.5.423.
7
Automated protein sequence database classification. I. Integration of compositional similarity search, local similarity search, and multiple sequence alignment.自动化蛋白质序列数据库分类。I. 组成相似性搜索、局部相似性搜索和多序列比对的整合
Bioinformatics. 1998;14(2):164-73. doi: 10.1093/bioinformatics/14.2.164.
8
Computational space reduction and parallelization of a new clustering approach for large groups of sequences.针对大量序列的一种新聚类方法的计算空间缩减与并行化
Bioinformatics. 1998 Jun;14(5):439-51. doi: 10.1093/bioinformatics/14.5.439.
9
A graph-based clustering method for a large set of sequences using a graph partitioning algorithm.一种使用图划分算法对大量序列进行基于图的聚类方法。
Genome Inform. 2001;12:93-102.
10
Clustering protein sequences--structure prediction by transitive homology.蛋白质序列聚类——通过传递同源性进行结构预测
Bioinformatics. 2001 Oct;17(10):935-41. doi: 10.1093/bioinformatics/17.10.935.

引用本文的文献

1
Substitution scoring matrices for proteins - An overview.蛋白质替换评分矩阵——概述。
Protein Sci. 2020 Nov;29(11):2150-2163. doi: 10.1002/pro.3954. Epub 2020 Oct 12.
2
The ranging of amino acids substitution matrices of various types in accordance with the alignment accuracy criterion.根据比对准确性标准对各种类型氨基酸替换矩阵进行排序。
BMC Bioinformatics. 2020 Sep 14;21(Suppl 11):294. doi: 10.1186/s12859-020-03616-0.
3
PFASUM: a substitution matrix from Pfam structural alignments.PFASUM:一种来自Pfam结构比对的替换矩阵。
BMC Bioinformatics. 2017 Jun 5;18(1):293. doi: 10.1186/s12859-017-1703-z.
4
Genome-wide comparative gene family classification.全基因组比较基因家族分类。
PLoS One. 2010 Oct 15;5(10):e13409. doi: 10.1371/journal.pone.0013409.
5
Functional classification using phylogenomic inference.使用系统发育基因组推断进行功能分类。
PLoS Comput Biol. 2006 Jun 30;2(6):e77. doi: 10.1371/journal.pcbi.0020077.
6
Clustering protein sequences with a novel metric transformed from sequence similarity scores and sequence alignments with neural networks.使用从序列相似性得分转换而来的新度量以及神经网络进行的序列比对来对蛋白质序列进行聚类。
BMC Bioinformatics. 2005 Oct 3;6:242. doi: 10.1186/1471-2105-6-242.
7
Large scale hierarchical clustering of protein sequences.蛋白质序列的大规模层次聚类
BMC Bioinformatics. 2005 Jan 22;6:15. doi: 10.1186/1471-2105-6-15.
8
SYSTERS, GeneNest, SpliceNest: exploring sequence space from genome to protein.SYSTERS、基因巢、剪接巢:探索从基因组到蛋白质的序列空间。
Nucleic Acids Res. 2002 Jan 1;30(1):299-300. doi: 10.1093/nar/30.1.299.
9
The SYSTERS protein sequence cluster set.SYSTERS蛋白质序列聚类集。
Nucleic Acids Res. 2000 Jan 1;28(1):270-2. doi: 10.1093/nar/28.1.270.
10
ProtoMap: automatic classification of protein sequences and hierarchy of protein families.ProtoMap:蛋白质序列的自动分类及蛋白质家族层次结构
Nucleic Acids Res. 2000 Jan 1;28(1):49-55. doi: 10.1093/nar/28.1.49.