• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

PairsDB蛋白质序列空间图谱。

PairsDB atlas of protein sequence space.

作者信息

Heger Andreas, Korpelainen Eija, Hupponen Taavi, Mattila Kimmo, Ollikainen Vesa, Holm Liisa

机构信息

MRC Functional Genetics Unit, University of Oxford, UK.

出版信息

Nucleic Acids Res. 2008 Jan;36(Database issue):D276-80. doi: 10.1093/nar/gkm879. Epub 2007 Nov 5.

DOI:10.1093/nar/gkm879
PMID:17986464
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC2238971/
Abstract

Sequence similarity/database searching is a cornerstone of molecular biology. PairsDB is a database intended to make exploring protein sequences and their similarity relationships quick and easy. Behind PairsDB is a comprehensive collection of protein sequences and BLAST and PSI-BLAST alignments between them. Instead of running BLAST or PSI-BLAST individually on each request, results are retrieved instantaneously from a database of pre-computed alignments. Filtering options allow you to find a set of sequences satisfying a set of criteria-for example, all human proteins with solved structure and without transmembrane segments. PairsDB is continually updated and covers all sequences in Uniprot. The data is stored in a MySQL relational database. Data files will be made available for download at ftp://nic.funet.fi/pub/sci/molbio. PairsDB can also be accessed interactively at http://pairsdb.csc.fi. PairsDB data is a valuable platform to build various downstream automated analysis pipelines. For example, the graph of all-against-all similarity relationships is the starting point for clustering protein families, delineating domains, improving alignment accuracy by consistency measures, and defining orthologous genes. Moreover, query-anchored stacked sequence alignments, profiles and consensus sequences are useful in studies of sequence conservation patterns for clues about possible functional sites.

摘要

序列相似性/数据库搜索是分子生物学的基石。PairsDB是一个旨在使探索蛋白质序列及其相似性关系变得快速且容易的数据库。PairsDB背后是蛋白质序列以及它们之间的BLAST和PSI-BLAST比对的全面集合。不是针对每个请求单独运行BLAST或PSI-BLAST,而是从预计算比对的数据库中即时检索结果。过滤选项允许你找到一组满足一组标准的序列——例如,所有具有已解析结构且无跨膜片段的人类蛋白质。PairsDB会持续更新并涵盖Uniprot中的所有序列。数据存储在MySQL关系数据库中。数据文件将在ftp://nic.funet.fi/pub/sci/molbio上提供下载。也可以通过http://pairsdb.csc.fi以交互方式访问PairsDB。PairsDB数据是构建各种下游自动化分析管道的宝贵平台。例如,全对全相似性关系图是聚类蛋白质家族、划定结构域、通过一致性度量提高比对准确性以及定义直系同源基因的起点。此外,查询锚定的堆叠序列比对、图谱和共有序列在研究序列保守模式以寻找可能功能位点的线索方面很有用。

相似文献

1
PairsDB atlas of protein sequence space.PairsDB蛋白质序列空间图谱。
Nucleic Acids Res. 2008 Jan;36(Database issue):D276-80. doi: 10.1093/nar/gkm879. Epub 2007 Nov 5.
2
ADDA: a domain database with global coverage of the protein universe.ADDA:一个覆盖蛋白质全域的领域数据库。
Nucleic Acids Res. 2005 Jan 1;33(Database issue):D188-91. doi: 10.1093/nar/gki096.
3
MMDB: annotating protein sequences with Entrez's 3D-structure database.MMDB:使用Entrez的三维结构数据库注释蛋白质序列。
Nucleic Acids Res. 2007 Jan;35(Database issue):D298-300. doi: 10.1093/nar/gkl952. Epub 2006 Nov 29.
4
MODBASE, a database of annotated comparative protein structure models, and associated resources.MODBASE,一个带注释的比较蛋白质结构模型数据库及相关资源。
Nucleic Acids Res. 2004 Jan 1;32(Database issue):D217-22. doi: 10.1093/nar/gkh095.
5
BioParser: a tool for processing of sequence similarity analysis reports.生物解析器:一种用于处理序列相似性分析报告的工具。
Appl Bioinformatics. 2006;5(1):49-53. doi: 10.2165/00822942-200605010-00007.
6
Protein domain identification and improved sequence similarity searching using PSI-BLAST.使用PSI-BLAST进行蛋白质结构域鉴定及改进序列相似性搜索。
Proteins. 2002 Sep 1;48(4):672-81. doi: 10.1002/prot.10175.
7
ProDom: automated clustering of homologous domains.ProDom:同源结构域的自动聚类
Brief Bioinform. 2002 Sep;3(3):246-51. doi: 10.1093/bib/3.3.246.
8
ProClust: improved clustering of protein sequences with an extended graph-based approach.ProClust:基于扩展的图形方法改进蛋白质序列聚类
Bioinformatics. 2002;18 Suppl 2:S182-91. doi: 10.1093/bioinformatics/18.suppl_2.s182.
9
CDD: a database of conserved domain alignments with links to domain three-dimensional structure.CDD:一个保守结构域比对数据库,带有与结构域三维结构的链接。
Nucleic Acids Res. 2002 Jan 1;30(1):281-3. doi: 10.1093/nar/30.1.281.
10
MannDB - a microbial database of automated protein sequence analyses and evidence integration for protein characterization.MannDB - 一个用于蛋白质表征的自动蛋白质序列分析和证据整合的微生物数据库。
BMC Bioinformatics. 2006 Oct 17;7:459. doi: 10.1186/1471-2105-7-459.

引用本文的文献

1
SANSparallel: interactive homology search against Uniprot.SANSparallel:针对UniProt的交互式同源性搜索。
Nucleic Acids Res. 2015 Jul 1;43(W1):W24-9. doi: 10.1093/nar/gkv317. Epub 2015 Apr 8.
2
Mutation in TECPR2 reveals a role for autophagy in hereditary spastic paraparesis.TECPR2 突变揭示自噬在遗传性痉挛性截瘫中的作用。
Am J Hum Genet. 2012 Dec 7;91(6):1065-72. doi: 10.1016/j.ajhg.2012.09.015. Epub 2012 Nov 21.
3
The Pfam protein families database.Pfam 蛋白质家族数据库。

本文引用的文献

1
The global trace graph, a novel paradigm for searching protein sequence databases.全局追踪图,一种搜索蛋白质序列数据库的新范式。
Bioinformatics. 2007 Sep 15;23(18):2361-7. doi: 10.1093/bioinformatics/btm358. Epub 2007 Sep 6.
2
New developments in the InterPro database.InterPro数据库的新进展。
Nucleic Acids Res. 2007 Jan;35(Database issue):D224-8. doi: 10.1093/nar/gkl841.
3
The CATH domain structure database: new protocols and classification levels give a more comprehensive resource for exploring evolution.CATH结构域结构数据库:新协议和分类级别为探索进化提供了更全面的资源。
Nucleic Acids Res. 2010 Jan;38(Database issue):D211-22. doi: 10.1093/nar/gkp985. Epub 2009 Nov 17.
4
Structural and functional constraints in the evolution of protein families.蛋白质家族进化中的结构和功能限制因素。
Nat Rev Mol Cell Biol. 2009 Oct;10(10):709-20. doi: 10.1038/nrm2762. Epub 2009 Sep 16.
5
Structure and function of Pseudomonas aeruginosa protein PA1324 (21-170).铜绿假单胞菌蛋白PA1324(21-170)的结构与功能
Protein Sci. 2009 Mar;18(3):606-18. doi: 10.1002/pro.62.
6
RANKPROP: a web server for protein remote homology detection.RANKPROP:用于蛋白质远程同源性检测的网络服务器。
Bioinformatics. 2009 Jan 1;25(1):121-2. doi: 10.1093/bioinformatics/btn567. Epub 2008 Nov 6.
7
Experience using web services for biological sequence analysis.使用网络服务进行生物序列分析的经验。
Brief Bioinform. 2008 Nov;9(6):493-505. doi: 10.1093/bib/bbn029. Epub 2008 Jul 11.
Nucleic Acids Res. 2007 Jan;35(Database issue):D291-7. doi: 10.1093/nar/gkl959. Epub 2006 Nov 29.
4
Bayesian search of functionally divergent protein subgroups and their function specific residues.功能趋异蛋白质亚组及其功能特异性残基的贝叶斯搜索
Bioinformatics. 2006 Oct 15;22(20):2466-74. doi: 10.1093/bioinformatics/btl411. Epub 2006 Jul 26.
5
Pfam: clans, web tools and services.蛋白质家族数据库(Pfam):家族分类、网络工具及服务
Nucleic Acids Res. 2006 Jan 1;34(Database issue):D247-51. doi: 10.1093/nar/gkj149.
6
Accurate detection of very sparse sequence motifs.非常稀疏序列基序的精确检测。
J Comput Biol. 2004;11(5):843-57. doi: 10.1089/cmb.2004.11.843.
7
ProbCons: Probabilistic consistency-based multiple sequence alignment.ProbCons:基于概率一致性的多序列比对。
Genome Res. 2005 Feb;15(2):330-40. doi: 10.1101/gr.2821705.
8
ADDA: a domain database with global coverage of the protein universe.ADDA:一个覆盖蛋白质全域的领域数据库。
Nucleic Acids Res. 2005 Jan 1;33(Database issue):D188-91. doi: 10.1093/nar/gki096.
9
Detecting putative orthologs.检测假定的直系同源基因。
Bioinformatics. 2003 Sep 1;19(13):1710-1. doi: 10.1093/bioinformatics/btg213.
10
SCOP database in 2004: refinements integrate structure and sequence family data.2004年的SCOP数据库:改进整合了结构和序列家族数据。
Nucleic Acids Res. 2004 Jan 1;32(Database issue):D226-9. doi: 10.1093/nar/gkh039.