• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

蛋白质结构域的基因组规模亚家族分类

Genomic scale sub-family assignment of protein domains.

作者信息

Gough Julian

机构信息

Unite de Bioinformatique Structurale, Institut Pasteur, 25-28 Rue du Docteur Roux, 75724 Paris Cedex 15, Paris, France.

出版信息

Nucleic Acids Res. 2006 Jul 28;34(13):3625-33. doi: 10.1093/nar/gkl484. Print 2006.

DOI:10.1093/nar/gkl484
PMID:16877569
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC1540727/
Abstract

Many classification schemes for proteins and domains are either hierarchical or semi-hierarchical yet most databases, especially those offering genome-wide analysis, only provide assignments to sequences at one level of their hierarchy. Given an established hierarchy, the problem of assigning new sequences to lower levels of that existing hierarchy is less hard (but no less important) than the initial top level assignment which requires the detection of the most distant relationships. A solution to this problem is described here in the form of a new procedure which can be thought of as a hybrid between pairwise and profile methods. The hybrid method is a general procedure that can be applied to any pre-defined hierarchy, at any level, including in principle multiple sub-levels. It has been tested on the SCOP classification via the SUPERFAMILY database and performs significantly better than either pairwise or profile methods alone. Perhaps the greatest advantage of the hybrid method over other possible approaches to the problem is that within the framework of an existing profile library, the assignments are fully automatic and come at almost no additional computational cost. Hence it has already been applied at the SCOP family level to all genomes in the SUPERFAMILY database, providing a wealth of new data to the biological and bioinformatics communities.

摘要

许多针对蛋白质和结构域的分类方案要么是层次型的,要么是半层次型的,但大多数数据库,尤其是那些提供全基因组分析的数据库,只在其层次结构的一个级别上提供序列的分类。给定一个既定的层次结构,将新序列分配到该现有层次结构的较低级别这个问题,比起需要检测最远距离关系的初始顶级分配来说,难度要小一些(但同样重要)。本文描述了一种解决这个问题的方法,它采用了一种新程序的形式,可以看作是成对方法和profile方法的混合。这种混合方法是一种通用程序,可以应用于任何预定义的层次结构的任何级别,原则上包括多个子级别。它已经通过SUPERFAMILY数据库在SCOP分类上进行了测试,并且比单独的成对方法或profile方法表现得要好得多。与解决这个问题的其他可能方法相比,混合方法最大的优势可能在于,在现有profile库的框架内,分类是完全自动的,而且几乎不需要额外的计算成本。因此,它已经在SUPERFAMILY数据库中应用于SCOP家族级别下的所有基因组,为生物学和生物信息学领域提供了大量新数据。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/b8e31194a3be/gkl484f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/126c2e03ed98/gkl484f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/08aece9769a3/gkl484f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/be89519b3343/gkl484f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/71da9d6449dc/gkl484f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/b8e31194a3be/gkl484f5.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/126c2e03ed98/gkl484f1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/08aece9769a3/gkl484f2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/be89519b3343/gkl484f3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/71da9d6449dc/gkl484f4.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/21f9/1540727/b8e31194a3be/gkl484f5.jpg

相似文献

1
Genomic scale sub-family assignment of protein domains.蛋白质结构域的基因组规模亚家族分类
Nucleic Acids Res. 2006 Jul 28;34(13):3625-33. doi: 10.1093/nar/gkl484. Print 2006.
2
AutoSCOP: automated prediction of SCOP classifications using unique pattern-class mappings.AutoSCOP:使用独特的模式-类别映射自动预测SCOP分类
Bioinformatics. 2007 May 15;23(10):1203-10. doi: 10.1093/bioinformatics/btm089. Epub 2007 Mar 22.
3
Assignment of homology to genome sequences using a library of hidden Markov models that represent all proteins of known structure.使用代表所有已知结构蛋白质的隐马尔可夫模型库将同源性分配给基因组序列。
J Mol Biol. 2001 Nov 2;313(4):903-19. doi: 10.1006/jmbi.2001.5080.
4
4SCOPmap: automated assignment of protein structures to evolutionary superfamilies.4SCOP图谱:蛋白质结构到进化超家族的自动分配
BMC Bioinformatics. 2004 Dec 14;5:197. doi: 10.1186/1471-2105-5-197.
5
The SUPERFAMILY database in 2004: additions and improvements.2004年的SUPERFAMILY数据库:新增内容与改进
Nucleic Acids Res. 2004 Jan 1;32(Database issue):D235-9. doi: 10.1093/nar/gkh117.
6
Automatic classification of protein structures using low-dimensional structure space mappings.利用低维结构空间映射对蛋白质结构进行自动分类。
BMC Bioinformatics. 2014;15 Suppl 2(Suppl 2):S1. doi: 10.1186/1471-2105-15-S2-S1. Epub 2014 Jan 24.
7
The SUPERFAMILY database in 2007: families and functions.2007年的超家族数据库:家族与功能
Nucleic Acids Res. 2007 Jan;35(Database issue):D308-13. doi: 10.1093/nar/gkl910. Epub 2006 Nov 10.
8
SCOP database in 2002: refinements accommodate structural genomics.2002年的SCOP数据库:改进以适应结构基因组学。
Nucleic Acids Res. 2002 Jan 1;30(1):264-7. doi: 10.1093/nar/30.1.264.
9
The SUPERFAMILY database in structural genomics.结构基因组学中的SUPERFAMILY数据库。
Acta Crystallogr D Biol Crystallogr. 2002 Nov;58(Pt 11):1897-900. doi: 10.1107/s0907444902015160. Epub 2002 Oct 21.
10
Structural SCOP superfamily level classification using unsupervised machine learning.使用无监督机器学习进行结构 SCOP 超家族水平分类。
IEEE/ACM Trans Comput Biol Bioinform. 2012;9(2):601-8. doi: 10.1109/TCBB.2011.114. Epub 2011 Aug 4.

引用本文的文献

1
The SUPERFAMILY 2.0 database: a significant proteome update and a new webserver.SUPERFAMILY 2.0 数据库:一个重要的蛋白质组更新和一个新的网络服务器。
Nucleic Acids Res. 2019 Jan 8;47(D1):D490-D494. doi: 10.1093/nar/gky1130.
2
Evolutionary genomics of the cold-adapted diatom Fragilariopsis cylindrus.寒冷适应硅藻脆杆藻的进化基因组学。
Nature. 2017 Jan 26;541(7638):536-540. doi: 10.1038/nature20803. Epub 2017 Jan 16.
3
The SUPERFAMILY 1.75 database in 2014: a doubling of data.2014年的超家族1.75数据库:数据量翻倍。

本文引用的文献

1
The Gene Ontology Annotation (GOA) Project--Application of GO in SWISS-PROT, TrEMBL and InterPro.基因本体注释(GOA)项目——基因本体在SWISS-PROT、TrEMBL和InterPro中的应用。
Comp Funct Genomics. 2003;4(1):71-4. doi: 10.1002/cfg.235.
2
Escherichia coli K-12: a cooperatively developed annotation snapshot--2005.大肠杆菌K-12:一个合作开发的注释快照——2005年。
Nucleic Acids Res. 2006 Jan 5;34(1):1-9. doi: 10.1093/nar/gkj405. Print 2006.
3
DBD: a transcription factor prediction database.DBD:一个转录因子预测数据库。
Nucleic Acids Res. 2015 Jan;43(Database issue):D227-33. doi: 10.1093/nar/gku1041. Epub 2014 Nov 20.
4
A daily-updated tree of (sequenced) life as a reference for genome research.一份每日更新的(已测序的)生命树,作为基因组研究的参考。
Sci Rep. 2013;3:2015. doi: 10.1038/srep02015.
5
Genome3D: a UK collaborative project to annotate genomic sequences with predicted 3D structures based on SCOP and CATH domains.Genome3D:一个英国合作项目,基于 SCOP 和 CATH 结构域,对基因组序列进行注释和预测三维结构。
Nucleic Acids Res. 2013 Jan;41(Database issue):D499-507. doi: 10.1093/nar/gks1266. Epub 2012 Nov 30.
6
SUPERFAMILY 1.75 including a domain-centric gene ontology method.超家族1.75,包括一种以结构域为中心的基因本体方法。
Nucleic Acids Res. 2011 Jan;39(Database issue):D427-34. doi: 10.1093/nar/gkq1130. Epub 2010 Nov 9.
7
Characterization of Prochlorococcus clades from iron-depleted oceanic regions.贫铁海洋区域聚球藻属的特性描述。
Proc Natl Acad Sci U S A. 2010 Sep 14;107(37):16184-9. doi: 10.1073/pnas.1009513107. Epub 2010 Aug 23.
8
History of biological metal utilization inferred through phylogenomic analysis of protein structures.通过蛋白质结构的系统基因组学分析推断生物金属利用的历史。
Proc Natl Acad Sci U S A. 2010 Jun 8;107(23):10567-72. doi: 10.1073/pnas.0912491107. Epub 2010 May 24.
9
A HaemAtlas: characterizing gene expression in differentiated human blood cells.一个血液图谱:表征分化的人类血细胞中的基因表达。
Blood. 2009 May 7;113(19):e1-9. doi: 10.1182/blood-2008-06-162958. Epub 2009 Feb 19.
10
Protein subfamily assignment using the Conserved Domain Database.使用保守结构域数据库进行蛋白质亚家族分类。
BMC Res Notes. 2008 Nov 14;1:114. doi: 10.1186/1756-0500-1-114.
Nucleic Acids Res. 2006 Jan 1;34(Database issue):D74-81. doi: 10.1093/nar/gkj131.
4
Orthologs, paralogs, and evolutionary genomics.直系同源基因、旁系同源基因与进化基因组学。
Annu Rev Genet. 2005;39:309-38. doi: 10.1146/annurev.genet.39.073003.114725.
5
Calibrating E-values for hidden Markov models using reverse-sequence null models.使用反向序列空模型校准隐马尔可夫模型的E值。
Bioinformatics. 2005 Nov 15;21(22):4107-15. doi: 10.1093/bioinformatics/bti629. Epub 2005 Aug 25.
6
Evolution of a microbial nitrilase gene family: a comparative and environmental genomics study.微生物腈水解酶基因家族的进化:一项比较与环境基因组学研究
BMC Evol Biol. 2005 Aug 6;5:42. doi: 10.1186/1471-2148-5-42.
7
Three globin lineages belonging to two structural classes in genomes from the three kingdoms of life.来自生命三界基因组中的三个珠蛋白谱系,分属于两个结构类别。
Proc Natl Acad Sci U S A. 2005 Aug 9;102(32):11385-9. doi: 10.1073/pnas.0502103102. Epub 2005 Aug 1.
8
Subfamily hmms in functional genomics.功能基因组学中的亚家族隐马尔可夫模型
Pac Symp Biocomput. 2005:322-33.
9
Convergent evolution of domain architectures (is rare).结构域架构的趋同进化(很罕见)。
Bioinformatics. 2005 Apr 15;21(8):1464-71. doi: 10.1093/bioinformatics/bti204. Epub 2004 Dec 7.
10
Supra-domains: evolutionary units larger than single protein domains.超结构域:比单个蛋白质结构域更大的进化单元。
J Mol Biol. 2004 Feb 20;336(3):809-23. doi: 10.1016/j.jmb.2003.12.026.