• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

大规模和多样化蛋白质家族的基因组尺度系统发育功能注释。

Genome-scale phylogenetic function annotation of large and diverse protein families.

机构信息

Electrical Engineering and Computer Science Department, University of California, Berkeley, California 94720, USA.

出版信息

Genome Res. 2011 Nov;21(11):1969-80. doi: 10.1101/gr.104687.109. Epub 2011 Jul 22.

DOI:10.1101/gr.104687.109
PMID:21784873
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC3205580/
Abstract

The Statistical Inference of Function Through Evolutionary Relationships (SIFTER) framework uses a statistical graphical model that applies phylogenetic principles to automate precise protein function prediction. Here we present a revised approach (SIFTER version 2.0) that enables annotations on a genomic scale. SIFTER 2.0 produces equivalently precise predictions compared to the earlier version on a carefully studied family and on a collection of 100 protein families. We have added an approximation method to SIFTER 2.0 and show a 500-fold improvement in speed with minimal impact on prediction results in the functionally diverse sulfotransferase protein family. On the Nudix protein family, previously inaccessible to the SIFTER framework because of the 66 possible molecular functions, SIFTER achieved 47.4% accuracy on experimental data (where BLAST achieved 34.0%). Finally, we used SIFTER to annotate all of the Schizosaccharomyces pombe proteins with experimental functional characterizations, based on annotations from proteins in 46 fungal genomes. SIFTER precisely predicted molecular function for 45.5% of the characterized proteins in this genome, as compared with four current function prediction methods that precisely predicted function for 62.6%, 30.6%, 6.0%, and 5.7% of these proteins. We use both precision-recall curves and ROC analyses to compare these genome-scale predictions across the different methods and to assess performance on different types of applications. SIFTER 2.0 is capable of predicting protein molecular function for large and functionally diverse protein families using an approximate statistical model, enabling phylogenetics-based protein function prediction for genome-wide analyses. The code for SIFTER and protein family data are available at http://sifter.berkeley.edu.

摘要

通过进化关系进行功能统计推断(SIFTER)框架使用统计图形模型,该模型应用系统发生原理实现精确的蛋白质功能预测。在这里,我们提出了一种经过修订的方法(SIFTER 版本 2.0),该方法可以实现基因组规模的注释。与早期版本相比,SIFTER 2.0 在经过精心研究的家族和 100 个蛋白质家族的集合中产生了同样精确的预测。我们在 SIFTER 2.0 中添加了一种近似方法,并在功能多样化的磺基转移酶蛋白质家族中展示了速度提高了 500 倍,而对预测结果的影响最小。对于 Nudix 蛋白质家族,由于有 66 种可能的分子功能,以前无法使用 SIFTER 框架进行分析,SIFTER 在实验数据上的准确率达到了 47.4%(BLAST 的准确率为 34.0%)。最后,我们使用 SIFTER 根据 46 个真菌基因组中的蛋白质注释,对酿酒酵母的所有蛋白质进行了实验功能特征注释。在这个基因组中,SIFTER 精确预测了 45.5%的有特征蛋白质的分子功能,而目前的四种功能预测方法分别精确预测了 62.6%、30.6%、6.0%和 5.7%的蛋白质的功能。我们使用精度-召回曲线和 ROC 分析比较了不同方法的基因组规模预测,并评估了不同类型应用程序的性能。SIFTER 2.0 能够使用近似统计模型预测大型和功能多样化的蛋白质家族的蛋白质分子功能,从而为全基因组分析提供基于系统发生的蛋白质功能预测。SIFTER 和蛋白质家族数据的代码可在 http://sifter.berkeley.edu 获得。

相似文献

1
Genome-scale phylogenetic function annotation of large and diverse protein families.大规模和多样化蛋白质家族的基因组尺度系统发育功能注释。
Genome Res. 2011 Nov;21(11):1969-80. doi: 10.1101/gr.104687.109. Epub 2011 Jul 22.
2
SIFTER search: a web server for accurate phylogeny-based protein function prediction.SIFTER搜索:一个用于基于系统发育的蛋白质功能准确预测的网络服务器。
Nucleic Acids Res. 2015 Jul 1;43(W1):W141-7. doi: 10.1093/nar/gkv461. Epub 2015 May 15.
3
Protein molecular function prediction by Bayesian phylogenomics.基于贝叶斯系统发育基因组学的蛋白质分子功能预测
PLoS Comput Biol. 2005 Oct;1(5):e45. doi: 10.1371/journal.pcbi.0010045. Epub 2005 Oct 7.
4
SIFTER-T: a scalable and optimized framework for the SIFTER phylogenomic method of probabilistic protein domain annotation.SIFTER-T:一种用于概率性蛋白质结构域注释的SIFTER系统发育基因组学方法的可扩展且优化的框架。
Biotechniques. 2015 Mar 1;58(3):140-2. doi: 10.2144/000114266. eCollection 2015 Mar.
5
Phylogenetic molecular function annotation.系统发育分子功能注释
J Phys Conf Ser. 2009;180(1):12024. doi: 10.1088/1742-6596/180/1/012024.
6
7
Sifting through genomes with iterative-sequence clustering produces a large, phylogenetically diverse protein-family resource.通过迭代序列聚类筛选基因组,可产生大量具有系统发育多样性的蛋白质家族资源。
BMC Bioinformatics. 2012 Oct 13;13:264. doi: 10.1186/1471-2105-13-264.
8
PANTHER version 10: expanded protein families and functions, and analysis tools.PANTHER 版本 10:扩展的蛋白质家族与功能以及分析工具。
Nucleic Acids Res. 2016 Jan 4;44(D1):D336-42. doi: 10.1093/nar/gkv1194. Epub 2015 Nov 17.
9
Incorporating functional inter-relationships into protein function prediction algorithms.将功能相互关系纳入蛋白质功能预测算法。
BMC Bioinformatics. 2009 May 12;10:142. doi: 10.1186/1471-2105-10-142.
10
Phylogenetic-based propagation of functional annotations within the Gene Ontology consortium.基于系统发生的基因本体论联盟功能注释传播。
Brief Bioinform. 2011 Sep;12(5):449-62. doi: 10.1093/bib/bbr042. Epub 2011 Aug 27.

引用本文的文献

1
Tuning the stator subunit of the flagellar motor with coiled-coil engineering.利用卷曲螺旋工程对鞭毛马达的定子亚基进行调节。
Protein Sci. 2023 Dec;32(12):e4811. doi: 10.1002/pro.4811.
2
Phylogenetic inference of the emergence of sequence modules and protein-protein interactions in the ADAMTS-TSL family.ADAMTS-TSL 家族中序列模块和蛋白-蛋白相互作用出现的系统发育推断。
PLoS Comput Biol. 2023 Aug 31;19(8):e1011404. doi: 10.1371/journal.pcbi.1011404. eCollection 2023 Aug.
3
Multiple Profile Models Extract Features from Protein Sequence Data and Resolve Functional Diversity of Very Different Protein Families.多剖面模型从蛋白质序列数据中提取特征,并解决非常不同蛋白质家族的功能多样性。
Mol Biol Evol. 2022 Apr 10;39(4). doi: 10.1093/molbev/msac070.
4
Bayesian parameter estimation for automatic annotation of gene functions using observational data and phylogenetic trees.贝叶斯参数估计在使用观测数据和系统发生树自动注释基因功能中的应用。
PLoS Comput Biol. 2021 Feb 18;17(2):e1007948. doi: 10.1371/journal.pcbi.1007948. eCollection 2021 Feb.
5
The ortholog conjecture revisited: the value of orthologs and paralogs in function prediction.重新审视直系同源推断假说:直系同源物和旁系同源物在功能预测中的价值。
Bioinformatics. 2020 Jul 1;36(Suppl_1):i219-i226. doi: 10.1093/bioinformatics/btaa468.
6
Prioritising candidate genes causing QTL using hierarchical orthologous groups.利用层次同源群优先考虑引起 QTL 的候选基因。
Bioinformatics. 2018 Sep 1;34(17):i612-i619. doi: 10.1093/bioinformatics/bty615.
7
Effusion: prediction of protein function from sequence similarity networks.积液:从序列相似性网络预测蛋白质功能。
Bioinformatics. 2019 Feb 1;35(3):442-451. doi: 10.1093/bioinformatics/bty672.
8
Identifying functional groups among the diverse, recombining antigenic var genes of the malaria parasite Plasmodium falciparum from a local community in Ghana.从加纳当地社区的疟原虫恶性疟原虫中多样化、重组的抗原变异基因中鉴定功能基团。
PLoS Comput Biol. 2018 Jun 13;14(6):e1006174. doi: 10.1371/journal.pcbi.1006174. eCollection 2018 Jun.
9
HMMER Cut-off Threshold Tool (HMMERCTTER): Supervised classification of superfamily protein sequences with a reliable cut-off threshold.HMMER 截断阈值工具(HMMERCTTER):使用可靠的截断阈值对超家族蛋白质序列进行有监督分类。
PLoS One. 2018 Mar 26;13(3):e0193757. doi: 10.1371/journal.pone.0193757. eCollection 2018.
10
DeepGO: predicting protein functions from sequence and interactions using a deep ontology-aware classifier.DeepGO:使用深度本体感知分类器从序列和相互作用预测蛋白质功能。
Bioinformatics. 2018 Feb 15;34(4):660-668. doi: 10.1093/bioinformatics/btx624.

本文引用的文献

1
Annotation error in public databases: misannotation of molecular function in enzyme superfamilies.公共数据库中的注释错误:酶超家族中分子功能的错误注释。
PLoS Comput Biol. 2009 Dec;5(12):e1000605. doi: 10.1371/journal.pcbi.1000605. Epub 2009 Dec 11.
2
The Gene Ontology in 2010: extensions and refinements.2010 年的基因本体论:扩展和改进。
Nucleic Acids Res. 2010 Jan;38(Database issue):D331-5. doi: 10.1093/nar/gkp1018. Epub 2009 Nov 17.
3
The Pfam protein families database.Pfam 蛋白质家族数据库。
Nucleic Acids Res. 2010 Jan;38(Database issue):D211-22. doi: 10.1093/nar/gkp985. Epub 2009 Nov 17.
4
The Universal Protein Resource (UniProt) in 2010.2010 年的通用蛋白质资源(UniProt)。
Nucleic Acids Res. 2010 Jan;38(Database issue):D142-8. doi: 10.1093/nar/gkp846. Epub 2009 Oct 20.
5
The GOA database in 2009--an integrated Gene Ontology Annotation resource.2009年的基因本体注释(GOA)数据库——一个整合的基因本体注释资源。
Nucleic Acids Res. 2009 Jan;37(Database issue):D396-403. doi: 10.1093/nar/gkn803. Epub 2008 Oct 27.
6
FFPred: an integrated feature-based function prediction server for vertebrate proteomes.FFPred:一个用于脊椎动物蛋白质组的基于综合特征的功能预测服务器。
Nucleic Acids Res. 2008 Jul 1;36(Web Server issue):W297-302. doi: 10.1093/nar/gkn193. Epub 2008 May 7.
7
ConFunc--functional annotation in the twilight zone.ConFunc——模糊地带的功能注释
Bioinformatics. 2008 Mar 15;24(6):798-806. doi: 10.1093/bioinformatics/btn037. Epub 2008 Feb 8.
8
Structural and chemical profiling of the human cytosolic sulfotransferases.人类胞质磺基转移酶的结构与化学特征分析。
PLoS Biol. 2007 May;5(5):e97. doi: 10.1371/journal.pbio.0050097.
9
Sulfated steroids as endogenous neuromodulators.硫酸化甾体作为内源性神经调节剂。
Pharmacol Biochem Behav. 2006 Aug;84(4):555-67. doi: 10.1016/j.pbb.2006.07.031. Epub 2006 Oct 4.
10
Enhanced automated function prediction using distantly related sequences and contextual association by PFP.通过PFP使用远缘相关序列和上下文关联增强自动功能预测。
Protein Sci. 2006 Jun;15(6):1550-6. doi: 10.1110/ps.062153506. Epub 2006 May 2.