• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通用:基于潜在空间的蛋白质序列家族生成模型。

GENERALIST: A latent space based generative model for protein sequence families.

机构信息

Department of Physics, University of Florida, Gainesville, Florida, United States of America.

Department of Biomedical Engineering, Yale University, New Haven, Connecticut, United States of America.

出版信息

PLoS Comput Biol. 2023 Nov 27;19(11):e1011655. doi: 10.1371/journal.pcbi.1011655. eCollection 2023 Nov.

DOI:10.1371/journal.pcbi.1011655
PMID:38011273
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10703406/
Abstract

Generative models of protein sequence families are an important tool in the repertoire of protein scientists and engineers alike. However, state-of-the-art generative approaches face inference, accuracy, and overfitting- related obstacles when modeling moderately sized to large proteins and/or protein families with low sequence coverage. Here, we present a simple to learn, tunable, and accurate generative model, GENERALIST: GENERAtive nonLInear tenSor-factorizaTion for protein sequences. GENERALIST accurately captures several high order summary statistics of amino acid covariation. GENERALIST also predicts conservative local optimal sequences which are likely to fold in stable 3D structure. Importantly, unlike current methods, the density of sequences in GENERALIST-modeled sequence ensembles closely resembles the corresponding natural ensembles. Finally, GENERALIST embeds protein sequences in an informative latent space. GENERALIST will be an important tool to study protein sequence variability.

摘要

蛋白质序列家族的生成模型是蛋白质科学家和工程师的重要工具。然而,当对中等大小到大型蛋白质和/或序列覆盖率低的蛋白质家族进行建模时,最先进的生成方法会面临推理、准确性和过拟合相关的障碍。在这里,我们提出了一个简单易学、可调谐且准确的生成模型 GENERALIST:用于蛋白质序列的 GENERAtive nonLInear tenSor-factorizaTion。GENERALIST 可以准确地捕获氨基酸协变的几个高阶摘要统计信息。GENERALIST 还可以预测保守的局部最优序列,这些序列很可能折叠成稳定的 3D 结构。重要的是,与当前的方法不同,GENERALIST 模型化的序列集合中的序列密度与相应的自然集合非常相似。最后,GENERALIST 将蛋白质序列嵌入到信息丰富的潜在空间中。GENERALIST 将成为研究蛋白质序列可变性的重要工具。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/f2c7f1d0b605/pcbi.1011655.g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/49572de437e5/pcbi.1011655.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/d75a3f0d36ce/pcbi.1011655.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/abc4da4e7e0a/pcbi.1011655.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/50b38d18702e/pcbi.1011655.g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/a62ca70e3765/pcbi.1011655.g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/f2c7f1d0b605/pcbi.1011655.g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/49572de437e5/pcbi.1011655.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/d75a3f0d36ce/pcbi.1011655.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/abc4da4e7e0a/pcbi.1011655.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/50b38d18702e/pcbi.1011655.g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/a62ca70e3765/pcbi.1011655.g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/128b/10703406/f2c7f1d0b605/pcbi.1011655.g006.jpg

相似文献

1
GENERALIST: A latent space based generative model for protein sequence families.通用:基于潜在空间的蛋白质序列家族生成模型。
PLoS Comput Biol. 2023 Nov 27;19(11):e1011655. doi: 10.1371/journal.pcbi.1011655. eCollection 2023 Nov.
2
Accurate prediction for atomic-level protein design and its application in diversifying the near-optimal sequence space.原子水平蛋白质设计的准确预测及其在扩展近最优序列空间中的应用。
Proteins. 2009 May 15;75(3):682-705. doi: 10.1002/prot.22280.
3
Generative power of a protein language model trained on multiple sequence alignments.基于多序列比对训练的蛋白质语言模型的生成能力。
Elife. 2023 Feb 3;12:e79854. doi: 10.7554/eLife.79854.
4
Navigating the amino acid sequence space between functional proteins using a deep learning framework.使用深度学习框架探索功能蛋白之间的氨基酸序列空间。
PeerJ Comput Sci. 2021 Sep 17;7:e684. doi: 10.7717/peerj-cs.684. eCollection 2021.
5
Efficient generative modeling of protein sequences using simple autoregressive models.使用简单自回归模型高效生成蛋白质序列。
Nat Commun. 2021 Oct 4;12(1):5800. doi: 10.1038/s41467-021-25756-4.
6
The generative capacity of probabilistic protein sequence models.概率蛋白质序列模型的生成能力。
Nat Commun. 2021 Nov 2;12(1):6302. doi: 10.1038/s41467-021-26529-9.
7
Latent generative landscapes as maps of functional diversity in protein sequence space.潜在生成景观作为蛋白质序列空间中功能多样性的图谱。
Nat Commun. 2023 Apr 19;14(1):2222. doi: 10.1038/s41467-023-37958-z.
8
Learning generative models for protein fold families.学习蛋白质折叠家族的生成模型。
Proteins. 2011 Apr;79(4):1061-78. doi: 10.1002/prot.22934. Epub 2011 Jan 25.
9
A Generative Angular Model of Protein Structure Evolution.蛋白质结构进化的生成性角度模型。
Mol Biol Evol. 2017 Aug 1;34(8):2085-2100. doi: 10.1093/molbev/msx137.
10
Thermodynamic propensities of amino acids in the native state ensemble: implications for fold recognition.天然态系综中氨基酸的热力学倾向:对折叠识别的影响。
Protein Sci. 2001 May;10(5):1032-45. doi: 10.1110/ps.01601.

引用本文的文献

1
Designing host-associated microbiomes using the consumer/resource model.使用消费者/资源模型设计宿主相关微生物群。
mSystems. 2025 Jan 21;10(1):e0106824. doi: 10.1128/msystems.01068-24. Epub 2024 Dec 9.
2
Efficient Hi-C inversion facilitates chromatin folding mechanism discovery and structure prediction.高效的 Hi-C 反转有助于染色质折叠机制的发现和结构预测。
Biophys J. 2023 Sep 5;122(17):3425-3438. doi: 10.1016/j.bpj.2023.07.017. Epub 2023 Jul 26.
3
Efficient Hi-C inversion facilitates chromatin folding mechanism discovery and structure prediction.

本文引用的文献

1
The AlphaFold Database of Protein Structures: A Biologist's Guide.蛋白质结构的AlphaFold数据库:生物学家指南
J Mol Biol. 2022 Jan 30;434(2):167336. doi: 10.1016/j.jmb.2021.167336. Epub 2021 Oct 29.
2
The generative capacity of probabilistic protein sequence models.概率蛋白质序列模型的生成能力。
Nat Commun. 2021 Nov 2;12(1):6302. doi: 10.1038/s41467-021-26529-9.
3
adabmDCA: adaptive Boltzmann machine learning for biological sequences.adabmDCA:用于生物序列的自适应玻尔兹曼机学习。
高效的Hi-C反演有助于染色质折叠机制的发现和结构预测。
bioRxiv. 2023 Jul 21:2023.03.17.533194. doi: 10.1101/2023.03.17.533194.
BMC Bioinformatics. 2021 Oct 29;22(1):528. doi: 10.1186/s12859-021-04441-9.
4
Efficient generative modeling of protein sequences using simple autoregressive models.使用简单自回归模型高效生成蛋白质序列。
Nat Commun. 2021 Oct 4;12(1):5800. doi: 10.1038/s41467-021-25756-4.
5
Field-theoretic density estimation for biological sequence space with applications to 5' splice site diversity and aneuploidy in cancer.基于场论的生物序列空间密度估计及其在 5' 剪接位点多样性和癌症中非整倍体的应用。
Proc Natl Acad Sci U S A. 2021 Oct 5;118(40). doi: 10.1073/pnas.2025782118.
6
Sparse generative modeling via parameter reduction of Boltzmann machines: Application to protein-sequence families.通过玻尔兹曼机的参数约简进行稀疏生成建模:在蛋白质序列家族中的应用。
Phys Rev E. 2021 Aug;104(2-1):024407. doi: 10.1103/PhysRevE.104.024407.
7
SiGMoiD: A super-statistical generative model for binary data.SiGMoiD:一种用于二值数据的超统计生成模型。
PLoS Comput Biol. 2021 Aug 6;17(8):e1009275. doi: 10.1371/journal.pcbi.1009275. eCollection 2021 Aug.
8
Highly accurate protein structure prediction with AlphaFold.利用 AlphaFold 进行高精度蛋白质结构预测。
Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15.
9
Protein sequence design with deep generative models.利用深度生成模型进行蛋白质序列设计。
Curr Opin Chem Biol. 2021 Dec;65:18-27. doi: 10.1016/j.cbpa.2021.04.004. Epub 2021 May 26.
10
Generating functional protein variants with variational autoencoders.利用变分自动编码器生成功能性蛋白质变体。
PLoS Comput Biol. 2021 Feb 26;17(2):e1008736. doi: 10.1371/journal.pcbi.1008736. eCollection 2021 Feb.