• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

通过简化注意力的视角来解释 Potts 和 Transformer 蛋白模型。

Interpreting Potts and Transformer Protein Models Through the Lens of Simplified Attention.

机构信息

University of California, Berkeley, USA,

出版信息

Pac Symp Biocomput. 2022;27:34-45.

PMID:34890134
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8752338/
Abstract

The established approach to unsupervised protein contact prediction estimates coevolving positions using undirected graphical models. This approach trains a Potts model on a Multiple Sequence Alignment. Increasingly large Transformers are being pretrained on unlabeled, unaligned protein sequence databases and showing competitive performance on protein contact prediction. We argue that attention is a principled model of protein interactions, grounded in real properties of protein family data. We introduce an energy-based attention layer, factored attention, which, in a certain limit, recovers a Potts model, and use it to contrast Potts and Transformers. We show that the Transformer leverages hierarchical signal in protein family databases not captured by single-layer models. This raises the exciting possibility for the development of powerful structured models of protein family databases.

摘要

传统的无监督蛋白质接触预测方法使用无向图形模型来估计共进化位置。该方法在多重序列比对上训练 Potts 模型。越来越大的 Transformer 正在未标记、未对齐的蛋白质序列数据库上进行预训练,并在蛋白质接触预测方面表现出有竞争力的性能。我们认为注意力是蛋白质相互作用的一种有原则的模型,其基础是蛋白质家族数据的实际特性。我们引入了基于能量的注意力层,即因子注意力,它在一定极限下可以恢复 Potts 模型,并将其用于对比 Potts 和 Transformer。我们表明,Transformer 利用了蛋白质家族数据库中的层次信号,而这些信号是单层模型无法捕捉到的。这为开发强大的蛋白质家族数据库结构化模型提供了令人兴奋的可能性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/c0fd706c3e04/nihms-1760596-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/a96d3670663c/nihms-1760596-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/23ff5576ee9b/nihms-1760596-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/d776bcddde3e/nihms-1760596-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/4706adc491b4/nihms-1760596-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/1d47848a921b/nihms-1760596-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/1441f39b4eb3/nihms-1760596-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/c0fd706c3e04/nihms-1760596-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/a96d3670663c/nihms-1760596-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/23ff5576ee9b/nihms-1760596-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/d776bcddde3e/nihms-1760596-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/4706adc491b4/nihms-1760596-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/1d47848a921b/nihms-1760596-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/1441f39b4eb3/nihms-1760596-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/bf97/8752338/c0fd706c3e04/nihms-1760596-f0007.jpg

相似文献

1
Interpreting Potts and Transformer Protein Models Through the Lens of Simplified Attention.通过简化注意力的视角来解释 Potts 和 Transformer 蛋白模型。
Pac Symp Biocomput. 2022;27:34-45.
2
PPalign: optimal alignment of Potts models representing proteins with direct coupling information.PPalign:具有直接耦合信息的 Potts 模型代表蛋白质的最佳对齐。
BMC Bioinformatics. 2021 Jun 10;22(1):317. doi: 10.1186/s12859-021-04222-4.
3
Mutual information in protein multiple sequence alignments reveals two classes of coevolving positions.蛋白质多序列比对中的互信息揭示了两类共同进化的位点。
Biochemistry. 2005 May 17;44(19):7156-65. doi: 10.1021/bi050293e.
4
Protein sequence profile prediction using ProtAlbert transformer.使用 ProtAlbert 转换器进行蛋白质序列特征预测。
Comput Biol Chem. 2022 Aug;99:107717. doi: 10.1016/j.compbiolchem.2022.107717. Epub 2022 Jun 26.
5
Benchmarking Inverse Statistical Approaches for Protein Structure and Design with Exactly Solvable Models.使用精确可解模型对蛋白质结构和设计的逆统计方法进行基准测试。
PLoS Comput Biol. 2016 May 13;12(5):e1004889. doi: 10.1371/journal.pcbi.1004889. eCollection 2016 May.
6
Improving contact prediction along three dimensions.沿三个维度改进接触预测。
PLoS Comput Biol. 2014 Oct 9;10(10):e1003847. doi: 10.1371/journal.pcbi.1003847. eCollection 2014 Oct.
7
Mutual information without the influence of phylogeny or entropy dramatically improves residue contact prediction.不受系统发育或熵影响的互信息显著改善了残基接触预测。
Bioinformatics. 2008 Feb 1;24(3):333-40. doi: 10.1093/bioinformatics/btm604. Epub 2007 Dec 5.
8
Bioinformatics identification of coevolving residues.共同进化残基的生物信息学鉴定。
Methods Mol Biol. 2014;1123:223-43. doi: 10.1007/978-1-62703-968-0_15.
9
MHTAN-DTI: Metapath-based hierarchical transformer and attention network for drug-target interaction prediction.MHTAN-DTI:基于元路径的分层变压器和注意力网络用于药物-靶点相互作用预测。
Brief Bioinform. 2023 Mar 19;24(2). doi: 10.1093/bib/bbad079.
10
Combination of deep neural network with attention mechanism enhances the explainability of protein contact prediction.深度神经网络与注意力机制的结合增强了蛋白质接触预测的可解释性。
Proteins. 2021 Jun;89(6):697-707. doi: 10.1002/prot.26052. Epub 2021 Feb 16.

引用本文的文献

1
Phylogenetic Corrections and Higher-Order Sequence Statistics in Protein Families: The Potts Model vs MSA Transformer.蛋白质家族中的系统发育校正和高阶序列统计:Potts模型与多序列比对变换器
ArXiv. 2025 Mar 1:arXiv:2503.00289v1.
2
Predicting purification process fit of monoclonal antibodies using machine learning.使用机器学习预测单克隆抗体的纯化工艺适配性。
MAbs. 2025 Dec;17(1):2439988. doi: 10.1080/19420862.2024.2439988. Epub 2025 Jan 9.
3
Protein language models learn evolutionary statistics of interacting sequence motifs.蛋白质语言模型学习相互作用序列基序的进化统计信息。

本文引用的文献

1
Transformer Neural Networks for Protein Family and Interaction Prediction Tasks.用于蛋白质家族和相互作用预测任务的Transformer神经网络。
J Comput Biol. 2023 Jan;30(1):95-111. doi: 10.1089/cmb.2022.0132. Epub 2022 Aug 10.
2
Learning protein fitness models from evolutionary and assay-labeled data.从进化和实验标记数据中学习蛋白质适应性模型。
Nat Biotechnol. 2022 Jul;40(7):1114-1122. doi: 10.1038/s41587-021-01146-5. Epub 2022 Jan 17.
3
Accurate prediction of protein structures and interactions using a three-track neural network.
Proc Natl Acad Sci U S A. 2024 Nov 5;121(45):e2406285121. doi: 10.1073/pnas.2406285121. Epub 2024 Oct 28.
4
How the technologies behind self-driving cars, social networks, ChatGPT, and DALL-E2 are changing structural biology.自动驾驶汽车、社交网络、ChatGPT和DALL-E2背后的技术如何正在改变结构生物学。
Bioessays. 2025 Jan;47(1):e2400155. doi: 10.1002/bies.202400155. Epub 2024 Oct 15.
5
Kinetic coevolutionary models predict the temporal emergence of HIV-1 resistance mutations under drug selection pressure.动力学共进化模型预测了 HIV-1 耐药突变在药物选择压力下的时间出现。
Proc Natl Acad Sci U S A. 2024 Apr 9;121(15):e2316662121. doi: 10.1073/pnas.2316662121. Epub 2024 Apr 1.
6
Generative power of a protein language model trained on multiple sequence alignments.基于多序列比对训练的蛋白质语言模型的生成能力。
Elife. 2023 Feb 3;12:e79854. doi: 10.7554/eLife.79854.
7
End-to-end learning of multiple sequence alignments with differentiable Smith-Waterman.基于可微分 Smith-Waterman 的多序列比对端到端学习。
Bioinformatics. 2023 Jan 1;39(1). doi: 10.1093/bioinformatics/btac724.
8
Protein language models trained on multiple sequence alignments learn phylogenetic relationships.基于多重序列比对训练的蛋白质语言模型可以学习系统发育关系。
Nat Commun. 2022 Oct 22;13(1):6298. doi: 10.1038/s41467-022-34032-y.
使用三轨神经网络准确预测蛋白质结构和相互作用。
Science. 2021 Aug 20;373(6557):871-876. doi: 10.1126/science.abj8754. Epub 2021 Jul 15.
4
Highly accurate protein structure prediction with AlphaFold.利用 AlphaFold 进行高精度蛋白质结构预测。
Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15.
5
ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning.ProtTrans:通过自监督学习理解生命语言。
IEEE Trans Pattern Anal Mach Intell. 2022 Oct;44(10):7112-7127. doi: 10.1109/TPAMI.2021.3095381. Epub 2022 Sep 14.
6
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences.生物结构和功能源于将无监督学习扩展到 2.5 亿个蛋白质序列。
Proc Natl Acad Sci U S A. 2021 Apr 13;118(15). doi: 10.1073/pnas.2016239118.
7
Evaluating Protein Transfer Learning with TAPE.使用TAPE评估蛋白质迁移学习。
Adv Neural Inf Process Syst. 2019 Dec;32:9689-9701.
8
CATH: increased structural coverage of functional space.CATH:增加功能空间的结构覆盖率。
Nucleic Acids Res. 2021 Jan 8;49(D1):D266-D273. doi: 10.1093/nar/gkaa1079.
9
Coevolutionary Analysis of Protein Subfamilies by Sequence Reweighting.基于序列重加权的蛋白质亚家族协同进化分析
Entropy (Basel). 2020 Jan 23;21(11):1127. doi: 10.3390/e21111127. Epub 2019 Nov 16.
10
Improved protein structure prediction using potentials from deep learning.利用深度学习势进行蛋白质结构预测的改进。
Nature. 2020 Jan;577(7792):706-710. doi: 10.1038/s41586-019-1923-7. Epub 2020 Jan 15.