• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

蛋白质工程中回归模型的系统分析。

A systematic analysis of regression models for protein engineering.

机构信息

Department of Computer Science, University of Copenhagen, Copenhagen, Denmark.

Department of Chemistry, University of Copenhagen, Copenhagen, Denmark.

出版信息

PLoS Comput Biol. 2024 May 3;20(5):e1012061. doi: 10.1371/journal.pcbi.1012061. eCollection 2024 May.

DOI:10.1371/journal.pcbi.1012061
PMID:38701099
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11095727/
Abstract

To optimize proteins for particular traits holds great promise for industrial and pharmaceutical purposes. Machine Learning is increasingly applied in this field to predict properties of proteins, thereby guiding the experimental optimization process. A natural question is: How much progress are we making with such predictions, and how important is the choice of regressor and representation? In this paper, we demonstrate that different assessment criteria for regressor performance can lead to dramatically different conclusions, depending on the choice of metric, and how one defines generalization. We highlight the fundamental issues of sample bias in typical regression scenarios and how this can lead to misleading conclusions about regressor performance. Finally, we make the case for the importance of calibrated uncertainty in this domain.

摘要

为特定性状优化蛋白质在工业和制药方面具有很大的应用前景。机器学习在该领域的应用越来越广泛,用于预测蛋白质的性质,从而指导实验优化过程。一个自然的问题是:我们在这些预测方面取得了多大的进展,以及回归器和表示的选择有多重要?在本文中,我们证明了不同的回归器性能评估标准可能会导致根据度量标准和广义化的定义不同而产生截然不同的结论。我们强调了典型回归场景中样本偏差的基本问题,以及这如何导致对回归器性能的误导性结论。最后,我们提出了在这个领域中校准不确定性的重要性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/1e5ed28a4267/pcbi.1012061.g007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/d87ec7d57fb0/pcbi.1012061.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/5993c4c63005/pcbi.1012061.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/faf03e109372/pcbi.1012061.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/256935ebb7d8/pcbi.1012061.g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/0ebb3152d2f6/pcbi.1012061.g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/4233d70e1399/pcbi.1012061.g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/1e5ed28a4267/pcbi.1012061.g007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/d87ec7d57fb0/pcbi.1012061.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/5993c4c63005/pcbi.1012061.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/faf03e109372/pcbi.1012061.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/256935ebb7d8/pcbi.1012061.g004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/0ebb3152d2f6/pcbi.1012061.g005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/4233d70e1399/pcbi.1012061.g006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/1e1b/11095727/1e5ed28a4267/pcbi.1012061.g007.jpg

相似文献

1
A systematic analysis of regression models for protein engineering.蛋白质工程中回归模型的系统分析。
PLoS Comput Biol. 2024 May 3;20(5):e1012061. doi: 10.1371/journal.pcbi.1012061. eCollection 2024 May.
2
Machine-learning-guided directed evolution for protein engineering.基于机器学习的定向进化蛋白质工程。
Nat Methods. 2019 Aug;16(8):687-694. doi: 10.1038/s41592-019-0496-6. Epub 2019 Jul 15.
3
Algorithms for protein design.蛋白质设计算法。
Curr Opin Struct Biol. 2016 Aug;39:16-26. doi: 10.1016/j.sbi.2016.03.006. Epub 2016 Apr 14.
4
Computational protein design with backbone plasticity.具有主链可塑性的计算蛋白质设计。
Biochem Soc Trans. 2016 Oct 15;44(5):1523-1529. doi: 10.1042/BST20160155. Epub 2016 Oct 19.
5
Computational tools for designing and engineering biocatalysts.用于设计和构建生物催化剂的计算工具。
Curr Opin Chem Biol. 2009 Feb;13(1):26-34. doi: 10.1016/j.cbpa.2009.02.021. Epub 2009 Mar 16.
6
Machine learning to navigate fitness landscapes for protein engineering.机器学习在蛋白质工程中的应用:探索适应度景观
Curr Opin Biotechnol. 2022 Jun;75:102713. doi: 10.1016/j.copbio.2022.102713. Epub 2022 Apr 9.
7
An intelligent decision support system for crop yield prediction using hybrid machine learning algorithms.基于混合机器学习算法的作物产量预测智能决策支持系统。
F1000Res. 2021 Nov 11;10:1143. doi: 10.12688/f1000research.73009.1. eCollection 2021.
8
Systematic evaluation of machine learning methods for identifying human-pathogen protein-protein interactions.系统评估用于识别人类病原体蛋白质相互作用的机器学习方法。
Brief Bioinform. 2021 May 20;22(3). doi: 10.1093/bib/bbaa068.
9
Leveraging Uncertainty in Machine Learning Accelerates Biological Discovery and Design.利用机器学习中的不确定性加速生物学发现和设计。
Cell Syst. 2020 Nov 18;11(5):461-477.e9. doi: 10.1016/j.cels.2020.09.007. Epub 2020 Oct 15.
10
Computational Protein Design with Deep Learning Neural Networks.深度学习神经网络的计算蛋白质设计。
Sci Rep. 2018 Apr 20;8(1):6349. doi: 10.1038/s41598-018-24760-x.

引用本文的文献

1
Active learning-assisted directed evolution.主动学习辅助的定向进化
Nat Commun. 2025 Jan 16;16(1):714. doi: 10.1038/s41467-025-55987-8.

本文引用的文献

1
Evolutionary-scale prediction of atomic-level protein structure with a language model.用语言模型进行原子级蛋白质结构的进化尺度预测。
Science. 2023 Mar 17;379(6637):1123-1130. doi: 10.1126/science.ade2574. Epub 2023 Mar 16.
2
Conformal prediction under feedback covariate shift for biomolecular design.在生物分子设计中反馈协变量偏移下的保形预测。
Proc Natl Acad Sci U S A. 2022 Oct 25;119(43):e2204569119. doi: 10.1073/pnas.2204569119. Epub 2022 Oct 18.
3
Learning meaningful representations of protein sequences.学习蛋白质序列有意义的表示方法。
Nat Commun. 2022 Apr 8;13(1):1914. doi: 10.1038/s41467-022-29443-w.
4
Learning protein fitness models from evolutionary and assay-labeled data.从进化和实验标记数据中学习蛋白质适应性模型。
Nat Biotechnol. 2022 Jul;40(7):1114-1122. doi: 10.1038/s41587-021-01146-5. Epub 2022 Jan 17.
5
Embeddings from protein language models predict conservation and variant effects.基于蛋白质语言模型的嵌入模型可预测保守性和变异效应。
Hum Genet. 2022 Oct;141(10):1629-1647. doi: 10.1007/s00439-021-02411-y. Epub 2021 Dec 30.
6
Disease variant prediction with deep generative models of evolutionary data.利用进化数据的深度生成模型进行疾病变异预测。
Nature. 2021 Nov;599(7883):91-95. doi: 10.1038/s41586-021-04043-8. Epub 2021 Oct 27.
7
ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning.ProtTrans:通过自监督学习理解生命语言。
IEEE Trans Pattern Anal Mach Intell. 2022 Oct;44(10):7112-7127. doi: 10.1109/TPAMI.2021.3095381. Epub 2022 Sep 14.
8
Learning the protein language: Evolution, structure, and function.学习蛋白质语言:进化、结构和功能。
Cell Syst. 2021 Jun 16;12(6):654-669.e3. doi: 10.1016/j.cels.2021.05.017.
9
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences.生物结构和功能源于将无监督学习扩展到 2.5 亿个蛋白质序列。
Proc Natl Acad Sci U S A. 2021 Apr 13;118(15). doi: 10.1073/pnas.2016239118.
10
Low-N protein engineering with data-efficient deep learning.低蛋白工程与数据高效深度学习。
Nat Methods. 2021 Apr;18(4):389-396. doi: 10.1038/s41592-021-01100-y. Epub 2021 Apr 7.