机器学习在定向进化中的进展。

Advances in machine learning for directed evolution.

机构信息

Division of Biology and Biological Engineering, California Institute of Technology, MC 210-41, 1200 E. California Boulevard, Pasadena, CA 91125, USA.

Division of Chemistry and Chemical Engineering, California Institute of Technology, MC 210-41, 1200 E. California Boulevard, Pasadena, CA 91125, USA; Present address: Google DeepMind, 6 Pancras Square, Kings Cross, London, N1C 4AG, UK.

出版信息

Curr Opin Struct Biol. 2021 Aug;69:11-18. doi: 10.1016/j.sbi.2021.01.008. Epub 2021 Feb 26.

DOI:10.1016/j.sbi.2021.01.008

PMID:33647531

Abstract

Machine learning (ML) can expedite directed evolution by allowing researchers to move expensive experimental screens in silico. Gathering sequence-function data for training ML models, however, can still be costly. In contrast, raw protein sequence data is widely available. Recent advances in ML approaches use protein sequences to augment limited sequence-function data for directed evolution. We highlight contributions in a growing effort to use sequences to reduce or eliminate the amount of sequence-function data needed for effective in silico screening. We also highlight approaches that use ML models trained on sequences to generate new functional sequence diversity, focusing on strategies that use these generative models to efficiently explore vast regions of protein space.

摘要

机器学习（ML）可以通过允许研究人员在计算机上进行昂贵的实验筛选来加速定向进化。然而，为 ML 模型收集序列-功能数据仍然可能很昂贵。相比之下，原始蛋白质序列数据广泛可用。最近，ML 方法的进展利用蛋白质序列来增加有限的序列-功能数据，以进行定向进化。我们强调了在利用序列减少或消除有效计算机筛选所需的序列-功能数据量方面所做的努力。我们还强调了利用 ML 模型在序列上进行训练以生成新的功能序列多样性的方法，重点介绍了使用这些生成模型来有效地探索蛋白质空间广阔区域的策略。

相似文献

Advances in machine learning for directed evolution.机器学习在定向进化中的进展。

Curr Opin Struct Biol. 2021 Aug;69:11-18. doi: 10.1016/j.sbi.2021.01.008. Epub 2021 Feb 26.

Machine learning-assisted directed protein evolution with combinatorial libraries.机器学习辅助的组合文库定向蛋白质进化。

Proc Natl Acad Sci U S A. 2019 Apr 30;116(18):8852-8858. doi: 10.1073/pnas.1901979116. Epub 2019 Apr 12.

Machine learning to navigate fitness landscapes for protein engineering.机器学习在蛋白质工程中的应用：探索适应度景观

Curr Opin Biotechnol. 2022 Jun;75:102713. doi: 10.1016/j.copbio.2022.102713. Epub 2022 Apr 9.

Combining Cloud-Based Free-Energy Calculations, Synthetically Aware Enumerations, and Goal-Directed Generative Machine Learning for Rapid Large-Scale Chemical Exploration and Optimization.结合基于云的自由能计算、综合感知枚举和目标导向的生成式机器学习，实现快速大规模化学探索和优化。

J Chem Inf Model. 2020 Sep 28;60(9):4311-4325. doi: 10.1021/acs.jcim.0c00120. Epub 2020 Jun 19.

Generating functional protein variants with variational autoencoders.利用变分自动编码器生成功能性蛋白质变体。

PLoS Comput Biol. 2021 Feb 26;17(2):e1008736. doi: 10.1371/journal.pcbi.1008736. eCollection 2021 Feb.

Protein sequence design with deep generative models.利用深度生成模型进行蛋白质序列设计。

Curr Opin Chem Biol. 2021 Dec;65:18-27. doi: 10.1016/j.cbpa.2021.04.004. Epub 2021 May 26.

Machine-learning-guided directed evolution for protein engineering.基于机器学习的定向进化蛋白质工程。

Nat Methods. 2019 Aug;16(8):687-694. doi: 10.1038/s41592-019-0496-6. Epub 2019 Jul 15.

Meta learning addresses noisy and under-labeled data in machine learning-guided antibody engineering.元学习解决了机器学习引导的抗体工程中的噪声数据和标签不足的数据问题。

Cell Syst. 2024 Jan 17;15(1):4-18.e4. doi: 10.1016/j.cels.2023.12.003. Epub 2024 Jan 8.

Machine learning-assisted enzyme engineering.机器学习辅助酶工程。

Methods Enzymol. 2020;643:281-315. doi: 10.1016/bs.mie.2020.05.005. Epub 2020 Jun 12.

PyPEF-An Integrated Framework for Data-Driven Protein Engineering.PyPEF——一个用于数据驱动的蛋白质工程的集成框架。

J Chem Inf Model. 2021 Jul 26;61(7):3463-3476. doi: 10.1021/acs.jcim.1c00099. Epub 2021 Jul 14.

引用本文的文献

Engineering Targeted Gene Delivery Systems for Primary Hereditary Skeletal Myopathies: Current Strategies and Future Perspectives.用于原发性遗传性骨骼肌病的靶向基因递送系统工程：当前策略与未来展望

Biomedicines. 2025 Aug 16;13(8):1994. doi: 10.3390/biomedicines13081994.

Directed evolution of hydrocarbon-producing enzymes.产烃酶的定向进化。

Biotechnol Biofuels Bioprod. 2025 Aug 12;18(1):91. doi: 10.1186/s13068-025-02689-4.

AI-enhanced bioprocess technologies: machine learning implementations from upstream to downstream operations.人工智能增强的生物工艺技术：从上游到下游操作的机器学习应用

World J Microbiol Biotechnol. 2025 Jul 28;41(8):278. doi: 10.1007/s11274-025-04494-5.

Directed Evolution of a Modular Polyketide Synthase Thioesterase for Generation of a Hybrid Macrocyclic Ring System.用于生成杂合大环环系的模块化聚酮合酶硫酯酶的定向进化

ACS Catal. 2025 Feb 21;15(4):3405-3417. doi: 10.1021/acscatal.4c07922. Epub 2025 Feb 11.

Neural network conditioned to produce thermophilic protein sequences can increase thermal stability.经过训练以生成嗜热蛋白序列的神经网络可以提高热稳定性。

Sci Rep. 2025 Apr 23;15(1):14124. doi: 10.1038/s41598-025-90828-0.

Integrating protein language models and automatic biofoundry for enhanced protein evolution.整合蛋白质语言模型与自动化生物铸造厂以促进蛋白质进化。

Nat Commun. 2025 Feb 11;16(1):1553. doi: 10.1038/s41467-025-56751-8.

Active learning-assisted directed evolution.主动学习辅助的定向进化

Nat Commun. 2025 Jan 16;16(1):714. doi: 10.1038/s41467-025-55987-8.

Addressing epistasis in the design of protein function.解决蛋白质功能设计中的上位效应。

Proc Natl Acad Sci U S A. 2024 Aug 20;121(34):e2314999121. doi: 10.1073/pnas.2314999121. Epub 2024 Aug 12.

Deep-learning-based design of synthetic orthologs of SH3 signaling domains.基于深度学习的 SH3 信号结构域合成同源物的设计。

Cell Syst. 2024 Aug 21;15(8):725-737.e7. doi: 10.1016/j.cels.2024.07.005. Epub 2024 Aug 5.

Neural network extrapolation to distant regions of the protein fitness landscape.神经网络对蛋白质适应度景观的遥远区域进行外推。

Nat Commun. 2024 Jul 30;15(1):6405. doi: 10.1038/s41467-024-50712-3.

文献检索

告别复杂PubMed语法，用中文像聊天一样搜索，搜遍4000万医学文献。AI智能推荐，让科研检索更轻松。

立即免费搜索

文件翻译

保留排版，准确专业，支持PDF/Word/PPT等文件格式，支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述，25分钟生成高质量综述，智能提取关键信息，辅助科研写作。

立即免费体验

机器学习在定向进化中的进展。

Advances in machine learning for directed evolution.

机构信息

出版信息

相似文献

引用本文的文献

文献检索

文件翻译

深度研究

Suppr 超能文献

相似文献

引用本文的文献