• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

密码子变换器:一种使用上下文感知神经网络的多物种密码子优化器。

CodonTransformer: a multispecies codon optimizer using context-aware neural networks.

作者信息

Fallahpour Adibvafa, Gureghian Vincent, Filion Guillaume J, Lindner Ariel B, Pandi Amir

机构信息

Vector Institute for Artificial Intelligence, Toronto, ON, Canada.

University of Toronto Scarborough; Department of Biological Science, Scarborough, ON, Canada.

出版信息

Nat Commun. 2025 Apr 3;16(1):3205. doi: 10.1038/s41467-025-58588-7.

DOI:10.1038/s41467-025-58588-7
PMID:40180930
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11968976/
Abstract

Degeneracy in the genetic code allows many possible DNA sequences to encode the same protein. Optimizing codon usage within a sequence to meet organism-specific preferences faces combinatorial explosion. Nevertheless, natural sequences optimized through evolution provide a rich source of data for machine learning algorithms to explore the underlying rules. Here, we introduce CodonTransformer, a multispecies deep learning model trained on over 1 million DNA-protein pairs from 164 organisms spanning all domains of life. The model demonstrates context-awareness thanks to its Transformers architecture and to our sequence representation strategy that combines organism, amino acid, and codon encodings. CodonTransformer generates host-specific DNA sequences with natural-like codon distribution profiles and with minimum negative cis-regulatory elements. This work introduces the strategy of Shared Token Representation and Encoding with Aligned Multi-masking (STREAM) and provides a codon optimization framework with a customizable open-access model and a user-friendly Google Colab interface.

摘要

遗传密码的简并性使得许多不同的DNA序列能够编码同一种蛋白质。在一个序列中优化密码子使用以符合特定生物体的偏好会面临组合爆炸问题。然而,通过进化优化的天然序列为机器学习算法探索潜在规则提供了丰富的数据来源。在此,我们介绍CodonTransformer,这是一个跨物种深度学习模型,它基于来自涵盖生命所有领域的164种生物体的超过100万个DNA-蛋白质对进行训练。由于其Transformer架构以及我们将生物体、氨基酸和密码子编码相结合的序列表示策略,该模型展现出上下文感知能力。CodonTransformer能生成具有类似天然密码子分布图谱且负向顺式调控元件最少的宿主特异性DNA序列。这项工作引入了共享标记表示与对齐多掩码编码策略(STREAM),并提供了一个具有可定制开放获取模型和用户友好型谷歌Colab界面的密码子优化框架。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/227d2033ff3d/41467_2025_58588_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/955f488215f2/41467_2025_58588_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/c55e7ccdda25/41467_2025_58588_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/a1c63fcbb979/41467_2025_58588_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/227d2033ff3d/41467_2025_58588_Fig4_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/955f488215f2/41467_2025_58588_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/c55e7ccdda25/41467_2025_58588_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/a1c63fcbb979/41467_2025_58588_Fig3_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/321a/11968976/227d2033ff3d/41467_2025_58588_Fig4_HTML.jpg

相似文献

1
CodonTransformer: a multispecies codon optimizer using context-aware neural networks.密码子变换器:一种使用上下文感知神经网络的多物种密码子优化器。
Nat Commun. 2025 Apr 3;16(1):3205. doi: 10.1038/s41467-025-58588-7.
2
A deep learning model trained on expressed transcripts across different tissue types reveals cell-type codon-optimization preferences.在不同组织类型的表达转录本上训练的深度学习模型揭示了细胞类型密码子优化偏好。
Nucleic Acids Res. 2025 Mar 20;53(6). doi: 10.1093/nar/gkaf233.
3
Tailoring Codon Usage to the Underlying Biology for Protein Expression Optimization.根据潜在生物学特性定制密码子用法以优化蛋白质表达。
Methods Mol Biol. 2022;2406:85-92. doi: 10.1007/978-1-0716-1859-2_4.
4
Codon Optimization Using a Recurrent Neural Network.使用递归神经网络进行密码子优化
J Comput Biol. 2023 Jan;30(1):70-81. doi: 10.1089/cmb.2021.0458. Epub 2022 Jun 21.
5
ICOR: improving codon optimization with recurrent neural networks.ICOR:利用递归神经网络改进密码子优化。
BMC Bioinformatics. 2023 Apr 4;24(1):132. doi: 10.1186/s12859-023-05246-8.
6
OPTIMIZER: a web server for optimizing the codon usage of DNA sequences.OPTIMIZER:一个用于优化DNA序列密码子使用的网络服务器。
Nucleic Acids Res. 2007 Jul;35(Web Server issue):W126-31. doi: 10.1093/nar/gkm219. Epub 2007 Apr 16.
7
CodonBERT: a BERT-based architecture tailored for codon optimization using the cross-attention mechanism.CodonBERT:一种基于 BERT 的架构,使用交叉注意力机制专门针对密码子优化进行了优化。
Bioinformatics. 2024 Jul 1;40(7). doi: 10.1093/bioinformatics/btae330.
8
Codon Usage Optimization in the Prokaryotic Tree of Life: How Synonymous Codons Are Differentially Selected in Sequence Domains with Different Expression Levels and Degrees of Conservation.原核生物树中的密码子使用优化:具有不同表达水平和不同保守程度的序列结构域中如何差异选择同义密码子。
mBio. 2020 Jul 21;11(4):e00766-20. doi: 10.1128/mBio.00766-20.
9
NeuralCodOpt: Codon optimization for the development of DNA vaccines.神经密码优化:用于DNA疫苗开发的密码子优化
Comput Biol Chem. 2025 Jun;116:108377. doi: 10.1016/j.compbiolchem.2025.108377. Epub 2025 Feb 12.
10
A computational screen for alternative genetic codes in over 250,000 genomes.对超过 25 万个基因组中的替代遗传密码进行计算筛选。
Elife. 2021 Nov 9;10:e71402. doi: 10.7554/eLife.71402.

引用本文的文献

1
Data-driven synthetic microbes for sustainable future.面向可持续未来的数据驱动型合成微生物。
NPJ Syst Biol Appl. 2025 Jul 7;11(1):74. doi: 10.1038/s41540-025-00556-4.
2
A generative language model decodes contextual constraints on codon choice for mRNA design.一种生成式语言模型解码了mRNA设计中密码子选择的上下文限制。
bioRxiv. 2025 Jun 6:2025.05.13.653614. doi: 10.1101/2025.05.13.653614.

本文引用的文献

1
The Effects of Codon Usage on Protein Structure and Folding.密码子使用对蛋白质结构和折叠的影响。
Annu Rev Biophys. 2024 Jul;53(1):87-108. doi: 10.1146/annurev-biophys-030722-020555. Epub 2024 Jun 28.
2
Synonymous codon usage regulates translation initiation.同义密码子的使用调控翻译起始。
Cell Rep. 2023 Dec 26;42(12):113413. doi: 10.1016/j.celrep.2023.113413. Epub 2023 Dec 12.
3
Codon optimization of a gene encoding DNA polymerase from Pyrococcus furiosus and its expression in Escherichia coli.嗜热栖热菌DNA聚合酶编码基因的密码子优化及其在大肠杆菌中的表达。
J Genet Eng Biotechnol. 2023 Nov 21;21(1):129. doi: 10.1186/s43141-023-00605-7.
4
A new age in protein design empowered by deep learning.深度学习赋能的蛋白质设计新时代。
Cell Syst. 2023 Nov 15;14(11):925-939. doi: 10.1016/j.cels.2023.10.006.
5
Illuminating protein space with a programmable generative model.用可编程生成模型照亮蛋白质空间。
Nature. 2023 Nov;623(7989):1070-1078. doi: 10.1038/s41586-023-06728-8. Epub 2023 Nov 15.
6
De novo design of protein structure and function with RFdiffusion.利用 RFdiffusion 从头设计蛋白质结构和功能。
Nature. 2023 Aug;620(7976):1089-1100. doi: 10.1038/s41586-023-06415-8. Epub 2023 Jul 11.
7
Large language models generate functional protein sequences across diverse families.大型语言模型可生成不同家族的功能性蛋白质序列。
Nat Biotechnol. 2023 Aug;41(8):1099-1106. doi: 10.1038/s41587-022-01618-2. Epub 2023 Jan 26.
8
Implementing computational methods in tandem with synonymous gene recoding for therapeutic development.将计算方法与同义基因重新编码相结合用于治疗性开发。
Trends Pharmacol Sci. 2023 Feb;44(2):73-84. doi: 10.1016/j.tips.2022.09.008. Epub 2022 Oct 25.
9
ProtGPT2 is a deep unsupervised language model for protein design.ProtGPT2 是一个用于蛋白质设计的深度无监督语言模型。
Nat Commun. 2022 Jul 27;13(1):4348. doi: 10.1038/s41467-022-32007-7.
10
Assessing optimal: inequalities in codon optimization algorithms.评估最优:密码子优化算法中的不平等。
BMC Biol. 2021 Feb 19;19(1):36. doi: 10.1186/s12915-021-00968-8.