• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

分子生成的回译。

Back translation for molecule generation.

机构信息

University of Science and Technology of China, Hefei, Anhui 230027, China.

Microsoft Research, Beijing 100080, China.

出版信息

Bioinformatics. 2022 Feb 7;38(5):1244-1251. doi: 10.1093/bioinformatics/btab817.

DOI:10.1093/bioinformatics/btab817
PMID:34875015
Abstract

MOTIVATION

Molecule generation, which is to generate new molecules, is an important problem in bioinformatics. Typical tasks include generating molecules with given properties, molecular property improvement (i.e. improving specific properties of an input molecule), retrosynthesis (i.e. predicting the molecules that can be used to synthesize a target molecule), etc. Recently, deep-learning-based methods received more attention for molecule generation. The labeled data of bioinformatics is usually costly to obtain, but there are millions of unlabeled molecules. Inspired by the success of sequence generation in natural language processing with unlabeled data, we would like to explore an effective way of using unlabeled molecules for molecule generation.

RESULTS

We propose a new method, back translation for molecule generation, which is a simple yet effective semisupervised method. Let X be the source domain, which is the collection of properties, the molecules to be optimized, etc. Let Y be the target domain which is the collection of molecules. In particular, given a main task which is about to learn a mapping from the source domain X to the target domain Y, we first train a reversed model g for the Y to X mapping. After that, we use g to back translate the unlabeled data in Y to X and obtain more synthetic data. Finally, we combine the synthetic data with the labeled data and train a model for the main task. We conduct experiments on molecular property improvement and retrosynthesis, and we achieve state-of-the-art results on four molecule generation tasks and one retrosynthesis benchmark, USPTO-50k.

AVAILABILITY AND IMPLEMENTATION

Our code and data are available at https://github.com/fyabc/BT4MolGen.

SUPPLEMENTARY INFORMATION

Supplementary data are available at Bioinformatics online.

摘要

动机

分子生成,即生成新的分子,是生物信息学中的一个重要问题。典型的任务包括生成具有给定性质的分子、分子性质改进(即改进输入分子的特定性质)、逆合成(即预测可用于合成目标分子的分子)等。最近,基于深度学习的方法在分子生成方面受到了更多的关注。生物信息学的标记数据通常获取成本较高,但有上百万个未标记的分子。受自然语言处理中使用未标记数据进行序列生成成功的启发,我们希望探索一种有效利用未标记分子进行分子生成的方法。

结果

我们提出了一种新的方法,即用于分子生成的反向翻译,这是一种简单而有效的半监督方法。令 X 为源域,即属性、待优化的分子等的集合。令 Y 为目标域,即分子的集合。特别地,给定一个主要任务,即学习从源域 X 到目标域 Y 的映射,我们首先为 Y 到 X 的映射训练一个反向模型 g。之后,我们使用 g 将未标记的数据从 Y 反向翻译到 X 并获得更多的合成数据。最后,我们将合成数据与标记数据结合起来,并为主要任务训练一个模型。我们在分子性质改进和逆合成方面进行了实验,在四个分子生成任务和一个逆合成基准 USPTO-50k 上取得了最先进的结果。

可用性和实现

我们的代码和数据可在 https://github.com/fyabc/BT4MolGen 上获得。

补充信息

补充数据可在 Bioinformatics 在线获得。

相似文献

1
Back translation for molecule generation.分子生成的回译。
Bioinformatics. 2022 Feb 7;38(5):1244-1251. doi: 10.1093/bioinformatics/btab817.
2
G2GT: Retrosynthesis Prediction with Graph-to-Graph Attention Neural Network and Self-Training.G2GT:基于图到图注意力神经网络和自训练的逆合成预测
J Chem Inf Model. 2023 Apr 10;63(7):1894-1905. doi: 10.1021/acs.jcim.2c01302. Epub 2023 Mar 22.
3
Powerful molecule generation with simple ConvNet.用简单的卷积神经网络生成强大的分子。
Bioinformatics. 2022 Jun 27;38(13):3438-3443. doi: 10.1093/bioinformatics/btac332.
4
Exploiting pretrained biochemical language models for targeted drug design.利用预先训练的生化语言模型进行靶向药物设计。
Bioinformatics. 2022 Sep 16;38(Suppl_2):ii155-ii161. doi: 10.1093/bioinformatics/btac482.
5
Unified Deep Learning Model for Multitask Reaction Predictions with Explanation.具有解释功能的多任务反应预测统一深度学习模型。
J Chem Inf Model. 2022 Mar 28;62(6):1376-1387. doi: 10.1021/acs.jcim.1c01467. Epub 2022 Mar 10.
6
Folic acid supplementation and malaria susceptibility and severity among people taking antifolate antimalarial drugs in endemic areas.在流行地区,服用抗叶酸抗疟药物的人群中,叶酸补充剂与疟疾易感性和严重程度的关系。
Cochrane Database Syst Rev. 2022 Feb 1;2(2022):CD014217. doi: 10.1002/14651858.CD014217.
7
MARS: a motif-based autoregressive model for retrosynthesis prediction.MARS:一种基于基序的回溯合成预测自回归模型。
Bioinformatics. 2024 Mar 4;40(3). doi: 10.1093/bioinformatics/btae115.
8
FP2VEC: a new molecular featurizer for learning molecular properties.FP2VEC:一种用于学习分子性质的新型分子特征化工具。
Bioinformatics. 2019 Dec 1;35(23):4979-4985. doi: 10.1093/bioinformatics/btz307.
9
ProteinBERT: a universal deep-learning model of protein sequence and function.蛋白质 BERT:一种通用的蛋白质序列和功能深度学习模型。
Bioinformatics. 2022 Apr 12;38(8):2102-2110. doi: 10.1093/bioinformatics/btac020.
10
RPBP: Deep Retrosynthesis Reaction Prediction Based on Byproducts.RPBP:基于副产物的深度逆合成反应预测
J Chem Inf Model. 2023 Oct 9;63(19):5956-5970. doi: 10.1021/acs.jcim.3c00274. Epub 2023 Sep 19.

引用本文的文献

1
Targeted molecular generation with latent reinforcement learning.基于潜在强化学习的靶向分子生成
Sci Rep. 2025 Apr 30;15(1):15202. doi: 10.1038/s41598-025-99785-0.
2
Artificial Intelligence Methods and Models for Retro-Biosynthesis: A Scoping Review.人工智能方法和模型在逆向生物合成中的应用:范围综述。
ACS Synth Biol. 2024 Aug 16;13(8):2276-2294. doi: 10.1021/acssynbio.4c00091. Epub 2024 Jul 24.
3
Towards Understanding the Generalization of Medical Text-to-SQL Models and Datasets.迈向理解医学文本到 SQL 模型和数据集的泛化。
AMIA Annu Symp Proc. 2024 Jan 11;2023:669-678. eCollection 2023.
4
COMA: efficient structure-constrained molecular generation using contractive and margin losses.COMA:使用收缩损失和边界损失进行高效的结构约束分子生成。
J Cheminform. 2023 Jan 19;15(1):8. doi: 10.1186/s13321-023-00679-y.