• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

QDπ数据集,用于类药物分子、生物聚合物片段及其相互作用的训练数据。

The QDπ dataset, training data for drug-like molecules and biopolymer fragments and their interactions.

作者信息

Zeng Jinzhe, Giese Timothy J, Götz Andreas W, York Darrin M

机构信息

Laboratory for Biomolecular Simulation Research, Institute for Quantitative Biomedicine, and Department of Chemistry and Chemical Biology, Rutgers University, Piscataway, NJ, 08854-8087, USA.

San Diego Supercomputer Center, University of California San Diego, La Jolla, CA, 92093, USA.

出版信息

Sci Data. 2025 Apr 25;12(1):693. doi: 10.1038/s41597-025-04972-3.

DOI:10.1038/s41597-025-04972-3
PMID:40280945
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC12032357/
Abstract

The development of universal machine learning potentials (MLP) for small organic and drug-like molecules requires large, accurate datasets that span diverse chemical spaces. In this study, we introduce the QDπ dataset which incorporates data taken from several datasets. We use a query-by-committee active learning strategy to extract data from large datasets to maximize the diversity and avoid redundancy as relevant for neural network training to construct the QDπ dataset. The QDπ dataset requires only 1.6 million structures to express the chemical diversity of 13 elements from the various source datasets at the ωB97M-D3(BJ)/def2-TZVPPD level of theory. The QDπ dataset enables creation of flexible target loss functions for neural network training relevant to drug discovery, including information-dense data sets of relative conformational energies and barriers, intermolecular interactions, tautomers and relative protonation energies of drug-like compounds and biomolecular fragments. It is the hope that the high chemical information density and diversity contained in the QDπ dataset will provide a valuable resource for the development of new universal MLPs for drug discovery.

摘要

开发适用于小型有机分子和类药物分子的通用机器学习势(MLP)需要跨越不同化学空间的大型、准确数据集。在本研究中,我们引入了QDπ数据集,该数据集整合了来自多个数据集的数据。我们使用委员会查询主动学习策略从大型数据集中提取数据,以最大化多样性并避免与神经网络训练相关的冗余,从而构建QDπ数据集。在ωB97M-D3(BJ)/def2-TZVPPD理论水平下,QDπ数据集仅需160万个结构就能表达来自各种源数据集的13种元素的化学多样性。QDπ数据集能够为与药物发现相关的神经网络训练创建灵活的目标损失函数,包括相对构象能量和势垒、分子间相互作用、互变异构体以及类药物化合物和生物分子片段的相对质子化能量的信息密集数据集。希望QDπ数据集中包含的高化学信息密度和多样性将为开发用于药物发现的新型通用MLP提供宝贵资源。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3169/12032357/6f8e14193a9f/41597_2025_4972_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3169/12032357/2a7aba993523/41597_2025_4972_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3169/12032357/6f8e14193a9f/41597_2025_4972_Fig2_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3169/12032357/2a7aba993523/41597_2025_4972_Fig1_HTML.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/3169/12032357/6f8e14193a9f/41597_2025_4972_Fig2_HTML.jpg

相似文献

1
The QDπ dataset, training data for drug-like molecules and biopolymer fragments and their interactions.QDπ数据集,用于类药物分子、生物聚合物片段及其相互作用的训练数据。
Sci Data. 2025 Apr 25;12(1):693. doi: 10.1038/s41597-025-04972-3.
2
SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials.SPICE,一个用于训练机器学习势能的类药物分子和肽数据集。
Sci Data. 2023 Jan 4;10(1):11. doi: 10.1038/s41597-022-01882-6.
3
Modern semiempirical electronic structure methods and machine learning potentials for drug discovery: Conformers, tautomers, and protonation states.现代半经验电子结构方法和药物发现的机器学习势:构象、互变异构体和质子化态。
J Chem Phys. 2023 Mar 28;158(12):124110. doi: 10.1063/5.0139281.
4
QDπ: A Quantum Deep Potential Interaction Model for Drug Discovery.QDπ:一种用于药物发现的量子深度学习势能交互模型。
J Chem Theory Comput. 2023 Feb 28;19(4):1261-1275. doi: 10.1021/acs.jctc.2c01172. Epub 2023 Jan 25.
5
Ensemble machine learning model trained on a new synthesized dataset generalizes well for stress prediction using wearable devices.在新合成数据集上训练的集成机器学习模型,对于使用可穿戴设备进行压力预测具有良好的泛化能力。
J Biomed Inform. 2023 Dec;148:104556. doi: 10.1016/j.jbi.2023.104556. Epub 2023 Dec 2.
6
Deep Learning Total Energies and Orbital Energies of Large Organic Molecules Using Hybridization of Molecular Fingerprints.使用分子指纹杂交深度学习大型有机分子的总能量和轨道能量。
J Chem Inf Model. 2020 Dec 28;60(12):5971-5983. doi: 10.1021/acs.jcim.0c00687. Epub 2020 Oct 29.
7
A Machine Learning Approach for Drug-target Interaction Prediction using Wrapper Feature Selection and Class Balancing.基于包装特征选择和类别平衡的药物-靶标相互作用预测的机器学习方法。
Mol Inform. 2020 May;39(5):e1900062. doi: 10.1002/minf.201900062. Epub 2020 Feb 11.
8
Comparison of Deep Learning With Multiple Machine Learning Methods and Metrics Using Diverse Drug Discovery Data Sets.使用多种药物发现数据集比较深度学习与多种机器学习方法和指标。
Mol Pharm. 2017 Dec 4;14(12):4462-4475. doi: 10.1021/acs.molpharmaceut.7b00578. Epub 2017 Nov 13.
9
Small training dataset convolutional neural networks for application-specific super-resolution microscopy.针对特定应用的超分辨率显微镜的小训练数据集卷积神经网络。
J Biomed Opt. 2023 Mar;28(3):036501. doi: 10.1117/1.JBO.28.3.036501. Epub 2023 Mar 14.
10
Transfer learning for drug-target interaction prediction.药物-靶标相互作用预测的迁移学习。
Bioinformatics. 2023 Jun 30;39(39 Suppl 1):i103-i110. doi: 10.1093/bioinformatics/btad234.

引用本文的文献

1
DeePMD-GNN: A DeePMD-kit Plugin for External Graph Neural Network Potentials.深度势能-图神经网络:一种用于外部图神经网络势的深度势能工具包插件。
J Chem Inf Model. 2025 Apr 14;65(7):3154-3160. doi: 10.1021/acs.jcim.4c02441. Epub 2025 Mar 27.

本文引用的文献

1
QM40, Realistic Quantum Mechanical Dataset for Machine Learning in Molecular Science.QM40,用于分子科学机器学习的现实量子力学数据集。
Sci Data. 2024 Dec 18;11(1):1376. doi: 10.1038/s41597-024-04206-y.
2
Nutmeg and SPICE: Models and Data for Biomolecular Machine Learning.肉豆蔻和香料:用于生物分子机器学习的模型和数据。
J Chem Theory Comput. 2024 Oct 8;20(19):8583-8593. doi: 10.1021/acs.jctc.4c00794. Epub 2024 Sep 25.
3
Software Infrastructure for Next-Generation QM/MM-ΔMLP Force Fields.用于下一代QM/MM-ΔMLP力场的软件基础设施。
J Phys Chem B. 2024 Jul 4;128(26):6257-6271. doi: 10.1021/acs.jpcb.4c01466. Epub 2024 Jun 21.
4
Amber free energy tools: Interoperable software for free energy simulations using generalized quantum mechanical/molecular mechanical and machine learning potentials.琥珀色自由能工具:使用广义量子力学/分子力学和机器学习势进行自由能模拟的可互操作软件。
J Chem Phys. 2024 Jun 14;160(22). doi: 10.1063/5.0211276.
5
AmberTools. AmberTools。
J Chem Inf Model. 2023 Oct 23;63(20):6183-6191. doi: 10.1021/acs.jcim.3c01153. Epub 2023 Oct 8.
6
DeePMD-kit v2: A software package for deep potential models.深度势能模型工具包v2:用于深度势能模型的软件包。
J Chem Phys. 2023 Aug 7;159(5). doi: 10.1063/5.0155600.
7
QDπ: A Quantum Deep Potential Interaction Model for Drug Discovery.QDπ:一种用于药物发现的量子深度学习势能交互模型。
J Chem Theory Comput. 2023 Feb 28;19(4):1261-1275. doi: 10.1021/acs.jctc.2c01172. Epub 2023 Jan 25.
8
SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials.SPICE,一个用于训练机器学习势能的类药物分子和肽数据集。
Sci Data. 2023 Jan 4;10(1):11. doi: 10.1038/s41597-022-01882-6.
9
QMugs, quantum mechanical properties of drug-like molecules.QMugs,类药物分子的量子力学性质。
Sci Data. 2022 Jun 7;9(1):273. doi: 10.1038/s41597-022-01390-7.
10
E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials.E(3)-等变图神经网络,用于高效准确的原子间势能数据。
Nat Commun. 2022 May 4;13(1):2453. doi: 10.1038/s41467-022-29939-5.