• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

CP2K 代码在 CPU 和 GPU 上进行从头算分子动力学的性能分析。

Performance Analysis of CP2K Code for Ab Initio Molecular Dynamics on CPUs and GPUs.

机构信息

Applied Computer Science Division (CCS-7), Los Alamos National Laboratory, Los Alamos, New Mexico 87545, United States.

Chemistry Division (C-IIAC), Los Alamos National Laboratory, Los Alamos, New Mexico 87545, United States.

出版信息

J Chem Inf Model. 2022 May 23;62(10):2378-2386. doi: 10.1021/acs.jcim.1c01538. Epub 2022 Apr 22.

DOI:10.1021/acs.jcim.1c01538
PMID:35451847
Abstract

Using a realistic molecular catalyst system, we conduct scaling studies of ab initio molecular dynamics simulations using the popular CP2K code on both Intel Xeon CPU and NVIDIA V100 GPU architectures. Additional performance improvements were gained by finding more optimal process placement and affinity settings. Statistical methods were employed to understand performance changes in spite of the variability in runtime for each molecular dynamics timestep. Ideal conditions for CPU runs were found when running at least four MPI ranks per node, bound evenly across each socket. This study also showed that fully utilizing processing cores, with one OpenMP thread per core, performed better than when reserving cores for the system. The CPU-only simulations scaled at 70% or more of the ideal scaling up to 10 compute nodes, after which the returns began to diminish more quickly. Simulations on a single 40-core node with two NVIDIA V100 GPUs for acceleration achieved over 3.7× speedup compared to the fastest single 36-core node CPU-only version. These same GPU runs showed a 13% speedup over the fastest time achieved across five CPU-only nodes.

摘要

使用真实的分子催化剂体系,我们使用流行的 CP2K 代码在 Intel Xeon CPU 和 NVIDIA V100 GPU 架构上对从头算分子动力学模拟进行了扩展研究。通过寻找更优的进程放置和亲和性设置,获得了额外的性能提升。尽管每个分子动力学时间步的运行时间存在差异,但我们采用了统计方法来理解性能变化。在每个节点上至少运行四个 MPI 等级,均匀分布在每个套接字上,我们找到了 CPU 运行的理想条件。本研究还表明,充分利用处理核心,每个核心使用一个 OpenMP 线程,比为系统保留核心的性能更好。在 10 个计算节点之前,CPU 仅模拟的扩展比例达到理想扩展的 70%或更高,之后收益开始更快地减少。在单个 40 核节点上使用两个 NVIDIA V100 GPU 进行加速的模拟与最快的单个 36 核节点 CPU 仅模拟版本相比,实现了超过 3.7 倍的加速。这些相同的 GPU 运行与五个 CPU 仅模拟节点中最快的时间相比,实现了 13%的速度提升。

相似文献

1
Performance Analysis of CP2K Code for Ab Initio Molecular Dynamics on CPUs and GPUs.CP2K 代码在 CPU 和 GPU 上进行从头算分子动力学的性能分析。
J Chem Inf Model. 2022 May 23;62(10):2378-2386. doi: 10.1021/acs.jcim.1c01538. Epub 2022 Apr 22.
2
Accelerating Coupled-Cluster Calculations with GPUs: An Implementation of the Density-Fitted CCSD(T) Approach for Heterogeneous Computing Architectures Using OpenMP Directives.利用GPU加速耦合簇计算:一种使用OpenMP指令在异构计算架构上实现密度拟合CCSD(T)方法的方案
J Chem Theory Comput. 2023 Nov 14;19(21):7640-7657. doi: 10.1021/acs.jctc.3c00876. Epub 2023 Oct 25.
3
Coupling SIMD and SIMT architectures to boost performance of a phylogeny-aware alignment kernel.将 SIMD 和 SIMT 架构进行耦合以提高具有系统发育感知的对齐核的性能。
BMC Bioinformatics. 2012 Aug 9;13:196. doi: 10.1186/1471-2105-13-196.
4
Efficient methods for implementation of multi-level nonrigid mass-preserving image registration on GPUs and multi-threaded CPUs.在图形处理器(GPU)和多线程中央处理器(CPU)上实现多级非刚性质量守恒图像配准的高效方法。
Comput Methods Programs Biomed. 2016 Apr;127:290-300. doi: 10.1016/j.cmpb.2015.12.018. Epub 2016 Jan 6.
5
Accelerating genomic workflows using NVIDIA Parabricks.利用 NVIDIA Parabricks 加速基因组工作流程。
BMC Bioinformatics. 2023 May 31;24(1):221. doi: 10.1186/s12859-023-05292-2.
6
ddcMD: A fully GPU-accelerated molecular dynamics program for the Martini force field.ddcMD:一个完全由 GPU 加速的用于 Martini 力场的分子动力学程序。
J Chem Phys. 2020 Jul 28;153(4):045103. doi: 10.1063/5.0014500.
7
MDBenchmark: A toolkit to optimize the performance of molecular dynamics simulations.MDBenchmark:一个优化分子动力学模拟性能的工具包。
J Chem Phys. 2020 Oct 14;153(14):144105. doi: 10.1063/5.0019045.
8
Porting fragmentation methods to GPUs using an OpenMP API: Offloading the resolution-of-the-identity second-order Møller-Plesset perturbation method.使用 OpenMP API 将碎片方法移植到 GPU 上:卸载身份分辨率的二阶 Møller-Plesset 微扰方法。
J Chem Phys. 2023 Apr 28;158(16). doi: 10.1063/5.0143424.
9
Graphics Processing Unit Acceleration and Parallelization of GENESIS for Large-Scale Molecular Dynamics Simulations.用于大规模分子动力学模拟的GENESIS的图形处理单元加速与并行化
J Chem Theory Comput. 2016 Oct 11;12(10):4947-4958. doi: 10.1021/acs.jctc.6b00241. Epub 2016 Sep 27.
10
Best bang for your buck: GPU nodes for GROMACS biomolecular simulations.物超所值:用于GROMACS生物分子模拟的GPU节点
J Comput Chem. 2015 Oct 5;36(26):1990-2008. doi: 10.1002/jcc.24030. Epub 2015 Aug 4.

引用本文的文献

1
Exploring Excited-State Electronic Structure, Spectroscopy, and Nonadiabatic Dynamics with CP2K's Multifaceted Approach.用CP2K的多方面方法探索激发态电子结构、光谱学和非绝热动力学。
J Phys Chem A. 2025 Aug 14;129(32):7313-7344. doi: 10.1021/acs.jpca.5c02969. Epub 2025 Aug 4.