• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

CUDA流中的性能建模——一种实现高吞吐量数据处理的方法。

Performance Modeling in CUDA Streams - A Means for High-Throughput Data Processing.

作者信息

Li Hao, Yu Di, Kumar Anand, Tu Yi-Cheng

出版信息

Proc IEEE Int Conf Big Data. 2014 Oct;2014:301-310. doi: 10.1109/BigData.2014.7004245.

DOI:10.1109/BigData.2014.7004245
PMID:26566545
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC4640924/
Abstract

Push-based database management system (DBMS) is a new type of data processing software that streams large volume of data to concurrent query operators. The high data rate of such systems requires large computing power provided by the query engine. In our previous work, we built a push-based DBMS named G-SDMS to harness the unrivaled computational capabilities of modern GPUs. A major design goal of G-SDMS is to support concurrent processing of heterogenous query processing operations and enable resource allocation among such operations. Understanding the performance of operations as a result of resource consumption is thus a premise in the design of G-SDMS. With NVIDIA's CUDA framework as the system implementation platform, we present our recent work on performance modeling of CUDA kernels running concurrently under a runtime mechanism named . Specifically, we explore the connection between performance and resource occupancy of compute-bound kernels and develop a model that can predict the performance of such kernels. Furthermore, we provide an in-depth anatomy of the CUDA stream mechanism and summarize the main kernel scheduling disciplines in it. Our models and derived scheduling disciplines are verified by extensive experiments using synthetic and real-world CUDA kernels.

摘要

基于推送的数据库管理系统(DBMS)是一种新型数据处理软件,它将大量数据流传输到并发查询运算符。此类系统的高数据速率需要查询引擎提供强大的计算能力。在我们之前的工作中,我们构建了一个名为G-SDMS的基于推送的DBMS,以利用现代GPU无与伦比的计算能力。G-SDMS的一个主要设计目标是支持异构查询处理操作的并发处理,并在此类操作之间进行资源分配。因此,了解由于资源消耗导致的操作性能是G-SDMS设计的前提。以NVIDIA的CUDA框架作为系统实现平台,我们展示了我们最近在一种名为的运行时机制下对并发运行的CUDA内核进行性能建模的工作。具体来说,我们探索了计算密集型内核的性能与资源占用之间的联系,并开发了一个可以预测此类内核性能的模型。此外,我们对CUDA流机制进行了深入剖析,并总结了其中主要的内核调度规则。我们的模型和推导的调度规则通过使用合成和实际CUDA内核的大量实验得到了验证。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/59c4294383b9/nihms-729446-f0010.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/426eae0ba66f/nihms-729446-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/ac1bcd71b180/nihms-729446-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/d4b92d8cd0c5/nihms-729446-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/6b1ae6304607/nihms-729446-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/79686f0cd459/nihms-729446-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/a7a1cb83aede/nihms-729446-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/dcde40c8fc82/nihms-729446-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/16b54c815e66/nihms-729446-f0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/0198cd971249/nihms-729446-f0009.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/59c4294383b9/nihms-729446-f0010.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/426eae0ba66f/nihms-729446-f0001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/ac1bcd71b180/nihms-729446-f0002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/d4b92d8cd0c5/nihms-729446-f0003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/6b1ae6304607/nihms-729446-f0004.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/79686f0cd459/nihms-729446-f0005.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/a7a1cb83aede/nihms-729446-f0006.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/dcde40c8fc82/nihms-729446-f0007.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/16b54c815e66/nihms-729446-f0008.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/0198cd971249/nihms-729446-f0009.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/6f5a/4640924/59c4294383b9/nihms-729446-f0010.jpg

相似文献

1
Performance Modeling in CUDA Streams - A Means for High-Throughput Data Processing.CUDA流中的性能建模——一种实现高吞吐量数据处理的方法。
Proc IEEE Int Conf Big Data. 2014 Oct;2014:301-310. doi: 10.1109/BigData.2014.7004245.
2
Concurrent query processing in a GPU-based database system.基于 GPU 的数据库系统中的并发查询处理。
PLoS One. 2019 Apr 16;14(4):e0214720. doi: 10.1371/journal.pone.0214720. eCollection 2019.
3
Exploiting graphics processing units for computational biology and bioinformatics.利用图形处理单元进行计算生物学和生物信息学。
Interdiscip Sci. 2010 Sep;2(3):213-20. doi: 10.1007/s12539-010-0002-4. Epub 2010 Jul 25.
4
Fast Equi-Join Algorithms on GPUs: Design and Implementation.基于图形处理器的快速等值连接算法:设计与实现
Sci Stat Database Manag. 2017 Jun;2017. doi: 10.1145/3085504.3085521. Epub 2017 Jun 27.
5
NMF-mGPU: non-negative matrix factorization on multi-GPU systems.NMF-mGPU:多GPU系统上的非负矩阵分解
BMC Bioinformatics. 2015 Feb 13;16:43. doi: 10.1186/s12859-015-0485-4.
6
Fully 3D list-mode time-of-flight PET image reconstruction on GPUs using CUDA.基于 CUDA 的 GPU 上完全 3D 列表模式飞行时间 PET 图像重建。
Med Phys. 2011 Dec;38(12):6775-86. doi: 10.1118/1.3661998.
7
CUDAMPF: a multi-tiered parallel framework for accelerating protein sequence search in HMMER on CUDA-enabled GPU.CUDAMPF:一种用于在支持CUDA的GPU上加速HMMER中蛋白质序列搜索的多层并行框架。
BMC Bioinformatics. 2016 Feb 27;17:106. doi: 10.1186/s12859-016-0946-4.
8
Accelerating Spatial Cross-Matching on CPU-GPU Hybrid Platform With CUDA and OpenACC.利用CUDA和OpenACC在CPU-GPU混合平台上加速空间交叉匹配
Front Big Data. 2020 May;3. doi: 10.3389/fdata.2020.00014. Epub 2020 May 8.
9
Efficient parallel implementation of active appearance model fitting algorithm on GPU.
ScientificWorldJournal. 2014 Mar 2;2014:528080. doi: 10.1155/2014/528080. eCollection 2014.
10
A GPU OpenCL based cross-platform Monte Carlo dose calculation engine (goMC).一种基于GPU OpenCL的跨平台蒙特卡洛剂量计算引擎(goMC)。
Phys Med Biol. 2015 Oct 7;60(19):7419-35. doi: 10.1088/0031-9155/60/19/7419. Epub 2015 Sep 9.

引用本文的文献

1
Dynamic Buffer Management in Massively Parallel Systems: The Power of Randomness.大规模并行系统中的动态缓冲区管理:随机性的力量
ACM Trans Parallel Comput. 2025 Mar;12(1). doi: 10.1145/3701623. Epub 2025 Feb 11.
2
Dynamic Memory Management in Massively Parallel Systems: A Case on GPUs.大规模并行系统中的动态内存管理:以图形处理器为例
ICS. 2022 Jun;2022. doi: 10.1145/3524059.3532387. Epub 2022 Jun 28.
3
Concurrent query processing in a GPU-based database system.基于 GPU 的数据库系统中的并发查询处理。
PLoS One. 2019 Apr 16;14(4):e0214720. doi: 10.1371/journal.pone.0214720. eCollection 2019.

本文引用的文献

1
Performance analysis of a dual-tree algorithm for computing spatial distance histograms.用于计算空间距离直方图的双树算法性能分析
VLDB J. 2011 Aug 1;20(4):471-494. doi: 10.1007/s00778-010-0205-7.