CUDA简介——编程模式

CUDA简介——编程模式

news2025/11/4 11:28:26

1. 引言

前序博客：

CUDA简介——基本概念

CPU是用于控制的。即，host控制整个程序流程：

1）程序以Host代码main函数开始，然后顺序执行。
- Host代码是顺序执行的，并执行在CPU之上。
- Host代码会负责Launch kernel。
2）对于想转移给CPU执行的代码，称为Device代码，通过Launch kernel来实现：
- Device代码是并行执行的，并执行在GPU之上。
- kernel做为a grid运行在Device端。
- Device端程序会立即返回给Host。即，除非明确要求，Host并不会等待Device执行完成后才再执行后续Host代码。【因此，如需收集特定kernel launch Device程序的执行结果，需在host代码中创建明确的barrier，让main c函数等待kernel执行完成再继续执行后续代码。】

在这里插入图片描述

launch kernel时的语法规则为：

与常规C函数调用类似
需指定配置参数grid_size和block_size，二者均为dim3 CUDA数据结构，默认均为(1,1,1)。

launch kernel示例如：
在这里插入图片描述

从Host角度来看，实际更详细的程序流为：

1）程序以Host代码main函数开始，然后顺序执行。
- Host代码是顺序执行的，并执行在CPU之上。
- 为kernel launch做准备【Host和Device内存是独立的】：Host与Device之间的数据拷贝至关重要，且是程序性能主要限制因素。
  - 分配Device内存：cudaMalloc(...)。
  - 将Host上数据拷贝到Device上：cudaMemcpy(...)，即将数据由CPU拷贝到GPU之上。
- Host代码会负责Launch kernel：在GPU上并行执行Threads。
- 为获取kernel执行结果，需将Device数据拷贝到Host上：cudaMemcpy(...)。

在这里插入图片描述
其中，Device内存管理：

与C中内存管理类似：C中内存分配用malloc(...)，内存释放用free(...)。
CUDA Device内存管理为：
- 内存分配用cudaMalloc(LOCATION, SIZE)：
  - LOCATION：Device上分配内存的内存位置，为某GPU内存地址。
  - size：为分配的字节数。
- 内存释放用cudaFree()。

Device和Host之间数据拷贝：

使用cudaMemcpy(dst, src, numBytes, direction)：
- dst：拷贝目标地址
- src：拷贝源地址
- numBytes：拷贝字节数。numBytes = N*sizeof(type)
- direction：拷贝方向。
  - cudaMemcpyHostToDevice：由Host拷贝数据到Device。
  - cudaMemcpyDeviceToHost：由Device拷贝数据到Host。

总体的完整流程为：

1）以main()函数起始
2）定义变量：通常以h_来表示Host端变量，以d_来表示Device端变量。若在Host端引用了device变量，则程序将崩溃，反之亦然。
3）分配device内存：使用cudaMalloc(...)。
4）将host数据拷贝到device：使用cudaMemcpy(...)。【此时假设h_c为已做数据初始化】
5）设置kernel launch配置参数：grid_size和block_size。【下图中均为默认值(1,1,1)】
6）Launch kernel：
7）将device执行结果拷贝回host：使用cudaMemcpy(...)。
8）释放device和host内存：分别使用cudaFree(...)和free(...)。
9）结束main()函数执行。

参考资料

[1] 2019年5月视频 Intro to CUDA (part 2): Programming Model

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1287414.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

解析 Smilee Finance：基于无偿损失的链上期权方案

解析 Smilee Finance：基于无偿损失的链上期权方案

“有了 Smilee Finance，无偿损失或许不再是一种损失，它也更可能是一种可组合性的收益” 无偿损失流动性挖矿是引燃 DeFi Summer 的导火索，在 AMM DEX 中，它允许用户将资产按照比例添加到 AMM 流动性池中成为 LP，以为交…

阅读更多...

Web漏洞-XSS绕过和pikachu靶场4个场景(三)

Web漏洞-XSS绕过和pikachu靶场4个场景(三)

★★实战前置声明★★ 文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与学习之用，读者将其信息做其他用途，由用户承担全部法律及连带责任，文章作者不承担任何法律及连带责任。 1、XSS漏洞挖掘与绕过 1.1、XSS漏洞挖掘数据…

阅读更多...

Leetcode刷题笔记题解（C++）：LCR 021. 删除链表的倒数第 N 个结点

Leetcode刷题笔记题解（C++）：LCR 021. 删除链表的倒数第 N 个结点

思路：用双指针去遍历链表，删除left的下一个节点，注意的是n大于等于链表长度即删除第一个节点 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {…

阅读更多...

设计模式——七大设计原则

设计模式——七大设计原则

设计模式——七大设计原则 1、单一职责原则（SRP）2、开放封闭原则（OCP）3、依赖倒转原则（DIP）4、里氏替换原则 (LSP)5、接口隔离原则 (ISP)6、合成/聚合复用原则 (CARP)7、迪米特法则 (LoD) 了解设计模式的…

阅读更多...

bootstrap中的图标元素可以免费使用

bootstrap中的图标元素可以免费使用

Available glyphsIncludes over 250 glyphs in font format from the Glyphicon Halflings set. Glyphicon 网址如下： Components Bootstrap

阅读更多...

17.认识下Docker之docker的核心原理（2）

17.认识下Docker之docker的核心原理（2）

1.容器-我的小世界不知道大家看没看过小说《完美时间》，里面石昊经常进入一个小世界在里面与世隔绝的修炼或者战斗，总之就是在一个完全封闭的空间里做他想做的事情而与外界隔离，不受侵扰。通过前面的分析我们知道，Namepace让应用…

阅读更多...

【代码随想录】算法训练计划39

【代码随想录】算法训练计划39

dp 1、62. 不同路径题目： 求路径方案多少个思路： 这道题就有点dp了哈 func uniquePaths(m int, n int) int {//dp，写过,代表的是多少种// 初始化dp : make([][]int, m)for i : range dp {dp[i] make([]int, n)dp[i][0] 1 // 代表到…

阅读更多...

【5】PyQt按钮

【5】PyQt按钮

QPushButton 常见的按钮实现类包括:QPushButton、QRadioButton和QCheckBox QPushButton是最普通的按钮控件，可以响应一些用户的事件 from PyQt5.QtWidgets import QApplication, QWidget, QPushButton import sysdef func():print("按下按钮啦，火…

阅读更多...

MPC模型预测控制理论与实践

MPC模型预测控制理论与实践

一、基本概念最有控制的动机是在约束条件下达到最优的系统表现。模型预测控制（MPC，Model Predictive Control）是通过模型来预测系统在某一未来时间段内的表现来进行优化控制，多用于数位控制，通常用离散型状态空间表…

阅读更多...

随机链表的复制[中等]

随机链表的复制[中等]

优质博文：IT-BLOG-CN 一、题目给你一个长度为n的链表，每个节点包含一个额外增加的随机指针random，该指针可以指向链表中的任何节点或空节点。构造这个链表的深拷贝。深拷贝应该正好由n个全新节点组成，其中每个新节点的值都设为…

阅读更多...

【论文笔记】A Transformer-based Approach for Source Code Summarization

【论文笔记】A Transformer-based Approach for Source Code Summarization

A Transformer-based Approach for Source Code Summarization 1. Introduction2. Approach2.1 ArchitectureSelf-AttentionCopy Attention 2.2 Position Representations编码绝对位置编码成对关系 1. Introduction 生成描述程序功能的可读摘要称为源代码摘要。在此任务中&…

阅读更多...

C++ day55 判断子序列不同的子序列

C++ day55 判断子序列不同的子序列

题目1：392 判断子序列题目链接：判断子序列对题目的理解判断字符串s是否为t的子序列字符串s和字符串t的长度大于等于0，字符串s的长度小于等于字符串t的长度，本题其实和最长公共子序列的那道题很相似，相当于找两…

阅读更多...

面试就是这么简单，offer拿到手软（四）—— 常见java152道基础面试题

面试就是这么简单，offer拿到手软（四）—— 常见java152道基础面试题

面试就是这么简单，offer拿到手软（一）—— 常见非技术问题回答思路面试就是这么简单，offer拿到手软（二）—— 常见65道非技术面试问题面试就是这么简单，offer拿到手软（三&#xff…

阅读更多...

【数据结构(七)】查找算法

【数据结构(七)】查找算法

文章目录查找算法介绍1. 线性查找算法2. 二分查找算法2.1. 思路分析2.2. 代码实现2.3. 功能拓展 3. 插值查找算法3.1. 前言3.2. 相关概念3.3. 实例应用 4. 斐波那契(黄金分割法)查找算法4.1. 斐波那契(黄金分割法)原理4.2. 实例应用查找算法介绍在 java 中，我们…

阅读更多...

【Midjourney实战】| 新年礼盒元素设计

【Midjourney实战】| 新年礼盒元素设计

文章目录 1 初步提示词2 润色提示词3 提示词发散联想这期实践任务，我们想去做一个新年礼盒的效果，最后我们想把不同元素拼在一起，方便后期进行新年的相关设计 1 初步提示词提示词初步我们乍一想，肯定要包括主体元素礼盒新年礼…

阅读更多...

APOLLO自动驾驶技术沙龙：未来已来，共创智能交通新时代

APOLLO自动驾驶技术沙龙：未来已来，共创智能交通新时代

在这次Apollo会议上，我深刻地感受到了人工智能自动驾驶技术领域的最新进展和未来趋势。作为一名从事软件开发工作的人员，我深感荣幸能够参加这次盛会。前言本次活动是百度Apollo社区工程师齐聚首钢Park，带来现场实操与技术分享。主要围绕Ap…

阅读更多...

好用的挂耳式蓝牙耳机有哪些？四款好用高性价比的耳机推荐

好用的挂耳式蓝牙耳机有哪些？四款好用高性价比的耳机推荐

随着生活节奏的加快，挂耳式蓝牙耳机真的是越来越不可或缺了，不管是坐地铁、步行还是运动，一副好用的挂耳式蓝牙耳机都能让你感觉自己像是生活里的主角。但市面上的选择实在是太多了，简直让人眼花缭乱，不过我找了四款真…

阅读更多...

仓库管理系统【GUI/Swing+MySQL】（Java课设）

仓库管理系统【GUI/Swing+MySQL】（Java课设）

系统类型 Swing窗口类型Mysql数据库存储数据使用范围适合作为Java课设！！！ 部署环境 jdk1.8Mysql8.0Idea或eclipsejdbc 运行效果本系统源码地址： 更多系统资源库地址：更多Java课设系统更多系统运行效果展示…

阅读更多...

很全面影响无人机自动返航的因素总结

很全面影响无人机自动返航的因素总结

在无人机技术不断成熟的今天，自主返航技术成为保障飞行安全的一种重要工具。无人机在多种情况下能够智能判断，主动实施返航动作，为用户提供更加可靠的飞行保障。以下是一些常见的无人机自动返航场景，让我们深入了解这项技术背后的…

阅读更多...

玩转数据8：数据质量管理与数据清洗的实践

玩转数据8：数据质量管理与数据清洗的实践

引言在当今数字化时代，数据质量管理和数据清洗对于企业和组织来说变得至关重要。随着大数据的快速增长和数据驱动决策的普及，确保数据的准确性、一致性和完整性成为保证业务成功的关键因素。本文将探讨数据质量管理和数据清洗的概念、目标以及其在Java…

阅读更多...

推荐文章

最新文章