CUDA
这里记录 CUDA 编程、GPU 环境配置和性能优化笔记。
常见主题
- CUDA Toolkit 与驱动配置
- Kernel 编写与调试
- 显存管理
- 并行规约、矩阵乘法与算子优化
- Nsight 工具链分析
示例代码
__global__ void add(const float *a, const float *b, float *c, int n) {
int i = blockIdx.x * blockDim.x + threadIdx.x;
if (i < n) {
c[i] = a[i] + b[i];
}
}