跳转至

CUDA

这里记录 CUDA 编程、GPU 环境配置和性能优化笔记。

常见主题

  • CUDA Toolkit 与驱动配置
  • Kernel 编写与调试
  • 显存管理
  • 并行规约、矩阵乘法与算子优化
  • Nsight 工具链分析

示例代码

__global__ void add(const float *a, const float *b, float *c, int n) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) {
        c[i] = a[i] + b[i];
    }
}