init

2025-08-18 09:34:24 +08:00
commit 6051ece39e
9 changed files with 196 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1 @@
 build
--- a/.vscode/extensions.json
+++ b/.vscode/extensions.json
@@ -0,0 +1,13 @@
 {
    "recommendations": [
        "ms-vscode.cpptools",
        "ms-vscode.cmake-tools",
        "josetr.cmake-language-support-vscode",
        "nvidia.nsight-vscode-edition",
        "IBM.output-colorizer",
        "christian-kohler.path-intellisense",
    ],
    "unwantedRecommendations": [
        "llvm-vs-code-extensions.vscode-clangd"
    ]
 }
--- a/.vscode/settings.json
+++ b/.vscode/settings.json
@@ -0,0 +1,21 @@
 {
    "cmake.debugConfig": {
        "args": [
            // 程序运行参数
        ]
    },
    "cmake.configureSettings": {},
    "cmake.outputLogEncoding": "utf8bom",
    "cmake.generator": "Ninja",
    // "cmake.enableLanguageServices": false,
    "[cpp]": {
        "files.encoding": "utf8bom"
    },
    "[cuda-cpp]": {
        "files.encoding": "utf8bom",
    },
    "files.associations": {
        "iostream": "cpp",
        "chrono": "cpp"
    },
 }
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -0,0 +1,31 @@
 cmake_minimum_required(VERSION 3.20)
 project("WIN_CUDA_DEV")
 if(NOT WIN32)
    message(FATAL_ERROR "This project only supports Windows platform")
 endif()
 # 语法标准
 enable_language(CXX CUDA)
 set(CMAKE_CXX_STANDARD 17)
 set(CMAKE_CUDA_STANDARD 17)
 # 显卡架构优化，详见 https://developer.nvidia.com/cuda-gpus
 set(CMAKE_CUDA_ARCHITECTURES 86)
 # 查找CUDA库
 find_package(CUDAToolkit REQUIRED)
 # 头文件索引
 include_directories("./include")
 # 添加可执行文件 test_add.exe
 add_executable(test_add
    "./src/test_add.cpp"
    "./src/external/main_ext.cpp"
 )
 # cuda-test.exe
 add_executable(test_cuda src/test_cuda.cu)
 target_link_libraries(test_cuda CUDA::cudart)
 set_target_properties(test_cuda PROPERTIES CUDA_SEPARABLE_COMPILATION ON)
--- a/README.md
+++ b/README.md
@@ -0,0 +1 @@
 # Windows平台 VSCode CMake CUDA 开发
--- a/include/main_ext.h
+++ b/include/main_ext.h
@@ -0,0 +1,3 @@
 #pragma once
 int add(int,int);
--- a/src/external/main_ext.cpp
+++ b/src/external/main_ext.cpp
@@ -0,0 +1,6 @@
 #include <main_ext.h>
 auto add(int x, int y) -> int
 {
    return x + y;
 }
--- a/src/test_add.cpp
+++ b/src/test_add.cpp
@@ -0,0 +1,8 @@
 #include <main_ext.h>
 #include <iostream>
 int main()
 {
    std::cout << "Windows平台 VSCode + CMake + CUDA 开发工具集" << std::endl;
    std::cout << " 1 + 2 = " << add(1, 2) << std::endl;
    return 0;
 }
--- a/src/test_cuda.cu
+++ b/src/test_cuda.cu
@@ -0,0 +1,112 @@
 #include <cuda_runtime.h>
 #include <device_launch_parameters.h>
 #include <iostream>
 #include <vector>
 #include <chrono>
 #include <cmath>
 // CUDA核函数：向量加法
 __global__ void vectorAdd(const float *A, const float *B, float *C, int N)
 {
    int i = blockDim.x * blockIdx.x + threadIdx.x;
    if (i < N)
    {
        C[i] = A[i] + B[i];
    }
 }
 // 检查CUDA错误
 #define CUDA_CHECK(call)                                                                                                     \
    do                                                                                                                       \
    {                                                                                                                        \
        cudaError_t error = call;                                                                                            \
        if (error != cudaSuccess)                                                                                            \
        {                                                                                                                    \
            std::cerr << "CUDA error at " << __FILE__ << ":" << __LINE__ << " - " << cudaGetErrorString(error) << std::endl; \
            exit(1);                                                                                                         \
        }                                                                                                                    \
    } while (0)
 int main()
 {
    // 向量大小
    const int N = 1024 * 1024;
    const size_t size = N * sizeof(float);
    // 在主机上分配内存
    std::vector<float> h_A(N);
    std::vector<float> h_B(N);
    std::vector<float> h_C(N);
    // 初始化向量
    for (int i = 0; i < N; i++)
    {
        h_A[i] = static_cast<float>(i);
        h_B[i] = static_cast<float>(i * 2);
    }
    // 在设备上分配内存
    float *d_A = nullptr;
    float *d_B = nullptr;
    float *d_C = nullptr;
    CUDA_CHECK(cudaMalloc(&d_A, size));
    CUDA_CHECK(cudaMalloc(&d_B, size));
    CUDA_CHECK(cudaMalloc(&d_C, size));
    // 将数据从主机复制到设备
    CUDA_CHECK(cudaMemcpy(d_A, h_A.data(), size, cudaMemcpyHostToDevice));
    CUDA_CHECK(cudaMemcpy(d_B, h_B.data(), size, cudaMemcpyHostToDevice));
    // 配置执行参数
    int threadsPerBlock = 256;
    int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
    // 记录开始时间
    auto start = std::chrono::high_resolution_clock::now();
    // 启动CUDA核函数
    vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);
    // 检查核函数启动错误
    CUDA_CHECK(cudaGetLastError());
    // 等待GPU完成所有操作
    CUDA_CHECK(cudaDeviceSynchronize());
    // 记录结束时间
    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start);
    // 将结果从设备复制回主机
    CUDA_CHECK(cudaMemcpy(h_C.data(), d_C, size, cudaMemcpyDeviceToHost));
    // 验证结果
    bool success = true;
    for (int i = 0; i < N; i++)
    {
        if (std::abs(h_C[i] - (h_A[i] + h_B[i])) > 1e-5)
        {
            success = false;
            break;
        }
    }
    // 输出结果
    std::cout << "CUDA Vector Addition Test:" << std::endl;
    std::cout << "Vector size: " << N << std::endl;
    std::cout << "Execution time: " << duration.count() << " microseconds" << std::endl;
    std::cout << "Verification: " << (success ? "PASSED" : "FAILED") << std::endl;
    std::cout << "Sample results (first 10 elements):" << std::endl;
    for (int i = 0; i < 10; i++)
    {
        std::cout << h_A[i] << " + " << h_B[i] << " = " << h_C[i] << std::endl;
    }
    // 释放设备内存
    CUDA_CHECK(cudaFree(d_A));
    CUDA_CHECK(cudaFree(d_B));
    CUDA_CHECK(cudaFree(d_C));
    return 0;
 }