#include #include #include #include #include #include constexpr int blocksize = 256; constexpr int factor = 4; constexpr int arraysize = blocksize / factor; template __global__ void addition_test_kernel(T * a, T * sum) { int tid = blockIdx.x * blockDim.x + threadIdx.x; int idx = (tid) % arraysize; gpuAtomicAdd(&sum[idx], a[idx]); } template __global__ void mul_test_kernel(T * a, T * sum) { int tid = blockIdx.x * blockDim.x + threadIdx.x; int idx = (tid) % arraysize; gpuAtomicMul(&sum[idx], a[idx]); } template __global__ void max_test_kernel(T * a, T * max) { int tid = blockIdx.x * blockDim.x + threadIdx.x; int a_idx = (tid) % (arraysize * factor); int idx = a_idx / factor; gpuAtomicMax(&max[idx], a[a_idx]); } template __global__ void min_test_kernel(T * a, T * min) { int tid = blockIdx.x * blockDim.x + threadIdx.x; int a_idx = (tid) % (arraysize * factor); int idx = a_idx / factor; gpuAtomicMin(&min[idx], a[a_idx]); } template void test_atomic_add() { dim3 dimBlock(blocksize, 1); dim3 dimGrid(1, 1); T *ad, *sumd; std::vector a(arraysize); std::vector sum(arraysize); std::vector answer(arraysize); for (int i = 0; i < arraysize; ++i) { a[i] = 1; sum[i] = 0; answer[i] = factor; } cudaMalloc((void**)&ad, arraysize * sizeof(T)); cudaMalloc((void**)&sumd, arraysize * sizeof(T)); cudaMemcpy(ad, a.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); cudaMemcpy(sumd, sum.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); addition_test_kernel<<>>(ad, sumd); C10_CUDA_KERNEL_LAUNCH_CHECK(); cudaMemcpy(sum.data(), sumd, arraysize * sizeof(T), cudaMemcpyDeviceToHost); for (int i = 0; i < arraysize; ++i) { ASSERT_EQ(sum[i], answer[i]) << typeid(T).name(); } cudaFree(ad); cudaFree(sumd); } template void test_atomic_mul() { dim3 dimBlock(blocksize, 1); dim3 dimGrid(1, 1); T *ad, *sumd; std::vector a(arraysize); std::vector sum(arraysize); std::vector answer(arraysize); for (int i = 0; i < arraysize; ++i) { a[i] = 2; sum[i] = 2; answer[i] = pow(sum[i], static_cast(factor + 1)); } cudaMalloc((void**)&ad, arraysize * sizeof(T)); cudaMalloc((void**)&sumd, arraysize * sizeof(T)); cudaMemcpy(ad, a.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); cudaMemcpy(sumd, sum.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); mul_test_kernel<<>>(ad, sumd); C10_CUDA_KERNEL_LAUNCH_CHECK(); cudaMemcpy(sum.data(), sumd, arraysize * sizeof(T), cudaMemcpyDeviceToHost); for (int i = 0; i < arraysize; ++i) { ASSERT_EQ(sum[i], answer[i]) << typeid(T).name(); } cudaFree(ad); cudaFree(sumd); } template void test_atomic_max() { dim3 dimBlock(blocksize, 1); dim3 dimGrid(1, 1); T *ad, *sumd; std::vector a(arraysize * factor); std::vector sum(arraysize); std::vector answer(arraysize); int j; for (int i = 0; i < arraysize * factor; ++i) { a[i] = i; if (i % factor == 0) { j = i / factor; sum[j] = std::numeric_limits::lowest(); answer[j] = (j + 1) * factor - 1; } } cudaMalloc((void**)&ad, arraysize * factor * sizeof(T)); cudaMalloc((void**)&sumd, arraysize * sizeof(T)); cudaMemcpy(ad, a.data(), arraysize * factor * sizeof(T), cudaMemcpyHostToDevice); cudaMemcpy(sumd, sum.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); max_test_kernel<<>>(ad, sumd); C10_CUDA_KERNEL_LAUNCH_CHECK(); cudaMemcpy(sum.data(), sumd, arraysize * sizeof(T), cudaMemcpyDeviceToHost); for (int i = 0; i < arraysize; ++i) { ASSERT_EQ(sum[i], answer[i]) << typeid(T).name(); } cudaFree(ad); cudaFree(sumd); } template void test_atomic_min() { dim3 dimBlock(blocksize, 1); dim3 dimGrid(1, 1); T *ad, *sumd; std::vector a(arraysize * factor); std::vector sum(arraysize); std::vector answer(arraysize); int j; for (int i = 0; i < arraysize * factor; ++i) { a[i] = i; if (i % factor == 0) { j = i / factor; sum[j] = std::numeric_limits::max(); answer[j] = j * factor; } } cudaMalloc((void**)&ad, arraysize * factor * sizeof(T)); cudaMalloc((void**)&sumd, arraysize * sizeof(T)); cudaMemcpy(ad, a.data(), arraysize * factor * sizeof(T), cudaMemcpyHostToDevice); cudaMemcpy(sumd, sum.data(), arraysize * sizeof(T), cudaMemcpyHostToDevice); min_test_kernel<<>>(ad, sumd); C10_CUDA_KERNEL_LAUNCH_CHECK(); cudaMemcpy(sum.data(), sumd, arraysize * sizeof(T), cudaMemcpyDeviceToHost); for (int i = 0; i < arraysize; ++i) { ASSERT_EQ(sum[i], answer[i]) << typeid(T).name(); } cudaFree(ad); cudaFree(sumd); } TEST(TestAtomicOps, TestAtomicAdd) { if (!at::cuda::is_available()) return; test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add(); test_atomic_add >(); test_atomic_add >(); } TEST(TestAtomicOps, DISABLED_ON_WINDOWS(TestAtomicMul)) { if (!at::cuda::is_available()) return; test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); test_atomic_mul(); } TEST(TestAtomicOps, DISABLED_ON_WINDOWS(TestAtomicMax)) { if (!at::cuda::is_available()) return; test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); test_atomic_max(); } TEST(TestAtomicOps, DISABLED_ON_WINDOWS(TestAtomicMin)) { if (!at::cuda::is_available()) return; test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); test_atomic_min(); }