#define TORCH_ASSERT_NO_OPERATORS #include #include #include #include #include #include #include #include #include #include #include #include #include #include namespace at::native { template struct MaxNanFunctor { __device__ __forceinline__ acc_t operator()(acc_t a, acc_t b) const { return (at::_isnan(a) || a > b) ? a : b; } }; template void max_values_kernel_cuda_impl(TensorIterator& iter) { gpu_reduce_kernel( iter, func_wrapper(MaxNanFunctor()), at::numeric_limits::lower_bound()); } void max_values_kernel_cuda(TensorIterator& iter) { AT_DISPATCH_ALL_TYPES_AND3( kBFloat16, kHalf, kBool, iter.dtype(), "max_values_cuda", [&]() { max_values_kernel_cuda_impl(iter); }); } void max_launch_kernel(TensorIterator& iter) { AT_DISPATCH_ALL_TYPES_AND3( kBFloat16, kHalf, kBool, iter.input_dtype(), "max_cuda", [&]() { gpu_reduce_kernel( iter, MaxOps{}, thrust::pair( at::numeric_limits::lower_bound(), 0)); }); } void max_all_launch_kernel(TensorIterator &iter) { AT_DISPATCH_ALL_TYPES_AND3(kBFloat16, kHalf, kBool, iter.input_dtype(), "max_all_cuda", [&] { max_values_kernel_cuda_impl(iter); }); } REGISTER_DISPATCH(max_values_stub, &max_values_kernel_cuda) } // namespace at::native