#include #include #include "../../dispatch_utils.h" #include "layernorm_utils.cuh" #include "quant_conversions.cuh" namespace vllm { template __device__ void rms_norm_dynamic_per_token_quant_vec( scalar_out_t* __restrict__ out, // [..., hidden_size] float* __restrict__ scales, // [num_tokens] scalar_t const* __restrict__ input, // [..., hidden_size] scalar_t const* __restrict__ weight, // [hidden_size] float const* scale_ub, float const var_epsilon, int32_t const hidden_size, scalar_t* __restrict__ residual = nullptr) { float rms = 0.0f; float token_scale = 0.0f; // Compute rms vllm::vectorized::compute_rms( &rms, input, hidden_size, var_epsilon, residual); // Compute scale vllm::vectorized::compute_dynamic_per_token_scales( &token_scale, scales, input, weight, rms, scale_ub, hidden_size, residual); // RMS Norm + Quant if constexpr (std::is_same_v) { vllm::vectorized::norm_and_quant( out, input, weight, rms, 1.0f / token_scale, hidden_size, residual); } else { // FP8 - Do not invert token_scale for exact match with FBGemm vllm::vectorized::norm_and_quant( out, input, weight, rms, token_scale, hidden_size, residual); } } // RMS norm + quant kernel template __global__ void rms_norm_dynamic_per_token_quant_kernel( scalar_out_t* __restrict__ out, // [..., hidden_size] float* __restrict__ scales, // [num_tokens] scalar_t const* __restrict__ input, // [..., hidden_size] scalar_t const* __restrict__ weight, // [hidden_size] float const* scale_ub, float const var_epsilon, int32_t const hidden_size, scalar_t* __restrict__ residual = nullptr) { // For vectorization, token_input and token_output pointers need to be // aligned at 8-byte and 4-byte addresses respectively. bool const can_vectorize = hidden_size % 4 == 0; if (can_vectorize) { return rms_norm_dynamic_per_token_quant_vec( out, scales, input, weight, scale_ub, var_epsilon, hidden_size, residual); } float rms = 0.0f; float token_scale = 0.0f; // Compute RMS vllm::compute_rms(&rms, input, hidden_size, var_epsilon, residual); // Compute Scale vllm::compute_dynamic_per_token_scales( &token_scale, scales, input, weight, rms, scale_ub, hidden_size, residual); // RMS Norm + Quant if constexpr (std::is_same_v) { vllm::norm_and_quant( out, input, weight, rms, 1.0f / token_scale, hidden_size, residual); } else { // FP8 - Do not invert s_token_scale for exact match with FBGemm vllm::norm_and_quant( out, input, weight, rms, token_scale, hidden_size, residual); } } } // namespace vllm // Residual add + RMS norm + dynamic per token template void rms_norm_dynamic_per_token_quant_dispatch( torch::Tensor& out, // [..., hidden_size] torch::Tensor const& input, // [..., hidden_size] torch::Tensor const& weight, // [hidden_size] torch::Tensor& scales, // [num_tokens] double const var_epsilon, // Variance epsilon used in norm calculation std::optional const& scale_ub, std::optional& residual) { int32_t hidden_size = input.size(-1); auto num_tokens = input.numel() / hidden_size; dim3 grid(num_tokens); dim3 block(std::min(hidden_size, 1024)); const at::cuda::OptionalCUDAGuard device_guard(device_of(input)); const cudaStream_t stream = at::cuda::getCurrentCUDAStream(); if (residual.has_value()) { VLLM_DISPATCH_QUANT_TYPES( out.scalar_type(), "rms_norm_dynamic_per_token_quant_kernel", [&] { vllm::rms_norm_dynamic_per_token_quant_kernel <<>>( out.data_ptr(), scales.data_ptr(), input.data_ptr(), weight.data_ptr(), scale_ub.has_value() ? scale_ub->data_ptr() : nullptr, var_epsilon, hidden_size, residual->data_ptr()); }); } else { VLLM_DISPATCH_QUANT_TYPES( out.scalar_type(), "rms_norm_dynamic_per_token_quant_kernel", [&] { vllm::rms_norm_dynamic_per_token_quant_kernel <<>>( out.data_ptr(), scales.data_ptr(), input.data_ptr(), weight.data_ptr(), scale_ub.has_value() ? scale_ub->data_ptr() : nullptr, var_epsilon, hidden_size, nullptr); }); } } void rms_norm_dynamic_per_token_quant( torch::Tensor& out, // [..., hidden_size] torch::Tensor const& input, // [..., hidden_size] torch::Tensor const& weight, // [hidden_size] torch::Tensor& scales, // [num_tokens] double const var_epsilon, // Variance epsilon used in norm calculation std::optional scale_ub, std::optional residual) { static c10::ScalarType kFp8Type = is_fp8_ocp() ? c10::ScalarType::Float8_e4m3fn : c10::ScalarType::Float8_e4m3fnuz; TORCH_CHECK(out.dtype() == kFp8Type || out.dtype() == torch::kInt8); TORCH_CHECK(out.is_contiguous() && input.is_contiguous()); if (scale_ub.has_value()) { TORCH_CHECK(out.dtype() == kFp8Type); } TORCH_CHECK(scales.dtype() == torch::kFloat32); VLLM_DISPATCH_FLOATING_TYPES( input.scalar_type(), "rms_norm_dynamic_per_token_quant_dispatch", [&] { rms_norm_dynamic_per_token_quant_dispatch( out, input, weight, scales, var_epsilon, scale_ub, residual); }); }