#include #include #include "cutlass/cutlass.h" #include "scaled_mm_c2x.cuh" #include "scaled_mm_c2x_sm75_dispatch.cuh" #include "scaled_mm_c2x_sm80_dispatch.cuh" #include "scaled_mm_c2x_sm89_fp8_dispatch.cuh" #include "scaled_mm_c2x_sm89_int8_dispatch.cuh" #include "cutlass_extensions/epilogue/scaled_mm_epilogues_c2x.hpp" using namespace vllm; /* This file defines quantized GEMM operations using the CUTLASS 2.x API, for NVIDIA GPUs with SM versions prior to sm90 (Hopper). */ template