o á)idS)zg The KV cache is stored inside this class and is accessed via `self.kv_cache`. NÚautoéFrúnum_heads (ú$) is not divisible by num_kv_heads (ú)gð?)ÚdtypeÚsinks)r.Zfp8_e5m2z8fp8_e5m2 kv-cache is not supported with fp8 checkpoints.)r-Úhas_sinkzDuplicate layer name: cSsg|]}t g¡‘qSr)ÚtorchÚtensor)Ú.0Ú_rrr Ú Ðs ÿz&Attention.__init__..)?ÚsuperÚ__init__Úsliding_windowZcache_dtypeÚ block_sizeÚis_attention_freeÚcalculate_kv_scalesÚkv_cache_dtyper;r<Úfloat32Ú_k_scaleÚ_v_scaleÚ_q_scaleZ_prob_scaleÚ_k_scale_floatÚ_v_scale_floatr-r$r%r'Úgetr:Zget_quant_methodÚ isinstancerrÚ ValueErrorÚquant_methodZcreate_weightsÚget_default_dtyperr1Zget_impl_clsÚimplrÚget_nameÚbackendr8rZ is_cuda_alikeZis_cpuÚuse_direct_callZaccept_output_bufferÚ use_outputr Úcompilation_configZstatic_forward_contextÚ layer_namer/rr0ÚrangeZparallel_configZpipeline_parallel_sizeÚkv_cacheÚenvsZQ_SCALE_CONSTANTÚq_rangeZK_SCALE_CONSTANTÚk_rangeZV_SCALE_CONSTANTÚv_range)Úselfr$r%r&r'r(r)r*r+r,r-r.r/r0r1Zextra_impl_argsrBrFrCrDrErPr8Zimpl_clsrW©Ú __class__rr rAEsÀ ÿÿ ÿÿÿ ÿ ú ýý ÿ ýÿÿzAttention.__init__ÚqueryÚkeyÚvalueÚoutput_shapec Cs„|jrtƒj}|jr| |||¡|jr“|dur|n|j}tj||j |j d}|d}|jsZ| d|j |j¡}| d|j |j¡}|durM| d|j|j¡}|durZ| d|j|j¡}|jrtƒ}|j}t|tƒrm||j}|j|j} |jj||||| ||dntjj |||||j¡| d|¡S|jr·tƒ}|j}t|tƒr¦||j}|j|j} |j ||||| |¡Stjj ||||j¡S)a_ The KV cache is stored inside this class and is accessed via `self.kv_cache`. Attention metadata (`attn_metadata`) is set using a context manager in the model runner's `execute_model` method. It is accessed via forward context using `vllm.forward_context.get_forward_context().attn_metadata`. N)r8Údeviceéÿÿÿÿ)Úoutput)rErÚ attn_metadataZenable_kv_scales_calculationÚcalc_kv_scalesrVÚshaper;Zzerosr8rfr-Úviewr$r%r'rUrNÚdictrXrZÚvirtual_enginerRÚforwardÚopsZvllmÚunified_attention_with_outputÚunified_attention) r_rbrcrdrerirhZhidden_sizeÚforward_contextZ self_kv_cacherrr roÙsfÿÿþ úÿ ÿ ÿzAttention.forwardcCsv|j t |¡ ¡|j¡|j t |¡ ¡|j¡|j t |¡ ¡|j ¡|j ¡|_|j ¡|_d|_ dS)NF)rJZcopy_r;ÚabsÚmaxr\rHr]rIr^ÚitemrKrLrE)r_rbrcrdrrr rj"s zAttention.calc_kv_scalescCs\d|jj›}|d|jj›7}|d|jj›7}|d|jj›7}|d|jjj›7}|S)Nz head_size=z, num_heads=z, num_kv_heads=z, scale=z , backend=)rRr%r$r'r&raÚ__name__)r_Úsrrr Ú extra_repr+szAttention.extra_reprÚ act_dtypecCst|jdƒr|j |¡|jtjkr@t|jdƒrBddlm}t|j|ƒs&J‚|jj durD|jj j tjkrF|jj tj¡|j_ dSdSdSdSdS)NÚprocess_weights_after_loadingr9r)ÚFlashInferImpl)ÚhasattrrRr{rTrZFLASHINFER_VLLM_V1Z%vllm.v1.attention.backends.flashinferr|rNr9r8r;rGÚto)r_rzr|rrr r{3s ÿúz'Attention.process_weights_after_loadingcCs|jS©N)r1)r_rrr r@szAttention.get_attn_backendr)rwÚ __module__Ú__qualname__Ú__doc__rZDECODERÚintÚfloatrrr rÚboolÚstrÚtyperrAr;ÚTensorÚSizerorjryr8r{rÚ __classcell__rrr`r r"9szñþýüû úùø ÷ öõô óò ñïøþýüø ÷I r"c s\eZdZdZ ddedededeef‡fdd„ Zd ej d ej dej dej fd d„Z ‡ZS)ÚMultiHeadAttentionz7Multi-headed attention without any cache, used for ViT.Nr$r%r&r'csþtƒ ¡||_||_||_|dur|n||_|j|jdks,Jd|j›d|j›dƒ‚|j|j|_t ¡}t ||dddd}t | ¡ƒ}t ¡rOtj|_n|tjtjtjfvr\tj}|tjtjtjhvrh|ntj|_|jtjkr{tƒs}tj|_dSdSdS)Nrr5r6r7r4F)rFrCrD)r@rAr$r%r&r'Únum_queries_per_kvr;rQrrrSrZis_rocmrÚ TORCH_SDPAr1Z FLASH_ATTNZFLASH_ATTN_VLLM_V1ZFLEX_ATTENTIONÚXFORMERSÚPALLAS_VLLM_V1r!)r_r$r%r&r'r8r1rTr`rr rAGsF ÿÿü ÿ ÿþÿþzMultiHeadAttention.__init__rbrcrdr2cCsV| ¡\}}}| d¡}| |||j|j¡}| |||j|j¡}| |||j|j¡}|j}dkrAtj||dd}tj||dd}|jt j krXddlm} | j ||||jd} nL|jt jkr|dd„|||fDƒ\}}}tj||||jd} | dd¡} n(|jt jkr¤d d„|||fDƒ\}}}dd lm}|||||jd} | dd¡} | ||d¡S) z/Input shape: batch_size x seq_len x hidden_sizeéé)Údimr)rp)r&csó|] }| dd¡VqdS©rr‘N©Ú transpose©r=Úxrrr Ú Œó€ÿz-MultiHeadAttention.forward..csr“r”r•r—rrr r™”rš)Úflash_attention)Zsm_scalerg)Úsizerlr$r%r'rŒr;Zrepeat_interleaver1rrŽZxformersrpZ"memory_efficient_attention_forwardr&rÚFZscaled_dot_product_attentionr–rZ$torch_xla.experimental.custom_kernelr›Zreshape)r_rbrcrdZbszZq_lenr>Zkv_lenZ num_repeatZxopsÚoutr›rrr ropsB ýÿýÿzMultiHeadAttention.forwardr)rwr€rr‚rƒr„rrAr;rˆrorŠrrr`r r‹Ds*ûþýüû)þýüûr‹rXcCsJtƒrtƒsdStƒ}tƒ}|j}|durdSt|tƒsJ‚| |¡dSr)rr rrrirNrmZwait_for_layer_load)rXÚ connectorrsrirrr Ú wait_for_kv_layer_from_connectorsr Úkv_cache_layercCsRtƒrtƒsdStƒ}tƒ}|j}|durdSt|tƒsJ‚| ||||¡dSr)rr rrrirNrmZ save_kv_layer)rXr¡rŸrsrirrr Ú maybe_save_kv_layer_to_connector«sÿr¢rbrcrdr2c Cs`t|ƒtƒ}|j}t|tƒr||}|j|}|j|j}|j ||||||¡}t ||ƒ|Sr©r rrirNrmZno_compile_layersrZrnrRror¢) rbrcrdrXrsrir_rZrhrrr rr½s ÿ rrcCst |¡ ¡Sr)r;Z empty_likeÚ contiguous)rbrcrdrXrrr Úunified_attention_fakeÒsr¥)Zop_nameZop_funcZmutates_argsZ fake_implÚdispatch_keyrhÚoutput_scalec Csft|ƒtƒ}|j}t|tƒr||}|j|}|j|j} |jj ||||| |||dt || ƒdS)N)rhr§r£) rbrcrdrhrXr§rsrir_rZrrr rqäs" ù rqcCsdSrr)rbrcrdrhrXr§rrr Ú"unified_attention_with_output_fakeÿsr¨r)sÈ Yÿ þÿþýü ûÿþýü û ûúÿþýüûú ù!úÿþýüûú ù û