]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
vulkan: Use unclamped loads for flash attention mask (llama/12720)
authorJeff Bolz <redacted>
Sun, 6 Apr 2025 08:47:13 +0000 (03:47 -0500)
committerGeorgi Gerganov <redacted>
Thu, 24 Apr 2025 17:39:16 +0000 (20:39 +0300)
commitd792d2a2dc713ee9b4b7835663e694fef9f11a69
tree24a05c51579632fe2d8f54029b19e42d99bcf69c
parent8add58aa5ea9be19f967964499c2b8ad9d722d02
vulkan: Use unclamped loads for flash attention mask (llama/12720)

nem1 must be a multiple of GGML_KQ_MASK_PAD, and GGML_KQ_MASK_PAD is a multiple
of the number of rows in the matrix. The KV dim is a multiple of the number of
columns for the aligned shader.
ggml/src/ggml-vulkan/ggml-vulkan.cpp
ggml/src/ggml-vulkan/vulkan-shaders/flash_attn_cm2.comp