]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
vulkan: Use unclamped loads for flash attention mask (#12720)
authorJeff Bolz <redacted>
Sun, 6 Apr 2025 08:47:13 +0000 (03:47 -0500)
committerGitHub <redacted>
Sun, 6 Apr 2025 08:47:13 +0000 (10:47 +0200)
commit80b717d493a9a5bae7167ad2384c12c60bb2ef20
tree84c1e9523fbadf4ae1f5814ecff285028f395a61
parent6bf28f0111ff9f21b3c1b1eace20c590281e7ba6
vulkan: Use unclamped loads for flash attention mask (#12720)

nem1 must be a multiple of GGML_KQ_MASK_PAD, and GGML_KQ_MASK_PAD is a multiple
of the number of rows in the matrix. The KV dim is a multiple of the number of
columns for the aligned shader.
ggml/src/ggml-vulkan/ggml-vulkan.cpp
ggml/src/ggml-vulkan/vulkan-shaders/flash_attn_cm2.comp