]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
Vulkan: VK_KHR_cooperative_matrix support to speed up prompt processing (llama/10597)
author0cc4m <redacted>
Sat, 7 Dec 2024 09:24:15 +0000 (10:24 +0100)
committerGeorgi Gerganov <redacted>
Wed, 18 Dec 2024 10:52:16 +0000 (12:52 +0200)
commit4a6d52efe6ee4ba7702434dfe5f8e7c67a4ebf96
treef82a6e11db9278699bc4853daad9b3ee7c24b7c3
parent8b841d430a178c14181af998be85b191403420f5
Vulkan: VK_KHR_cooperative_matrix support to speed up prompt processing (llama/10597)

* Vulkan: Implement VK_KHR_cooperative_matrix support in the matrix matrix multiplication shader

* Improve performance with better q4_k and q5_k dequant and store unrolling

* Add Vulkan MUL_MAT and MUL_MAT_ID accumulator precision selection

* Rework mulmat shader selection and compilation logic, avoid compiling shaders that won't get used by device

* Vulkan: Implement accumulator switch for specific mul mat mat shaders

* Vulkan: Unroll more loops for more mul mat mat performance

* Vulkan: Add VK_AMD_shader_core_properties2 support to read Compute Unit count for split_k logic

* Disable coopmat support on AMD proprietary driver

* Remove redundant checks

* Add environment variable GGML_VK_DISABLE_COOPMAT to disable VK_KHR_cooperative_matrix support

* Fix rebase typo

* Fix coopmat2 MUL_MAT_ID pipeline selection
ggml/src/ggml-vulkan/ggml-vulkan.cpp
ggml/src/ggml-vulkan/vulkan-shaders/mul_mm.comp
ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp