vulkan: enable mmvq for q2_k on NVIDIA (llama/17675)

author Jeff Bolz <redacted>

Fri, 5 Dec 2025 20:21:57 +0000 (14:21 -0600)

committer Georgi Gerganov <redacted>

Fri, 12 Dec 2025 15:53:18 +0000 (17:53 +0200)
author Jeff Bolz <redacted>
Fri, 5 Dec 2025 20:21:57 +0000 (14:21 -0600)
committer Georgi Gerganov <redacted>
Fri, 12 Dec 2025 15:53:18 +0000 (17:53 +0200)
diff --git a/ggml/src/ggml-vulkan/ggml-vulkan.cpp b/ggml/src/ggml-vulkan/ggml-vulkan.cpp

index 97b0fd742e0c071c11cc7cdb468a01fc83f4e695..c8f0449a94aa4d5a291750f10500edaeba5e6646 100644 (file)
--- a/ggml/src/ggml-vulkan/ggml-vulkan.cpp
+++ b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
@@ -6948,6 +6948,10 @@ static bool ggml_vk_should_use_mmvq(const vk_device& device, uint32_t m, uint32_
      // Quantization overhead is not worth it for small k
      switch (device->vendor_id) {
      case VK_VENDOR_ID_NVIDIA:
+        if (src0_type == GGML_TYPE_Q2_K) {
+            return true;
+        }
+
          if (k <= 4096) {
              return false;
          }
author	Jeff Bolz <redacted>
	Fri, 5 Dec 2025 20:21:57 +0000 (14:21 -0600)
committer	Georgi Gerganov <redacted>
	Fri, 12 Dec 2025 15:53:18 +0000 (17:53 +0200)