vulkan: disable mmvq on Intel Windows driver (#20672)

author Ruben Ortlam <redacted>

Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)

committer GitHub <redacted>

Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)
author Ruben Ortlam <redacted>
Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)
committer GitHub <redacted>
Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)
diff --git a/ggml/src/ggml-vulkan/ggml-vulkan.cpp b/ggml/src/ggml-vulkan/ggml-vulkan.cpp

index 3d8ce10676e2dbb88939627d6b1b638b0433d5e0..3e36435d1664adaf584cf52489bfcc0db1afd6b1 100644 (file)
--- a/ggml/src/ggml-vulkan/ggml-vulkan.cpp
+++ b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
@@ -7646,20 +7646,14 @@ static bool ggml_vk_should_use_mmvq(const vk_device& device, uint32_t m, uint32_
              return true;
          }
      case VK_VENDOR_ID_INTEL:
-        if (k < 2048) {
+        if (device->driver_id == vk::DriverId::eIntelProprietaryWindows) {
+            // Intel Windows proprietary driver MMVQ performance is worse than fp16, see
+            // https://github.com/ggml-org/llama.cpp/issues/17628
              return false;
          }
  
-        if (device->driver_id == vk::DriverId::eIntelProprietaryWindows) {
-            // Intel Windows proprietary driver tuning
-            switch (src0_type) {
-            case GGML_TYPE_MXFP4:
-            case GGML_TYPE_Q4_K:
-            case GGML_TYPE_Q5_K:
-                return false;
-            default:
-                return true;
-            }
+        if (k < 2048) {
+            return false;
          }
  
          switch (src0_type) {
author	Ruben Ortlam <redacted>
	Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)
committer	GitHub <redacted>
	Tue, 17 Mar 2026 20:51:43 +0000 (21:51 +0100)