HIP: fix RDNA3 FP16/BF16 matrix multiplication (llama/17817)

author Johannes Gäßler <redacted>

Sat, 6 Dec 2025 12:45:36 +0000 (13:45 +0100)

committer Georgi Gerganov <redacted>

Thu, 11 Dec 2025 13:32:57 +0000 (15:32 +0200)
author Johannes Gäßler <redacted>
Sat, 6 Dec 2025 12:45:36 +0000 (13:45 +0100)
committer Georgi Gerganov <redacted>
Thu, 11 Dec 2025 13:32:57 +0000 (15:32 +0200)
diff --git a/src/ggml-cuda/mmf.cu b/src/ggml-cuda/mmf.cu

index be2ad1c6b65f995d96448d4ca94c34481ca02665..7cf33f0ddf4f0b5d54c5180a70796ef57b180035 100644 (file)
--- a/src/ggml-cuda/mmf.cu
+++ b/src/ggml-cuda/mmf.cu
@@ -160,9 +160,9 @@ bool ggml_cuda_should_use_mmf(enum ggml_type type, int cc, int warp_size, const
          case GGML_TYPE_F32:
              return ampere_mma_available(cc);
          case GGML_TYPE_F16:
-            return volta_mma_available(cc) || turing_mma_available(cc) || amd_wmma_available(cc);
+            return volta_mma_available(cc) || turing_mma_available(cc) || (amd_wmma_available(cc) && GGML_CUDA_CC_IS_RDNA4(cc));
          case GGML_TYPE_BF16:
-            return ampere_mma_available(cc) || amd_wmma_available(cc);
+            return ampere_mma_available(cc) || (amd_wmma_available(cc) && GGML_CUDA_CC_IS_RDNA4(cc));
          default:
              return false;
      }
author	Johannes Gäßler <redacted>
	Sat, 6 Dec 2025 12:45:36 +0000 (13:45 +0100)
committer	Georgi Gerganov <redacted>
	Thu, 11 Dec 2025 13:32:57 +0000 (15:32 +0200)