HIP: enable vec fattn on RDNA4 (llama/14323)

author uvos <redacted>

Sun, 22 Jun 2025 14:51:23 +0000 (16:51 +0200)

committer Georgi Gerganov <redacted>

Tue, 1 Jul 2025 14:54:53 +0000 (17:54 +0300)
author uvos <redacted>
Sun, 22 Jun 2025 14:51:23 +0000 (16:51 +0200)
committer Georgi Gerganov <redacted>
Tue, 1 Jul 2025 14:54:53 +0000 (17:54 +0300)
diff --git a/ggml/src/ggml-cuda/common.cuh b/ggml/src/ggml-cuda/common.cuh

index 2f2fce0677066831933cea10f396f5cbe592df75..86c4d29a5d254a8832a996e9051c9f3ca31521a4 100644 (file)
--- a/ggml/src/ggml-cuda/common.cuh
+++ b/ggml/src/ggml-cuda/common.cuh
@@ -241,8 +241,18 @@ static bool fp16_mma_available(const int cc) {
  #if defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__) && !defined(GGML_HIP_ROCWMMA_FATTN)
      return false;
  #else
-    return (GGML_CUDA_CC_IS_NVIDIA(cc) && ggml_cuda_highest_compiled_arch(cc) >= GGML_CUDA_CC_VOLTA) ||
-        GGML_CUDA_CC_IS_CDNA(cc) || GGML_CUDA_CC_IS_RDNA3(cc) || GGML_CUDA_CC_IS_RDNA4(cc);
+    if ((GGML_CUDA_CC_IS_NVIDIA(cc) && ggml_cuda_highest_compiled_arch(cc) >= GGML_CUDA_CC_VOLTA) ||
+        GGML_CUDA_CC_IS_CDNA(cc) || GGML_CUDA_CC_IS_RDNA3(cc)) {
+        return true;
+    } else if (GGML_CUDA_CC_IS_RDNA4(cc)) {
+#if defined(GGML_HIP_ROCWMMA_FATTN) && defined(GGML_HIP_ROCWMMA_FATTN_GFX12)
+        return true;
+#else
+        return false;
+#endif // defined(GGML_HIP_ROCWMMA_FATTN) && defined(GGML_HIP_ROCWMMA_FATTN_GFX12)
+    } else {
+        return false;
+    }
  #endif // defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__) && !defined(GGML_HIP_ROCWMMA_FATTN)
  }
  
diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu

index c6bdd4fb3021f21527910250cb346e8998b3802e..462db71e1a610a963938f3c1b32057d988779a46 100644 (file)
--- a/ggml/src/ggml-cuda/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda/ggml-cuda.cu
@@ -100,8 +100,7 @@ int ggml_cuda_get_device() {
  static cudaError_t ggml_cuda_device_malloc(void ** ptr, size_t size, int device) {
      ggml_cuda_set_device(device);
      cudaError_t err;
-    if (getenv("GGML_CUDA_ENABLE_UNIFIED_MEMORY") != nullptr)
-    {
+    if (getenv("GGML_CUDA_ENABLE_UNIFIED_MEMORY") != nullptr) {
          err = cudaMallocManaged(ptr, size);
  #if defined(GGML_USE_HIP)
          if (err == hipSuccess) {
@@ -119,9 +118,7 @@ static cudaError_t ggml_cuda_device_malloc(void ** ptr, size_t size, int device)
              err = cudaMalloc(ptr, size);
          }
  #endif // defined(GGML_USE_HIP)
-    }
-    else
-    {
+    } else {
          err = cudaMalloc(ptr, size);
      }
      return err;
author	uvos <redacted>
	Sun, 22 Jun 2025 14:51:23 +0000 (16:51 +0200)
committer	Georgi Gerganov <redacted>
	Tue, 1 Jul 2025 14:54:53 +0000 (17:54 +0300)
ggml/src/ggml-cuda/common.cuh		patch \| blob \| history
ggml/src/ggml-cuda/ggml-cuda.cu		patch \| blob \| history