musa: handle __hgt2_mask, available starting from MUSA SDK rc4.3.0 (llama/15413)

author R0CKSTAR <redacted>

Tue, 19 Aug 2025 10:33:47 +0000 (18:33 +0800)

committer Georgi Gerganov <redacted>

Fri, 5 Sep 2025 09:53:58 +0000 (12:53 +0300)
author R0CKSTAR <redacted>
Tue, 19 Aug 2025 10:33:47 +0000 (18:33 +0800)
committer Georgi Gerganov <redacted>
Fri, 5 Sep 2025 09:53:58 +0000 (12:53 +0300)
diff --git a/src/ggml-cuda/common.cuh b/src/ggml-cuda/common.cuh

index 2b14b30ac90f336c291b51070e824638ed98231c..76ace816ff6fcdca389d0f06e7e83fb69604ed8b 100644 (file)
--- a/src/ggml-cuda/common.cuh
+++ b/src/ggml-cuda/common.cuh
@@ -78,6 +78,8 @@
  #define GGML_CUDA_CC_IS_CDNA3(cc) (cc >= GGML_CUDA_CC_CDNA3 && cc < GGML_CUDA_CC_RDNA1)
  
  // Moore Threads
+#define MUSART_HMASK 40300 // MUSA rc4.3, min. ver. for half2 -> uint mask comparisons
+
  #define GGML_CUDA_CC_QY1 (GGML_CUDA_CC_OFFSET_MTHREADS + 0x210) // MTT S80, MTT S3000
  #define GGML_CUDA_CC_QY2 (GGML_CUDA_CC_OFFSET_MTHREADS + 0x220) // MTT S4000
  #define GGML_CUDA_CC_NG  (GGML_CUDA_CC_OFFSET_MTHREADS + 0x310) // TBD
@@ -490,13 +492,14 @@ static __device__ __forceinline__ half2 warp_reduce_max(half2 x) {
  #endif // !defined(GGML_USE_HIP) && __CUDA_ARCH__ >= GGML_CUDA_CC_PASCAL || defined(GGML_USE_HIP)
  }
  
-#if CUDART_VERSION < CUDART_HMASK
+#if (defined(CUDART_VERSION) && CUDART_VERSION < CUDART_HMASK) || defined(GGML_USE_HIP) || \
+    (defined(MUSART_VERSION) && MUSART_VERSION < MUSART_HMASK)
  static __device__ __forceinline__ uint32_t __hgt2_mask(const half2 a, const half2 b) {
      const uint32_t mask_low  = 0x0000FFFF * (float( __low2half(a)) > float( __low2half(b)));
      const uint32_t mask_high = 0xFFFF0000 * (float(__high2half(a)) > float(__high2half(b)));
      return mask_low | mask_high;
  }
-#endif // CUDART_VERSION < CUDART_HMASK
+#endif // (defined(CUDART_VERSION) && CUDART_VERSION < CUDART_HMASK) || defined(GGML_USE_HIP) || (defined(MUSART_VERSION) && MUSART_VERSION < MUSART_HMASK)
  
  static __device__ __forceinline__ int ggml_cuda_dp4a(const int a, const int b, int c) {
  #if defined(GGML_USE_HIP)
author	R0CKSTAR <redacted>
	Tue, 19 Aug 2025 10:33:47 +0000 (18:33 +0800)
committer	Georgi Gerganov <redacted>
	Fri, 5 Sep 2025 09:53:58 +0000 (12:53 +0300)