ggml : fix loongarch lsx compilation error (llama/15864)

author junchao-zhao <redacted>

Thu, 25 Sep 2025 09:22:55 +0000 (17:22 +0800)

committer Georgi Gerganov <redacted>

Mon, 29 Sep 2025 12:18:10 +0000 (15:18 +0300)
author junchao-zhao <redacted>
Thu, 25 Sep 2025 09:22:55 +0000 (17:22 +0800)
committer Georgi Gerganov <redacted>
Mon, 29 Sep 2025 12:18:10 +0000 (15:18 +0300)
diff --git a/ggml/src/ggml-cpu/arch/loongarch/quants.c b/ggml/src/ggml-cpu/arch/loongarch/quants.c

index 0f9af7bf520174fd1b7e185e9c1c5cc600773736..22fc7607fa91462946bb65929b8c4058c5e8676f 100644 (file)
--- a/ggml/src/ggml-cpu/arch/loongarch/quants.c
+++ b/ggml/src/ggml-cpu/arch/loongarch/quants.c
@@ -105,6 +105,18 @@ static inline float hsum_float_4x4(const __m128 a, const __m128 b, const __m128
  
      return ((v4f32)res)[0];
  }
+
+// multiply int8_t, add results pairwise twice
+static inline __m128i mul_sum_i8_pairs(const __m128i x, const __m128i y) {
+    // Get absolute values of x vectors
+    const __m128i ax = __lsx_vsigncov_b(x, x);
+    // Sign the values of the y vectors
+    const __m128i sy = __lsx_vsigncov_b(x, y);
+    // Perform multiplication and create 16-bit values
+    const __m128i dot = lsx_maddubs_h(ax, sy);
+    const __m128i ones = __lsx_vreplgr2vr_h(1);
+    return lsx_madd_h(ones, dot);
+}
  #endif
  
  #if defined(__loongarch_asx)
@@ -323,18 +335,6 @@ static inline __m256i lasx_xvandi_b_bit(__m256i a, const unsigned int b) {
      }
  }
  
-// multiply int8_t, add results pairwise twice
-static inline __m128i mul_sum_i8_pairs(const __m128i x, const __m128i y) {
-    // Get absolute values of x vectors
-    const __m128i ax = __lsx_vsigncov_b(x, x);
-    // Sign the values of the y vectors
-    const __m128i sy = __lsx_vsigncov_b(x, y);
-    // Perform multiplication and create 16-bit values
-    const __m128i dot = lsx_maddubs_h(ax, sy);
-    const __m128i ones = __lsx_vreplgr2vr_h(1);
-    return lsx_madd_h(ones, dot);
-}
-
  // horizontally add 8 floats
  static inline float hsum_float_8(const __m256 x) {
      __m128 res = lasx_extractf128(x, 1);
diff --git a/ggml/src/ggml-cpu/simd-mappings.h b/ggml/src/ggml-cpu/simd-mappings.h

index a84ba75c20ba15a4392a2c1b184b3848bbec8c47..8daec6637b08547d069d16b348ed23109082f0c4 100644 (file)
--- a/ggml/src/ggml-cpu/simd-mappings.h
+++ b/ggml/src/ggml-cpu/simd-mappings.h
@@ -998,9 +998,9 @@ static inline void __lasx_f32cx8_store(ggml_fp16_t * x, __m256 y) {
  #define GGML_F32_EPR  4
  
  #define GGML_F32x4         __m128
-#define GGML_F32x4_ZERO    __lsx_vldi(0)
-#define GGML_F32x4_SET1(x) __lsx_vinsgr2vr_w(__lsx_vldi(0),(x), 0)
-#define GGML_F32x4_LOAD(x) __lsx_vld((x), 0)
+#define GGML_F32x4_ZERO    (__m128)__lsx_vldi(0)
+#define GGML_F32x4_SET1(x) (__m128)__lsx_vinsgr2vr_w(__lsx_vldi(0),(x), 0)
+#define GGML_F32x4_LOAD(x) (__m128)__lsx_vld((x), 0)
  #define GGML_F32x4_STORE(x, y)   __lsx_vst(y, x, 0)
  #define GGML_F32x4_FMA(a, b, c) __lsx_vfmadd_s(b, c, a)
  #define GGML_F32x4_ADD     __lsx_vfadd_s
@@ -1022,7 +1022,7 @@ static inline void __lasx_f32cx8_store(ggml_fp16_t * x, __m256 y) {
      __m128i tmp     = __lsx_vsrli_d((__m128i) x[0], 32);                              \
      tmp             = (__m128i) __lsx_vfadd_s((__m128) tmp, x[0]);                    \
      tmp             = __lsx_vpickev_w(__lsx_vldi(0), tmp);                            \
-    const __m128 t0 = __lsx_vshuf4i_w(tmp, 0x88);                                     \
+    const __m128 t0 = (__m128)__lsx_vshuf4i_w(tmp, 0x88);                                     \
      tmp             = __lsx_vsrli_d((__m128i) t0, 32);                                \
      tmp             = (__m128i) __lsx_vfadd_s((__m128) tmp, t0);                      \
      tmp             = __lsx_vpickev_w(__lsx_vldi(0), tmp);                            \
@@ -1052,7 +1052,7 @@ static inline __m128 __lsx_f16x4_load(const ggml_fp16_t * x) {
      tmp[2] = GGML_CPU_FP16_TO_FP32(x[2]);
      tmp[3] = GGML_CPU_FP16_TO_FP32(x[3]);
  
-    return __lsx_vld(tmp, 0);
+    return (__m128)__lsx_vld(tmp, 0);
  }
  
  static inline void __lsx_f16x4_store(ggml_fp16_t * x, __m128 y) {
@@ -1067,9 +1067,9 @@ static inline void __lsx_f16x4_store(ggml_fp16_t * x, __m128 y) {
  }
  
  #define GGML_F32Cx4             __m128
-#define GGML_F32Cx4_ZERO        __lsx_vldi(0)
-#define GGML_F32Cx4_SET1(x)     __lsx_vinsgr2vr_w(__lsx_vldi(0),(x), 0)
-#define GGML_F32Cx4_LOAD(x)     __lsx_f16x4_load(x)
+#define GGML_F32Cx4_ZERO        (__m128)__lsx_vldi(0)
+#define GGML_F32Cx4_SET1(x)     (__m128)__lsx_vinsgr2vr_w(__lsx_vldi(0),(x), 0)
+#define GGML_F32Cx4_LOAD(x)     (__m128)__lsx_f16x4_load(x)
  #define GGML_F32Cx4_STORE(x, y) __lsx_f16x4_store(x, y)
  #define GGML_F32Cx4_FMA         GGML_F32x4_FMA
  #define GGML_F32Cx4_ADD         __lsx_vfadd_s
author	junchao-zhao <redacted>
	Thu, 25 Sep 2025 09:22:55 +0000 (17:22 +0800)
committer	Georgi Gerganov <redacted>
	Mon, 29 Sep 2025 12:18:10 +0000 (15:18 +0300)
ggml/src/ggml-cpu/arch/loongarch/quants.c		patch \| blob \| history
ggml/src/ggml-cpu/simd-mappings.h		patch \| blob \| history