ggml: fix loongarch quantize_row_q8_1 error (#14827)

author lixing-star <redacted>

Wed, 23 Jul 2025 06:39:51 +0000 (14:39 +0800)

committer GitHub <redacted>

Wed, 23 Jul 2025 06:39:51 +0000 (09:39 +0300)
author lixing-star <redacted>
Wed, 23 Jul 2025 06:39:51 +0000 (14:39 +0800)
committer GitHub <redacted>
Wed, 23 Jul 2025 06:39:51 +0000 (09:39 +0300)
diff --git a/ggml/src/ggml-cpu/arch/loongarch/quants.c b/ggml/src/ggml-cpu/arch/loongarch/quants.c

index 9e33fb3228633daa1148d62ee15d3297690a33c1..7908da4d16b6d07509e7c5ea926935866d79c7a2 100644 (file)
--- a/ggml/src/ggml-cpu/arch/loongarch/quants.c
+++ b/ggml/src/ggml-cpu/arch/loongarch/quants.c
@@ -544,7 +544,7 @@ void quantize_row_q8_1(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, i
          __m128 max4 = __lsx_vfmax_s( lasx_extractf128( max_abs, 1 ), lasx_extractf128( max_abs, 0) );
          max4 = __lsx_vfmax_s( max4, (__m128)__lsx_vpickod_d((__m128i) max4, (__m128i)max4 ) );
          __m128 tmp = max4;
-        max4 = __lsx_vfmax_s( max4, (__m128)__lsx_vextrins_w((__m128i)tmp, (__m128i)max4, 0x10 ));
+        max4 = __lsx_vfmax_s( max4, (__m128)__lsx_vextrins_w((__m128i)tmp, (__m128i)max4, 0x1 ));
          const float max_scalar = ((v4f32)max4)[0];
  
          // Quantize these floats
author	lixing-star <redacted>
	Wed, 23 Jul 2025 06:39:51 +0000 (14:39 +0800)
committer	GitHub <redacted>
	Wed, 23 Jul 2025 06:39:51 +0000 (09:39 +0300)