ggml : fix unnecessary f32 -> f16 -> f32 casts (mmla) (llama/5951)

author Georgi Gerganov <redacted>

Sat, 9 Mar 2024 15:36:20 +0000 (17:36 +0200)

committer Georgi Gerganov <redacted>

Fri, 15 Mar 2024 12:01:12 +0000 (14:01 +0200)
author Georgi Gerganov <redacted>
Sat, 9 Mar 2024 15:36:20 +0000 (17:36 +0200)
committer Georgi Gerganov <redacted>
Fri, 15 Mar 2024 12:01:12 +0000 (14:01 +0200)
diff --git a/ggml-quants.c b/ggml-quants.c

index 6cd12f7007d72c2d35ca01caddfd6396763b8642..42d8a5d8051440317c9332693e0a3dc2f2112ed0 100644 (file)
--- a/ggml-quants.c
+++ b/ggml-quants.c
@@ -4059,10 +4059,10 @@ void ggml_vec_dot_q4_1_q8_1(int n, float * restrict s, size_t bs, const void * r
              const int8x16_t y1_h = vld1q_s8(b_y1->qs + 16);
  
              // mmla into int32x4_t
-            float32x4_t scale = {GGML_FP16_TO_FP32(b_x0->d)*GGML_FP16_TO_FP32(b_y0->d),
-                                 GGML_FP16_TO_FP32(b_x0->d)*GGML_FP16_TO_FP32(b_y1->d),
-                                 GGML_FP16_TO_FP32(b_x1->d)*GGML_FP16_TO_FP32(b_y0->d),
-                                 GGML_FP16_TO_FP32(b_x1->d)*GGML_FP16_TO_FP32(b_y1->d)};
+            float32x4_t scale = {GGML_FP16_TO_FP32(b_x0->d)*b_y0->d,
+                                 GGML_FP16_TO_FP32(b_x0->d)*b_y1->d,
+                                 GGML_FP16_TO_FP32(b_x1->d)*b_y0->d,
+                                 GGML_FP16_TO_FP32(b_x1->d)*b_y1->d};
  
              int8x16_t l0 = vreinterpretq_s8_s64(vzip1q_s64(vreinterpretq_s64_s8(x0_l), vreinterpretq_s64_s8(x1_l)));
              int8x16_t l1 = vreinterpretq_s8_s64(vzip2q_s64(vreinterpretq_s64_s8(x0_l), vreinterpretq_s64_s8(x1_l)));
author	Georgi Gerganov <redacted>
	Sat, 9 Mar 2024 15:36:20 +0000 (17:36 +0200)
committer	Georgi Gerganov <redacted>
	Fri, 15 Mar 2024 12:01:12 +0000 (14:01 +0200)