CUDA: fix shared memory access condition for mmv (llama/10740)

author Johannes Gäßler <redacted>

Mon, 9 Dec 2024 19:07:12 +0000 (20:07 +0100)

committer Georgi Gerganov <redacted>

Wed, 18 Dec 2024 10:52:16 +0000 (12:52 +0200)
author Johannes Gäßler <redacted>
Mon, 9 Dec 2024 19:07:12 +0000 (20:07 +0100)
committer Georgi Gerganov <redacted>
Wed, 18 Dec 2024 10:52:16 +0000 (12:52 +0200)
diff --git a/ggml/src/ggml-cuda/mmv.cu b/ggml/src/ggml-cuda/mmv.cu

index cfe91f4283fa6f8f15d5b90245da64f61277f804..a4b4f6bc10d989ce18bfa551e67d49dbec4ba153 100644 (file)
--- a/ggml/src/ggml-cuda/mmv.cu
+++ b/ggml/src/ggml-cuda/mmv.cu
@@ -57,7 +57,7 @@ static __global__ void mul_mat_vec(
      if (block_size > WARP_SIZE) {
          buf_iw[tid/WARP_SIZE] = sumf;
          __syncthreads();
-        if (tid > WARP_SIZE) {
+        if (tid >= WARP_SIZE) {
              return;
          }
          sumf = buf_iw[tid];
author	Johannes Gäßler <redacted>
	Mon, 9 Dec 2024 19:07:12 +0000 (20:07 +0100)
committer	Georgi Gerganov <redacted>
	Wed, 18 Dec 2024 10:52:16 +0000 (12:52 +0200)