(Bugfix, ggml-cuda) Pool alloc count fix + small size computation type adjustment...

author pl752 <redacted>

Sat, 3 Jan 2026 10:13:40 +0000 (15:13 +0500)

committer Georgi Gerganov <redacted>

Wed, 14 Jan 2026 07:11:59 +0000 (09:11 +0200)
author pl752 <redacted>
Sat, 3 Jan 2026 10:13:40 +0000 (15:13 +0500)
committer Georgi Gerganov <redacted>
Wed, 14 Jan 2026 07:11:59 +0000 (09:11 +0200)
diff --git a/ggml/src/ggml-cuda/argsort.cu b/ggml/src/ggml-cuda/argsort.cu

index da9652c3be8c9d9ea0431b16e2803da2888f37d3..99669200ffdb52792bdcb3d1cb0f22f083b450d1 100644 (file)
--- a/ggml/src/ggml-cuda/argsort.cu
+++ b/ggml/src/ggml-cuda/argsort.cu
@@ -29,8 +29,8 @@ static void argsort_f32_i32_cuda_cub(ggml_cuda_pool & pool,
                                       const int        nrows,
                                       ggml_sort_order  order,
                                       cudaStream_t     stream) {
-    ggml_cuda_pool_alloc<int>   temp_indices_alloc(pool, ncols * nrows);
-    ggml_cuda_pool_alloc<float> temp_keys_alloc(pool, ncols * nrows);
+    ggml_cuda_pool_alloc<int>   temp_indices_alloc(pool, ((size_t) ncols) * nrows);
+    ggml_cuda_pool_alloc<float> temp_keys_alloc(pool, ((size_t) ncols) * nrows);
      ggml_cuda_pool_alloc<int>   offsets_alloc(pool, nrows + 1);
  
      int *   temp_indices = temp_indices_alloc.get();
diff --git a/ggml/src/ggml-cuda/fattn-common.cuh b/ggml/src/ggml-cuda/fattn-common.cuh

index 8dc82a9d3b886284229babf6e2d1af621dd64047..fa4e87ee47b267d93af0cdd4e02ca8c9356ba006 100644 (file)
--- a/ggml/src/ggml-cuda/fattn-common.cuh
+++ b/ggml/src/ggml-cuda/fattn-common.cuh
@@ -918,7 +918,7 @@ void launch_fattn(
          blocks_num.y = 1;
          blocks_num.z = 1;
  
-        dst_tmp_meta.alloc(blocks_num.x*ncols * (2*2 + DV) * sizeof(float));
+        dst_tmp_meta.alloc(((size_t) blocks_num.x) * ncols * (2 + DV/2));
      } else {
          const int ntiles_KQ = (K->ne[1] + nbatch_fa - 1) / nbatch_fa; // Max. number of parallel blocks limited by tensor size.
author	pl752 <redacted>
	Sat, 3 Jan 2026 10:13:40 +0000 (15:13 +0500)
committer	Georgi Gerganov <redacted>
	Wed, 14 Jan 2026 07:11:59 +0000 (09:11 +0200)
ggml/src/ggml-cuda/argsort.cu		patch \| blob \| history
ggml/src/ggml-cuda/fattn-common.cuh		patch \| blob \| history