llama : fix buffer checks for mamba and rwk (#10111)

author Diego Devesa <redacted>

Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)

committer GitHub <redacted>

Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
author Diego Devesa <redacted>
Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
committer GitHub <redacted>
Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp

index f397f62529f2b1d91416ad7825e77bf5da97ceeb..c2afdf39158228a14da6708c7175d3fd60a45f85 100644 (file)
--- a/ggml/src/ggml-backend.cpp
+++ b/ggml/src/ggml-backend.cpp
@@ -1508,7 +1508,7 @@ static int ggml_backend_sched_backend_from_buffer(ggml_backend_sched_t sched, co
      return -1;
  }
  
-#if 1
+#if 0
  #define GGML_SCHED_MAX_SPLITS_DEBUG 4096
  static char causes[GGML_DEFAULT_GRAPH_SIZE*16 + GGML_SCHED_MAX_SPLITS_DEBUG*GGML_SCHED_MAX_SPLIT_INPUTS][128]; // debug only
  #define SET_CAUSE(node, ...) sprintf(causes[hash_id(node)], __VA_ARGS__)
diff --git a/ggml/src/ggml-cuda.cu b/ggml/src/ggml-cuda.cu

index 087091516ed3ac04bfdded072b8eebaa0305b166..b57f1b3b794694d6102cd322a235e1a5177a782f 100644 (file)
--- a/ggml/src/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda.cu
@@ -3107,18 +3107,20 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
                  }
                  return false;
              } break;
+        case GGML_OP_NORM:
+        case GGML_OP_RMS_NORM:
+            return ggml_is_contiguous(op->src[0]) && op->ne[0] % WARP_SIZE == 0;
+            break;
          case GGML_OP_NONE:
          case GGML_OP_RESHAPE:
          case GGML_OP_VIEW:
          case GGML_OP_PERMUTE:
          case GGML_OP_TRANSPOSE:
-        case GGML_OP_NORM:
          case GGML_OP_ADD:
          case GGML_OP_ADD1:
          case GGML_OP_SUB:
          case GGML_OP_MUL:
          case GGML_OP_DIV:
-        case GGML_OP_RMS_NORM:
          case GGML_OP_SCALE:
          case GGML_OP_SQR:
          case GGML_OP_SQRT:
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c

index 149d8f9709ea0aeb9b494032ca605db3d70fc56a..6a7154920968ee9a2511569e5fce119648b7f123 100644 (file)
--- a/ggml/src/ggml.c
+++ b/ggml/src/ggml.c
@@ -7272,6 +7272,7 @@ struct ggml_tensor * ggml_ssm_conv(
      const int64_t n_s     = sx->ne[2];
  
      // TODO: maybe support other strides than 1?
+    // FIXME: this is always true?
      GGML_ASSERT(sx->ne[0] == d_conv - 1 + n_t);
      GGML_ASSERT(sx->ne[1] == d_inner);
      GGML_ASSERT(n_t >= 0);
diff --git a/src/llama.cpp b/src/llama.cpp

index bc94d7ff0ae07aaf595d852c45eb1252e86087a3..e697c310c8527620fb13238551030e9df4cb06b6 100644 (file)
--- a/src/llama.cpp
+++ b/src/llama.cpp
@@ -7127,7 +7127,7 @@ static bool weight_buft_supported(const llama_hparams & hparams, ggml_tensor * w
              } break;
          case GGML_OP_MUL_MAT:
              {
-                ggml_tensor * b = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, w->ne[0], 512);
+                ggml_tensor * b = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, w->ne[0], 512, w->ne[2], w->ne[3]);
                  op_tensor = ggml_mul_mat(ctx, w, b);
              } break;
          case GGML_OP_MUL_MAT_ID:
@@ -7167,18 +7167,38 @@ static bool weight_buft_supported(const llama_hparams & hparams, ggml_tensor * w
              } break;
          case GGML_OP_SSM_CONV:
              {
-                // TODO: ggml_ssm_conv(ctx, conv_x, model.layers[il].ssm_conv1d);
-                op_tensor = ggml_ssm_conv(ctx, nullptr, w);
+                // FIXME
+                ggml_tensor * conv_x = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, 12345, w->ne[1], 6789);
+                op_tensor = ggml_ssm_conv(ctx, conv_x, w);
              } break;
          case GGML_OP_SSM_SCAN:
              {
-                // TODO: ggml_ssm_scan(ctx, ssm, x, dt, model.layers[il].ssm_a, B, C);
-                op_tensor = ggml_ssm_scan(ctx, nullptr, nullptr, nullptr, w, nullptr, nullptr);
+                // FIXME
+                const int64_t d_state      = w->ne[0];
+                const int64_t d_inner      = w->ne[1];
+                const int64_t n_seq_tokens = 512;
+                const int64_t n_seqs       = 1;
+                ggml_tensor * s  = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, d_state, d_inner, n_seqs);
+                ggml_tensor * x = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, d_inner, n_seq_tokens, n_seqs);
+                ggml_tensor * dt = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, d_inner, n_seq_tokens, n_seqs);
+                ggml_tensor * B = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, d_state, n_seq_tokens, n_seqs);
+                ggml_tensor * C = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, d_state, n_seq_tokens, n_seqs);
+                op_tensor = ggml_ssm_scan(ctx, s, x, dt, w, B, C);
              } break;
          case GGML_OP_RWKV_WKV:
              {
-                // TODO: ggml_rwkv_wkv(ctx, k, v, r, layer->time_mix_first, w, *wkv_state);
-                op_tensor = ggml_rwkv_wkv(ctx, nullptr, nullptr, nullptr, w, nullptr, nullptr);
+                // FIXME
+                const int64_t S = 123;
+                const int64_t H = 123;
+                const int64_t n_tokens = 123;
+                const int64_t n_seqs = 123;
+                ggml_tensor  * k = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, S, 1, H, n_tokens);
+                ggml_tensor  * v = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, 1, S, H, n_tokens);
+                ggml_tensor  * r = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, 1, S, H, n_tokens);
+                ggml_tensor  * tf = w;
+                ggml_tensor  * td = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, 1, S, H, n_tokens);
+                ggml_tensor  * state = ggml_new_tensor_4d(ctx, GGML_TYPE_F32, S, n_seqs, S, H);
+                op_tensor = ggml_rwkv_wkv(ctx, k, v, r, tf, td, state);
              } break;
          default:
              GGML_ABORT("%s: missing test for op %s for tensor %s", __func__, ggml_op_name(op), w->name);
@@ -7453,7 +7473,7 @@ static bool llm_load_tensors(
  
              // tensors with "bias" suffix are always used with GGML_OP_ADD
              ggml_op op;
-            bool bias = strcmp(tn.suffix, "bias") == 0;
+            bool bias = tn.suffix != nullptr && strcmp(tn.suffix, "bias") == 0;
              if (bias) {
                  op = GGML_OP_ADD;
              } else {
@@ -19681,7 +19701,7 @@ struct llama_context * llama_new_context_with_model(
              int n_nodes_tg = ggml_graph_n_nodes(gf_tg);
  
              // reserve again with pp graph to avoid ggml-alloc reallocations during inference
-            gf_pp = llama_build_graph(*ctx, ubatch_pp, false);
+            gf_pp = llama_build_graph(*ctx, ubatch_pp, true);
              if (!ggml_backend_sched_reserve(ctx->sched, gf_pp)) {
                  LLAMA_LOG_ERROR("%s: failed to allocate compute buffers\n", __func__);
                  llama_free(ctx);
author	Diego Devesa <redacted>
	Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
committer	GitHub <redacted>
	Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
ggml/src/ggml-backend.cpp		patch \| blob \| history
ggml/src/ggml-cuda.cu		patch \| blob \| history
ggml/src/ggml.c		patch \| blob \| history
src/llama.cpp		patch \| blob \| history