llama : fix buffer checks for mamba and rwk (llama/10111)

author Diego Devesa <redacted>

Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)

committer Georgi Gerganov <redacted>

Fri, 15 Nov 2024 13:21:04 +0000 (15:21 +0200)
author Diego Devesa <redacted>
Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
committer Georgi Gerganov <redacted>
Fri, 15 Nov 2024 13:21:04 +0000 (15:21 +0200)
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp

index f397f62529f2b1d91416ad7825e77bf5da97ceeb..c2afdf39158228a14da6708c7175d3fd60a45f85 100644 (file)
--- a/ggml/src/ggml-backend.cpp
+++ b/ggml/src/ggml-backend.cpp
@@ -1508,7 +1508,7 @@ static int ggml_backend_sched_backend_from_buffer(ggml_backend_sched_t sched, co
      return -1;
  }
  
-#if 1
+#if 0
  #define GGML_SCHED_MAX_SPLITS_DEBUG 4096
  static char causes[GGML_DEFAULT_GRAPH_SIZE*16 + GGML_SCHED_MAX_SPLITS_DEBUG*GGML_SCHED_MAX_SPLIT_INPUTS][128]; // debug only
  #define SET_CAUSE(node, ...) sprintf(causes[hash_id(node)], __VA_ARGS__)
diff --git a/ggml/src/ggml-cuda.cu b/ggml/src/ggml-cuda.cu

index 087091516ed3ac04bfdded072b8eebaa0305b166..b57f1b3b794694d6102cd322a235e1a5177a782f 100644 (file)
--- a/ggml/src/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda.cu
@@ -3107,18 +3107,20 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
                  }
                  return false;
              } break;
+        case GGML_OP_NORM:
+        case GGML_OP_RMS_NORM:
+            return ggml_is_contiguous(op->src[0]) && op->ne[0] % WARP_SIZE == 0;
+            break;
          case GGML_OP_NONE:
          case GGML_OP_RESHAPE:
          case GGML_OP_VIEW:
          case GGML_OP_PERMUTE:
          case GGML_OP_TRANSPOSE:
-        case GGML_OP_NORM:
          case GGML_OP_ADD:
          case GGML_OP_ADD1:
          case GGML_OP_SUB:
          case GGML_OP_MUL:
          case GGML_OP_DIV:
-        case GGML_OP_RMS_NORM:
          case GGML_OP_SCALE:
          case GGML_OP_SQR:
          case GGML_OP_SQRT:
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c

index 1649dd288a835deeb3c05a347b2ea05e0be85aad..59f2ed043500a45ccab7d05e251af6fc2fb586ef 100644 (file)
--- a/ggml/src/ggml.c
+++ b/ggml/src/ggml.c
@@ -7243,6 +7243,7 @@ struct ggml_tensor * ggml_ssm_conv(
      const int64_t n_s     = sx->ne[2];
  
      // TODO: maybe support other strides than 1?
+    // FIXME: this is always true?
      GGML_ASSERT(sx->ne[0] == d_conv - 1 + n_t);
      GGML_ASSERT(sx->ne[1] == d_inner);
      GGML_ASSERT(n_t >= 0);
author	Diego Devesa <redacted>
	Thu, 31 Oct 2024 21:54:23 +0000 (22:54 +0100)
committer	Georgi Gerganov <redacted>
	Fri, 15 Nov 2024 13:21:04 +0000 (15:21 +0200)
ggml/src/ggml-backend.cpp		patch \| blob \| history
ggml/src/ggml-cuda.cu		patch \| blob \| history
ggml/src/ggml.c		patch \| blob \| history