ggml : fix fallback to CPU for ununsupported ops (llama/15118)

author Diego Devesa <redacted>

Wed, 6 Aug 2025 12:37:35 +0000 (05:37 -0700)

committer Georgi Gerganov <redacted>

Thu, 14 Aug 2025 11:17:28 +0000 (14:17 +0300)
author Diego Devesa <redacted>
Wed, 6 Aug 2025 12:37:35 +0000 (05:37 -0700)
committer Georgi Gerganov <redacted>
Thu, 14 Aug 2025 11:17:28 +0000 (14:17 +0300)
diff --git a/src/ggml-backend.cpp b/src/ggml-backend.cpp

index eaf41e5a6c84d23ff37df5676ec1502f5d56c357..1b9d29e911fcc48c855a1ebc80da874d877cf36b 100644 (file)
--- a/src/ggml-backend.cpp
+++ b/src/ggml-backend.cpp
@@ -1071,6 +1071,11 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                  }
              }
          }
+        // if the node is still unassigned, assign it to the first backend that supports it
+        for (int b = 0; b < sched->n_backends && *cur_backend_id == -1; b++) {
+            ggml_backend_sched_set_if_supported(sched, node, b, cur_backend_id);
+        }
+        GGML_ASSERT(*cur_backend_id != -1);
      }
  
      // pass 5: split graph, find tensors that need to be copied
@@ -1098,7 +1103,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
  
              const int node_backend_id = tensor_backend_id(node);
  
-            assert(node_backend_id != -1); // all nodes should be assigned by now, this can happen if there is no CPU fallback
+            GGML_ASSERT(node_backend_id != -1); // all nodes should be assigned by now, this can happen if there is no CPU fallback
  
              // check if we should start a new split based on the sources of the current node
              bool need_new_split = false;
@@ -1156,7 +1161,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
  
                  size_t src_id = hash_id(src);
                  const int src_backend_id = sched->hv_tensor_backend_ids[src_id];
-                assert(src_backend_id != -1); // all inputs should be assigned by now
+                GGML_ASSERT(src_backend_id != -1); // all inputs should be assigned by now
  
                  if (src->flags & GGML_TENSOR_FLAG_INPUT && sched->n_copies > 1) {
                      if (tensor_id_copy(src_id, src_backend_id, 0) == NULL) {
diff --git a/src/ggml-cpu/ggml-cpu.cpp b/src/ggml-cpu/ggml-cpu.cpp

index c9daa4c39e83efcef2d2c33d855860c1d362c552..e16cdc9d49844f23cd3308b72229e6303d3ff2d3 100644 (file)
--- a/src/ggml-cpu/ggml-cpu.cpp
+++ b/src/ggml-cpu/ggml-cpu.cpp
@@ -35,7 +35,7 @@
  
  // ggml-backend interface
  
-std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_buffers_type() {
+std::vector<ggml_backend_buffer_type_t> & ggml_backend_cpu_get_extra_buffer_types() {
      static std::vector<ggml_backend_buffer_type_t> bufts = []() {
          std::vector<ggml_backend_buffer_type_t> bufts;
  
@@ -57,8 +57,6 @@ std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_buffers_type
          }
  #endif
  
-        bufts.push_back(NULL);
-
          return bufts;
      }();
  
@@ -66,14 +64,20 @@ std::vector<ggml_backend_buffer_type_t>& ggml_backend_cpu_get_extra_buffers_type
  }
  
  static ggml_backend_buffer_type_t * ggml_backend_cpu_device_get_extra_buffers_type(ggml_backend_dev_t device) {
-    return ggml_backend_cpu_get_extra_buffers_type().data();
+    static std::vector<ggml_backend_buffer_type_t> extra_bufts = [] {
+        std::vector<ggml_backend_buffer_type_t> bufts = ggml_backend_cpu_get_extra_buffer_types();
+        bufts.push_back(nullptr);
+        return bufts;
+    }();
+
+    return extra_bufts.data();
  
      GGML_UNUSED(device);
  }
  
  static bool ggml_backend_cpu_is_extra_buffer_type(ggml_backend_buffer_type_t buft) {
-    for (auto * extra : ggml_backend_cpu_get_extra_buffers_type()) {
-        if (extra && extra == buft) {
+    for (auto * extra : ggml_backend_cpu_get_extra_buffer_types()) {
+        if (extra == buft) {
              return true;
          }
      }
@@ -397,20 +401,13 @@ static bool ggml_backend_cpu_device_supports_op(ggml_backend_dev_t dev, const st
          return true;
      }
  
-    // extra_buffer_op?
-    for (auto extra : ggml_backend_cpu_get_extra_buffers_type()) {
-        if (extra) {
-            auto buf_extra = (ggml::cpu::extra_buffer_type*) extra->context;
-            if (buf_extra && buf_extra->supports_op(dev, op)) {
-                return true;
-            }
-        }
-    }
-
-    // the other case need host buffer.
-    for (int i = 0; i < GGML_MAX_SRC; i++) {
-        if (op->src[i] && op->src[i]->buffer && !ggml_backend_buft_is_host(op->src[i]->buffer->buft)) {
-            return false;
+    // check extra buffer types
+    // note: only the first sources are checked for extra buffer types to reduce overhead, increase if necessary
+    for (int i = 0; i < 4; i++) {
+        if (op->src[i] && op->src[i]->buffer &&
+            ggml_backend_cpu_is_extra_buffer_type(op->src[i]->buffer->buft)) {
+            auto * buf_extra = (ggml::cpu::extra_buffer_type *) op->src[i]->buffer->buft->context;
+            return buf_extra->supports_op(dev, op);
          }
      }
  
diff --git a/src/ggml-cpu/traits.cpp b/src/ggml-cpu/traits.cpp

index 139fa59641440d9702b27c9bce9a5ca9f5c94378..4f32f10255aa4620484244e98f132a1bb0089d8e 100644 (file)
--- a/src/ggml-cpu/traits.cpp
+++ b/src/ggml-cpu/traits.cpp
@@ -10,7 +10,7 @@ extra_buffer_type::~extra_buffer_type() {}
  }  // namespace ggml::cpu
  
  bool ggml_cpu_extra_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * op) {
-    for (auto extra : ggml_backend_cpu_get_extra_buffers_type()) {
+    for (auto extra : ggml_backend_cpu_get_extra_buffer_types()) {
          if (extra && extra->context) {
              auto buf_extra     = (ggml::cpu::extra_buffer_type *) extra->context;
              auto tensor_traits = buf_extra->get_tensor_traits(op);
@@ -23,7 +23,7 @@ bool ggml_cpu_extra_compute_forward(struct ggml_compute_params * params, struct
  }
  
  bool ggml_cpu_extra_work_size(int n_threads, const struct ggml_tensor * op, size_t * size) {
-    for (auto extra : ggml_backend_cpu_get_extra_buffers_type()) {
+    for (auto extra : ggml_backend_cpu_get_extra_buffer_types()) {
          if (extra && extra->context) {
              auto buf_extra     = (ggml::cpu::extra_buffer_type *) extra->context;
              auto tensor_traits = buf_extra->get_tensor_traits(op);
diff --git a/src/ggml-cpu/traits.h b/src/ggml-cpu/traits.h

index 99a6186b1d6b58dd71213e0466b4a304fbaddbe9..f4e0990ddfc95b61c2e38f224aac0fd76475c9c1 100644 (file)
--- a/src/ggml-cpu/traits.h
+++ b/src/ggml-cpu/traits.h
@@ -33,6 +33,6 @@ class extra_buffer_type {
  }  // namespace ggml::cpu
  
  // implemented in ggml-cpu.cpp.
-std::vector<ggml_backend_buffer_type_t> & ggml_backend_cpu_get_extra_buffers_type();
+std::vector<ggml_backend_buffer_type_t> & ggml_backend_cpu_get_extra_buffer_types();
  
  #endif
author	Diego Devesa <redacted>
	Wed, 6 Aug 2025 12:37:35 +0000 (05:37 -0700)
committer	Georgi Gerganov <redacted>
	Thu, 14 Aug 2025 11:17:28 +0000 (14:17 +0300)
src/ggml-backend.cpp		patch \| blob \| history
src/ggml-cpu/ggml-cpu.cpp		patch \| blob \| history
src/ggml-cpu/traits.cpp		patch \| blob \| history
src/ggml-cpu/traits.h		patch \| blob \| history