llama : do not crash if there is no CPU backend (#13395)

author Diego Devesa <redacted>

Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)

committer GitHub <redacted>

Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)
author Diego Devesa <redacted>
Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)
committer GitHub <redacted>
Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)
diff --git a/src/llama-adapter.cpp b/src/llama-adapter.cpp

index 7ac54d2391fd0c0ef75d623f523eb00e4318a902..8d94034aed95debd4b1ea9269996578744ba809b 100644 (file)
--- a/src/llama-adapter.cpp
+++ b/src/llama-adapter.cpp
@@ -253,6 +253,9 @@ static void llama_adapter_lora_init_impl(llama_model & model, const char * path_
      std::vector<ggml_backend_buffer_type_t> buft_extra;
      {
          auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+        if (!cpu_dev) {
+            throw std::runtime_error(format("%s: no CPU backend found", __func__));
+        }
          auto * cpu_reg = ggml_backend_dev_backend_reg(cpu_dev);
  
          auto ggml_backend_dev_get_extra_bufts_fn = (ggml_backend_dev_get_extra_bufts_t)
@@ -291,6 +294,9 @@ static void llama_adapter_lora_init_impl(llama_model & model, const char * path_
                  LLAMA_LOG_WARN("%s: lora for '%s' cannot use buft '%s', fallback to CPU\n", __func__, model_tensor->name, ggml_backend_buft_name(buft));
  
                  auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+                if (!cpu_dev) {
+                    throw std::runtime_error(format("%s: no CPU backend found", __func__));
+                }
                  buft = ggml_backend_dev_buffer_type(cpu_dev);
  
                  break;
diff --git a/src/llama-model-loader.cpp b/src/llama-model-loader.cpp

index ea73a8a7ba944898f1003fe1ed3fc5ecca53a181..1c8bce385c3f3bd47da12f5214472ac35ef01ed9 100644 (file)
--- a/src/llama-model-loader.cpp
+++ b/src/llama-model-loader.cpp
@@ -823,6 +823,10 @@ void llama_model_loader::init_mappings(bool prefetch, llama_mlocks * mlock_mmaps
          mmaps_used.reserve(files.size());
          for (const auto & file : files) {
              auto * reg = ggml_backend_dev_backend_reg(ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU));
+            if (!reg) {
+                throw std::runtime_error(format("%s: no CPU backend found", __func__));
+            }
+
              auto * is_numa_fn = (decltype(ggml_is_numa) *) ggml_backend_reg_get_proc_address(reg, "ggml_backend_cpu_is_numa");
              std::unique_ptr<llama_mmap> mapping = std::make_unique<llama_mmap>(file.get(), prefetch ? -1 : 0, is_numa_fn());
              mmaps_used.emplace_back(mapping->size(), 0);
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index e8b78c1d00296fd2bd9f08fe3b7f500d434616fc..21b12339a221bcf19af35f52ca2a8e9474244252 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -299,6 +299,10 @@ static buft_list_t make_cpu_buft_list(const std::vector<ggml_backend_dev_t> & de
      // add extra buffer types, only if no GPU device is present
      // ref: https://github.com/ggml-org/llama.cpp/issues/12481#issuecomment-2743136094
      auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+    if (cpu_dev == nullptr) {
+        throw std::runtime_error(format("%s: no CPU backend found", __func__));
+    }
+
      auto * cpu_reg = ggml_backend_dev_backend_reg(cpu_dev);
      auto ggml_backend_dev_get_extra_bufts_fn = (ggml_backend_dev_get_extra_bufts_t)
          ggml_backend_reg_get_proc_address(cpu_reg, "ggml_backend_dev_get_extra_bufts");
@@ -1484,6 +1488,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
      }
  
      ggml_backend_dev_t cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+    if (cpu_dev == nullptr) {
+        throw std::runtime_error(format("%s: no CPU backend found", __func__));
+    }
      const int i_gpu_start = std::max((int) hparams.n_layer - n_gpu_layers, (int) 0);
      const int act_gpu_layers = devices.empty() ? 0 : std::min(n_gpu_layers, (int)n_layer + 1);
      auto get_layer_buft_list = [&](int il) -> llama_model::impl::layer_dev {
@@ -1672,6 +1679,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
              auto * buft_dev = ggml_backend_buft_get_device(buft);
              if (ml.use_mmap && buft_dev && buft == ggml_backend_dev_host_buffer_type(buft_dev)) {
                  auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+                if (!cpu_dev) {
+                    throw std::runtime_error("no CPU backend found");
+                }
                  buft = ggml_backend_dev_buffer_type(cpu_dev);
              }
  
@@ -4122,6 +4132,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
          if (!dev) {
              // FIXME: workaround for CPU backend buft having a NULL device
              dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+            if (!dev) {
+                throw std::runtime_error(format("%s: no CPU backend found", __func__));
+            }
          }
          ggml_backend_dev_props props;
          ggml_backend_dev_get_props(dev, &props);
diff --git a/tools/main/main.cpp b/tools/main/main.cpp

index 756297c257a6e5e026869f969cf9abe9c07bfeae..1bd2be2d94f51dfdacc4b3bcbaa199199519cb29 100644 (file)
--- a/tools/main/main.cpp
+++ b/tools/main/main.cpp
@@ -152,7 +152,12 @@ int main(int argc, char ** argv) {
  
      LOG_INF("%s: llama threadpool init, n_threads = %d\n", __func__, (int) params.cpuparams.n_threads);
  
-    auto * reg = ggml_backend_dev_backend_reg(ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU));
+    auto * cpu_dev = ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU);
+    if (!cpu_dev) {
+        LOG_ERR("%s: no CPU backend found\n", __func__);
+        return 1;
+    }
+    auto * reg = ggml_backend_dev_backend_reg(cpu_dev);
      auto * ggml_threadpool_new_fn = (decltype(ggml_threadpool_new) *) ggml_backend_reg_get_proc_address(reg, "ggml_threadpool_new");
      auto * ggml_threadpool_free_fn = (decltype(ggml_threadpool_free) *) ggml_backend_reg_get_proc_address(reg, "ggml_threadpool_free");
  
diff --git a/tools/mtmd/clip.cpp b/tools/mtmd/clip.cpp

index 4e1a7328725eac854faf01a7a8e8d64d76b64f31..1a81c1fcdf60e12c1daba87756ae9d50eb90dc77 100644 (file)
--- a/tools/mtmd/clip.cpp
+++ b/tools/mtmd/clip.cpp
@@ -352,9 +352,12 @@ struct clip_ctx {
  
      clip_ctx(clip_context_params & ctx_params) {
          backend_cpu = ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr);
-        backend     = ctx_params.use_gpu
-                        ? ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_GPU, nullptr)
-                        : nullptr;
+        if (!backend_cpu) {
+            throw std::runtime_error("failed to initialize CPU backend");
+        }
+        backend = ctx_params.use_gpu
+                    ? ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_GPU, nullptr)
+                    : nullptr;
  
          if (backend) {
              LOG_INF("%s: CLIP using %s backend\n", __func__, ggml_backend_name(backend));
@@ -2185,9 +2188,10 @@ struct clip_ctx * clip_model_load(const char * fname, const int verbosity) {
  
  struct clip_ctx * clip_init(const char * fname, struct clip_context_params ctx_params) {
      g_logger_state.verbosity_thold = ctx_params.verbosity;
-    clip_ctx * ctx_clip = new clip_ctx(ctx_params);
+    clip_ctx * ctx_clip = nullptr;
  
      try {
+        ctx_clip = new clip_ctx(ctx_params);
          clip_model_loader loader(fname, *ctx_clip);
          loader.load_hparams();
          loader.load_tensors();
diff --git a/tools/mtmd/llava.cpp b/tools/mtmd/llava.cpp

index b85ab112bfa76b9f1ec055b9df94c4c6658a22f5..ebef8b3c1eab6353273cf011059c8bce2993dda5 100644 (file)
--- a/tools/mtmd/llava.cpp
+++ b/tools/mtmd/llava.cpp
@@ -212,6 +212,7 @@ static bool clip_llava_handle_patches(clip_ctx * ctx_clip, std::vector<float *>
      ggml_build_forward_expand(gf, flatten);
  
      ggml_backend_ptr backend { ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr) };
+    GGML_ASSERT(backend != nullptr && "failed to initialize CPU backend");
      ggml_backend_graph_compute(backend.get(), gf);
  
      struct ggml_tensor* result = ggml_graph_node(gf, -1);
diff --git a/tools/rpc/rpc-server.cpp b/tools/rpc/rpc-server.cpp

index a3f901a223c8cd238dd2a6372db742ad6b0db0bc..581c74018c877cef6d04693a42558182217027e2 100644 (file)
--- a/tools/rpc/rpc-server.cpp
+++ b/tools/rpc/rpc-server.cpp
@@ -237,15 +237,17 @@ static ggml_backend_t create_backend(const rpc_server_params & params) {
          backend = ggml_backend_init_by_type(GGML_BACKEND_DEVICE_TYPE_CPU, nullptr);
      }
  
-    fprintf(stderr, "%s: using %s backend\n", __func__, ggml_backend_name(backend));
-
-    // set the number of threads
-    ggml_backend_dev_t dev = ggml_backend_get_device(backend);
-    ggml_backend_reg_t reg = dev ? ggml_backend_dev_backend_reg(dev) : nullptr;
-    if (reg) {
-        auto ggml_backend_set_n_threads_fn = (ggml_backend_set_n_threads_t) ggml_backend_reg_get_proc_address(reg, "ggml_backend_set_n_threads");
-        if (ggml_backend_set_n_threads_fn) {
-            ggml_backend_set_n_threads_fn(backend, params.n_threads);
+    if (backend) {
+        fprintf(stderr, "%s: using %s backend\n", __func__, ggml_backend_name(backend));
+
+        // set the number of threads
+        ggml_backend_dev_t dev = ggml_backend_get_device(backend);
+        ggml_backend_reg_t reg = dev ? ggml_backend_dev_backend_reg(dev) : nullptr;
+        if (reg) {
+            auto ggml_backend_set_n_threads_fn = (ggml_backend_set_n_threads_t) ggml_backend_reg_get_proc_address(reg, "ggml_backend_set_n_threads");
+            if (ggml_backend_set_n_threads_fn) {
+                ggml_backend_set_n_threads_fn(backend, params.n_threads);
+            }
          }
      }
author	Diego Devesa <redacted>
	Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)
committer	GitHub <redacted>
	Fri, 9 May 2025 11:02:07 +0000 (13:02 +0200)
src/llama-adapter.cpp		patch \| blob \| history
src/llama-model-loader.cpp		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history
tools/main/main.cpp		patch \| blob \| history
tools/mtmd/clip.cpp		patch \| blob \| history
tools/mtmd/llava.cpp		patch \| blob \| history
tools/rpc/rpc-server.cpp		patch \| blob \| history