llama : offload to RPC in addition to other backends (llama/7640)

author Radoslav Gerganov <redacted>

Mon, 3 Jun 2024 17:03:26 +0000 (20:03 +0300)

committer Georgi Gerganov <redacted>

Sat, 15 Jun 2024 19:05:47 +0000 (22:05 +0300)
author Radoslav Gerganov <redacted>
Mon, 3 Jun 2024 17:03:26 +0000 (20:03 +0300)
committer Georgi Gerganov <redacted>
Sat, 15 Jun 2024 19:05:47 +0000 (22:05 +0300)
diff --git a/include/ggml/ggml-backend.h b/include/ggml/ggml-backend.h

index 744b6a77457d730a1abdb849d994f7c3d5cc81fe..c582b06850ed1a62147352ccffaab72ec00fce12 100644 (file)
--- a/include/ggml/ggml-backend.h
+++ b/include/ggml/ggml-backend.h
@@ -225,7 +225,7 @@ extern "C" {
  
      // Tensor initialization
      GGML_API void ggml_backend_tensor_alloc(ggml_backend_buffer_t buffer, struct ggml_tensor * tensor, void * addr);
-    GGML_API void ggml_backend_view_init(ggml_backend_buffer_t buffer, struct ggml_tensor * tensor);
+    GGML_API void ggml_backend_view_init(struct ggml_tensor * tensor);
  
  
  #ifdef  __cplusplus
diff --git a/src/ggml-alloc.c b/src/ggml-alloc.c

index 0146946ebd7649a8f77515bf01bf479867a6b837..73a3c15756ba1eb201993600cd458bce0f10b185 100644 (file)
--- a/src/ggml-alloc.c
+++ b/src/ggml-alloc.c
@@ -750,7 +750,7 @@ static void ggml_gallocr_init_tensor(ggml_gallocr_t galloc, struct ggml_tensor *
                  // this tensor was allocated without ggml-backend
                  return;
              }
-            ggml_backend_view_init(galloc->buffers[buffer_id], tensor);
+            ggml_backend_view_init(tensor);
          }
      } else {
          if (tensor->data == NULL) {
@@ -899,12 +899,12 @@ static bool alloc_tensor_range(struct ggml_context * ctx,
              if (t->view_src == NULL) {
                  ggml_tallocr_alloc(&tallocr, t);
              } else if (t->buffer == NULL) {
-                ggml_backend_view_init(buffer, t);
+                ggml_backend_view_init(t);
              }
          } else {
              if (t->view_src != NULL && t->buffer == NULL) {
                  // view of a pre-allocated tensor
-                ggml_backend_view_init(buffer, t);
+                ggml_backend_view_init(t);
              }
          }
      }
diff --git a/src/ggml-backend.c b/src/ggml-backend.c

index 9e35ce98d7ace898338369bdfd36ef26d3213bfb..05737ed69695406a3492543ab9164917e515730e 100644 (file)
--- a/src/ggml-backend.c
+++ b/src/ggml-backend.c
@@ -151,7 +151,7 @@ void ggml_backend_buffer_reset(ggml_backend_buffer_t buffer) {
  bool ggml_backend_buffer_copy_tensor(const struct ggml_tensor * src, struct ggml_tensor * dst) {
      ggml_backend_buffer_t dst_buf = dst->view_src ? dst->view_src->buffer : dst->buffer;
      if (dst_buf->iface.cpy_tensor) {
-        return src->buffer->iface.cpy_tensor(dst_buf, src, dst);
+        return dst_buf->iface.cpy_tensor(dst_buf, src, dst);
      }
      return false;
  }
@@ -1887,15 +1887,15 @@ ggml_backend_t ggml_backend_sched_get_tensor_backend(ggml_backend_sched_t sched,
  
  // utils
  
-void ggml_backend_view_init(ggml_backend_buffer_t buffer, struct ggml_tensor * tensor) {
+void ggml_backend_view_init(struct ggml_tensor * tensor) {
      GGML_ASSERT(tensor->buffer == NULL);
      GGML_ASSERT(tensor->view_src != NULL);
      GGML_ASSERT(tensor->view_src->buffer != NULL);
      GGML_ASSERT(tensor->view_src->data != NULL);
  
-    tensor->buffer = buffer;
+    tensor->buffer = tensor->view_src->buffer;
      tensor->data = (char *)tensor->view_src->data + tensor->view_offs;
-    ggml_backend_buffer_init_tensor(buffer, tensor);
+    ggml_backend_buffer_init_tensor(tensor->buffer, tensor);
  }
  
  void ggml_backend_tensor_alloc(ggml_backend_buffer_t buffer, struct ggml_tensor * tensor, void * addr) {
@@ -1954,7 +1954,7 @@ static void graph_copy_init_tensor(struct ggml_hash_set hash_set, struct ggml_te
      struct ggml_tensor * dst = node_copies[id];
      if (dst->view_src != NULL) {
          graph_copy_init_tensor(hash_set, node_copies, node_init, src->view_src);
-        ggml_backend_view_init(dst->view_src->buffer, dst);
+        ggml_backend_view_init(dst);
      }
      else {
          ggml_backend_tensor_copy(src, dst);
diff --git a/src/ggml-rpc.cpp b/src/ggml-rpc.cpp

index 49a20df4bd85e9511d7176256a7b7a641c07676a..679ce4f280c5f05e6a2d9003adeb91dff80104d0 100644 (file)
--- a/src/ggml-rpc.cpp
+++ b/src/ggml-rpc.cpp
@@ -491,7 +491,7 @@ GGML_CALL static ggml_backend_buffer_t ggml_backend_rpc_buffer_type_alloc_buffer
      if (remote_ptr != 0) {
          ggml_backend_buffer_t buffer = ggml_backend_buffer_init(buft,
              ggml_backend_rpc_buffer_interface,
-            new ggml_backend_rpc_buffer_context{sock, {}, remote_ptr, "RPC"},
+            new ggml_backend_rpc_buffer_context{sock, {}, remote_ptr, "RPC[" + std::string(buft_ctx->endpoint) + "]"},
              remote_size);
          return buffer;
      } else {
@@ -692,7 +692,7 @@ GGML_API GGML_CALL ggml_backend_buffer_type_t ggml_backend_rpc_buffer_type(const
  GGML_CALL ggml_backend_t ggml_backend_rpc_init(const char * endpoint) {
      ggml_backend_rpc_context * ctx = new ggml_backend_rpc_context {
          /* .endpoint  = */ endpoint,
-        /* .name      = */ "RPC",
+        /* .name      = */ "RPC[" + std::string(endpoint) + "]",
      };
  
      ggml_backend_t backend = new ggml_backend {
author	Radoslav Gerganov <redacted>
	Mon, 3 Jun 2024 17:03:26 +0000 (20:03 +0300)
committer	Georgi Gerganov <redacted>
	Sat, 15 Jun 2024 19:05:47 +0000 (22:05 +0300)
include/ggml/ggml-backend.h		patch \| blob \| history
src/ggml-alloc.c		patch \| blob \| history
src/ggml-backend.c		patch \| blob \| history
src/ggml-rpc.cpp		patch \| blob \| history