ggml : add unified SYCL backend for Intel GPUs (llama/2690)

author Abhilash Majumder <redacted>

Sun, 28 Jan 2024 15:56:23 +0000 (21:26 +0530)

committer Georgi Gerganov <redacted>

Sun, 28 Jan 2024 17:30:20 +0000 (19:30 +0200)
author Abhilash Majumder <redacted>
Sun, 28 Jan 2024 15:56:23 +0000 (21:26 +0530)
committer Georgi Gerganov <redacted>
Sun, 28 Jan 2024 17:30:20 +0000 (19:30 +0200)
diff --git a/ggml-backend.c b/ggml-backend.c

index 3fff5fc87f7472748091df3904a57183f035ab63..897a4cb5c3f10af112f79b943e074ab4ffced79b 100644 (file)
--- a/ggml-backend.c
+++ b/ggml-backend.c
@@ -339,6 +339,11 @@ GGML_CALL static void ggml_backend_registry_init(void) {
      ggml_backend_cuda_reg_devices();
  #endif
  
+#ifdef GGML_USE_SYCL
+    extern void ggml_backend_sycl_reg_devices(void);
+    ggml_backend_sycl_reg_devices();
+#endif
+
  #ifdef GGML_USE_METAL
      extern GGML_CALL ggml_backend_t ggml_backend_reg_metal_init(const char * params, void * user_data);
      extern GGML_CALL ggml_backend_buffer_type_t ggml_backend_metal_buffer_type(void);
diff --git a/ggml.c b/ggml.c

index cf433e9b96d0dd7f620aec3a3adbf94e65301bb8..8236ff50e2b83531a5940d88f560b1c3474fce3f 100644 (file)
--- a/ggml.c
+++ b/ggml.c
@@ -248,6 +248,8 @@ inline static void * ggml_aligned_malloc(size_t size) {
  #include "ggml-cuda.h"
  #elif defined(GGML_USE_CLBLAST)
  #include "ggml-opencl.h"
+#elif defined(GGML_USE_SYCL)
+#include "ggml-sycl.h"
  #endif
  
  // floating point type used to accumulate sums
@@ -2293,6 +2295,8 @@ struct ggml_context * ggml_init(struct ggml_init_params params) {
          ggml_init_cublas();
  #elif defined(GGML_USE_CLBLAST)
          ggml_cl_init();
+#elif defined(GGML_USE_SYCL)
+        ggml_init_sycl();
  #endif
  
          ggml_setup_op_has_task_pass();
@@ -14701,6 +14705,12 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm
      GGML_ASSERT(tensor->src[1] == NULL || tensor->src[1]->backend == GGML_BACKEND_CPU);
  #endif // GGML_USE_CUBLAS
  
+#ifdef GGML_USE_SYCL
+    bool skip_cpu = ggml_sycl_compute_forward(params, tensor);
+    if (skip_cpu) {
+        return;
+    }
+#endif // GGML_USE_SYCL
      switch (tensor->op) {
          case GGML_OP_DUP:
              {
@@ -20280,7 +20290,7 @@ int ggml_cpu_has_wasm_simd(void) {
  }
  
  int ggml_cpu_has_blas(void) {
-#if defined(GGML_USE_ACCELERATE) || defined(GGML_USE_OPENBLAS) || defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST)
+#if defined(GGML_USE_ACCELERATE) || defined(GGML_USE_OPENBLAS) || defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST) || defined(GGML_USE_SYCL)
      return 1;
  #else
      return 0;
@@ -20303,8 +20313,16 @@ int ggml_cpu_has_clblast(void) {
  #endif
  }
  
+int ggml_cpu_has_sycl(void) {
+#if defined(GGML_USE_SYCL)
+    return 1;
+#else
+    return 0;
+#endif
+}
+
  int ggml_cpu_has_gpublas(void) {
-    return ggml_cpu_has_cublas() || ggml_cpu_has_clblast();
+    return ggml_cpu_has_cublas() || ggml_cpu_has_clblast() || ggml_cpu_has_sycl();
  }
  
  int ggml_cpu_has_sse3(void) {
diff --git a/ggml.h b/ggml.h

index 1c4976271677425c3e54c5cddb9b379f88367650..3d8d6f2aef623fabb9232d2b26fbeed9b5ac90ec 100644 (file)
--- a/ggml.h
+++ b/ggml.h
@@ -2266,6 +2266,7 @@ extern "C" {
      GGML_API int ggml_cpu_has_gpublas    (void);
      GGML_API int ggml_cpu_has_sse3       (void);
      GGML_API int ggml_cpu_has_ssse3      (void);
+    GGML_API int ggml_cpu_has_sycl       (void);
      GGML_API int ggml_cpu_has_vsx        (void);
  
      //
author	Abhilash Majumder <redacted>
	Sun, 28 Jan 2024 15:56:23 +0000 (21:26 +0530)
committer	Georgi Gerganov <redacted>
	Sun, 28 Jan 2024 17:30:20 +0000 (19:30 +0200)
ggml-backend.c		patch \| blob \| history
ggml.c		patch \| blob \| history
ggml.h		patch \| blob \| history