ggml-cuda: Adding support for unified memory (llama/8035)

author matteo <redacted>

Thu, 1 Aug 2024 21:28:28 +0000 (23:28 +0200)

committer Georgi Gerganov <redacted>

Thu, 8 Aug 2024 19:48:46 +0000 (22:48 +0300)
author matteo <redacted>
Thu, 1 Aug 2024 21:28:28 +0000 (23:28 +0200)
committer Georgi Gerganov <redacted>
Thu, 8 Aug 2024 19:48:46 +0000 (22:48 +0300)
diff --git a/ggml/src/ggml-cuda.cu b/ggml/src/ggml-cuda.cu

index b510777fb78f6fe7d582327fcbeeb047fe8cc04d..68605fff6dbb82663743f390dff22c97df35ba6b 100644 (file)
--- a/ggml/src/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda.cu
@@ -130,7 +130,22 @@ static cudaError_t ggml_cuda_device_malloc(void ** ptr, size_t size, int device)
      }
      return res;
  #else
+
+#if !defined(GGML_USE_HIPBLAS) && !defined(GGML_USE_MUSA)
+    cudaError_t err;
+    if (getenv("GGML_CUDA_ENABLE_UNIFIED_MEMORY") != nullptr)
+    {
+        err = cudaMallocManaged(ptr, size);
+    }
+    else
+    {
+        err = cudaMalloc(ptr, size);
+    }
+    return err;
+#else
      return cudaMalloc(ptr, size);
+#endif // !defined(GGML_USE_HIPBLAS) && !defined(GGML_USE_MUSA)
+
  #endif
  }
author	matteo <redacted>
	Thu, 1 Aug 2024 21:28:28 +0000 (23:28 +0200)
committer	Georgi Gerganov <redacted>
	Thu, 8 Aug 2024 19:48:46 +0000 (22:48 +0300)