Hip: disable VMM on hip as it seams that it dosent work in some configurations (llama...

author uvos <redacted>

Sat, 25 Jan 2025 20:01:12 +0000 (21:01 +0100)

committer Georgi Gerganov <redacted>

Mon, 3 Feb 2025 20:00:57 +0000 (22:00 +0200)
author uvos <redacted>
Sat, 25 Jan 2025 20:01:12 +0000 (21:01 +0100)
committer Georgi Gerganov <redacted>
Mon, 3 Feb 2025 20:00:57 +0000 (22:00 +0200)
diff --git a/ggml/CMakeLists.txt b/ggml/CMakeLists.txt

index 123c755ace41650dd5b8d1b5fa59be481607e8f4..bbabb14de38491ce8a939a63133ab6a0d5cffc53 100644 (file)
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@@ -155,6 +155,7 @@ option(GGML_CUDA_GRAPHS                     "ggml: use CUDA graphs (llama.cpp on
  
  option(GGML_HIP                             "ggml: use HIP"                                   OFF)
  option(GGML_HIP_GRAPHS                      "ggml: use HIP graph, experimental, slow"         OFF)
+option(GGML_HIP_NO_VMM                      "ggml: do not try to use HIP VMM"                 ON)
  option(GGML_HIP_UMA                         "ggml: use HIP unified memory architecture"       OFF)
  option(GGML_VULKAN                          "ggml: use Vulkan"                                OFF)
  option(GGML_VULKAN_CHECK_RESULTS            "ggml: run Vulkan op checks"                      OFF)
diff --git a/ggml/src/ggml-cuda/common.cuh b/ggml/src/ggml-cuda/common.cuh

index a79fa83c5a24913e2ad421187f1c89c1d8f47ad1..bb6120568f2bfe27375439dac62873e59181aa1c 100644 (file)
--- a/ggml/src/ggml-cuda/common.cuh
+++ b/ggml/src/ggml-cuda/common.cuh
@@ -131,6 +131,10 @@ typedef float dfloat; // dequantize float
  typedef float2 dfloat2;
  #endif // GGML_CUDA_F16
  
+#if (!defined(GGML_USE_HIP) && !defined(GGML_CUDA_NO_VMM)) || (defined(GGML_USE_HIP) && !defined(GGML_HIP_NO_VMM))
+#define GGML_USE_VMM
+#endif // (!defined(GGML_USE_HIP) && !defined(GGML_CUDA_NO_VMM)) || (defined(GGML_USE_HIP) && !defined(GGML_HIP_NO_VMM))
+
  #if (defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__)) || __CUDA_ARCH__ >= GGML_CUDA_CC_PASCAL
  #define FP16_AVAILABLE
  #endif // (defined(GGML_USE_HIP) && defined(__HIP_PLATFORM_AMD__)) || __CUDA_ARCH__ >= GGML_CUDA_CC_PASCAL
diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu

index a53a1bbd05d65c1fd2b73f83fc6d5fa89d19a58c..85178abd282ad0040a8acb9744a362083de8f043 100644 (file)
--- a/ggml/src/ggml-cuda/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda/ggml-cuda.cu
@@ -152,7 +152,7 @@ static ggml_cuda_device_info ggml_cuda_init() {
      for (int id = 0; id < info.device_count; ++id) {
          int device_vmm = 0;
  
-#if !defined(GGML_CUDA_NO_VMM)
+#if defined(GGML_USE_VMM)
          CUdevice device;
          CU_CHECK(cuDeviceGet(&device, id));
          CU_CHECK(cuDeviceGetAttribute(&device_vmm, CU_DEVICE_ATTRIBUTE_VIRTUAL_MEMORY_MANAGEMENT_SUPPORTED, device));
@@ -164,7 +164,7 @@ static ggml_cuda_device_info ggml_cuda_init() {
              alloc_prop.location.id = id;
              CU_CHECK(cuMemGetAllocationGranularity(&info.devices[id].vmm_granularity, &alloc_prop, CU_MEM_ALLOC_GRANULARITY_RECOMMENDED));
          }
-#endif // !defined(GGML_CUDA_NO_VMM)
+#endif // defined(GGML_USE_VMM)
          info.devices[id].vmm = !!device_vmm;
  
          cudaDeviceProp prop;
@@ -300,7 +300,7 @@ struct ggml_cuda_pool_leg : public ggml_cuda_pool {
  };
  
  // pool with virtual memory
-#if !defined(GGML_CUDA_NO_VMM)
+#if defined(GGML_USE_VMM)
  struct ggml_cuda_pool_vmm : public ggml_cuda_pool {
      static const size_t CUDA_POOL_VMM_MAX_SIZE = 1ull << 35; // 32 GB
  
@@ -408,14 +408,14 @@ struct ggml_cuda_pool_vmm : public ggml_cuda_pool {
          GGML_ASSERT(ptr == (void *) ((char *)(pool_addr) + pool_used));
      }
  };
-#endif // !defined(GGML_CUDA_NO_VMM)
+#endif // defined(GGML_USE_VMM)
  
  std::unique_ptr<ggml_cuda_pool> ggml_backend_cuda_context::new_pool_for_device(int device) {
-#if !defined(GGML_CUDA_NO_VMM)
+#if defined(GGML_USE_VMM)
      if (ggml_cuda_info().devices[device].vmm) {
          return std::unique_ptr<ggml_cuda_pool>(new ggml_cuda_pool_vmm(device));
      }
-#endif // !defined(GGML_CUDA_NO_VMM)
+#endif // defined(GGML_USE_VMM)
      return std::unique_ptr<ggml_cuda_pool>(new ggml_cuda_pool_leg(device));
  }
  
@@ -3250,7 +3250,7 @@ static ggml_backend_feature * ggml_backend_cuda_get_features(ggml_backend_reg_t
          features.push_back({ "FORCE_CUBLAS", "1" });
      #endif
  
-    #ifdef GGML_CUDA_NO_VMM
+    #ifndef GGML_USE_VMM
          features.push_back({ "NO_VMM", "1" });
      #endif
  
diff --git a/ggml/src/ggml-hip/CMakeLists.txt b/ggml/src/ggml-hip/CMakeLists.txt

index 77994a6986bdc13a2e10453e209dc27635f4e229..ecc3bc66d44c0d95a516a155ee8227f879c00215 100644 (file)
--- a/ggml/src/ggml-hip/CMakeLists.txt
+++ b/ggml/src/ggml-hip/CMakeLists.txt
@@ -96,8 +96,8 @@ if (GGML_HIP_GRAPHS)
      add_compile_definitions(GGML_HIP_GRAPHS)
  endif()
  
-if (GGML_CUDA_NO_VMM)
-    add_compile_definitions(GGML_CUDA_NO_VMM)
+if (GGML_HIP_NO_VMM)
+    add_compile_definitions(GGML_HIP_NO_VMM)
  endif()
  
  if (CXX_IS_HIPCC)
author	uvos <redacted>
	Sat, 25 Jan 2025 20:01:12 +0000 (21:01 +0100)
committer	Georgi Gerganov <redacted>
	Mon, 3 Feb 2025 20:00:57 +0000 (22:00 +0200)
ggml/CMakeLists.txt		patch \| blob \| history
ggml/src/ggml-cuda/common.cuh		patch \| blob \| history
ggml/src/ggml-cuda/ggml-cuda.cu		patch \| blob \| history
ggml/src/ggml-hip/CMakeLists.txt		patch \| blob \| history