cuda: fix vmm oom issue on NVIDIA AGX Orin (llama/4687)

author hydai <redacted>

Fri, 29 Dec 2023 16:31:19 +0000 (00:31 +0800)

committer Georgi Gerganov <redacted>

Wed, 3 Jan 2024 12:43:51 +0000 (14:43 +0200)
author hydai <redacted>
Fri, 29 Dec 2023 16:31:19 +0000 (00:31 +0800)
committer Georgi Gerganov <redacted>
Wed, 3 Jan 2024 12:43:51 +0000 (14:43 +0200)
diff --git a/ggml-cuda.cu b/ggml-cuda.cu

index 9a9effcf58932b7d06f4dfdb1ea3bf0cdeefac80..09585b07d90514f1a01c27e59757d80c940fea93 100644 (file)
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -6662,7 +6662,7 @@ static void ggml_cuda_pool_free_leg(int device, void * ptr, size_t size) {
  // pool with virtual memory
  static CUdeviceptr g_cuda_pool_addr[GGML_CUDA_MAX_DEVICES] = {0};
  static size_t g_cuda_pool_used[GGML_CUDA_MAX_DEVICES] = {0};
-static const size_t CUDA_POOL_VMM_MAX_SIZE = 1ull << 36; // 64 GB
+static const size_t CUDA_POOL_VMM_MAX_SIZE = 1ull << 35; // 32 GB
  
  static void * ggml_cuda_pool_malloc_vmm(int device, size_t size, size_t * actual_size) {
      scoped_spin_lock lock(g_cuda_pool_lock);
author	hydai <redacted>
	Fri, 29 Dec 2023 16:31:19 +0000 (00:31 +0800)
committer	Georgi Gerganov <redacted>
	Wed, 3 Jan 2024 12:43:51 +0000 (14:43 +0200)