cmake : fix CMake requirement for CUDA (#7821)

author Jared Van Bortel <redacted>

Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)

committer GitHub <redacted>

Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)
author Jared Van Bortel <redacted>
Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)
committer GitHub <redacted>
Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)
diff --git a/CMakeLists.txt b/CMakeLists.txt

index b1d6afbbcfa8db9cb57b2df3b78d19701f74c4ad..8e280f87d9dd101cd893b98a8f2b8f718e6015aa 100644 (file)
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -402,12 +402,26 @@ if (LLAMA_CUBLAS)
  endif()
  
  if (LLAMA_CUDA)
-    cmake_minimum_required(VERSION 3.17)
+    cmake_minimum_required(VERSION 3.18)  # for CMAKE_CUDA_ARCHITECTURES
  
      find_package(CUDAToolkit)
      if (CUDAToolkit_FOUND)
          message(STATUS "CUDA found")
  
+        if (NOT DEFINED CMAKE_CUDA_ARCHITECTURES)
+            # 52 == lowest CUDA 12 standard
+            # 60 == f16 CUDA intrinsics
+            # 61 == integer CUDA intrinsics
+            # 70 == compute capability at which unrolling a loop in mul_mat_q kernels is faster
+            if (LLAMA_CUDA_F16 OR LLAMA_CUDA_DMMV_F16)
+                set(CMAKE_CUDA_ARCHITECTURES "60;61;70") # needed for f16 CUDA intrinsics
+            else()
+                set(CMAKE_CUDA_ARCHITECTURES "52;61;70") # lowest CUDA 12 standard + lowest for integer intrinsics
+                #set(CMAKE_CUDA_ARCHITECTURES "OFF") # use this to compile much faster, but only F16 models work
+            endif()
+        endif()
+        message(STATUS "Using CUDA architectures: ${CMAKE_CUDA_ARCHITECTURES}")
+
          enable_language(CUDA)
  
          set(GGML_HEADERS_CUDA ggml-cuda.h)
@@ -472,21 +486,6 @@ if (LLAMA_CUDA)
          else()
              set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} CUDA::cuda_driver) # required by cuDeviceGetAttribute(), cuMemGetAllocationGranularity(...), ...
          endif()
-
-    if (NOT DEFINED CMAKE_CUDA_ARCHITECTURES)
-        # 52 == lowest CUDA 12 standard
-        # 60 == f16 CUDA intrinsics
-        # 61 == integer CUDA intrinsics
-        # 70 == compute capability at which unrolling a loop in mul_mat_q kernels is faster
-        if (LLAMA_CUDA_F16 OR LLAMA_CUDA_DMMV_F16)
-            set(CMAKE_CUDA_ARCHITECTURES "60;61;70") # needed for f16 CUDA intrinsics
-        else()
-            set(CMAKE_CUDA_ARCHITECTURES "52;61;70") # lowest CUDA 12 standard + lowest for integer intrinsics
-            #set(CMAKE_CUDA_ARCHITECTURES "") # use this to compile much faster, but only F16 models work
-        endif()
-    endif()
-    message(STATUS "Using CUDA architectures: ${CMAKE_CUDA_ARCHITECTURES}")
-
      else()
          message(WARNING "CUDA not found")
      endif()
author	Jared Van Bortel <redacted>
	Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)
committer	GitHub <redacted>
	Mon, 10 Jun 2024 22:32:10 +0000 (18:32 -0400)