add amx kernel for gemm (llama/8998)

author Ma Mingfei <redacted>

Fri, 18 Oct 2024 05:34:36 +0000 (13:34 +0800)

committer Georgi Gerganov <redacted>

Fri, 1 Nov 2024 08:19:05 +0000 (10:19 +0200)
author Ma Mingfei <redacted>
Fri, 18 Oct 2024 05:34:36 +0000 (13:34 +0800)
committer Georgi Gerganov <redacted>
Fri, 1 Nov 2024 08:19:05 +0000 (10:19 +0200)
diff --git a/ggml/CMakeLists.txt b/ggml/CMakeLists.txt

index 89fdf9d1c11eda7639549c2a2adf7721f32285d8..cfa6e3f70e4a3bb338cff4330c8c2977de97b756 100644 (file)
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@@ -99,6 +99,9 @@ option(GGML_AVX512      "ggml: enable AVX512"           OFF)
  option(GGML_AVX512_VBMI "ggml: enable AVX512-VBMI"      OFF)
  option(GGML_AVX512_VNNI "ggml: enable AVX512-VNNI"      OFF)
  option(GGML_AVX512_BF16 "ggml: enable AVX512-BF16"      OFF)
+option(GGML_AMX_TILE    "ggml: enable AMX-TILE"         OFF)
+option(GGML_AMX_INT8    "ggml: enable AMX-INT8"         OFF)
+option(GGML_AMX_BF16    "ggml: enable AMX-BF16"         OFF)
  option(GGML_FMA         "ggml: enable FMA"              ${INS_ENB})
  if (NOT MSVC)
      option(GGML_F16C    "ggml: enable F16C"             ${INS_ENB}) # in MSVC F16C is implied with AVX2/AVX512
@@ -158,6 +161,7 @@ set   (GGML_METAL_MACOSX_VERSION_MIN "" CACHE STRING
  set   (GGML_METAL_STD "" CACHE STRING       "ggml: metal standard version (-std flag)")
  option(GGML_OPENMP                          "ggml: use OpenMP"                                ON)
  option(GGML_RPC                             "ggml: use RPC"                                   OFF)
+option(GGML_AMX                             "ggml: use AMX"                                   OFF)
  option(GGML_SYCL                            "ggml: use SYCL"                                  OFF)
  option(GGML_SYCL_F16                        "ggml: use 16 bit floats for sycl calculations"   OFF)
  set   (GGML_SYCL_TARGET "INTEL" CACHE STRING
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h

index 14f4eb9bd128917522c911c6ed2a971b427d1d2e..e5862246c8c854d122b06e7d891454334faf3ba5 100644 (file)
--- a/ggml/include/ggml.h
+++ b/ggml/include/ggml.h
@@ -2489,6 +2489,7 @@ extern "C" {
      GGML_API int ggml_cpu_has_avx512_vbmi(void);
      GGML_API int ggml_cpu_has_avx512_vnni(void);
      GGML_API int ggml_cpu_has_avx512_bf16(void);
+    GGML_API int ggml_cpu_has_amx_int8   (void);
      GGML_API int ggml_cpu_has_fma        (void);
      GGML_API int ggml_cpu_has_neon       (void);
      GGML_API int ggml_cpu_has_sve        (void);
diff --git a/ggml/src/CMakeLists.txt b/ggml/src/CMakeLists.txt

index 676f85a369bc6ef7efaa1ee8171fb9375e080193..aa405e4d0fb1a42269b9328294abb52ed67851d4 100644 (file)
--- a/ggml/src/CMakeLists.txt
+++ b/ggml/src/CMakeLists.txt
@@ -267,6 +267,26 @@ if (GGML_LLAMAFILE)
      set(GGML_SOURCES_LLAMAFILE llamafile/sgemm.cpp)
  endif()
  
+if (GGML_AMX)
+    if (CMAKE_COMPILER_IS_GNUCC AND CMAKE_CXX_COMPILER_VERSION VERSION_GREATER 11.0)
+    else()
+        set(GGML_AMX OFF)
+        message(WARNING "AMX requires gcc version > 11.0. Turning off GGML_AMX.")
+    endif()
+
+    if (GGML_AMX)
+        message(STATUS "Using AMX")
+
+        list(APPEND GGML_CDEF_PUBLIC GGML_USE_AMX)
+
+        file(GLOB   GGML_HEADERS_AMX "ggml-amx/*.h")
+        list(APPEND GGML_HEADERS_AMX "../include/ggml-amx.h")
+
+        file(GLOB   GGML_SOURCES_AMX "ggml-amx/*.cpp")
+        list(APPEND GGML_SOURCES_AMX "ggml-amx.cpp")
+    endif()
+endif()
+
  if (GGML_CUDA)
      cmake_minimum_required(VERSION 3.18)  # for CMAKE_CUDA_ARCHITECTURES
  
@@ -1180,6 +1200,18 @@ elseif (CMAKE_OSX_ARCHITECTURES STREQUAL "x86_64" OR CMAKE_GENERATOR_PLATFORM_LW
                  add_compile_definitions($<$<COMPILE_LANGUAGE:C>:__AVX512BF16__>)
                  add_compile_definitions($<$<COMPILE_LANGUAGE:CXX>:__AVX512BF16__>)
              endif()
+            if (GGML_AMX_TILE)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:C>:__AMX_TILE__>)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:CXX>:__AMX_TILE__>)
+            endif()
+            if (GGML_AMX_INT8)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:C>:__AMX_INT8__>)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:CXX>:__AMX_INT8__>)
+            endif()
+            if (GGML_AMX_BF16)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:C>:__AMX_BF16__>)
+                add_compile_definitions($<$<COMPILE_LANGUAGE:CXX>:__AMX_BF16__>)
+            endif()
          elseif (GGML_AVX2)
              list(APPEND ARCH_FLAGS /arch:AVX2)
          elseif (GGML_AVX)
@@ -1215,6 +1247,15 @@ elseif (CMAKE_OSX_ARCHITECTURES STREQUAL "x86_64" OR CMAKE_GENERATOR_PLATFORM_LW
          if (GGML_AVX512_BF16)
              list(APPEND ARCH_FLAGS -mavx512bf16)
          endif()
+        if (GGML_AMX_TILE)
+            list(APPEND ARCH_FLAGS -mamx-tile)
+        endif()
+        if (GGML_AMX_INT8)
+            list(APPEND ARCH_FLAGS -mamx-int8)
+        endif()
+        if (GGML_AMX_BF16)
+            list(APPEND ARCH_FLAGS -mamx-bf16)
+        endif()
      endif()
  elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64")
      message(STATUS "PowerPC detected")
@@ -1340,6 +1381,7 @@ add_library(ggml
              ${GGML_SOURCES_ROCM}      ${GGML_HEADERS_ROCM}
              ${GGML_SOURCES_BLAS}      ${GGML_HEADERS_BLAS}
              ${GGML_SOURCES_LLAMAFILE} ${GGML_HEADERS_LLAMAFILE}
+            ${GGML_SOURCES_AMX}       ${GGML_HEADERS_AMX}
              ${GGML_SOURCES_CANN}      ${GGML_HEADERS_CANN}
              ggml-aarch64.c            ggml-aarch64.h
              )
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp

index a3bc79a46b871150ef4a42dac400a0d9f08b0f41..1c17dde30ae0d33b5d37fbdaeb85fb1a33ab4b88 100644 (file)
--- a/ggml/src/ggml-backend.cpp
+++ b/ggml/src/ggml-backend.cpp
@@ -329,7 +329,6 @@ bool ggml_backend_supports_buft(ggml_backend_t backend, ggml_backend_buffer_type
      if (backend->device) {
          return ggml_backend_dev_supports_buft(backend->device, buft);
      }
-
      return backend->iface.supports_buft(backend, buft);
  }
  
@@ -550,6 +549,14 @@ void * ggml_backend_reg_get_proc_address(ggml_backend_reg_t reg, const char * na
  #include "ggml-rpc.h"
  #endif
  
+#ifndef __AMX_INT8__
+#undef GGML_USE_AMX
+#endif
+
+#ifdef GGML_USE_AMX
+#  include "ggml-amx.h"
+#endif
+
  struct ggml_backend_registry {
      std::vector<ggml_backend_reg_t> backends;
      std::vector<ggml_backend_dev_t> devices;
@@ -570,6 +577,9 @@ struct ggml_backend_registry {
  #ifdef GGML_USE_RPC
          register_backend(ggml_backend_rpc_reg());
  #endif
+#ifdef GGML_USE_AMX
+        register_backend(ggml_backend_amx_reg());
+#endif
  
          // TODO: sycl, kompute, cann
  
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c

index bb8415bd6f3246de1c6374a3ae4c7882557d11c5..649b10947fe3c149f310b3388b87f62903d38719 100644 (file)
--- a/ggml/src/ggml.c
+++ b/ggml/src/ggml.c
@@ -23219,6 +23219,14 @@ int ggml_cpu_has_avx512_bf16(void) {
  #endif
  }
  
+int ggml_cpu_has_amx_int8(void) {
+#if defined(__AMX_INT8__)
+    return 1;
+#else
+    return 0;
+#endif
+}
+
  int ggml_cpu_has_fma(void) {
  #if defined(__FMA__)
      return 1;
author	Ma Mingfei <redacted>
	Fri, 18 Oct 2024 05:34:36 +0000 (13:34 +0800)
committer	Georgi Gerganov <redacted>
	Fri, 1 Nov 2024 08:19:05 +0000 (10:19 +0200)
ggml/CMakeLists.txt		patch \| blob \| history
ggml/include/ggml.h		patch \| blob \| history
ggml/src/CMakeLists.txt		patch \| blob \| history
ggml/src/ggml-backend.cpp		patch \| blob \| history
ggml/src/ggml.c		patch \| blob \| history