ggml : add ggml_gelu_erf() CUDA kernel (llama/13719)

author Xuan-Son Nguyen <redacted>

Sat, 24 May 2025 11:06:47 +0000 (13:06 +0200)

committer Georgi Gerganov <redacted>

Tue, 27 May 2025 15:03:00 +0000 (18:03 +0300)
author Xuan-Son Nguyen <redacted>
Sat, 24 May 2025 11:06:47 +0000 (13:06 +0200)
committer Georgi Gerganov <redacted>
Tue, 27 May 2025 15:03:00 +0000 (18:03 +0300)
diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu

index 02dc8c12dbd8c89b6a759963e7f518c5a56d89c4..c442a64924303146040aa58016d59482d16b2363 100644 (file)
--- a/ggml/src/ggml-cuda/ggml-cuda.cu
+++ b/ggml/src/ggml-cuda/ggml-cuda.cu
@@ -2192,6 +2192,9 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
                  case GGML_UNARY_OP_SILU:
                      ggml_cuda_op_silu(ctx, dst);
                      break;
+                case GGML_UNARY_OP_GELU_ERF:
+                    ggml_cuda_op_gelu_erf(ctx, dst);
+                    break;
                  case GGML_UNARY_OP_GELU_QUICK:
                      ggml_cuda_op_gelu_quick(ctx, dst);
                      break;
@@ -2977,6 +2980,7 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
                  case GGML_UNARY_OP_SIGMOID:
                  case GGML_UNARY_OP_HARDSIGMOID:
                  case GGML_UNARY_OP_HARDSWISH:
+                case GGML_UNARY_OP_GELU_ERF:
                  case GGML_UNARY_OP_GELU_QUICK:
                  case GGML_UNARY_OP_TANH:
                  case GGML_UNARY_OP_EXP:
diff --git a/ggml/src/ggml-cuda/unary.cu b/ggml/src/ggml-cuda/unary.cu

index ec5773e01637eddf550ba92e573d8999df85896f..2c0375fbe3cf6156eb68050079da01e2ec1d23a3 100644 (file)
--- a/ggml/src/ggml-cuda/unary.cu
+++ b/ggml/src/ggml-cuda/unary.cu
@@ -23,6 +23,12 @@ static __device__ __forceinline__ float op_gelu(float x) {
      return 0.5f*x*(1.0f + tanhf(SQRT_2_OVER_PI*x*(1.0f + GELU_COEF_A*x*x)));
  }
  
+static __device__ __forceinline__ float op_gelu_erf(float x) {
+    const float SQRT_2_INV = 0.70710678118654752440084436210484f;
+
+    return 0.5f*x*(1.0f + erff(x*SQRT_2_INV));
+}
+
  static __device__ __forceinline__ float op_gelu_quick(float x) {
      const float GELU_QUICK_COEF = -1.702f;
  
@@ -134,6 +140,10 @@ void ggml_cuda_op_gelu(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
      ggml_cuda_op_unary<op_gelu>(ctx, dst);
  }
  
+void ggml_cuda_op_gelu_erf(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
+    ggml_cuda_op_unary<op_gelu_erf>(ctx, dst);
+}
+
  void ggml_cuda_op_gelu_quick(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
      ggml_cuda_op_unary<op_gelu_quick>(ctx, dst);
  }
diff --git a/ggml/src/ggml-cuda/unary.cuh b/ggml/src/ggml-cuda/unary.cuh

index 940a1feed9a9c411e2a2cedecf6e419f663890e5..6686fc17e9193d7938c323d45599a7772726ff15 100644 (file)
--- a/ggml/src/ggml-cuda/unary.cuh
+++ b/ggml/src/ggml-cuda/unary.cuh
@@ -30,6 +30,8 @@ void ggml_cuda_op_silu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
  
  void ggml_cuda_op_silu_back(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
  
+void ggml_cuda_op_gelu_erf(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
+
  void ggml_cuda_op_gelu_quick(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
  
  void ggml_cuda_op_tanh(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
author	Xuan-Son Nguyen <redacted>
	Sat, 24 May 2025 11:06:47 +0000 (13:06 +0200)
committer	Georgi Gerganov <redacted>
	Tue, 27 May 2025 15:03:00 +0000 (18:03 +0300)
ggml/src/ggml-cuda/ggml-cuda.cu		patch \| blob \| history
ggml/src/ggml-cuda/unary.cu		patch \| blob \| history
ggml/src/ggml-cuda/unary.cuh		patch \| blob \| history