metal : use FA-vec kernel up to batch size 20 (#13496)

author Georgi Gerganov <redacted>

Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)

committer GitHub <redacted>

Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)
author Georgi Gerganov <redacted>
Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)
committer GitHub <redacted>
Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)
diff --git a/ggml/src/ggml-metal/ggml-metal.m b/ggml/src/ggml-metal/ggml-metal.m

index 576f9581bdaee40c4bcb7c1677ffdfaaf6b1eb00..f4b3d9cf5929c4d9542e7323b2f092840d6c940f 100644 (file)
--- a/ggml/src/ggml-metal/ggml-metal.m
+++ b/ggml/src/ggml-metal/ggml-metal.m
@@ -4358,7 +4358,7 @@ static bool ggml_metal_encode_node(
                  // TODO: add vec kernels for (ne00%64 == 0) and maybe also for (ne00%32 == 0)
                  //       for now avoiding mainly to keep the number of templates/kernels a bit lower
                  //       these are now trivial to add after: https://github.com/ggml-org/llama.cpp/pull/12612
-                if (ne01 >= 4 || (ne00%128 != 0 && ne00 != 96 && ne00 != 192 && ne00 != 576)) {
+                if (ne01 >= 20 || (ne00%128 != 0 && ne00 != 96 && ne00 != 192 && ne00 != 576)) {
                      switch (src1->type) {
                          case GGML_TYPE_F16:
                              {
author	Georgi Gerganov <redacted>
	Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)
committer	GitHub <redacted>
	Tue, 13 May 2025 15:04:39 +0000 (18:04 +0300)