metal : disable graph concurrency optimization due to bug (#2413)

author Georgi Gerganov <redacted>

Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)

committer Georgi Gerganov <redacted>

Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)
author Georgi Gerganov <redacted>
Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)
committer Georgi Gerganov <redacted>
Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)
diff --git a/llama.cpp b/llama.cpp

index 024af99a563ac2f4a75259a0516d7ac46a98c8b0..9a8ecdcf6f7f1520bb8e1bc776a1bdeb99e94ea3 100644 (file)
--- a/llama.cpp
+++ b/llama.cpp
@@ -1722,9 +1722,10 @@ static bool llama_eval_internal(
  
  #ifdef GGML_USE_METAL
      if (lctx.ctx_metal && N == 1) {
-        if (!ggml_metal_if_optimized(lctx.ctx_metal)) {
-            ggml_metal_graph_find_concurrency(lctx.ctx_metal, gf);
-        }
+        // TODO: disabled until #2413 is resolved
+        //if (!ggml_metal_if_optimized(lctx.ctx_metal)) {
+        //    ggml_metal_graph_find_concurrency(lctx.ctx_metal, gf);
+        //}
          ggml_metal_set_n_cb     (lctx.ctx_metal, n_threads);
          ggml_metal_graph_compute(lctx.ctx_metal, gf);
          ggml_metal_get_tensor   (lctx.ctx_metal, cur);
author	Georgi Gerganov <redacted>
	Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)
committer	Georgi Gerganov <redacted>
	Thu, 27 Jul 2023 08:00:54 +0000 (11:00 +0300)