llama-bench: print `-n-cpu-moe` when offloaded layers > 1 (#20984)

author Aman Gupta <redacted>

Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)

committer GitHub <redacted>

Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)
author Aman Gupta <redacted>
Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)
committer GitHub <redacted>
Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)
diff --git a/tools/llama-bench/llama-bench.cpp b/tools/llama-bench/llama-bench.cpp

index 25beb369e630f6998a0d43644037793ce0e15aad..0a23f698537c3cfc9c857ff49ef6473e0c981fb4 100644 (file)
--- a/tools/llama-bench/llama-bench.cpp
+++ b/tools/llama-bench/llama-bench.cpp
@@ -1807,7 +1807,7 @@ struct markdown_printer : public printer {
          if (!is_cpu_backend) {
              fields.emplace_back("n_gpu_layers");
          }
-        if (params.n_cpu_moe.size() > 1) {
+        if (params.n_cpu_moe.size() > 1 || params.n_cpu_moe != cmd_params_defaults.n_cpu_moe) {
              fields.emplace_back("n_cpu_moe");
          }
          if (params.n_threads.size() > 1 || params.n_threads != cmd_params_defaults.n_threads || is_cpu_backend) {
author	Aman Gupta <redacted>
	Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)
committer	GitHub <redacted>
	Wed, 25 Mar 2026 13:17:27 +0000 (21:17 +0800)