llama-bench : add --no-warmup flag (#14224) (#14270)

author bashayer hijji <redacted>

Thu, 19 Jun 2025 10:24:12 +0000 (13:24 +0300)

committer GitHub <redacted>

Thu, 19 Jun 2025 10:24:12 +0000 (12:24 +0200)
author bashayer hijji <redacted>
Thu, 19 Jun 2025 10:24:12 +0000 (13:24 +0300)
committer GitHub <redacted>
Thu, 19 Jun 2025 10:24:12 +0000 (12:24 +0200)
diff --git a/tools/llama-bench/llama-bench.cpp b/tools/llama-bench/llama-bench.cpp

index e59d61f19567511dcd51f0bb895f1d1a70ca3bb5..b80e984d0245b97009bbbb41e8cb6dbcc769fb26 100644 (file)
--- a/tools/llama-bench/llama-bench.cpp
+++ b/tools/llama-bench/llama-bench.cpp
@@ -267,6 +267,7 @@ struct cmd_params {
      int                              delay;
      bool                             verbose;
      bool                             progress;
+    bool                             no_warmup;
      output_formats                   output_format;
      output_formats                   output_format_stderr;
  };
@@ -303,6 +304,7 @@ static const cmd_params cmd_params_defaults = {
      /* delay                */ 0,
      /* verbose              */ false,
      /* progress             */ false,
+    /* no_warmup            */ false,
      /* output_format        */ MARKDOWN,
      /* output_format_stderr */ NONE,
  };
@@ -325,6 +327,7 @@ static void print_usage(int /* argc */, char ** argv) {
             output_format_str(cmd_params_defaults.output_format_stderr));
      printf("  -v, --verbose                             verbose output\n");
      printf("  --progress                                print test progress indicators\n");
+    printf("  --no-warmup                               skip warmup runs before benchmarking\n");
      printf("\n");
      printf("test parameters:\n");
      printf("  -m, --model <filename>                    (default: %s)\n", join(cmd_params_defaults.model, ",").c_str());
@@ -425,6 +428,7 @@ static cmd_params parse_cmd_params(int argc, char ** argv) {
      params.prio                 = cmd_params_defaults.prio;
      params.delay                = cmd_params_defaults.delay;
      params.progress             = cmd_params_defaults.progress;
+    params.no_warmup            = cmd_params_defaults.no_warmup;
  
      for (int i = 1; i < argc; i++) {
          arg = argv[i];
@@ -798,6 +802,8 @@ static cmd_params parse_cmd_params(int argc, char ** argv) {
                  params.verbose = true;
              } else if (arg == "--progress") {
                  params.progress = true;
+            } else if (arg == "--no-warmup") {
+                params.no_warmup = true;
              } else {
                  invalid_param = true;
                  break;
@@ -1925,25 +1931,27 @@ int main(int argc, char ** argv) {
          llama_attach_threadpool(ctx, threadpool, NULL);
  
          // warmup run
-        if (t.n_prompt > 0) {
-            if (params.progress) {
-                fprintf(stderr, "llama-bench: benchmark %d/%zu: warmup prompt run\n", params_idx, params_count);
-            }
-            //test_prompt(ctx, std::min(t.n_batch, std::min(t.n_prompt, 32)), 0, t.n_batch, t.n_threads);
-            bool res = test_prompt(ctx, t.n_prompt, t.n_batch, t.n_threads);
-            if (!res) {
-                fprintf(stderr, "%s: error: failed to run prompt warmup\n", __func__);
-                exit(1);
-            }
-        }
-        if (t.n_gen > 0) {
-            if (params.progress) {
-                fprintf(stderr, "llama-bench: benchmark %d/%zu: warmup generation run\n", params_idx, params_count);
+        if (!params.no_warmup) {
+            if (t.n_prompt > 0) {
+                if (params.progress) {
+                    fprintf(stderr, "llama-bench: benchmark %d/%zu: warmup prompt run\n", params_idx, params_count);
+                }
+                //test_prompt(ctx, std::min(t.n_batch, std::min(t.n_prompt, 32)), 0, t.n_batch, t.n_threads);
+                bool res = test_prompt(ctx, t.n_prompt, t.n_batch, t.n_threads);
+                if (!res) {
+                    fprintf(stderr, "%s: error: failed to run prompt warmup\n", __func__);
+                    exit(1);
+                }
              }
-            bool res = test_gen(ctx, 1, t.n_threads);
-            if (!res) {
-                fprintf(stderr, "%s: error: failed to run gen warmup\n", __func__);
-                exit(1);
+            if (t.n_gen > 0) {
+                if (params.progress) {
+                    fprintf(stderr, "llama-bench: benchmark %d/%zu: warmup generation run\n", params_idx, params_count);
+                }
+                bool res = test_gen(ctx, 1, t.n_threads);
+                if (!res) {
+                    fprintf(stderr, "%s: error: failed to run gen warmup\n", __func__);
+                    exit(1);
+                }
              }
          }
author	bashayer hijji <redacted>
	Thu, 19 Jun 2025 10:24:12 +0000 (13:24 +0300)
committer	GitHub <redacted>
	Thu, 19 Jun 2025 10:24:12 +0000 (12:24 +0200)