Server: Don't ignore llama.cpp params (#8754)

author ardfork <redacted>

Sun, 4 Aug 2024 18:16:23 +0000 (18:16 +0000)

committer GitHub <redacted>

Sun, 4 Aug 2024 18:16:23 +0000 (20:16 +0200)
author ardfork <redacted>
Sun, 4 Aug 2024 18:16:23 +0000 (18:16 +0000)
committer GitHub <redacted>
Sun, 4 Aug 2024 18:16:23 +0000 (20:16 +0200)
diff --git a/examples/server/server.cpp b/examples/server/server.cpp

index 7813a2957d6bcacdf8e591b850728e1676d17c48..d5f131d9beb1389fb8255988e6a4979dca69eb6f 100644 (file)
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -900,7 +900,7 @@ struct server_context {
  
          slot.params.stream             = json_value(data, "stream",            false);
          slot.params.cache_prompt       = json_value(data, "cache_prompt",      false);
-        slot.params.n_predict          = json_value(data, "n_predict",         default_params.n_predict);
+        slot.params.n_predict          = json_value(data, "n_predict",         json_value(data, "max_tokens", default_params.n_predict));
          slot.sparams.top_k             = json_value(data, "top_k",             default_sparams.top_k);
          slot.sparams.top_p             = json_value(data, "top_p",             default_sparams.top_p);
          slot.sparams.min_p             = json_value(data, "min_p",             default_sparams.min_p);
diff --git a/examples/server/utils.hpp b/examples/server/utils.hpp

index db6b3b74d1dd2fe3395dc5faeb3b4a630c3a5b10..e6a1f069723ec5f33a15325df4688a2e4a175b36 100644 (file)
--- a/examples/server/utils.hpp
+++ b/examples/server/utils.hpp
@@ -355,24 +355,6 @@ static json oaicompat_completion_params_parse(
  
      llama_params["__oaicompat"] = true;
  
-    // Map OpenAI parameters to llama.cpp parameters
-    //
-    // For parameters that are defined by the OpenAI documentation (e.g.
-    // temperature), we explicitly specify OpenAI's intended default; we
-    // need to do that because sometimes OpenAI disagrees with llama.cpp
-    //
-    // https://platform.openai.com/docs/api-reference/chat/create
-    llama_sampling_params default_sparams;
-    llama_params["model"]             = json_value(body,   "model",             std::string("unknown"));
-    llama_params["frequency_penalty"] = json_value(body,   "frequency_penalty", 0.0);
-    llama_params["logit_bias"]        = json_value(body,   "logit_bias",        json::object());
-    llama_params["n_predict"]         = json_value(body,   "max_tokens",        -1);
-    llama_params["presence_penalty"]  = json_value(body,   "presence_penalty",  0.0);
-    llama_params["seed"]              = json_value(body,   "seed",              LLAMA_DEFAULT_SEED);
-    llama_params["stream"]            = json_value(body,   "stream",            false);
-    llama_params["temperature"]       = json_value(body,   "temperature",       1.0);
-    llama_params["top_p"]             = json_value(body,   "top_p",             1.0);
-
      // Apply chat template to the list of messages
      llama_params["prompt"] = format_chat(model, chat_template, body.at("messages"));
author	ardfork <redacted>
	Sun, 4 Aug 2024 18:16:23 +0000 (18:16 +0000)
committer	GitHub <redacted>
	Sun, 4 Aug 2024 18:16:23 +0000 (20:16 +0200)
examples/server/server.cpp		patch \| blob \| history
examples/server/utils.hpp		patch \| blob \| history