common : change default parameters to pre-#1126 (#1223)

author Georgi Gerganov <redacted>

Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)

committer GitHub <redacted>

Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)
author Georgi Gerganov <redacted>
Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)
committer GitHub <redacted>
Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)
diff --git a/examples/common.h b/examples/common.h

index 14e6b1ba7c113563d7eeacee752308c978cbfce3..fce1d42a9da7097b357d3b7e7801bf41a00d4b1e 100644 (file)
--- a/examples/common.h
+++ b/examples/common.h
@@ -17,7 +17,7 @@
  struct gpt_params {
      int32_t seed          = -1;   // RNG seed
      int32_t n_threads     = std::min(4, (int32_t) std::thread::hardware_concurrency());
-    int32_t n_predict     = 128;  // new tokens to predict
+    int32_t n_predict     = -1;   // new tokens to predict
      int32_t n_parts       = -1;   // amount of model parts (-1 = determine from model dimensions)
      int32_t n_ctx         = 512;  // context size
      int32_t n_batch       = 512;  // batch size for prompt processing (must be >=32 to use BLAS)
@@ -25,18 +25,18 @@ struct gpt_params {
  
      // sampling parameters
      std::unordered_map<llama_token, float> logit_bias; // logit bias for specific tokens
-    int32_t top_k = 0;              // <= 0 to use vocab size
-    float   top_p = 1.0f;           // 1.0 = disabled
-    float   tfs_z = 1.0f;           // 1.0 = disabled
-    float   typical_p = 1.0f;       // 1.0 = disabled
-    float   temp = 1.0f;            // 1.0 = disabled
-    float   repeat_penalty  = 1.0f; // 1.0 = disabled
-    int32_t repeat_last_n = -1;     // last n tokens to penalize (0 = disable penalty, -1 = context size)
-    float   frequency_penalty = 0.0f; // 0.0 = disabled
-    float   presence_penalty = 0.0f;  // 0.0 = disabled
-    int     mirostat = 0;           // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0
-    float   mirostat_tau = 5.0f;    // target entropy
-    float   mirostat_eta = 0.1f;    // learning rate
+    int32_t top_k             = 40;    // <= 0 to use vocab size
+    float   top_p             = 0.95f; // 1.0 = disabled
+    float   tfs_z             = 1.00f; // 1.0 = disabled
+    float   typical_p         = 1.00f; // 1.0 = disabled
+    float   temp              = 0.80f; // 1.0 = disabled
+    float   repeat_penalty    = 1.10f; // 1.0 = disabled
+    int32_t repeat_last_n     = 64;    // last n tokens to penalize (0 = disable penalty, -1 = context size)
+    float   frequency_penalty = 0.00f; // 0.0 = disabled
+    float   presence_penalty  = 0.00f; // 0.0 = disabled
+    int     mirostat          = 0;     // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0
+    float   mirostat_tau      = 5.00f; // target entropy
+    float   mirostat_eta      = 0.10f; // learning rate
  
      std::string model  = "models/lamma-7B/ggml-model.bin"; // model path
      std::string prompt = "";
diff --git a/examples/main/main.cpp b/examples/main/main.cpp

index 674920b8a04c53cdb9955c417b7051dee15a76d8..990d0fa023c63aabdde4cd016b741a4178c2e868 100644 (file)
--- a/examples/main/main.cpp
+++ b/examples/main/main.cpp
@@ -387,19 +387,19 @@ int main(int argc, char ** argv) {
  
          if ((int) embd_inp.size() <= n_consumed && !is_interacting) {
              // out of user input, sample next token
-            const float   temp           = params.temp;
-            const int32_t top_k          = params.top_k <= 0 ? llama_n_vocab(ctx) : params.top_k;
-            const float   top_p          = params.top_p;
-            const float   tfs_z          = params.tfs_z;
-            const float   typical_p      = params.typical_p;
-            const int32_t repeat_last_n  = params.repeat_last_n < 0 ? n_ctx : params.repeat_last_n;
-            const float   repeat_penalty = params.repeat_penalty;
-            const float   alpha_presence = params.presence_penalty;
+            const float   temp            = params.temp;
+            const int32_t top_k           = params.top_k <= 0 ? llama_n_vocab(ctx) : params.top_k;
+            const float   top_p           = params.top_p;
+            const float   tfs_z           = params.tfs_z;
+            const float   typical_p       = params.typical_p;
+            const int32_t repeat_last_n   = params.repeat_last_n < 0 ? n_ctx : params.repeat_last_n;
+            const float   repeat_penalty  = params.repeat_penalty;
+            const float   alpha_presence  = params.presence_penalty;
              const float   alpha_frequency = params.frequency_penalty;
-            const int     mirostat       = params.mirostat;
-            const float   mirostat_tau   = params.mirostat_tau;
-            const float   mirostat_eta   = params.mirostat_eta;
-            const bool    penalize_nl   = params.penalize_nl;
+            const int     mirostat        = params.mirostat;
+            const float   mirostat_tau    = params.mirostat_tau;
+            const float   mirostat_eta    = params.mirostat_eta;
+            const bool    penalize_nl     = params.penalize_nl;
  
              // optionally save the session on first sample (for faster prompt loading next time)
              if (!path_session.empty() && need_to_save_session) {
author	Georgi Gerganov <redacted>
	Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)
committer	GitHub <redacted>
	Sat, 29 Apr 2023 06:51:06 +0000 (09:51 +0300)
examples/common.h		patch \| blob \| history
examples/main/main.cpp		patch \| blob \| history