llama : use n_embd_gqa instead of n_embd to handle llama-2 70B (#2433)

author Rand Xie <redacted>

Fri, 28 Jul 2023 08:42:53 +0000 (01:42 -0700)

committer GitHub <redacted>

Fri, 28 Jul 2023 08:42:53 +0000 (11:42 +0300)
author Rand Xie <redacted>
Fri, 28 Jul 2023 08:42:53 +0000 (01:42 -0700)
committer GitHub <redacted>
Fri, 28 Jul 2023 08:42:53 +0000 (11:42 +0300)
diff --git a/examples/save-load-state/save-load-state.cpp b/examples/save-load-state/save-load-state.cpp

index 4c868850317fe413a84f5c7216f56d7e952787a0..61c71c3589fdf28869adbad4fa22e05c56fb110e 100644 (file)
--- a/examples/save-load-state/save-load-state.cpp
+++ b/examples/save-load-state/save-load-state.cpp
@@ -26,6 +26,7 @@ int main(int argc, char ** argv) {
      auto lparams = llama_context_default_params();
  
      lparams.n_ctx     = params.n_ctx;
+    lparams.n_gqa     = params.n_gqa;
      lparams.seed      = params.seed;
      lparams.f16_kv    = params.memory_f16;
      lparams.use_mmap  = params.use_mmap;
diff --git a/llama.cpp b/llama.cpp

index 9a8ecdcf6f7f1520bb8e1bc776a1bdeb99e94ea3..a4489773f96c5b2f24697df372c6fbd05a1c8f79 100644 (file)
--- a/llama.cpp
+++ b/llama.cpp
@@ -3663,7 +3663,7 @@ size_t llama_copy_state_data(struct llama_context * ctx, uint8_t * dst) {
          const auto & kv_self = ctx->kv_self;
          const auto & hparams = ctx->model.hparams;
          const int    n_layer = hparams.n_layer;
-        const int    n_embd  = hparams.n_embd;
+        const int    n_embd  = hparams.n_embd_gqa();
          const int    n_ctx   = hparams.n_ctx;
  
          const size_t kv_size = kv_self.buf.size;
@@ -3766,7 +3766,7 @@ size_t llama_set_state_data(struct llama_context * ctx, uint8_t * src) {
          const auto & kv_self = ctx->kv_self;
          const auto & hparams = ctx->model.hparams;
          const int    n_layer = hparams.n_layer;
-        const int    n_embd  = hparams.n_embd;
+        const int    n_embd  = hparams.n_embd_gqa();
          const int    n_ctx   = hparams.n_ctx;
  
          size_t kv_size;
author	Rand Xie <redacted>
	Fri, 28 Jul 2023 08:42:53 +0000 (01:42 -0700)
committer	GitHub <redacted>
	Fri, 28 Jul 2023 08:42:53 +0000 (11:42 +0300)
examples/save-load-state/save-load-state.cpp		patch \| blob \| history
llama.cpp		patch \| blob \| history