llama : use n_vocab to differentiate between mistral 7B and llama3 8B (#7200)

author slaren <redacted>

Fri, 10 May 2024 12:28:01 +0000 (14:28 +0200)

committer GitHub <redacted>

Fri, 10 May 2024 12:28:01 +0000 (14:28 +0200)
author slaren <redacted>
Fri, 10 May 2024 12:28:01 +0000 (14:28 +0200)
committer GitHub <redacted>
Fri, 10 May 2024 12:28:01 +0000 (14:28 +0200)
diff --git a/llama.cpp b/llama.cpp

index e7b3fd8b433b4b8e261d936943043dcd2bcaec6c..2f1123d4e16788ccebeaf1cf73a49eca9e74f765 100644 (file)
--- a/llama.cpp
+++ b/llama.cpp
@@ -3860,7 +3860,7 @@ static void llm_load_hparams(
                      switch (hparams.n_layer) {
                          case 22: model.type = e_model::MODEL_1B; break;
                          case 26: model.type = e_model::MODEL_3B; break;
-                        case 32: model.type = hparams.n_head == hparams.n_head_kv ? e_model::MODEL_7B : e_model::MODEL_8B; break; // LLaMa 8B v3 uses GQA
+                        case 32: model.type = hparams.n_vocab < 40000 ? e_model::MODEL_7B : e_model::MODEL_8B; break;
                          case 40: model.type = e_model::MODEL_13B; break;
                          case 48: model.type = e_model::MODEL_34B; break;
                          case 60: model.type = e_model::MODEL_30B; break;