llama : one-off chat template fix for Mistral-Small-2503 (#13398)

author Xuan-Son Nguyen <redacted>

Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)

committer GitHub <redacted>

Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)
author Xuan-Son Nguyen <redacted>
Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)
committer GitHub <redacted>
Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)
diff --git a/src/llama-chat.cpp b/src/llama-chat.cpp

index 46d43c58ef4d468ba98d6b0548523be57e3414d6..d12743e6b9a0cf1bc12ebd698b71cef0a92db62b 100644 (file)
--- a/src/llama-chat.cpp
+++ b/src/llama-chat.cpp
@@ -35,6 +35,7 @@ static const std::map<std::string, llm_chat_template> LLM_CHAT_TEMPLATES = {
      { "mistral-v3",        LLM_CHAT_TEMPLATE_MISTRAL_V3        },
      { "mistral-v3-tekken", LLM_CHAT_TEMPLATE_MISTRAL_V3_TEKKEN },
      { "mistral-v7",        LLM_CHAT_TEMPLATE_MISTRAL_V7        },
+    { "mistral-v7-tekken", LLM_CHAT_TEMPLATE_MISTRAL_V7_TEKKEN },
      { "phi3",              LLM_CHAT_TEMPLATE_PHI_3             },
      { "phi4",              LLM_CHAT_TEMPLATE_PHI_4             },
      { "falcon3",           LLM_CHAT_TEMPLATE_FALCON_3          },
@@ -202,19 +203,20 @@ int32_t llm_chat_apply_template(
          if (add_ass) {
              ss << "<|im_start|>assistant\n";
          }
-    } else if (tmpl == LLM_CHAT_TEMPLATE_MISTRAL_V7) {
+    } else if (tmpl == LLM_CHAT_TEMPLATE_MISTRAL_V7 || tmpl == LLM_CHAT_TEMPLATE_MISTRAL_V7_TEKKEN) {
          // Official mistral 'v7' template
          // See: https://huggingface.co/mistralai/Mistral-Large-Instruct-2411#basic-instruct-template-v7
+        //      https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503#basic-instruct-template-v7-tekken
+        const char * trailing_space = tmpl == LLM_CHAT_TEMPLATE_MISTRAL_V7 ? " " : "";
          for (auto message : chat) {
              std::string role(message->role);
              std::string content(message->content);
              if (role == "system") {
-                ss << "[SYSTEM_PROMPT] " << content << "[/SYSTEM_PROMPT]";
+                ss << "[SYSTEM_PROMPT]" << trailing_space << content << "[/SYSTEM_PROMPT]";
              } else if (role == "user") {
-                ss << "[INST] " << content << "[/INST]";
-            }
-            else {
-                ss << " " << content << "</s>";
+                ss << "[INST]" << trailing_space << content << "[/INST]";
+            } else {
+                ss << trailing_space << content << "</s>";
              }
          }
      } else if (tmpl == LLM_CHAT_TEMPLATE_MISTRAL_V1
diff --git a/src/llama-chat.h b/src/llama-chat.h

index 3f5843466d044c4ceb7c95d9f7a4b81b8820f587..db24ade21e2ad76671732d3c6b625ea76357120e 100644 (file)
--- a/src/llama-chat.h
+++ b/src/llama-chat.h
@@ -14,6 +14,7 @@ enum llm_chat_template {
      LLM_CHAT_TEMPLATE_MISTRAL_V3,
      LLM_CHAT_TEMPLATE_MISTRAL_V3_TEKKEN,
      LLM_CHAT_TEMPLATE_MISTRAL_V7,
+    LLM_CHAT_TEMPLATE_MISTRAL_V7_TEKKEN,
      LLM_CHAT_TEMPLATE_PHI_3,
      LLM_CHAT_TEMPLATE_PHI_4,
      LLM_CHAT_TEMPLATE_FALCON_3,
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index 3ca265be8dca4e2e08eef0353b986fed1446362f..e8b78c1d00296fd2bd9f08fe3b7f500d434616fc 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -13387,6 +13387,14 @@ const char * llama_model_chat_template(const llama_model * model, const char * n
          : LLM_KV(model->arch)(LLM_KV_TOKENIZER_CHAT_TEMPLATE);
      const auto & it = model->gguf_kv.find(key);
      if (it == model->gguf_kv.end()) {
+        // one-off fix for very popular models (so we are not flooded with issues)
+        // do not extend this list unless absolutely necessary
+        // Mistral-Small-2503 does not have built-in chat template
+        llama_vocab_pre_type pre_type = model->vocab.get_pre_type();
+        if (pre_type == LLAMA_VOCAB_PRE_TYPE_TEKKEN && model->layers.size() == 40) {
+            return "mistral-v7-tekken";
+        }
+
          return nullptr;
      }
  
diff --git a/tools/mtmd/README.md b/tools/mtmd/README.md

index b97b9e8c54367e39834bd0201fe51a88558ba0d3..20e7696cefd8ecc8c998b7cfb16d01465c1fda9f 100644 (file)
--- a/tools/mtmd/README.md
+++ b/tools/mtmd/README.md
@@ -46,7 +46,7 @@ llama-mtmd-cli -hf ggml-org/Qwen2.5-VL-32B-Instruct-GGUF
  llama-mtmd-cli -hf ggml-org/Qwen2.5-VL-72B-Instruct-GGUF
  
  # Mistral Small 3.1 24B (IQ2_M quantization)
-llama-mtmd-cli -hf ggml-org/Mistral-Small-3.1-24B-Instruct-2503-GGUF --chat-template mistral-v7
+llama-mtmd-cli -hf ggml-org/Mistral-Small-3.1-24B-Instruct-2503-GGUF
  ```
  
  ## How it works and what is `mmproj`?
author	Xuan-Son Nguyen <redacted>
	Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)
committer	GitHub <redacted>
	Fri, 9 May 2025 09:17:51 +0000 (11:17 +0200)
src/llama-chat.cpp		patch \| blob \| history
src/llama-chat.h		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history
tools/mtmd/README.md		patch \| blob \| history