]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commitdiff
vocab : warn about missing mask token (#14022)
authorSigbjørn Skjæret <redacted>
Thu, 5 Jun 2025 07:29:18 +0000 (09:29 +0200)
committerGitHub <redacted>
Thu, 5 Jun 2025 07:29:18 +0000 (09:29 +0200)
src/llama-vocab.cpp

index b51976699ca7beaa19d908d8e58cab798afc7bdc..ba2e1864ec0050ba58777b417ada98113809e3cd 100644 (file)
@@ -2098,7 +2098,11 @@ void llama_vocab::impl::load(llama_model_loader & ml, const LLM_KV & kv) {
                 || _contains_any(tokenizer_pre, {"jina-v2-de", "jina-v2-es", "jina-v2-code"})
                 || _contains_any(general_arch, {"nomic-bert-moe"})
            ) {
-            _set_token_attr("<mask>", LLAMA_TOKEN_ATTR_LSTRIP, true);
+            if (token_to_id.count("<mask>") == 0) {
+                LLAMA_LOG_WARN("%s: Mask token is missing in vocab, please reconvert model!\n", __func__);
+            } else {
+                _set_token_attr("<mask>", LLAMA_TOKEN_ATTR_LSTRIP, true);
+            }
         } else if (_contains_any(model_name, {"phi-3", "phi3"})) {
             for (auto id : cache_special_tokens) {
                 _set_tokenid_attr(id, LLAMA_TOKEN_ATTR_RSTRIP, true);