convert : support Glm4MoeLite (#18936)

author ddh0 <redacted>

Mon, 19 Jan 2026 22:09:20 +0000 (16:09 -0600)

committer GitHub <redacted>

Mon, 19 Jan 2026 22:09:20 +0000 (23:09 +0100)
author ddh0 <redacted>
Mon, 19 Jan 2026 22:09:20 +0000 (16:09 -0600)
committer GitHub <redacted>
Mon, 19 Jan 2026 22:09:20 +0000 (23:09 +0100)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index 464ecbaab915242c7400dae7210734d6923382c2..becbad046d7a522994091a0fedb5fdd36cb86c28 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -1078,6 +1078,9 @@ class TextModel(ModelBase):
          if chkhsh == "b3d1dd861f1d4c5c0d2569ce36baf3f90fe8a102db3de50dd71ff860d91be3df":
              # ref: https://huggingface.co/aari1995/German_Semantic_V3
              res = "jina-v2-de"
+        if chkhsh == "cdf5f35325780597efd76153d4d1c16778f766173908894c04afc20108536267":
+            # ref: https://huggingface.co/zai-org/GLM-4.7-Flash
+            res = "glm4"
          if chkhsh == "0ef9807a4087ebef797fc749390439009c3b9eda9ad1a097abbe738f486c01e5":
              # ref: https://huggingface.co/meta-llama/Meta-Llama-3-8B
              res = "llama-bpe"
@@ -7458,7 +7461,7 @@ class DeepseekModel(TextModel):
      "DeepseekV3ForCausalLM",
      "KimiVLForConditionalGeneration",
      "YoutuForCausalLM",
-    "YoutuVLForConditionalGeneration"
+    "YoutuVLForConditionalGeneration",
  )
  class DeepseekV2Model(TextModel):
      model_arch = gguf.MODEL_ARCH.DEEPSEEK2
@@ -8446,6 +8449,32 @@ class Glm4MoeModel(TextModel):
                  raise ValueError(f"Unprocessed experts: {experts}")
  
  
+@ModelBase.register("Glm4MoeLiteForCausalLM")
+class Glm4MoeLiteModel(DeepseekV2Model):
+    model_arch = gguf.MODEL_ARCH.DEEPSEEK2
+
+    # copied from Glm4MoeModel
+    def set_vocab(self):
+        from transformers import AutoTokenizer
+
+        tokenizer = AutoTokenizer.from_pretrained(self.dir_model)
+        special_vocab = gguf.SpecialVocab(self.dir_model, load_merges=True)
+        tokens, toktypes, tokpre = self.get_vocab_base()
+        self.gguf_writer.add_tokenizer_model("gpt2")
+        self.gguf_writer.add_tokenizer_pre(tokpre)
+        self.gguf_writer.add_token_list(tokens)
+        self.gguf_writer.add_token_types(toktypes)
+
+        # Special tokens
+        # Note: Using <|endoftext|> (151329) for eot causes endless generation
+        special_vocab._set_special_token("bos", tokenizer.get_added_vocab()["[gMASK]"])  # 151331
+        special_vocab._set_special_token("eot", tokenizer.get_added_vocab()["<|user|>"])  # 151336
+        special_vocab._set_special_token("unk", tokenizer.get_added_vocab()["<|endoftext|>"]) # 151329
+        special_vocab._set_special_token("eom", tokenizer.get_added_vocab()["<|observation|>"])  # 151338
+
+        special_vocab.add_to_gguf(self.gguf_writer)
+
+
  @ModelBase.register("GlmForCausalLM", "ChatGLMModel", "ChatGLMForConditionalGeneration")
  class ChatGLMModel(TextModel):
      model_arch = gguf.MODEL_ARCH.CHATGLM
diff --git a/convert_hf_to_gguf_update.py b/convert_hf_to_gguf_update.py

index aa9843ea17f531466e96741e0fa4d551a4d5cd83..2811f7f884aed4e3de47db5eab8c8fd97e754792 100755 (executable)
--- a/convert_hf_to_gguf_update.py
+++ b/convert_hf_to_gguf_update.py
@@ -170,6 +170,7 @@ pre_computed_hashes = [
      {"name": "grok-2",    "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/alvarobartt/grok-2-tokenizer", "chkhsh": "66b8d4e19ab16c3bfd89bce5d785fb7e0155e8648708a1f42077cb9fe002c273"},
      # jina-v2-de variants
      {"name": "jina-v2-de", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/aari1995/German_Semantic_V3", "chkhsh": "b3d1dd861f1d4c5c0d2569ce36baf3f90fe8a102db3de50dd71ff860d91be3df"},
+    {"name": "glm4", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/zai-org/GLM-4.7-Flash", "chkhsh": "cdf5f35325780597efd76153d4d1c16778f766173908894c04afc20108536267"},
  ]
author	ddh0 <redacted>
	Mon, 19 Jan 2026 22:09:20 +0000 (16:09 -0600)
committer	GitHub <redacted>
	Mon, 19 Jan 2026 22:09:20 +0000 (23:09 +0100)
convert_hf_to_gguf.py		patch \| blob \| history
convert_hf_to_gguf_update.py		patch \| blob \| history