convert_hf : fix Gemma v1 conversion (#8597)

author compilade <redacted>

Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)

committer GitHub <redacted>

Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)
author compilade <redacted>
Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)
committer GitHub <redacted>
Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index a0661f120eea71de8976562d2e7159b2e9d01c3a..fba8dbbedebbd2aaedcaff8586c9cfeb01f377ed 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -753,7 +753,8 @@ class Model:
                      token_id = int(token_id)
                      token: str = token_data["content"]
                      if toktypes[token_id] != SentencePieceTokenTypes.UNUSED:
-                        assert tokens[token_id] == token.encode("utf-8")
+                        if tokens[token_id] != token.encode("utf-8"):
+                            logger.warning(f'replacing token {token_id}: {tokens[token_id].decode("utf-8")!r} -> {token!r}')
                      if token_data.get("special") or self.does_token_look_special(token):
                          toktypes[token_id] = SentencePieceTokenTypes.CONTROL
                      else:
@@ -1312,6 +1313,7 @@ class RefactModel(Model):
          special_vocab._set_special_token("prefix", 1)
          special_vocab._set_special_token("suffix", 3)
          special_vocab._set_special_token("middle", 2)
+        special_vocab.chat_template = None  # do not add it twice
          special_vocab.add_to_gguf(self.gguf_writer)
  
      def set_gguf_parameters(self):
@@ -2014,7 +2016,8 @@ class Phi3MiniModel(Model):
                      token_id = int(token_id)
                      token = foken_data["content"].encode("utf-8")
                      if toktypes[token_id] != SentencePieceTokenTypes.UNUSED:
-                        assert tokens[token_id] == token
+                        if tokens[token_id] != token:
+                            logger.warning(f'replacing token {token_id}: {tokens[token_id].decode("utf-8")!r} -> {token.decode("utf-8")!r}')
                      tokens[token_id] = token
                      scores[token_id] = -1000.0
                      toktypes[token_id] = SentencePieceTokenTypes.USER_DEFINED
@@ -2030,7 +2033,8 @@ class Phi3MiniModel(Model):
                      token_id = int(foken_data["id"])
                      token = foken_data["content"].encode("utf-8")
                      if toktypes[token_id] != SentencePieceTokenTypes.UNUSED:
-                        assert tokens[token_id] == token
+                        if tokens[token_id] != token:
+                            logger.warning(f'replacing token {token_id}: {tokens[token_id].decode("utf-8")!r} -> {token.decode("utf-8")!r}')
                      tokens[token_id] = token
                      scores[token_id] = -1000.0
                      toktypes[token_id] = SentencePieceTokenTypes.USER_DEFINED
@@ -2269,7 +2273,8 @@ class InternLM2Model(Model):
                          chat_eos_token_id = token_id
                      token = token.encode("utf-8")
                      if toktypes[token_id] != SentencePieceTokenTypes.UNUSED:
-                        assert(tokens[token_id] == token)
+                        if tokens[token_id] != token:
+                            logger.warning(f'replacing token {token_id}: {tokens[token_id].decode("utf-8")!r} -> {token.decode("utf-8")!r}')
                      tokens[token_id] = token
                      scores[token_id] = -1000.0
                      toktypes[token_id] = SentencePieceTokenTypes.USER_DEFINED
@@ -2288,7 +2293,8 @@ class InternLM2Model(Model):
                          chat_eos_token_id = token_id
                      token = token.encode("utf-8")
                      if toktypes[token_id] != SentencePieceTokenTypes.UNUSED:
-                        assert(tokens[token_id] == token)
+                        if tokens[token_id] != token:
+                            logger.warning(f'replacing token {token_id}: {tokens[token_id].decode("utf-8")!r} -> {token.decode("utf-8")!r}')
                      tokens[token_id] = token
                      scores[token_id] = -1000.0
                      toktypes[token_id] = SentencePieceTokenTypes.USER_DEFINED
@@ -2474,6 +2480,7 @@ class GemmaModel(Model):
          special_vocab._set_special_token("middle", 68)
          special_vocab._set_special_token("fsep",   70)
          special_vocab._set_special_token("eot",    107)
+        special_vocab.chat_template = None  # do not add it twice
          special_vocab.add_to_gguf(self.gguf_writer)
  
          self.gguf_writer.add_add_space_prefix(False)
author	compilade <redacted>
	Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)
committer	GitHub <redacted>
	Sun, 21 Jul 2024 01:53:01 +0000 (21:53 -0400)