Fix gemma2 tokenizer convert (#8244)

author Xuan Son Nguyen <redacted>

Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)

committer GitHub <redacted>

Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)
author Xuan Son Nguyen <redacted>
Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)
committer GitHub <redacted>
Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)
diff --git a/convert-hf-to-gguf.py b/convert-hf-to-gguf.py

index 4a7f500ff7d5ca312b5ee660e9ecdfbe24398c36..6833e943765f79db6658fc59453fb71376b3af5c 100755 (executable)
--- a/convert-hf-to-gguf.py
+++ b/convert-hf-to-gguf.py
@@ -576,7 +576,19 @@ class Model:
          special_vocab._set_special_token("unk", tokenizer.special_tokens["<|endoftext|>"])
          special_vocab.add_to_gguf(self.gguf_writer)
  
-    def _set_vocab_sentencepiece(self):
+    def _set_vocab_sentencepiece(self, add_to_gguf=True):
+        tokens, scores, toktypes = self._create_vocab_sentencepiece()
+
+        self.gguf_writer.add_tokenizer_model("llama")
+        self.gguf_writer.add_tokenizer_pre("default")
+        self.gguf_writer.add_token_list(tokens)
+        self.gguf_writer.add_token_scores(scores)
+        self.gguf_writer.add_token_types(toktypes)
+
+        special_vocab = gguf.SpecialVocab(self.dir_model, n_vocab=len(tokens))
+        special_vocab.add_to_gguf(self.gguf_writer)
+
+    def _create_vocab_sentencepiece(self):
          from sentencepiece import SentencePieceProcessor
  
          tokenizer_path = self.dir_model / 'tokenizer.model'
@@ -638,14 +650,7 @@ class Model:
                  scores.append(-1000.0)
                  toktypes.append(SentencePieceTokenTypes.UNUSED)
  
-        self.gguf_writer.add_tokenizer_model("llama")
-        self.gguf_writer.add_tokenizer_pre("default")
-        self.gguf_writer.add_token_list(tokens)
-        self.gguf_writer.add_token_scores(scores)
-        self.gguf_writer.add_token_types(toktypes)
-
-        special_vocab = gguf.SpecialVocab(self.dir_model, n_vocab=len(tokens))
-        special_vocab.add_to_gguf(self.gguf_writer)
+        return tokens, scores, toktypes
  
      def _set_vocab_llama_hf(self):
          vocab = gguf.LlamaHfVocab(self.dir_model)
@@ -2345,7 +2350,19 @@ class Gemma2Model(Model):
      model_arch = gguf.MODEL_ARCH.GEMMA2
  
      def set_vocab(self):
-        self._set_vocab_llama_hf()
+        tokens, scores, toktypes = self._create_vocab_sentencepiece()
+        # hack: This is required so that we can properly use start/end-of-turn for chat template
+        for i in range(108):
+            # including <unusedX>, <start_of_turn>, <end_of_turn>
+            toktypes[i] = SentencePieceTokenTypes.CONTROL
+        self.gguf_writer.add_tokenizer_model("llama")
+        self.gguf_writer.add_tokenizer_pre("default")
+        self.gguf_writer.add_token_list(tokens)
+        self.gguf_writer.add_token_scores(scores)
+        self.gguf_writer.add_token_types(toktypes)
+
+        special_vocab = gguf.SpecialVocab(self.dir_model, n_vocab=len(tokens))
+        special_vocab.add_to_gguf(self.gguf_writer)
          self.gguf_writer.add_add_space_prefix(False)
  
      def set_gguf_parameters(self):
author	Xuan Son Nguyen <redacted>
	Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)
committer	GitHub <redacted>
	Mon, 1 Jul 2024 23:07:23 +0000 (01:07 +0200)