convert : avoid calls to tokenizer.added_tokens_decoder (#12473)

author Bartowski <redacted>

Thu, 20 Mar 2025 06:36:37 +0000 (02:36 -0400)

committer GitHub <redacted>

Thu, 20 Mar 2025 06:36:37 +0000 (08:36 +0200)
author Bartowski <redacted>
Thu, 20 Mar 2025 06:36:37 +0000 (02:36 -0400)
committer GitHub <redacted>
Thu, 20 Mar 2025 06:36:37 +0000 (08:36 +0200)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index 7574218e241d46e6c121e6da06c15136b6631697..d21edce16b71e6406b6474f7b5bbfe222cae8162 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -529,6 +529,8 @@ class Model:
          reverse_vocab = {id_: encoded_tok for encoded_tok, id_ in tokenizer.vocab.items()}
          added_vocab = tokenizer.get_added_vocab()
  
+        added_tokens_decoder = tokenizer.added_tokens_decoder
+
          for i in range(vocab_size):
              if i not in reverse_vocab:
                  tokens.append(f"[PAD{i}]")
@@ -538,13 +540,13 @@ class Model:
                  if token in added_vocab:
                      # The tokenizer in llama.cpp assumes the CONTROL and USER_DEFINED tokens are pre-normalized.
                      # To avoid unexpected issues - we make sure to normalize non-normalized tokens
-                    if not tokenizer.added_tokens_decoder[i].normalized:
+                    if not added_tokens_decoder[i].normalized:
                          previous_token = token
                          token = tokenizer.decode(tokenizer.encode(token, add_special_tokens=False))
                          if previous_token != token:
                              logger.info(f"{repr(previous_token)} is encoded and decoded back to {repr(token)} using AutoTokenizer")
  
-                    if tokenizer.added_tokens_decoder[i].special or self.does_token_look_special(token):
+                    if added_tokens_decoder[i].special or self.does_token_look_special(token):
                          toktypes.append(gguf.TokenType.CONTROL)
                      else:
                          # NOTE: this was added for Gemma.
author	Bartowski <redacted>
	Thu, 20 Mar 2025 06:36:37 +0000 (02:36 -0400)
committer	GitHub <redacted>
	Thu, 20 Mar 2025 06:36:37 +0000 (08:36 +0200)