llama : add support for llama 3.1 rope scaling factors (#8676)

author Jeffrey Morgan <redacted>

Sat, 27 Jul 2024 12:03:45 +0000 (05:03 -0700)

committer GitHub <redacted>

Sat, 27 Jul 2024 12:03:45 +0000 (15:03 +0300)
author Jeffrey Morgan <redacted>
Sat, 27 Jul 2024 12:03:45 +0000 (05:03 -0700)
committer GitHub <redacted>
Sat, 27 Jul 2024 12:03:45 +0000 (15:03 +0300)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index 4087187c19834ad2e38bf4c13d4316623f3ac306..8ba3c5844d22ed61f17a625dd6ae25160f020747 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -1570,6 +1570,34 @@ class LlamaModel(Model):
          return [(self.map_tensor_name(name), data_torch)]
  
      def prepare_tensors(self):
+        if rope_scaling := self.find_hparam(["rope_scaling"], optional=True):
+            if rope_scaling.get("rope_type", '').lower() == "llama3":
+                base = self.hparams.get("rope_theta", 10000.0)
+                dim = self.hparams["hidden_size"] // self.hparams["num_attention_heads"]
+                freqs = 1.0 / (base ** (torch.arange(0, dim, 2, dtype=torch.float32) / dim))
+
+                factor = rope_scaling.get("factor", 8.0)
+                low_freq_factor = rope_scaling.get("low_freq_factor", 1.0)
+                high_freq_factor = rope_scaling.get("high_freq_factor", 4.0)
+                old_context_len = self.hparams.get("original_max_position_embeddings", 8192)
+
+                low_freq_wavelen = old_context_len / low_freq_factor
+                high_freq_wavelen = old_context_len / high_freq_factor
+                assert low_freq_wavelen != high_freq_wavelen
+
+                rope_factors = []
+                for freq in freqs:
+                    wavelen = 2 * math.pi / freq
+                    if wavelen < high_freq_wavelen:
+                        rope_factors.append(1)
+                    elif wavelen > low_freq_wavelen:
+                        rope_factors.append(factor)
+                    else:
+                        smooth = (old_context_len / wavelen - low_freq_factor) / (high_freq_factor - low_freq_factor)
+                        rope_factors.append(1 / ((1 - smooth) / factor + smooth))
+
+                self.gguf_writer.add_tensor(self.format_tensor_name(gguf.MODEL_TENSOR.ROPE_FREQS), np.array(rope_factors, dtype=np.float32))
+
          super().prepare_tensors()
  
          if self._experts is not None:
diff --git a/src/llama.cpp b/src/llama.cpp

index c9cdbb34344d5afc50a685489638600ab6e2d58d..0345d0062233e4c41e0c0e3353aa032451cd9e1d 100644 (file)
--- a/src/llama.cpp
+++ b/src/llama.cpp
@@ -2451,6 +2451,7 @@ struct llama_layer {
      // long rope factors
      struct ggml_tensor * rope_long  = nullptr;
      struct ggml_tensor * rope_short = nullptr;
+    struct ggml_tensor * rope_freqs = nullptr;
  
      // bitnet scale
      struct ggml_tensor * wq_scale;
@@ -6059,6 +6060,8 @@ static bool llm_load_tensors(
  
                          layer.ffn_norm = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd});
  
+                        layer.rope_freqs = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ROPE_FREQS, "weight"), {n_embd/n_head/2}, llama_model_loader::TENSOR_NOT_REQUIRED | (i != 0 ? llama_model_loader::TENSOR_DUPLICATED : 0));
+
                          if (n_expert == 0) {
                              layer.ffn_gate = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_GATE, "weight", i), {n_embd,   n_ff});
                              layer.ffn_down = ml.create_tensor(ctx_split, tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  n_ff, n_embd});
@@ -8536,6 +8539,10 @@ struct llm_build_context {
          // choose long/short freq factors based on the context size
          const auto n_ctx_pre_seq = cparams.n_ctx / cparams.n_seq_max;
  
+        if (model.layers[il].rope_freqs != nullptr) {
+            return model.layers[il].rope_freqs;
+        }
+
          if (n_ctx_pre_seq > hparams.n_ctx_orig_yarn) {
              return model.layers[il].rope_long;
          }
@@ -8730,6 +8737,9 @@ struct llm_build_context {
  
              // self-attention
              {
+                // rope freq factors for llama3; may return nullptr for llama2 and other models
+                struct ggml_tensor * rope_factors = build_rope_factors(il);
+
                  // compute Q and K and RoPE them
                  struct ggml_tensor * Qcur = llm_build_lora_mm(lctx, ctx0, model.layers[il].wq, cur);
                  cb(Qcur, "Qcur", il);
@@ -8753,14 +8763,14 @@ struct llm_build_context {
                  }
  
                  Qcur = ggml_rope_ext(
-                    ctx0, ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens), inp_pos, nullptr,
+                    ctx0, ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head, n_tokens), inp_pos, rope_factors,
                      n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
                      ext_factor, attn_factor, beta_fast, beta_slow
                  );
                  cb(Qcur, "Qcur", il);
  
                  Kcur = ggml_rope_ext(
-                    ctx0, ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens), inp_pos, nullptr,
+                    ctx0, ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens), inp_pos, rope_factors,
                      n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
                      ext_factor, attn_factor, beta_fast, beta_slow
                  );
author	Jeffrey Morgan <redacted>
	Sat, 27 Jul 2024 12:03:45 +0000 (05:03 -0700)
committer	GitHub <redacted>
	Sat, 27 Jul 2024 12:03:45 +0000 (15:03 +0300)
convert_hf_to_gguf.py		patch \| blob \| history
src/llama.cpp		patch \| blob \| history