llama : refactor rope_freq_base/scale_swa conversion and init (#18553)

author Sigbjørn Skjæret <redacted>

Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)

committer GitHub <redacted>

Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)
author Sigbjørn Skjæret <redacted>
Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)
committer GitHub <redacted>
Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index 3340a0a7dcb78cfaa799fd98d77d640a935978ac..68446aa44f9cd5eae4cfa60e6f1244b2494e7c2e 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -771,9 +771,14 @@ class TextModel(ModelBase):
  
          self.rope_parameters = self.hparams.get("rope_parameters", self.hparams.get("rope_scaling")) or {}
  
+        rope_theta = self.find_hparam(["rope_theta", "global_rope_theta", "rotary_emb_base"], optional=True)
+        local_rope_theta = self.find_hparam(["local_rope_theta", "rope_local_theta", "swa_rope_theta", "rope_local_base_freq"], optional=True)
+
          # Ensure "rope_theta" and "rope_type" is mirrored in rope_parameters
          if "full_attention" not in self.rope_parameters and "sliding_attention" not in self.rope_parameters:
-            if "rope_theta" not in self.rope_parameters and (rope_theta := self.find_hparam(["rope_theta", "global_rope_theta", "rotary_emb_base"], optional=True)) is not None:
+            if local_rope_theta is not None:
+                self.rope_parameters["sliding_attention"] = {"rope_theta": local_rope_theta}
+            if "rope_theta" not in self.rope_parameters and rope_theta is not None:
                  self.rope_parameters["rope_theta"] = rope_theta
              if "rope_type" not in self.rope_parameters and (rope_type := self.rope_parameters.get("type")) is not None:
                  self.rope_parameters["rope_type"] = rope_type
@@ -839,6 +844,7 @@ class TextModel(ModelBase):
              self.gguf_writer.add_head_count_kv(n_head_kv)
              logger.info(f"gguf: key-value head count = {n_head_kv}")
  
+        # TODO: Handle "sliding_attention" similarly when models start implementing it
          rope_params = self.rope_parameters.get("full_attention", self.rope_parameters)
          if (rope_type := rope_params.get("rope_type")) is not None:
              rope_factor = rope_params.get("factor")
@@ -885,6 +891,9 @@ class TextModel(ModelBase):
          if (rope_theta := rope_params.get("rope_theta")) is not None:
              self.gguf_writer.add_rope_freq_base(rope_theta)
              logger.info(f"gguf: rope theta = {rope_theta}")
+        if (local_rope_theta := self.rope_parameters.get("sliding_attention", {}).get("rope_theta")) is not None:
+            self.gguf_writer.add_rope_freq_base_swa(local_rope_theta)
+            logger.info(f"gguf: rope theta swa = {local_rope_theta}")
          if (f_rms_eps := self.find_hparam(["rms_norm_eps", "norm_eps"], optional=True)) is not None:
              self.gguf_writer.add_layer_norm_rms_eps(f_rms_eps)
              logger.info(f"gguf: rms norm epsilon = {f_rms_eps}")
@@ -5004,7 +5013,6 @@ class Plamo3Model(TextModel):
          if (sliding_window := self.find_hparam(["window_size", "sliding_window"], optional=True)) is not None:
              self.gguf_writer.add_sliding_window(sliding_window)
              self.gguf_writer.add_sliding_window_pattern(self.hparams["sliding_window_pattern"])
-            self.gguf_writer.add_rope_freq_base_swa(self.rope_parameters.get("sliding_attention", {"rope_theta": self.hparams.get("rope_local_theta")})["rope_theta"])
  
      def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
  
@@ -7480,7 +7488,6 @@ class MimoV2Model(TextModel):
  
          self.gguf_writer.add_sliding_window(self.hparams["sliding_window"])
          self.gguf_writer.add_sliding_window_pattern(self.hparams["hybrid_layer_pattern"])
-        self.gguf_writer.add_rope_freq_base_swa(self.hparams["swa_rope_theta"])
          self.gguf_writer.add_value_length(self.hparams["v_head_dim"])
          self.gguf_writer.add_expert_count(self.hparams["n_routed_experts"])
          self.gguf_writer.add_expert_feed_forward_length(self.hparams["moe_intermediate_size"])
@@ -10218,7 +10225,6 @@ class ModernBertModel(BertModel):
          self.gguf_writer.add_sliding_window(self.hparams["local_attention"])
          if (sliding_window_pattern := self.hparams.get("global_attn_every_n_layers")) is not None:
              self.gguf_writer.add_sliding_window_pattern(sliding_window_pattern)
-        self.gguf_writer.add_rope_freq_base_swa(self.rope_parameters.get("sliding_attention", {"rope_theta": self.hparams.get("local_rope_theta")})["rope_theta"])
          self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.NONE)
          self.gguf_writer.add_vocab_size(self.hparams["vocab_size"])
  
diff --git a/src/llama-hparams.h b/src/llama-hparams.h

index 42def73f06f772ea546dc27f59f2b226b19f495e..fc5708fc4b01a64c7a497246ff8d55153bc2e54e 100644 (file)
--- a/src/llama-hparams.h
+++ b/src/llama-hparams.h
@@ -105,9 +105,9 @@ struct llama_hparams {
  
      float    rope_attn_factor = 1.0f;
      float    rope_freq_base_train;
-    float    rope_freq_base_train_swa;
+    float    rope_freq_base_train_swa  = 10000.0f;
      float    rope_freq_scale_train;
-    float    rope_freq_scale_train_swa;
+    float    rope_freq_scale_train_swa = 1.0f;
  
      uint32_t n_ctx_orig_yarn;
      float    rope_yarn_log_mul = 0.0f;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index c739b0b48aef39b88e9fc8bfeb9ceaf138d298d3..28dcc2840f0a6239d0776f9439e4d24263c77f5b 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -578,6 +578,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
      hparams.rope_scaling_type_train = llama_rope_scaling_type_from_string(rope_scaling);
      GGML_ASSERT(hparams.rope_scaling_type_train != LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED);
  
+    // TODO: Handle SWA metadata similarly when models start implementing it
      // rope_freq_scale (inverse of the kv) is optional
      float ropescale = 0.0f;
      if (!ml.get_key(LLM_KV_ROPE_SCALING_FACTOR, ropescale, false)) {
@@ -586,10 +587,6 @@ void llama_model::load_hparams(llama_model_loader & ml) {
      }
      hparams.rope_freq_scale_train = ropescale == 0.0f ? 1.0f : 1.0f/ropescale;
  
-    // by default assume that the sliding-window layers use the same scaling type as the non-sliding-window layers
-    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
-    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
-
      ml.get_key(LLM_KV_ROPE_SCALING_ATTN_FACTOR, hparams.rope_attn_factor, false);
  
      // non-transformer models do not have attention heads
@@ -677,6 +674,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                      hparams.f_attn_temp_scale       = 0.1f;
                      hparams.f_attn_temp_offset      = 1.0f;
                      hparams.set_swa_pattern(4);   // pattern: 3 chunked - 1 full
+
+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  }
  
                  switch (hparams.n_expert) {
@@ -722,6 +723,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  if (hparams.n_swa > 0) {
                      hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                      hparams.set_swa_pattern(4);
+
+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  } else {
                      hparams.swa_type = LLAMA_SWA_TYPE_NONE;
                  }
@@ -1243,7 +1248,6 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  if (found_swa && hparams.n_swa > 0) {
                      uint32_t swa_period = 8;
                      hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
-                    hparams.rope_freq_scale_train_swa = 1.0f;
                      ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa);
                      ml.get_key_or_arr(LLM_KV_ATTENTION_SLIDING_WINDOW_PATTERN, swa_period, false);
                      hparams.set_swa_pattern(swa_period);
@@ -1309,7 +1313,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  hparams.n_swa = 4096; // default value of gemma 2
                  hparams.set_swa_pattern(2);
                  hparams.attn_soft_cap = true;
+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
  
+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,          hparams.rope_freq_base_train_swa, false);
                  ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa, false);
                  ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
                  ml.get_key(LLM_KV_ATTN_LOGIT_SOFTCAPPING,      hparams.f_attn_logit_softcapping, false);
@@ -1334,8 +1341,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                      hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                      hparams.set_swa_pattern(6);
  
-                    hparams.rope_freq_base_train_swa  = 10000.0f;
-                    hparams.rope_freq_scale_train_swa = 1.0f;
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  } else {
                      hparams.swa_type = LLAMA_SWA_TYPE_NONE;
                  }
@@ -1365,10 +1371,9 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  hparams.set_swa_pattern(5);
  
                  hparams.n_layer_kv_from_start     = 20;
-                hparams.rope_freq_base_train_swa  = 10000.0f;
-                hparams.rope_freq_scale_train_swa = 1.0f;
                  hparams.f_attention_scale         = 1.0f;
  
+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,          hparams.rope_freq_base_train_swa, false);
                  ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa);
                  ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
  
@@ -1384,9 +1389,8 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  hparams.set_swa_pattern(6);
  
                  hparams.causal_attn = false; // embeddings do not use causal attention
-                hparams.rope_freq_base_train_swa = 10000.0f;
-                hparams.rope_freq_scale_train_swa = 1.0f;
  
+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW, hparams.n_swa);
                  ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
                  ml.get_key(LLM_KV_POOLING_TYPE, hparams.pooling_type);
@@ -1525,7 +1529,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
              {
                  hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                  hparams.set_swa_pattern(4);
+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
  
+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA,       hparams.rope_freq_base_train_swa, false);
                  ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW, hparams.n_swa);
                  ml.get_key(LLM_KV_LOGIT_SCALE,              hparams.f_logit_scale);
                  ml.get_key(LLM_KV_ATTENTION_LAYERNORM_EPS,  hparams.f_norm_eps);
@@ -1564,6 +1571,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  if (found_swa && hparams.n_swa > 0) {
                      hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                      hparams.set_swa_pattern(4);
+
+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                    hparams.rope_freq_scale_train_swa = 1.0; // See olmo2.cpp
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  } else {
                      hparams.swa_type = LLAMA_SWA_TYPE_NONE;
                  }
@@ -1906,6 +1917,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                      hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                      hparams.n_swa = 4096;
                      hparams.set_swa_pattern(4);
+
+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  }
  
                  ml.get_key(LLM_KV_ATTENTION_SLIDING_WINDOW,    hparams.n_swa, false);
@@ -2208,6 +2223,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  hparams.swa_type = LLAMA_SWA_TYPE_STANDARD;
                  hparams.set_swa_pattern(2);
  
+                hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
+                ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
+
                  switch (hparams.n_layer) {
                      case 24: type = LLM_TYPE_20B; break;
                      case 36: type = LLM_TYPE_120B; break;
@@ -2252,6 +2271,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                      hparams.swa_type      = LLAMA_SWA_TYPE_STANDARD;
                      hparams.n_swa         = 4096;
                      hparams.set_swa_pattern(4, true);
+
+                    hparams.rope_freq_base_train_swa  = hparams.rope_freq_base_train;
+                    hparams.rope_freq_scale_train_swa = hparams.rope_freq_scale_train;
+                    ml.get_key(LLM_KV_ROPE_FREQ_BASE_SWA, hparams.rope_freq_base_train_swa, false);
                  } else {
                      hparams.swa_type             = LLAMA_SWA_TYPE_NONE;
                      hparams.n_no_rope_layer_step = hparams.n_layer;
@@ -7098,6 +7121,10 @@ void llama_model::print_info() const {
          LLAMA_LOG_INFO("%s: rope scaling     = %s\n",     __func__, rope_scaling_type.c_str());
          LLAMA_LOG_INFO("%s: freq_base_train  = %.1f\n",   __func__, hparams.rope_freq_base_train);
          LLAMA_LOG_INFO("%s: freq_scale_train = %g\n",     __func__, hparams.rope_freq_scale_train);
+        if (hparams.swa_type != LLAMA_SWA_TYPE_NONE) {
+            LLAMA_LOG_INFO("%s: freq_base_swa    = %.1f\n",   __func__, hparams.rope_freq_base_train_swa);
+            LLAMA_LOG_INFO("%s: freq_scale_swa   = %g\n",     __func__, hparams.rope_freq_scale_train_swa);
+        }
          LLAMA_LOG_INFO("%s: n_ctx_orig_yarn  = %u\n",     __func__, hparams.n_ctx_orig_yarn);
          LLAMA_LOG_INFO("%s: rope_yarn_log_mul= %.4f\n",   __func__, hparams.rope_yarn_log_mul);
          LLAMA_LOG_INFO("%s: rope_finetuned   = %s\n",     __func__, hparams.rope_finetuned ? "yes" : "unknown");
diff --git a/src/models/afmoe.cpp b/src/models/afmoe.cpp

index 0192e344ca03ada299b946765e2bc17863470331..6a752a403f6f12beab2446c8df741f7cfcfefe7d 100644 (file)
--- a/src/models/afmoe.cpp
+++ b/src/models/afmoe.cpp
@@ -22,8 +22,15 @@ llm_build_afmoe::llm_build_afmoe(const llama_model & model, const llm_graph_para
      const float kq_scale = 1.0f/sqrtf(float(n_embd_head));
  
      for (int il = 0; il < n_layer; ++il) {
+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
+
          ggml_tensor * inpSA = inpL;
  
+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
+        const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
+                              (il + 1) % hparams.n_no_rope_layer_step != 0;
+
          // dual attention normalization (pre)
          cur = build_norm(inpL,
                  model.layers[il].attn_norm, NULL,
@@ -56,19 +63,16 @@ llm_build_afmoe::llm_build_afmoe(const llama_model & model, const llm_graph_para
              cb(Qcur, "Qcur_normed", il);
              cb(Kcur, "Kcur_normed", il);
  
-            // RoPE only for sliding_attention layers
-            const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
-                                ((il + 1) % hparams.n_no_rope_layer_step) != 0;
              if (use_rope) {
                  Qcur = ggml_rope_ext(
                          ctx0, Qcur, inp_pos, nullptr,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                          ext_factor, attn_factor, beta_fast, beta_slow);
                  cb(Qcur, "Qcur_rope", il);
  
                  Kcur = ggml_rope_ext(
                          ctx0, Kcur, inp_pos, nullptr,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                          ext_factor, attn_factor, beta_fast, beta_slow);
                  cb(Kcur, "Kcur_rope", il);
              }
diff --git a/src/models/cohere2-iswa.cpp b/src/models/cohere2-iswa.cpp

index b18aa8c4e6c69e44e53390c73737792eb4bb7b72..9334b5e42634f4905781bd2650d91d92a529dfae 100644 (file)
--- a/src/models/cohere2-iswa.cpp
+++ b/src/models/cohere2-iswa.cpp
@@ -21,6 +21,9 @@ llm_build_cohere2_iswa::llm_build_cohere2_iswa(const llama_model & model, const
  
      for (int il = 0; il < n_layer; ++il) {
          const bool is_swa = hparams.is_swa(il);
+        // UNUSED:
+        // const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        // const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
  
          // norm
          cur = build_norm(inpL, model.layers[il].attn_norm, NULL, LLM_NORM, il);
diff --git a/src/models/gemma2-iswa.cpp b/src/models/gemma2-iswa.cpp

index 9cc59a53ee5c1f24aec16fd10bafb1ab536586b1..7a9198193acc50b4f10f5fedae0caa0a2d5bae66 100644 (file)
--- a/src/models/gemma2-iswa.cpp
+++ b/src/models/gemma2-iswa.cpp
@@ -19,6 +19,9 @@ llm_build_gemma2_iswa::llm_build_gemma2_iswa(const llama_model & model, const ll
      ggml_tensor * inp_out_ids = build_inp_out_ids();
  
      for (int il = 0; il < n_layer; ++il) {
+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
+
          // norm
          cur = build_norm(inpL,
                  model.layers[il].attn_norm, NULL,
@@ -43,12 +46,12 @@ llm_build_gemma2_iswa::llm_build_gemma2_iswa(const llama_model & model, const ll
  
              Qcur = ggml_rope_ext(
                      ctx0, Qcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                      ext_factor, attn_factor, beta_fast, beta_slow);
  
              Kcur = ggml_rope_ext(
                      ctx0, Kcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                      ext_factor, attn_factor, beta_fast, beta_slow);
  
              cb(Qcur, "Qcur", il);
diff --git a/src/models/llama-iswa.cpp b/src/models/llama-iswa.cpp

index 03f80616821149b797c7c692fc08175d6dabc338..61dd2c179f1dd18d967f91e39670d1030add45c6 100644 (file)
--- a/src/models/llama-iswa.cpp
+++ b/src/models/llama-iswa.cpp
@@ -25,8 +25,12 @@ llm_build_llama_iswa::llm_build_llama_iswa(const llama_model & model, const llm_
      ggml_tensor * inp_out_ids = build_inp_out_ids();
  
      for (int il = 0; il < n_layer; ++il) {
+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
+
          ggml_tensor * inpSA = inpL;
  
+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
          const bool use_rope = hparams.n_no_rope_layer_step > 0 &&
                                (il + 1) % hparams.n_no_rope_layer_step != 0;
  
@@ -67,13 +71,13 @@ llm_build_llama_iswa::llm_build_llama_iswa(const llama_model & model, const llm_
              if (use_rope) {
                  Qcur = ggml_rope_ext(
                          ctx0, Qcur, inp_pos, rope_factors,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                          ext_factor, attn_factor, beta_fast, beta_slow
                          );
  
                  Kcur = ggml_rope_ext(
                          ctx0, Kcur, inp_pos, rope_factors,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                          ext_factor, attn_factor, beta_fast, beta_slow
                          );
              } else if (inp_attn_scale) {
diff --git a/src/models/modern-bert.cpp b/src/models/modern-bert.cpp

index 6df418ecda289ab16743017f1a7e2d782df79769..bb12ed819f735122a5ce3068bf26e8c05809e298 100644 (file)
--- a/src/models/modern-bert.cpp
+++ b/src/models/modern-bert.cpp
@@ -23,7 +23,8 @@ llm_build_modern_bert::llm_build_modern_bert(const llama_model & model, const ll
      auto * inp_attn = build_attn_inp_no_cache();
  
      for (int il = 0; il < n_layer; ++il) {
-        float freq_base_l = model.get_rope_freq_base(cparams, il);
+        const float freq_base_l  = model.get_rope_freq_base(cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
  
          cur = inpL;
  
@@ -48,13 +49,13 @@ llm_build_modern_bert::llm_build_modern_bert(const llama_model & model, const ll
          // RoPE
          Qcur = ggml_rope_ext(
                  ctx0, Qcur, inp_pos, nullptr,
-                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale,
+                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                  ext_factor, attn_factor, beta_fast, beta_slow
                  );
  
          Kcur = ggml_rope_ext(
                  ctx0, Kcur, inp_pos, nullptr,
-                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale,
+                n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                  ext_factor, attn_factor, beta_fast, beta_slow
                  );
  
diff --git a/src/models/openai-moe-iswa.cpp b/src/models/openai-moe-iswa.cpp

index 96596709eec5611e14c95ef74564ac2381f8cd88..dbe3ca1851feae5131c45665ff8a0bdd6fdba10e 100644 (file)
--- a/src/models/openai-moe-iswa.cpp
+++ b/src/models/openai-moe-iswa.cpp
@@ -14,6 +14,9 @@ llm_build_openai_moe_iswa::llm_build_openai_moe_iswa(const llama_model & model,
      ggml_tensor * inp_out_ids = build_inp_out_ids();
  
      for (int il = 0; il < n_layer; ++il) {
+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
+
          ggml_tensor * inpSA = inpL;
  
          // norm
@@ -49,13 +52,13 @@ llm_build_openai_moe_iswa::llm_build_openai_moe_iswa(const llama_model & model,
  
              Qcur = ggml_rope_ext(
                      ctx0, Qcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                      ext_factor, attn_factor, beta_fast, beta_slow
                      );
  
              Kcur = ggml_rope_ext(
                      ctx0, Kcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                    n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                      ext_factor, attn_factor, beta_fast, beta_slow
                      );
  
diff --git a/src/models/smallthinker.cpp b/src/models/smallthinker.cpp

index 277eec29554940a36d2416f5deeec058283b7de7..4c497ca76f4295b0b85c7f3a0b4806c4bd900a5d 100644 (file)
--- a/src/models/smallthinker.cpp
+++ b/src/models/smallthinker.cpp
@@ -26,10 +26,16 @@ llm_build_smallthinker<iswa>::llm_build_smallthinker(const llama_model & model,
      ggml_tensor * inp_out_ids = build_inp_out_ids();
  
      for (int il = 0; il < n_layer; ++il) {
+        const float freq_base_l  = model.get_rope_freq_base (cparams, il);
+        const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
+
          ggml_tensor * inpSA  = inpL;
-        ggml_tensor * probs  = nullptr;
  
-        probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
+        // This overlaps with SWA layers in current models, so get_rope_freq_base/scale may be superfluous
+        const bool use_rope = hparams.n_no_rope_layer_step == n_layer ||
+                              il % hparams.n_no_rope_layer_step != 0;
+
+        ggml_tensor * probs = build_lora_mm(model.layers[il].ffn_gate_inp, inpL);  // [n_expert, n_tokens]
          cb(probs, "ffn_moe_logits", il);
  
          // norm
@@ -52,11 +58,11 @@ llm_build_smallthinker<iswa>::llm_build_smallthinker(const llama_model & model,
              Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
              Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
  
-            if (hparams.n_no_rope_layer_step == n_layer || il % hparams.n_no_rope_layer_step != 0) {
-                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+            if (use_rope) {
+                Qcur = ggml_rope_ext(ctx0, Qcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                                      ext_factor, attn_factor, beta_fast, beta_slow);
  
-                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                Kcur = ggml_rope_ext(ctx0, Kcur, inp_pos, nullptr, n_rot, rope_type, n_ctx_orig, freq_base_l, freq_scale_l,
                                      ext_factor, attn_factor, beta_fast, beta_slow);
              }
              cb(Qcur, "Qcur", il);
author	Sigbjørn Skjæret <redacted>
	Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)
committer	GitHub <redacted>
	Mon, 5 Jan 2026 08:14:04 +0000 (09:14 +0100)
convert_hf_to_gguf.py		patch \| blob \| history
src/llama-hparams.h		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history
src/models/afmoe.cpp		patch \| blob \| history
src/models/cohere2-iswa.cpp		patch \| blob \| history
src/models/gemma2-iswa.cpp		patch \| blob \| history
src/models/llama-iswa.cpp		patch \| blob \| history
src/models/modern-bert.cpp		patch \| blob \| history
src/models/openai-moe-iswa.cpp		patch \| blob \| history
src/models/smallthinker.cpp		patch \| blob \| history