llama : parameter conversion and loading fixes for PLaMo2 variants (#16075)

author Shunta Saito <redacted>

Wed, 1 Oct 2025 21:08:15 +0000 (06:08 +0900)

committer GitHub <redacted>

Wed, 1 Oct 2025 21:08:15 +0000 (23:08 +0200)
author Shunta Saito <redacted>
Wed, 1 Oct 2025 21:08:15 +0000 (06:08 +0900)
committer GitHub <redacted>
Wed, 1 Oct 2025 21:08:15 +0000 (23:08 +0200)
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py

index 411e36f8cf41eae6200a7d57d30991952f38350b..ae0079d1878201302e94eaf6da73156ac254af00 100755 (executable)
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@@ -4250,7 +4250,8 @@ class Plamo2Model(TextModel):
          # This logic matches modeling_plamo.py's is_mamba function
          mamba_step = hparams.get("mamba_step", 2)
          mamba_enabled = hparams.get("mamba_enabled", True)
-        mamba_layers = []
+        num_key_value_heads = []
+        num_attention_heads = []
  
          if mamba_enabled:
              for i in range(block_count):
@@ -4260,17 +4261,21 @@ class Plamo2Model(TextModel):
                  else:
                      is_mamba = (i % mamba_step) != (mamba_step // 2)
                  if is_mamba:
-                    mamba_layers.append(0)
+                    num_key_value_heads.append(0)
+                    num_attention_heads.append(0)
                  else:
-                    mamba_layers.append(hparams.get("num_key_value_heads", 4))
+                    num_key_value_heads.append(hparams.get("num_key_value_heads", 4))
+                    num_attention_heads.append(hparams.get("num_attention_heads", 32))
  
-        if mamba_layers:
-            self.gguf_writer.add_head_count_kv(mamba_layers)
+        if num_key_value_heads and num_attention_heads:
+            self.gguf_writer.add_head_count_kv(num_key_value_heads)
+            self.gguf_writer.add_head_count(num_attention_heads)
  
          self.gguf_writer.add_context_length(hparams.get("max_position_embeddings", 2048))
          self.gguf_writer.add_embedding_length(hparams.get("hidden_size", 4096))
+        self.gguf_writer.add_key_length(hparams.get("hidden_size_per_head", 128))
+        self.gguf_writer.add_value_length(hparams.get("hidden_size_per_head", 128))
          self.gguf_writer.add_block_count(block_count)
-        self.gguf_writer.add_head_count(hparams.get("num_attention_heads", 32))
          self.gguf_writer.add_layer_norm_rms_eps(hparams.get("rms_norm_eps", 1e-06))
          self.gguf_writer.add_rope_freq_base(hparams.get("rope_theta", 10000))
  
diff --git a/src/llama-hparams.h b/src/llama-hparams.h

index 0fe4b569424056425ad79b9307afec868ea24706..132cf3ac76a32d4ab0d97c25800fcc27b8bdebac 100644 (file)
--- a/src/llama-hparams.h
+++ b/src/llama-hparams.h
@@ -42,7 +42,7 @@ struct llama_hparams {
      uint32_t n_embd;
      uint32_t n_embd_features = 0;
      uint32_t n_layer;
-     int32_t n_layer_kv_from_start = -1; // if non-negative, the first n_layer_kv_from_start layers have KV cache
+    int32_t n_layer_kv_from_start = -1; // if non-negative, the first n_layer_kv_from_start layers have KV cache
      uint32_t n_rot;
      uint32_t n_embd_head_k; // dimension of keys (d_k). d_q is assumed to be the same, but there are n_head q heads, and only n_head_kv k-v heads
      uint32_t n_embd_head_v; // dimension of values (d_v) aka n_embd_head
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index 63655bf6517b4c50da74af9a8e02148ea86c97e7..a3c3e4dd78a95e1b16ee3f465c72c1d2050784f6 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -1084,7 +1084,11 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                          }
                          break;
                      default: type = LLM_TYPE_UNKNOWN;
-               }
+                }
+
+                // Load attention parameters
+                ml.get_key(LLM_KV_ATTENTION_KEY_LENGTH,   hparams.n_embd_head_k, false);
+                ml.get_key(LLM_KV_ATTENTION_VALUE_LENGTH, hparams.n_embd_head_v, false);
              } break;
          case LLM_ARCH_GPT2:
              {
@@ -3392,17 +3396,17 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                  } break;
              case LLM_ARCH_PLAMO2:
                  {
+                    // mamba parameters
                      const uint32_t d_conv             = hparams.ssm_d_conv;
                      const uint32_t d_state            = hparams.ssm_d_state;
                      const uint32_t num_heads          = hparams.ssm_dt_rank;
                      const uint32_t intermediate_size  = hparams.ssm_d_inner;
-                    const uint32_t head_dim           = intermediate_size / num_heads;
-                    const uint32_t qk_dim             = head_dim;
-                    const uint32_t v_dim              = head_dim;
-                    const int64_t num_attention_heads = hparams.n_head();
-                    const int64_t q_num_heads         = num_attention_heads;
                      const int64_t dt_dim              = std::max(64, int(hparams.n_embd / 16));
  
+                    // attention parameters
+                    const uint32_t qk_dim = hparams.n_embd_head_k;
+                    const uint32_t v_dim  = hparams.n_embd_head_v;
+
                      tok_embd = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, 0);
  
                      // output
@@ -3436,6 +3440,8 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                              layer.ssm_b_norm = create_tensor(tn(LLM_TENSOR_SSM_B_NORM, i), {d_state}, 0);
                              layer.ssm_c_norm = create_tensor(tn(LLM_TENSOR_SSM_C_NORM, i), {d_state}, 0);
                          } else {
+                            const int64_t num_attention_heads = hparams.n_head(i);
+                            const int64_t q_num_heads         = num_attention_heads;
                              const int64_t num_key_value_heads = hparams.n_head_kv(i);
                              const int64_t k_num_heads         = num_key_value_heads;
                              const int64_t v_num_heads         = num_key_value_heads;
@@ -3444,8 +3450,8 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                              const int64_t v_proj_dim          = v_num_heads * v_dim;
  
                              layer.wqkv = create_tensor(tn(LLM_TENSOR_ATTN_QKV, "weight", i), {n_embd, q_proj_dim + k_proj_dim + v_proj_dim}, 0);
-                            layer.attn_q_norm = create_tensor(tn(LLM_TENSOR_ATTN_Q_NORM, "weight", i), {head_dim, num_attention_heads}, 0);
-                            layer.attn_k_norm = create_tensor(tn(LLM_TENSOR_ATTN_K_NORM, "weight", i), {head_dim, k_num_heads}, 0);
+                            layer.attn_q_norm = create_tensor(tn(LLM_TENSOR_ATTN_Q_NORM, "weight", i), {qk_dim, num_attention_heads}, 0);
+                            layer.attn_k_norm = create_tensor(tn(LLM_TENSOR_ATTN_K_NORM, "weight", i), {qk_dim, k_num_heads}, 0);
                              layer.wo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), {q_num_heads * v_dim, n_embd}, 0);
                          }
  
@@ -17611,6 +17617,7 @@ private:
              const int64_t n_embd_head_q = hparams.n_embd_head_k;
              const int64_t n_embd_head_k = hparams.n_embd_head_k;
              const int64_t n_embd_head_v = hparams.n_embd_head_v;
+            int32_t n_head = hparams.n_head(il);
              int32_t n_head_kv = hparams.n_head_kv(il);
  
              const int64_t q_offset = 0;
author	Shunta Saito <redacted>
	Wed, 1 Oct 2025 21:08:15 +0000 (06:08 +0900)
committer	GitHub <redacted>
	Wed, 1 Oct 2025 21:08:15 +0000 (23:08 +0200)
convert_hf_to_gguf.py		patch \| blob \| history
src/llama-hparams.h		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history