Override SSM_A op for Qwen3 Next to reduce splits (#17587)

author Piotr Wilkin (ilintar) <redacted>

Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)

committer GitHub <redacted>

Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)
author Piotr Wilkin (ilintar) <redacted>
Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)
committer GitHub <redacted>
Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp

index e12c8b9250dd84a8230cbcb55e23a83db9e757b0..64ad1b77690a55cf4ecd0e3de1cc863da7c3f322 100644 (file)
--- a/src/llama-arch.cpp
+++ b/src/llama-arch.cpp
@@ -855,7 +855,7 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
              { LLM_TENSOR_FFN_GATE_SHEXP,     "blk.%d.ffn_gate_shexp" },
              { LLM_TENSOR_FFN_DOWN_SHEXP,     "blk.%d.ffn_down_shexp" },
              { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
-            { LLM_TENSOR_SSM_A,              "blk.%d.ssm_a" },
+            { LLM_TENSOR_SSM_A_NOSCAN,       "blk.%d.ssm_a" },
              { LLM_TENSOR_SSM_CONV1D,         "blk.%d.ssm_conv1d" },
              { LLM_TENSOR_SSM_DT,             "blk.%d.ssm_dt" },
              { LLM_TENSOR_SSM_BETA_ALPHA,     "blk.%d.ssm_ba" },
@@ -2639,6 +2639,7 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
      {LLM_TENSOR_FFN_ACT,                    {LLM_TENSOR_LAYER_REPEATING, GGML_OP_DIV}},
      {LLM_TENSOR_SSM_CONV1D,                 {LLM_TENSOR_LAYER_REPEATING, GGML_OP_SSM_CONV}},
      {LLM_TENSOR_SSM_A,                      {LLM_TENSOR_LAYER_REPEATING, GGML_OP_SSM_SCAN}},
+    {LLM_TENSOR_SSM_A_NOSCAN,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}}, // a version of SSM_A used for MUL instead of SSM_SCAN
      {LLM_TENSOR_SSM_DT_NORM,                {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
      {LLM_TENSOR_SSM_B_NORM,                 {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
      {LLM_TENSOR_SSM_C_NORM,                 {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
diff --git a/src/llama-arch.h b/src/llama-arch.h

index 438963cef0de63a976b44224ec5907dffceddcd3..e113180024d4d14c2a3d46c6c8f900ef5b5ae395 100644 (file)
--- a/src/llama-arch.h
+++ b/src/llama-arch.h
@@ -379,6 +379,7 @@ enum llm_tensor {
      LLM_TENSOR_SSM_DT,
      LLM_TENSOR_SSM_DT_NORM,
      LLM_TENSOR_SSM_A,
+    LLM_TENSOR_SSM_A_NOSCAN,        // qwen3next special case with MUL instead of SSM_SCAN
      LLM_TENSOR_SSM_B_NORM,
      LLM_TENSOR_SSM_C_NORM,
      LLM_TENSOR_SSM_D,
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index c46ee3707fa54e9352ffebf1b8fe80a3424d6e8b..e281dc760bdfacd04ce1a9fc196597ac5b6281cb 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -6526,7 +6526,7 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                              layer.ssm_in         = create_tensor(tn(LLM_TENSOR_SSM_IN,         "weight", i), { n_embd, qkvz_dim }, 0);
                              layer.ssm_conv1d     = create_tensor(tn(LLM_TENSOR_SSM_CONV1D,     "weight", i), { hparams.ssm_d_conv, conv_dim }, 0);
                              layer.ssm_dt         = create_tensor(tn(LLM_TENSOR_SSM_DT,         "bias",   i), { hparams.ssm_dt_rank }, 0);
-                            layer.ssm_a          = create_tensor(tn(LLM_TENSOR_SSM_A,                    i), { hparams.ssm_dt_rank }, 0);
+                            layer.ssm_a          = create_tensor(tn(LLM_TENSOR_SSM_A_NOSCAN,             i), { hparams.ssm_dt_rank }, 0);
                              layer.ssm_beta_alpha = create_tensor(tn(LLM_TENSOR_SSM_BETA_ALPHA, "weight", i), { n_embd, ba_dim }, 0);
                              layer.ssm_norm       = create_tensor(tn(LLM_TENSOR_SSM_NORM,       "weight", i), { head_v_dim }, 0);
                              layer.ssm_out        = create_tensor(tn(LLM_TENSOR_SSM_OUT,        "weight", i), { value_dim, n_embd }, 0);
author	Piotr Wilkin (ilintar) <redacted>
	Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)
committer	GitHub <redacted>
	Mon, 1 Dec 2025 23:43:13 +0000 (00:43 +0100)
src/llama-arch.cpp		patch \| blob \| history
src/llama-arch.h		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history