model : more uniform output id handling (#14275)

author Georgi Gerganov <redacted>

Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)

committer GitHub <redacted>

Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)
author Georgi Gerganov <redacted>
Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)
committer GitHub <redacted>
Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp

index 083366fd68d074d73e274f53da458ca6750d2f7c..7e162c555220439e9d6cdf204deedca4ba104471 100644 (file)
--- a/src/llama-graph.cpp
+++ b/src/llama-graph.cpp
@@ -92,36 +92,28 @@ void llm_graph_input_pos_bucket_kv::set_input(const llama_ubatch * ubatch) {
  }
  
  void llm_graph_input_out_ids::set_input(const llama_ubatch * ubatch) {
-    if (hparams.causal_attn || cparams.pooling_type == LLAMA_POOLING_TYPE_NONE) {
-        //GGML_ASSERT(out_ids && "every model that can must skip unused outputs");
+    GGML_ASSERT(out_ids);
  
-        if (!out_ids) {
-            LLAMA_LOG_WARN("%s: 'out_ids' is not created\n", __func__);
-        } else {
-            const int64_t n_tokens = ubatch->n_tokens;
+    const int64_t n_tokens = ubatch->n_tokens;
  
-            GGML_ASSERT(ggml_backend_buffer_is_host(out_ids->buffer));
-            int32_t * data = (int32_t *) out_ids->data;
+    GGML_ASSERT(ggml_backend_buffer_is_host(out_ids->buffer));
+    int32_t * data = (int32_t *) out_ids->data;
  
-            if (n_outputs == n_tokens) {
-                for (int i = 0; i < n_tokens; ++i) {
-                    data[i] = i;
-                }
-            } else if (ubatch->output) {
-                int32_t n_outputs = 0;
-                for (int i = 0; i < n_tokens; ++i) {
-                    if (ubatch->output[i]) {
-                        data[n_outputs++] = i;
-                    }
-                }
-                // the graph needs to have been passed the correct number of outputs
-                GGML_ASSERT(n_outputs == n_outputs);
-            } else if (n_outputs == 1) {
-                // only keep last output
-                data[0] = n_tokens - 1;
-            } else {
-                GGML_ASSERT(n_outputs == 0);
-            }
+    if (n_outputs == n_tokens) {
+        for (int i = 0; i < n_tokens; ++i) {
+            data[i] = i;
+        }
+
+        return;
+    }
+
+    GGML_ASSERT(ubatch->output);
+
+    int n_outputs = 0;
+
+    for (int i = 0; i < n_tokens; ++i) {
+        if (ubatch->output[i]) {
+            data[n_outputs++] = i;
          }
      }
  }
@@ -874,6 +866,14 @@ ggml_tensor * llm_graph_context::build_inp_attn_scale() const {
  }
  
  ggml_tensor * llm_graph_context::build_inp_out_ids() const {
+    // note: when all tokens are output, we could skip this optimization to spare the ggml_get_rows() calls,
+    //       but this would make the graph topology depend on the number of output tokens, which can interere with
+    //       features that require constant topology such as pipline parallelism
+    //       ref: https://github.com/ggml-org/llama.cpp/pull/14275#issuecomment-2987424471
+    //if (n_outputs < n_tokens) {
+    //    return nullptr;
+    //}
+
      auto inp = std::make_unique<llm_graph_input_out_ids>(hparams, cparams, n_outputs);
  
      auto & cur = inp->out_ids;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index a5853f8b12dc0a692ab89dda7e20d064921dd90b..e2c82017f689018106e09e9ef499f9b18f8c5352 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -4707,6 +4707,8 @@ struct llm_build_llama : public llm_graph_context {
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -4769,9 +4771,7 @@ struct llm_build_llama : public llm_graph_context {
                  cb(cur, "attn_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -4867,6 +4867,8 @@ struct llm_build_llama_iswa : public llm_graph_context {
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -4943,9 +4945,7 @@ struct llm_build_llama_iswa : public llm_graph_context {
                  cb(cur, "attn_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5045,6 +5045,9 @@ struct llm_build_deci : public llm_graph_context {
          auto * inp_attn = build_attn_inp_kv_unified();
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
+
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
              const int64_t n_head_kv = hparams.n_head_kv(il);
@@ -5118,9 +5121,7 @@ struct llm_build_deci : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, kq_scale, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5199,6 +5200,8 @@ struct llm_build_baichuan : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -5250,9 +5253,7 @@ struct llm_build_baichuan : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5321,6 +5322,8 @@ struct llm_build_xverse : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -5365,9 +5368,7 @@ struct llm_build_xverse : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5435,6 +5436,8 @@ struct llm_build_falcon : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * attn_norm;
  
@@ -5490,9 +5493,7 @@ struct llm_build_falcon : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur       = ggml_get_rows(ctx0,       cur, inp_out_ids);
                  inpL      = ggml_get_rows(ctx0,      inpL, inp_out_ids);
                  attn_norm = ggml_get_rows(ctx0, attn_norm, inp_out_ids);
@@ -5561,6 +5562,8 @@ struct llm_build_grok : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -5620,9 +5623,7 @@ struct llm_build_grok : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5721,6 +5722,8 @@ struct llm_build_dbrx : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -5771,9 +5774,7 @@ struct llm_build_dbrx : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -5853,6 +5854,8 @@ struct llm_build_starcoder : public llm_graph_context {
          inpL = ggml_add(ctx0, inpL, pos);
          cb(inpL, "inpL", -1);
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -5885,9 +5888,7 @@ struct llm_build_starcoder : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -5952,6 +5953,8 @@ struct llm_build_refact : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -5984,9 +5987,7 @@ struct llm_build_refact : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -6072,78 +6073,79 @@ struct llm_build_bert : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_no_cache();
  
-        // iterate layers
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * cur = inpL;
  
-            ggml_tensor * Qcur;
-            ggml_tensor * Kcur;
-            ggml_tensor * Vcur;
+            {
+                ggml_tensor * Qcur;
+                ggml_tensor * Kcur;
+                ggml_tensor * Vcur;
  
-            // self-attention
-            if (model.layers[il].wqkv) {
-                cur = build_lora_mm(model.layers[il].wqkv, cur);
-                cb(cur, "wqkv", il);
+                // self-attention
+                if (model.layers[il].wqkv) {
+                    cur = build_lora_mm(model.layers[il].wqkv, cur);
+                    cb(cur, "wqkv", il);
  
-                if (model.layers[il].bqkv) {
-                    cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
-                    cb(cur, "bqkv", il);
-                }
+                    if (model.layers[il].bqkv) {
+                        cur = ggml_add(ctx0, cur, model.layers[il].bqkv);
+                        cb(cur, "bqkv", il);
+                    }
  
-                Qcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd,     n_tokens, cur->nb[1], 0*sizeof(float)*(n_embd)));
-                Kcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd)));
-                Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa)));
-            } else {
-                Qcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wq, cur), model.layers[il].bq);
-                Kcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wk, cur), model.layers[il].bk);
-                Vcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wv, cur), model.layers[il].bv);
-            }
+                    Qcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd,     n_tokens, cur->nb[1], 0*sizeof(float)*(n_embd)));
+                    Kcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd)));
+                    Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa)));
+                } else {
+                    Qcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wq, cur), model.layers[il].bq);
+                    Kcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wk, cur), model.layers[il].bk);
+                    Vcur = ggml_add(ctx0, build_lora_mm(model.layers[il].wv, cur), model.layers[il].bv);
+                }
  
-            if (model.layers[il].attn_q_norm) {
-                Qcur = build_norm(Qcur,
-                        model.layers[il].attn_q_norm,
-                        model.layers[il].attn_q_norm_b,
-                        LLM_NORM, il);
-            }
+                if (model.layers[il].attn_q_norm) {
+                    Qcur = build_norm(Qcur,
+                            model.layers[il].attn_q_norm,
+                            model.layers[il].attn_q_norm_b,
+                            LLM_NORM, il);
+                }
  
-            if (model.layers[il].attn_k_norm) {
-                Kcur = build_norm(Kcur,
-                        model.layers[il].attn_k_norm,
-                        model.layers[il].attn_k_norm_b,
-                        LLM_NORM, il);
-            }
+                if (model.layers[il].attn_k_norm) {
+                    Kcur = build_norm(Kcur,
+                            model.layers[il].attn_k_norm,
+                            model.layers[il].attn_k_norm_b,
+                            LLM_NORM, il);
+                }
  
-            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
-            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
-            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
+                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
+                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
+                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
  
-            // RoPE
-            if (model.arch == LLM_ARCH_NOMIC_BERT || model.arch == LLM_ARCH_NOMIC_BERT_MOE) {
-                Qcur = ggml_rope_ext(
-                        ctx0, Qcur, inp_pos, nullptr,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                        ext_factor, attn_factor, beta_fast, beta_slow
-                        );
+                // RoPE
+                if (model.arch == LLM_ARCH_NOMIC_BERT || model.arch == LLM_ARCH_NOMIC_BERT_MOE) {
+                    Qcur = ggml_rope_ext(
+                            ctx0, Qcur, inp_pos, nullptr,
+                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                            ext_factor, attn_factor, beta_fast, beta_slow
+                            );
  
-                Kcur = ggml_rope_ext(
-                        ctx0, Kcur, inp_pos, nullptr,
-                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                        ext_factor, attn_factor, beta_fast, beta_slow
-                        );
-            }
+                    Kcur = ggml_rope_ext(
+                            ctx0, Kcur, inp_pos, nullptr,
+                            n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                            ext_factor, attn_factor, beta_fast, beta_slow
+                            );
+                }
  
-            cb(Qcur, "Qcur", il);
-            cb(Kcur, "Kcur", il);
-            cb(Vcur, "Vcur", il);
+                cb(Qcur, "Qcur", il);
+                cb(Kcur, "Kcur", il);
+                cb(Vcur, "Vcur", il);
  
-            cur = build_attn(inp_attn, gf,
-                    model.layers[il].wo, model.layers[il].bo,
-                    Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
-            cb(cur, "kqv_out", il);
+                cur = build_attn(inp_attn, gf,
+                        model.layers[il].wo, model.layers[il].bo,
+                        Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
+                cb(cur, "kqv_out", il);
+            }
  
-            if (il == n_layer - 1 && pooling_type == LLAMA_POOLING_TYPE_NONE) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -6240,56 +6242,57 @@ struct llm_build_neo_bert : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_no_cache();
  
-        // iterate layers
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * cur = inpL;
  
-            ggml_tensor * Qcur;
-            ggml_tensor * Kcur;
-            ggml_tensor * Vcur;
-
              // pre-norm
              cur = build_norm(inpL,
                      model.layers[il].attn_norm, NULL,
                      LLM_NORM_RMS, il);
  
-            // self-attention
-            cur = build_lora_mm(model.layers[il].wqkv, cur);
-            cb(cur, "wqkv", il);
-
-            Qcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd,     n_tokens, cur->nb[1], 0*sizeof(float)*(n_embd)));
-            Kcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd)));
-            Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa)));
-
-            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
-            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
-            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
-
-            // RoPE
-            Qcur = ggml_rope_ext(
-                    ctx0, Qcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                    ext_factor, attn_factor, beta_fast, beta_slow
-                    );
+            {
+                ggml_tensor * Qcur;
+                ggml_tensor * Kcur;
+                ggml_tensor * Vcur;
  
-            Kcur = ggml_rope_ext(
-                    ctx0, Kcur, inp_pos, nullptr,
-                    n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                    ext_factor, attn_factor, beta_fast, beta_slow
-                    );
+                // self-attention
+                cur = build_lora_mm(model.layers[il].wqkv, cur);
+                cb(cur, "wqkv", il);
+
+                Qcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd,     n_tokens, cur->nb[1], 0*sizeof(float)*(n_embd)));
+                Kcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd)));
+                Vcur = ggml_cont(ctx0, ggml_view_2d(ctx0, cur, n_embd_gqa, n_tokens, cur->nb[1], 1*sizeof(float)*(n_embd + n_embd_gqa)));
+
+                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
+                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
+                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
+
+                // RoPE
+                Qcur = ggml_rope_ext(
+                        ctx0, Qcur, inp_pos, nullptr,
+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        ext_factor, attn_factor, beta_fast, beta_slow
+                        );
+
+                Kcur = ggml_rope_ext(
+                        ctx0, Kcur, inp_pos, nullptr,
+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        ext_factor, attn_factor, beta_fast, beta_slow
+                        );
  
-            cb(Qcur, "Qcur", il);
-            cb(Kcur, "Kcur", il);
-            cb(Vcur, "Vcur", il);
+                cb(Qcur, "Qcur", il);
+                cb(Kcur, "Kcur", il);
+                cb(Vcur, "Vcur", il);
  
-            cur = build_attn(inp_attn, gf,
-                    model.layers[il].wo, nullptr,
-                    Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
-            cb(cur, "kqv_out", il);
+                cur = build_attn(inp_attn, gf,
+                        model.layers[il].wo, nullptr,
+                        Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
+                cb(cur, "kqv_out", il);
+            }
  
-            if (il == n_layer - 1 && pooling_type == LLAMA_POOLING_TYPE_NONE) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -6354,6 +6357,8 @@ struct llm_build_bloom : public llm_graph_context {
                  LLM_NORM, -1);
          cb(inpL, "inp_norm", -1);
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -6386,9 +6391,7 @@ struct llm_build_bloom : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -6465,6 +6468,8 @@ struct llm_build_mpt : public llm_graph_context {
              cb(inpL, "inpL", -1);
          }
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * attn_norm;
  
@@ -6527,9 +6532,7 @@ struct llm_build_mpt : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -6598,6 +6601,8 @@ struct llm_build_stablelm : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
@@ -6673,9 +6678,7 @@ struct llm_build_stablelm : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpL  = ggml_get_rows(ctx0,  inpL, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
@@ -6750,6 +6753,8 @@ struct llm_build_qwen : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -6796,9 +6801,7 @@ struct llm_build_qwen : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -6867,6 +6870,8 @@ struct llm_build_qwen2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -6916,9 +6921,7 @@ struct llm_build_qwen2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -6988,6 +6991,8 @@ struct llm_build_qwen2vl : public llm_graph_context {
          int sections[4];
          std::copy(std::begin(hparams.rope_sections), std::begin(hparams.rope_sections) + 4, sections);
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -7037,9 +7042,7 @@ struct llm_build_qwen2vl : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -7106,6 +7109,8 @@ struct llm_build_qwen2moe : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -7164,9 +7169,7 @@ struct llm_build_qwen2moe : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -7265,6 +7268,8 @@ struct llm_build_qwen3 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -7317,9 +7322,7 @@ struct llm_build_qwen3 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -7386,6 +7389,8 @@ struct llm_build_qwen3moe : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -7438,9 +7443,7 @@ struct llm_build_qwen3moe : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -7516,6 +7519,8 @@ struct llm_build_phi2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              attn_norm_output = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -7578,9 +7583,7 @@ struct llm_build_phi2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur              = ggml_get_rows(ctx0,              cur, inp_out_ids);
                  inpL             = ggml_get_rows(ctx0,             inpL, inp_out_ids);
                  attn_norm_output = ggml_get_rows(ctx0, attn_norm_output, inp_out_ids);
@@ -7652,6 +7655,8 @@ struct llm_build_phi3 : public llm_graph_context {
              inp_attn = build_attn_inp_kv_unified();
          }
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              auto * residual = inpL;
  
@@ -7715,9 +7720,7 @@ struct llm_build_phi3 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor* inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
                  residual = ggml_get_rows(ctx0, residual, inp_out_ids);
              }
@@ -7803,15 +7806,16 @@ struct llm_build_plamo : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
-        for (int il = 0; il < n_layer; ++il) {
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
  
+        for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
                      model.layers[il].attn_norm, NULL,
                      LLM_NORM_RMS, il);
              cb(cur, "attn_norm", il);
  
-            ggml_tensor * attention_norm = cur;
+            ggml_tensor * sa_inp = cur;
  
              // self-attention
              {
@@ -7849,18 +7853,17 @@ struct llm_build_plamo : public llm_graph_context {
                          model.layers[il].wo, NULL,
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
-            ggml_tensor * sa_out = cur;
-
-            cur = attention_norm;
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur    = ggml_get_rows(ctx0,    cur, inp_out_ids);
-                sa_out = ggml_get_rows(ctx0, sa_out, inp_out_ids);
+                sa_inp = ggml_get_rows(ctx0, sa_inp, inp_out_ids);
                  inpL   = ggml_get_rows(ctx0,   inpL, inp_out_ids);
              }
  
+            ggml_tensor * sa_out = cur;
+
+            cur = sa_inp;
+
              // feed-forward network
              {
                  cur = build_ffn(cur,
@@ -7925,6 +7928,8 @@ struct llm_build_gpt2 : public llm_graph_context {
          inpL = ggml_add(ctx0, inpL, pos);
          cb(inpL, "inpL", -1);
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -7957,9 +7962,7 @@ struct llm_build_gpt2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -8029,6 +8032,8 @@ struct llm_build_codeshell : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -8073,9 +8078,7 @@ struct llm_build_codeshell : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -8129,128 +8132,128 @@ struct llm_build_codeshell : public llm_graph_context {
  
  struct llm_build_orion : public llm_graph_context {
      llm_build_orion(const llama_model & model, const llm_graph_params & params, ggml_cgraph * gf) : llm_graph_context(params) {
-    const int64_t n_embd_head = hparams.n_embd_head_v;
+        const int64_t n_embd_head = hparams.n_embd_head_v;
  
-    GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
-    GGML_ASSERT(n_embd_head == hparams.n_rot);
+        GGML_ASSERT(n_embd_head == hparams.n_embd_head_k);
+        GGML_ASSERT(n_embd_head == hparams.n_rot);
  
-    ggml_tensor * cur;
-    ggml_tensor * inpL;
+        ggml_tensor * cur;
+        ggml_tensor * inpL;
  
-    inpL = build_inp_embd(model.tok_embd);
+        inpL = build_inp_embd(model.tok_embd);
  
-    // inp_pos - contains the positions
-    ggml_tensor * inp_pos = build_inp_pos();
+        // inp_pos - contains the positions
+        ggml_tensor * inp_pos = build_inp_pos();
  
-    auto * inp_attn = build_attn_inp_kv_unified();
+        auto * inp_attn = build_attn_inp_kv_unified();
  
-    for (int il = 0; il < n_layer; ++il) {
-        ggml_tensor * inpSA = inpL;
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
  
-        // norm
-        cur = build_norm(inpL,
-                model.layers[il].attn_norm, model.layers[il].attn_norm_b,
-                LLM_NORM, il);
-        cb(cur, "attn_norm", il);
+        for (int il = 0; il < n_layer; ++il) {
+            ggml_tensor * inpSA = inpL;
  
-        // self-attention
-        {
-            // compute Q and K and RoPE them
-            ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
-            cb(Qcur, "Qcur", il);
-            // if (model.layers[il].bq) {
-            //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
-            //     cb(Qcur, "Qcur", il);
-            // }
-
-            ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
-            cb(Kcur, "Kcur", il);
-            // if (model.layers[il].bk) {
-            //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
-            //     cb(Kcur, "Kcur", il);
-            // }
-
-            ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
-            cb(Vcur, "Vcur", il);
-            // if (model.layers[il].bv) {
-            //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
-            //     cb(Vcur, "Vcur", il);
-            // }
-
-            Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
-            Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
-            Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
-
-            Qcur = ggml_rope_ext(
-                ctx0, Qcur, inp_pos, nullptr,
-                n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                ext_factor, attn_factor, beta_fast, beta_slow
-            );
+            // norm
+            cur = build_norm(inpL,
+                    model.layers[il].attn_norm, model.layers[il].attn_norm_b,
+                    LLM_NORM, il);
+            cb(cur, "attn_norm", il);
  
-            Kcur = ggml_rope_ext(
-                ctx0, Kcur, inp_pos, nullptr,
-                n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
-                ext_factor, attn_factor, beta_fast, beta_slow
-            );
+            // self-attention
+            {
+                // compute Q and K and RoPE them
+                ggml_tensor * Qcur = build_lora_mm(model.layers[il].wq, cur);
+                cb(Qcur, "Qcur", il);
+                // if (model.layers[il].bq) {
+                //     Qcur = ggml_add(ctx0, Qcur, model.layers[il].bq);
+                //     cb(Qcur, "Qcur", il);
+                // }
  
-            cb(Qcur, "Qcur", il);
-            cb(Kcur, "Kcur", il);
-            cb(Vcur, "Vcur", il);
+                ggml_tensor * Kcur = build_lora_mm(model.layers[il].wk, cur);
+                cb(Kcur, "Kcur", il);
+                // if (model.layers[il].bk) {
+                //     Kcur = ggml_add(ctx0, Kcur, model.layers[il].bk);
+                //     cb(Kcur, "Kcur", il);
+                // }
  
-            cur = build_attn(inp_attn, gf,
-                    model.layers[il].wo, NULL,
-                    Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
-        }
+                ggml_tensor * Vcur = build_lora_mm(model.layers[il].wv, cur);
+                cb(Vcur, "Vcur", il);
+                // if (model.layers[il].bv) {
+                //     Vcur = ggml_add(ctx0, Vcur, model.layers[il].bv);
+                //     cb(Vcur, "Vcur", il);
+                // }
  
-        if (il == n_layer - 1) {
-            // skip computing output for unused tokens
-            ggml_tensor * inp_out_ids = build_inp_out_ids();
-            cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
-            inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
-        }
+                Qcur = ggml_reshape_3d(ctx0, Qcur, n_embd_head, n_head,    n_tokens);
+                Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head, n_head_kv, n_tokens);
+                Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head, n_head_kv, n_tokens);
+
+                Qcur = ggml_rope_ext(
+                        ctx0, Qcur, inp_pos, nullptr,
+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        ext_factor, attn_factor, beta_fast, beta_slow
+                        );
+
+                Kcur = ggml_rope_ext(
+                        ctx0, Kcur, inp_pos, nullptr,
+                        n_rot, rope_type, n_ctx_orig, freq_base, freq_scale,
+                        ext_factor, attn_factor, beta_fast, beta_slow
+                        );
  
-        ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
-        cb(ffn_inp, "ffn_inp", il);
+                cb(Qcur, "Qcur", il);
+                cb(Kcur, "Kcur", il);
+                cb(Vcur, "Vcur", il);
  
-        // feed-forward network
-        cur = build_norm(ffn_inp,
-                model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
-                LLM_NORM, il);
-        cb(cur, "ffn_norm", il);
+                cur = build_attn(inp_attn, gf,
+                        model.layers[il].wo, NULL,
+                        Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
+            }
  
-        cur = build_ffn(cur,
-                model.layers[il].ffn_up,   NULL, NULL,
-                model.layers[il].ffn_gate, NULL, NULL,
-                model.layers[il].ffn_down, NULL, NULL,
-                NULL,
-                LLM_FFN_SILU, LLM_FFN_PAR, il);
-        cb(cur, "ffn_out", il);
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
+                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
+            }
  
-        cur = ggml_add(ctx0, cur, ffn_inp);
+            ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
+            cb(ffn_inp, "ffn_inp", il);
  
-        cur = build_cvec(cur, il);
-        cb(cur, "l_out", il);
+            // feed-forward network
+            cur = build_norm(ffn_inp,
+                    model.layers[il].ffn_norm, model.layers[il].ffn_norm_b,
+                    LLM_NORM, il);
+            cb(cur, "ffn_norm", il);
  
-        // input for next layer
-        inpL = cur;
-    }
+            cur = build_ffn(cur,
+                    model.layers[il].ffn_up,   NULL, NULL,
+                    model.layers[il].ffn_gate, NULL, NULL,
+                    model.layers[il].ffn_down, NULL, NULL,
+                    NULL,
+                    LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cb(cur, "ffn_out", il);
+
+            cur = ggml_add(ctx0, cur, ffn_inp);
  
-    cur = inpL;
+            cur = build_cvec(cur, il);
+            cb(cur, "l_out", il);
+
+            // input for next layer
+            inpL = cur;
+        }
+
+        cur = inpL;
  
-    cur = build_norm(cur,
-            model.output_norm, model.output_norm_b,
-            LLM_NORM, -1);
+        cur = build_norm(cur,
+                model.output_norm, model.output_norm_b,
+                LLM_NORM, -1);
  
-    cb(cur, "result_norm", -1);
-    res->t_embd = cur;
+        cb(cur, "result_norm", -1);
+        res->t_embd = cur;
  
-    // lm_head
-    cur = build_lora_mm(model.output, cur);
+        // lm_head
+        cur = build_lora_mm(model.output, cur);
  
-    cb(cur, "result_output", -1);
-    res->t_logits = cur;
+        cb(cur, "result_output", -1);
+        res->t_logits = cur;
  
-    ggml_build_forward_expand(gf, cur);
+        ggml_build_forward_expand(gf, cur);
      }
  };
  
@@ -8271,6 +8274,8 @@ struct llm_build_internlm2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -8329,9 +8334,7 @@ struct llm_build_internlm2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -8407,6 +8410,8 @@ struct llm_build_minicpm3 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -8526,15 +8531,13 @@ struct llm_build_minicpm3 : public llm_graph_context {
                          q_states, k_states, v_states, nullptr, nullptr, kq_scale, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
  
              // scale_res - scale the hidden states for residual connection
-            const float scale_res = scale_depth/sqrtf(float(n_layer));
+            const float scale_res = scale_depth/sqrtf(float(n_layer)); // TODO: is this correct?
              cur = ggml_scale(ctx0, cur, scale_res);
              cb(cur, "hidden_scaled", il);
  
@@ -8611,6 +8614,8 @@ struct llm_build_gemma : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
@@ -8656,9 +8661,7 @@ struct llm_build_gemma : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -8727,6 +8730,8 @@ struct llm_build_gemma2_iswa : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified_iswa();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
@@ -8771,18 +8776,16 @@ struct llm_build_gemma2_iswa : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
+                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
+            }
+
              cur = build_norm(cur,
                      model.layers[il].attn_post_norm, NULL,
                      LLM_NORM_RMS, il);
              cb(cur, "attn_post_norm", il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
-            }
-
              ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
              cb(sa_out, "sa_out", il);
  
@@ -8861,6 +8864,8 @@ struct llm_build_gemma3_iswa : public llm_graph_context {
          // TODO: is causal == true correct? might need some changes
          auto * inp_attn = build_attn_inp_kv_unified_iswa();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const float freq_base_l  = model.get_rope_freq_base (cparams, il);
              const float freq_scale_l = model.get_rope_freq_scale(cparams, il);
@@ -8913,18 +8918,16 @@ struct llm_build_gemma3_iswa : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f, il);
              }
  
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
+                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
+            }
+
              cur = build_norm(cur,
                      model.layers[il].attn_post_norm, NULL,
                      LLM_NORM_RMS, il);
              cb(cur, "attn_post_norm", il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
-                cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
-                inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
-            }
-
              ggml_tensor * sa_out = ggml_add(ctx0, cur, inpL);
              cb(sa_out, "sa_out", il);
  
@@ -8995,6 +8998,8 @@ struct llm_build_starcoder2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -9053,9 +9058,7 @@ struct llm_build_starcoder2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -9118,6 +9121,8 @@ struct llm_build_mamba : public llm_graph_context {
  
          auto * rs_inp = build_rs_inp();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
@@ -9127,9 +9132,7 @@ struct llm_build_mamba : public llm_graph_context {
  
              cur = build_mamba_layer(rs_inp, gf, cur, ubatch, il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -9311,13 +9314,15 @@ struct llm_build_command_r : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
-        for (int il = 0; il < n_layer; ++il) {
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
  
+        for (int il = 0; il < n_layer; ++il) {
              // norm
              cur = build_norm(inpL,
                      model.layers[il].attn_norm, NULL,
                      LLM_NORM, il);
              cb(cur, "attn_norm", il);
+
              ggml_tensor * ffn_inp = cur;
  
              // self-attention
@@ -9385,9 +9390,7 @@ struct llm_build_command_r : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur     = ggml_get_rows(ctx0,     cur, inp_out_ids);
                  inpL    = ggml_get_rows(ctx0,    inpL, inp_out_ids);
                  ffn_inp = ggml_get_rows(ctx0, ffn_inp, inp_out_ids);
@@ -9458,6 +9461,8 @@ struct llm_build_cohere2_iswa : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified_iswa();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const bool is_swa = hparams.is_swa(il);
  
@@ -9520,9 +9525,7 @@ struct llm_build_cohere2_iswa : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur     = ggml_get_rows(ctx0, cur, inp_out_ids);
                  inpL    = ggml_get_rows(ctx0, inpL, inp_out_ids);
                  ffn_inp = ggml_get_rows(ctx0, ffn_inp, inp_out_ids);
@@ -9593,6 +9596,8 @@ struct llm_build_olmo : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -9651,9 +9656,7 @@ struct llm_build_olmo : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -9721,6 +9724,8 @@ struct llm_build_olmo2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -9771,18 +9776,16 @@ struct llm_build_olmo2 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
+                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
+            }
+
              cur = build_norm(cur,
                      model.layers[il].attn_post_norm, NULL,
                      LLM_NORM_RMS, il);
              cb(cur, "attn_post_norm", il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
-                cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
-            }
-
              ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
              cb(ffn_inp, "ffn_inp", il);
  
@@ -9850,6 +9853,8 @@ struct llm_build_olmoe : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -9904,9 +9909,7 @@ struct llm_build_olmoe : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -9976,6 +9979,8 @@ struct llm_build_openelm : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const int64_t n_head    = hparams.n_head(il);
              const int64_t n_head_kv = hparams.n_head_kv(il);
@@ -10037,11 +10042,9 @@ struct llm_build_openelm : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  residual = ggml_get_rows(ctx0, residual, inp_out_ids);
-                cur = ggml_get_rows(ctx0, cur, inp_out_ids);
+                cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
              }
  
              ggml_tensor * ffn_inp = ggml_add(ctx0, residual, cur);
@@ -10107,6 +10110,8 @@ struct llm_build_gptneox : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -10151,9 +10156,7 @@ struct llm_build_gptneox : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -10255,6 +10258,8 @@ struct llm_build_arctic : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -10301,9 +10306,7 @@ struct llm_build_arctic : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -10395,6 +10398,8 @@ struct llm_build_deepseek : public llm_graph_context {
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -10456,14 +10461,11 @@ struct llm_build_deepseek : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, kq_scale, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
  
-
              ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
              cb(ffn_inp, "ffn_inp", il);
  
@@ -10571,6 +10573,8 @@ struct llm_build_deepseek2 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -10720,9 +10724,7 @@ struct llm_build_deepseek2 : public llm_graph_context {
                  }
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -10818,6 +10820,8 @@ struct llm_build_bitnet : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -10900,9 +10904,7 @@ struct llm_build_bitnet : public llm_graph_context {
                  cb(cur, "attn_o_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -10977,6 +10979,8 @@ struct llm_build_t5_enc : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_no_cache();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11010,9 +11014,7 @@ struct llm_build_t5_enc : public llm_graph_context {
                  cb(cur, "kqv_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -11083,6 +11085,8 @@ struct llm_build_t5_dec : public llm_graph_context {
          auto * inp_attn_self  = build_attn_inp_kv_unified();
          auto * inp_attn_cross = build_attn_inp_cross();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11174,11 +11178,8 @@ struct llm_build_t5_dec : public llm_graph_context {
                  //cb(cur, "kqv_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
-                inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
                  inpCA = ggml_get_rows(ctx0, inpCA, inp_out_ids);
              }
  
@@ -11248,6 +11249,8 @@ struct llm_build_jais : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              cur = build_norm(inpL,
                      model.layers[il].attn_norm,
@@ -11280,9 +11283,7 @@ struct llm_build_jais : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/float(n_embd_head), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur  = ggml_get_rows(ctx0,  cur, inp_out_ids);
                  inpL = ggml_get_rows(ctx0, inpL, inp_out_ids);
              }
@@ -11346,6 +11347,8 @@ struct llm_build_chatglm : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11412,9 +11415,7 @@ struct llm_build_chatglm : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -11479,6 +11480,8 @@ struct llm_build_glm4 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11545,9 +11548,7 @@ struct llm_build_glm4 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -11630,6 +11631,8 @@ struct llm_build_nemotron : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11689,9 +11692,7 @@ struct llm_build_nemotron : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -11759,6 +11760,8 @@ struct llm_build_exaone : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -11820,9 +11823,7 @@ struct llm_build_exaone : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -12098,6 +12099,8 @@ struct llm_build_rwkv6 : public llm_build_rwkv6_base {
          const auto n_seq_tokens = ubatch.n_seq_tokens;
          const auto n_seqs = ubatch.n_seqs;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const llama_layer * layer = &model.layers[il];
              inpL = ggml_reshape_3d(ctx0, inpL, n_embd, n_seq_tokens, n_seqs);
@@ -12139,13 +12142,16 @@ struct llm_build_rwkv6 : public llm_build_rwkv6_base {
                      );
              ggml_build_forward_expand(gf, build_rwkv_token_shift_store(token_shift, ubatch, il));
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                struct ggml_tensor * inp_out_ids = build_inp_out_ids();
-                ffn_inp  = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_inp,  n_embd, n_tokens), inp_out_ids);
-                ffn_norm = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_norm, n_embd, n_tokens), inp_out_ids);
-                x_prev   = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, x_prev,   n_embd, n_tokens), inp_out_ids);
-                cur      = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, cur,      n_embd, n_tokens), inp_out_ids);
+            ffn_inp  = ggml_reshape_2d(ctx0, ffn_inp,  n_embd, n_tokens);
+            ffn_norm = ggml_reshape_2d(ctx0, ffn_norm, n_embd, n_tokens);
+            x_prev   = ggml_reshape_2d(ctx0, x_prev,   n_embd, n_tokens);
+            cur      = ggml_reshape_2d(ctx0, cur,      n_embd, n_tokens);
+
+            if (il == n_layer - 1 && inp_out_ids) {
+                ffn_inp  = ggml_get_rows(ctx0, ffn_inp,  inp_out_ids);
+                ffn_norm = ggml_get_rows(ctx0, ffn_norm, inp_out_ids);
+                x_prev   = ggml_get_rows(ctx0, x_prev,   inp_out_ids);
+                cur      = ggml_get_rows(ctx0, cur,      inp_out_ids);
              }
  
              cur = build_rwkv6_channel_mix(layer, ffn_norm, x_prev, LLM_ARCH_RWKV6);
@@ -12193,6 +12199,8 @@ struct llm_build_rwkv6qwen2 : public llm_build_rwkv6_base {
          const auto n_seq_tokens = ubatch.n_seq_tokens;
          const auto n_seqs = ubatch.n_seqs;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const llama_layer * layer = &model.layers[il];
              inpL = ggml_reshape_3d(ctx0, inpL, n_embd, n_seq_tokens, n_seqs);
@@ -12217,11 +12225,12 @@ struct llm_build_rwkv6qwen2 : public llm_build_rwkv6_base {
              ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
              cb(ffn_inp, "ffn_inp", il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                struct ggml_tensor * inp_out_ids = build_inp_out_ids();
-                cur     = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, cur, n_embd, n_tokens), inp_out_ids);
-                ffn_inp = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_inp, n_embd, n_tokens), inp_out_ids);
+            cur     = ggml_reshape_2d(ctx0, cur,     n_embd, n_tokens);
+            ffn_inp = ggml_reshape_2d(ctx0, ffn_inp, n_embd, n_tokens);
+
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur     = ggml_get_rows(ctx0, cur,     inp_out_ids);
+                ffn_inp = ggml_get_rows(ctx0, ffn_inp, inp_out_ids);
              }
  
              // feed-forward network
@@ -12447,6 +12456,8 @@ struct llm_build_rwkv7 : public llm_build_rwkv7_base {
          const auto n_seq_tokens = ubatch.n_seq_tokens;
          const auto n_seqs = ubatch.n_seqs;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const llama_layer * layer = &model.layers[il];
              inpL = ggml_reshape_3d(ctx0, inpL, n_embd, n_seq_tokens, n_seqs);
@@ -12488,12 +12499,14 @@ struct llm_build_rwkv7 : public llm_build_rwkv7_base {
                      );
              ggml_build_forward_expand(gf, build_rwkv_token_shift_store(token_shift, ubatch, il));
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                struct ggml_tensor * inp_out_ids = build_inp_out_ids();
-                ffn_inp  = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_inp,  n_embd, n_tokens), inp_out_ids);
-                ffn_norm = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_norm, n_embd, n_tokens), inp_out_ids);
-                x_prev   = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, x_prev,   n_embd, n_tokens), inp_out_ids);
+            ffn_inp  = ggml_reshape_2d(ctx0, ffn_inp,  n_embd, n_tokens);
+            ffn_norm = ggml_reshape_2d(ctx0, ffn_norm, n_embd, n_tokens);
+            x_prev   = ggml_reshape_2d(ctx0, x_prev,   n_embd, n_tokens);
+
+            if (il == n_layer - 1 && inp_out_ids) {
+                ffn_inp  = ggml_get_rows(ctx0, ffn_inp,  inp_out_ids);
+                ffn_norm = ggml_get_rows(ctx0, ffn_norm, inp_out_ids);
+                x_prev   = ggml_get_rows(ctx0, x_prev,   inp_out_ids);
              }
  
              cur = build_rwkv7_channel_mix(layer, ffn_norm, x_prev, LLM_ARCH_RWKV7);
@@ -12538,6 +12551,8 @@ struct llm_build_arwkv7 : public llm_build_rwkv7_base {
          const auto n_seq_tokens = ubatch.n_seq_tokens;
          const auto n_seqs = ubatch.n_seqs;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              const llama_layer * layer = &model.layers[il];
              inpL = ggml_reshape_3d(ctx0, inpL, n_embd, n_seq_tokens, n_seqs);
@@ -12562,11 +12577,12 @@ struct llm_build_arwkv7 : public llm_build_rwkv7_base {
              ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpL);
              cb(ffn_inp, "ffn_inp", il);
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                struct ggml_tensor * inp_out_ids = build_inp_out_ids();
-                cur     = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, cur, n_embd, n_tokens), inp_out_ids);
-                ffn_inp = ggml_get_rows(ctx0, ggml_reshape_2d(ctx0, ffn_inp, n_embd, n_tokens), inp_out_ids);
+            cur     = ggml_reshape_2d(ctx0, cur,     n_embd, n_tokens);
+            ffn_inp = ggml_reshape_2d(ctx0, ffn_inp, n_embd, n_tokens);
+
+            if (il == n_layer - 1 && inp_out_ids) {
+                cur     = ggml_get_rows(ctx0, cur,     inp_out_ids);
+                ffn_inp = ggml_get_rows(ctx0, ffn_inp, inp_out_ids);
              }
  
              // feed-forward network
@@ -12635,6 +12651,9 @@ struct llm_build_granite : public llm_graph_context {
          auto * inp_attn = build_attn_inp_kv_unified();
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
+
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -12697,9 +12716,7 @@ struct llm_build_granite : public llm_graph_context {
                  cb(cur, "attn_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -12818,6 +12835,8 @@ struct llm_build_chameleon : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -12894,21 +12913,19 @@ struct llm_build_chameleon : public llm_graph_context {
                  cur = build_attn(inp_attn, gf,
                          model.layers[il].wo, nullptr,
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
-
-                if (hparams.swin_norm) {
-                    cur = build_norm(cur,
-                            model.layers[il].attn_norm, NULL,
-                            LLM_NORM_RMS, il);
-                }
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
  
+            if (hparams.swin_norm) {
+                cur = build_norm(cur,
+                        model.layers[il].attn_norm, NULL,
+                        LLM_NORM_RMS, il);
+            }
+
              ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
              cb(ffn_inp, "ffn_inp", il);
  
@@ -13149,6 +13166,8 @@ struct llm_build_plm : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -13252,9 +13271,7 @@ struct llm_build_plm : public llm_graph_context {
                          q_states, k_states, v_states, nullptr, nullptr, kq_scale, il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -13314,6 +13331,8 @@ struct llm_build_bailingmoe : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -13375,9 +13394,7 @@ struct llm_build_bailingmoe : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_rot)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -13463,6 +13480,8 @@ struct llm_build_dots1 : public llm_graph_context {
  
          auto * inp_attn = build_attn_inp_kv_unified();
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -13515,9 +13534,7 @@ struct llm_build_dots1 : public llm_graph_context {
                          Qcur, Kcur, Vcur, nullptr, nullptr, 1.0f/sqrtf(float(n_embd_head)), il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
@@ -13615,6 +13632,8 @@ struct llm_build_arcee : public llm_graph_context {
  
          const float kq_scale = hparams.f_attention_scale == 0.0f ? 1.0f/sqrtf(float(n_embd_head)) : hparams.f_attention_scale;
  
+        ggml_tensor * inp_out_ids = build_inp_out_ids();
+
          for (int il = 0; il < n_layer; ++il) {
              ggml_tensor * inpSA = inpL;
  
@@ -13677,9 +13696,7 @@ struct llm_build_arcee : public llm_graph_context {
                  cb(cur, "attn_out", il);
              }
  
-            if (il == n_layer - 1) {
-                // skip computing output for unused tokens
-                ggml_tensor * inp_out_ids = build_inp_out_ids();
+            if (il == n_layer - 1 && inp_out_ids) {
                  cur   = ggml_get_rows(ctx0,   cur, inp_out_ids);
                  inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
              }
author	Georgi Gerganov <redacted>
	Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)
committer	GitHub <redacted>
	Fri, 20 Jun 2025 07:50:27 +0000 (10:50 +0300)
src/llama-graph.cpp		patch \| blob \| history
src/llama-model.cpp		patch \| blob \| history