context : use n_embd_out for pooled embedding extraction (#20840)

author Tom Hillbrunner <redacted>

Sat, 21 Mar 2026 17:35:00 +0000 (18:35 +0100)

committer GitHub <redacted>

Sat, 21 Mar 2026 17:35:00 +0000 (19:35 +0200)
author Tom Hillbrunner <redacted>
Sat, 21 Mar 2026 17:35:00 +0000 (18:35 +0100)
committer GitHub <redacted>
Sat, 21 Mar 2026 17:35:00 +0000 (19:35 +0200)
diff --git a/src/llama-context.cpp b/src/llama-context.cpp

index 8f25d477865dbe348820650db5cf2ffda1b90065..6aa73630c9cf125de8de4dd63b654303a892d7ed 100644 (file)
--- a/src/llama-context.cpp
+++ b/src/llama-context.cpp
@@ -1347,8 +1347,11 @@ int llama_context::encode(const llama_batch & batch_inp) {
                          const llama_seq_id seq_id  = ubatch.seq_id_unq[s];
                          const int32_t      seq_idx = ubatch.seq_idx[seq_id];
  
-                        embd_seq_out[seq_id].resize(n_embd);
-                        ggml_backend_tensor_get_async(backend_embd, t_embd, embd_seq_out[seq_id].data(), (n_embd*seq_idx)*sizeof(float), n_embd*sizeof(float));
+                        // use n_embd_out (not n_embd_inp) - the pooled embedding has the model's
+                        // output dimension, which differs from input dimension for deepstack models (e.g. qwen3vl)
+                        const uint32_t n_embd_out = hparams.n_embd_out();
+                        embd_seq_out[seq_id].resize(n_embd_out);
+                        ggml_backend_tensor_get_async(backend_embd, t_embd, embd_seq_out[seq_id].data(), (n_embd_out*seq_idx)*sizeof(float), n_embd_out*sizeof(float));
                      }
                  } break;
              case LLAMA_POOLING_TYPE_RANK:
@@ -1769,12 +1772,16 @@ int llama_context::decode(const llama_batch & batch_inp) {
                          // extract sequence embeddings (cleared before processing each batch)
                          auto & embd_seq_out = embd_seq;
  
+                        // use n_embd_out (not n_embd_inp) - the pooled embedding has the model's
+                        // output dimension, which differs from input dimension for deepstack models (e.g. qwen3vl)
+                        const uint32_t n_embd_out = hparams.n_embd_out();
+
                          for (uint32_t s = 0; s < ubatch.n_seqs_unq; ++s) {
                              const llama_seq_id seq_id  = ubatch.seq_id_unq[s];
                              const int32_t      seq_idx = ubatch.seq_idx[seq_id];
  
-                            embd_seq_out[seq_id].resize(n_embd);
-                            ggml_backend_tensor_get_async(backend_embd, t_embd, embd_seq_out[seq_id].data(), (n_embd*seq_idx)*sizeof(float), n_embd*sizeof(float));
+                            embd_seq_out[seq_id].resize(n_embd_out);
+                            ggml_backend_tensor_get_async(backend_embd, t_embd, embd_seq_out[seq_id].data(), (n_embd_out*seq_idx)*sizeof(float), n_embd_out*sizeof(float));
                          }
                      } break;
                  case LLAMA_POOLING_TYPE_RANK:
author	Tom Hillbrunner <redacted>
	Sat, 21 Mar 2026 17:35:00 +0000 (18:35 +0100)
committer	GitHub <redacted>
	Sat, 21 Mar 2026 17:35:00 +0000 (19:35 +0200)