llama-model: read final_logit_softcapping for Gemma 4 (#21390)

author SamareshSingh <redacted>

Sat, 4 Apr 2026 11:05:10 +0000 (06:05 -0500)

committer GitHub <redacted>

Sat, 4 Apr 2026 11:05:10 +0000 (13:05 +0200)
author SamareshSingh <redacted>
Sat, 4 Apr 2026 11:05:10 +0000 (06:05 -0500)
committer GitHub <redacted>
Sat, 4 Apr 2026 11:05:10 +0000 (13:05 +0200)
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index ba935340fcf95f1df70c1cbac9d5fbe3d9d26dde..79d08ff41e3dffa1937681de1c6ddcefe8c623c6 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -1279,6 +1279,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  ml.get_key(LLM_KV_EMBEDDING_LENGTH_PER_LAYER,  hparams.n_embd_per_layer);
                  ml.get_key(LLM_KV_ATTENTION_KEY_LENGTH_SWA,    hparams.n_embd_head_k_swa);
                  ml.get_key(LLM_KV_ATTENTION_VALUE_LENGTH_SWA,  hparams.n_embd_head_v_swa);
+                ml.get_key(LLM_KV_FINAL_LOGIT_SOFTCAPPING,     hparams.f_final_logit_softcapping, false);
  
                  switch (hparams.n_layer) {
                      case 35: type = LLM_TYPE_E2B; break;
author	SamareshSingh <redacted>
	Sat, 4 Apr 2026 11:05:10 +0000 (06:05 -0500)
committer	GitHub <redacted>
	Sat, 4 Apr 2026 11:05:10 +0000 (13:05 +0200)