model: assert nextn_predict_layers to prevent underflow (#20783)

author Ruikai Peng <redacted>

Fri, 20 Mar 2026 09:17:58 +0000 (17:17 +0800)

committer GitHub <redacted>

Fri, 20 Mar 2026 09:17:58 +0000 (10:17 +0100)
author Ruikai Peng <redacted>
Fri, 20 Mar 2026 09:17:58 +0000 (17:17 +0800)
committer GitHub <redacted>
Fri, 20 Mar 2026 09:17:58 +0000 (10:17 +0100)
diff --git a/src/llama-model.cpp b/src/llama-model.cpp

index 85db938a7ad417eae39cfdb40c899ff34ef70918..06e0645352ed05ff3e69020fb7e199dfb7d468ad 100644 (file)
--- a/src/llama-model.cpp
+++ b/src/llama-model.cpp
@@ -1673,6 +1673,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
  
                  // NextN/MTP parameters (GLM-OCR)
                  ml.get_key(LLM_KV_NEXTN_PREDICT_LAYERS, hparams.nextn_predict_layers, false);
+                GGML_ASSERT(hparams.nextn_predict_layers < hparams.n_layer && "nextn_predict_layers must be < n_layer");
  
                  // TODO: when MTP is implemented, this should probably be updated if needed
                  hparams.n_layer_kv_from_start = hparams.n_layer - hparams.nextn_predict_layers;
@@ -1706,6 +1707,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
  
                  // NextN/MTP parameters
                  ml.get_key(LLM_KV_NEXTN_PREDICT_LAYERS,        hparams.nextn_predict_layers, false);
+                GGML_ASSERT(hparams.nextn_predict_layers < hparams.n_layer && "nextn_predict_layers must be < n_layer");
  
                  // TODO: when MTP is implemented, this should probably be updated if needed
                  hparams.n_layer_kv_from_start = hparams.n_layer - hparams.nextn_predict_layers;
@@ -1752,6 +1754,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
  
                  // NextN/MTP parameters
                  ml.get_key(LLM_KV_NEXTN_PREDICT_LAYERS,        hparams.nextn_predict_layers, false);
+                GGML_ASSERT(hparams.nextn_predict_layers < hparams.n_layer && "nextn_predict_layers must be < n_layer");
  
                  // TODO: when MTP is implemented, this should probably be updated if needed
                  hparams.n_layer_kv_from_start = hparams.n_layer - hparams.nextn_predict_layers;
@@ -1926,6 +1929,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  ml.get_key(LLM_KV_LEADING_DENSE_BLOCK_COUNT,         hparams.n_layer_dense_lead, false);
  
                  ml.get_key(LLM_KV_NEXTN_PREDICT_LAYERS,              hparams.nextn_predict_layers, false);
+                GGML_ASSERT(hparams.nextn_predict_layers < hparams.n_layer && "nextn_predict_layers must be < n_layer");
  
                  switch (hparams.n_layer) {
                      case 32: type = LLM_TYPE_30B_A3B; break;
@@ -2108,6 +2112,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                  ml.get_key(LLM_KV_EXPERT_WEIGHTS_NORM,               hparams.expert_weights_norm, false);
                  ml.get_key(LLM_KV_EXPERT_GATING_FUNC,                hparams.expert_gating_func);
                  ml.get_key(LLM_KV_NEXTN_PREDICT_LAYERS,              hparams.nextn_predict_layers, false);
+                GGML_ASSERT(hparams.nextn_predict_layers < hparams.n_layer && "nextn_predict_layers must be < n_layer");
  
                  // TODO: when MTP is implemented, this should probably be updated if needed
                  hparams.n_layer_kv_from_start = hparams.n_layer - hparams.nextn_predict_layers;
author	Ruikai Peng <redacted>
	Fri, 20 Mar 2026 09:17:58 +0000 (17:17 +0800)
committer	GitHub <redacted>
	Fri, 20 Mar 2026 09:17:58 +0000 (10:17 +0100)