server : fix crash with multimodal models without BOS token (#4904)

author makomk <redacted>

Sat, 13 Jan 2024 14:16:11 +0000 (14:16 +0000)

committer GitHub <redacted>

Sat, 13 Jan 2024 14:16:11 +0000 (16:16 +0200)
author makomk <redacted>
Sat, 13 Jan 2024 14:16:11 +0000 (14:16 +0000)
committer GitHub <redacted>
Sat, 13 Jan 2024 14:16:11 +0000 (16:16 +0200)
diff --git a/examples/server/server.cpp b/examples/server/server.cpp

index c1ab8f9dc477c36b27aed7b8eda8476d6eda5758..7b33aea1f4fd5ce5f7b7d93f635b6b78928da5d2 100644 (file)
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -1835,7 +1835,7 @@ struct llama_server_context
  
                      slot.cache_tokens = prompt_tokens;
  
-                    if (slot.n_past == slot.num_prompt_tokens)
+                    if (slot.n_past == slot.num_prompt_tokens && slot.n_past > 0)
                      {
                          // we have to evaluate at least 1 token to generate logits.
                          LOG_TEE("slot %d : we have to evaluate at least 1 token to generate logits\n", slot.id);