From: Diego Devesa <redacted>
Date: Wed, 22 Jan 2025 16:44:40 +0000 (+0100)
Subject: server : fix draft context not being released (#11354)
X-Git-Tag: upstream/0.0.4631~102
X-Git-Url: https://git.djapps.eu/?a=commitdiff_plain;h=12c2bdf2de34f747d13b270fc9d3b52490bf194f;p=pkg%2Fggml%2Fsources%2Fllama.cpp

server : fix draft context not being released (#11354)
---

diff --git a/examples/server/server.cpp b/examples/server/server.cpp
index 412908aa..4cfb3c9b 100644
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -1772,6 +1772,9 @@ struct server_context {
             // force F16 KV cache for the draft model for extra performance
             cparams_dft.type_k = GGML_TYPE_F16;
             cparams_dft.type_v = GGML_TYPE_F16;
+
+            // the context is not needed - we will create one for each slot
+            llama_init_dft.context.reset();
         }
 
         chat_templates = common_chat_templates_from_model(model, params_base.chat_template);