]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
server : support unified cache across slots (#16736)
authorGeorgi Gerganov <redacted>
Sun, 2 Nov 2025 16:14:04 +0000 (18:14 +0200)
committerGitHub <redacted>
Sun, 2 Nov 2025 16:14:04 +0000 (18:14 +0200)
commitcd5e3b57541ecc52421130742f4d89acbcf77cd4
tree09ab7ad5a96d11291eb7bfc329cc65fe1018c722
parent87c9efc3b297b8a498716b1db3d061842e6fc85b
server : support unified cache across slots (#16736)

* server : support unified context across slots

* cont : fix speculative decoding initialization

* context : fix n_ctx_per_seq computation

* server : purge slots one by one

* tests : add unified cache server tests

* llama : update per-seq context computation

* test-thread-safety : handle tiny training context of the input model

* server : fix server_tokens clear()

* server : use 4 slots + unified KV by default

* llama : add note about context size queries

* cont : update todos [no ci]

* context : do not cap the size of the context

* tests : adjust parameters to be CI friendlier

* context : add warning
12 files changed:
include/llama.h
src/llama-context.cpp
src/llama-context.h
src/llama-cparams.h
src/llama-model.cpp
tests/test-thread-safety.cpp
tools/server/server.cpp
tools/server/tests/unit/test_chat_completion.py
tools/server/tests/unit/test_completion.py
tools/server/tests/unit/test_infill.py
tools/server/tests/utils.py
tools/server/utils.hpp