git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

overview / pkg / ggml / sources / llama.cpp / commit

author	Ryan Goulden <redacted>
	Thu, 19 Mar 2026 18:09:33 +0000 (11:09 -0700)
committer	GitHub <redacted>
	Thu, 19 Mar 2026 18:09:33 +0000 (19:09 +0100)
commit	26c9ce128825ba53a91baf75b5b817a1373b46bf
tree	4fd83148e0acc7da62a233713e423410e937a249	tree
parent	76f2dc70c360d6506c588d68b58ff14d0120ce8b	commit \| diff

server: Add cached_tokens info to oaicompat responses (#19361)

* tests : fix fetch_server_test_models.py

* server: to_json_oaicompat cached_tokens

Adds OpenAI and Anthropic compatible information about the
number of cached prompt tokens used in a response.

Packaging of ggml-org/llama.cpp

RSS Atom

scripts/fetch_server_test_models.py		diff \| blob \| history
tools/server/server-context.cpp		diff \| blob \| history
tools/server/server-task.cpp		diff \| blob \| history
tools/server/server-task.h		diff \| blob \| history
tools/server/tests/unit/test_chat_completion.py		diff \| blob \| history
tools/server/tests/unit/test_compat_anthropic.py		diff \| blob \| history