]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commitdiff
server : add documentation for `parallel_tool_calls` param (#15647)
authorExtReMLapin <redacted>
Fri, 29 Aug 2025 17:25:40 +0000 (19:25 +0200)
committerGitHub <redacted>
Fri, 29 Aug 2025 17:25:40 +0000 (20:25 +0300)
Co-authored-by: Pierre F <redacted>
docs/function-calling.md
tools/server/README.md

index 37eacaf3100c165068233781b8815c068036d940..67cf785c7a95d270ab33523d34503a47e2fba8e9 100644 (file)
@@ -21,6 +21,8 @@ Function calling is supported for all models (see https://github.com/ggml-org/ll
   - Use `--chat-template-file` to override the template when appropriate (see examples below)
   - Generic support may consume more tokens and be less efficient than a model's native format.
 
+- Multiple/parallel tool calling is supported on some models but disabled by default, enable it by passing `"parallel_tool_calls": true` in the completion endpoint payload.
+
 <details>
 <summary>Show some common templates and which format handler they use</summary>
 
index baf3730add67c113e4164c87015f7f0e2743997b..6962b0d3a21a8f4808710e10136abe5b80045f2f 100644 (file)
@@ -1143,6 +1143,8 @@ The `response_format` parameter supports both plain JSON output (e.g. `{"type":
 
 `parse_tool_calls`: Whether to parse the generated tool call.
 
+`parallel_tool_calls` : Whether to enable parallel/multiple tool calls (only supported on some models, verification is based on jinja template).
+
 *Examples:*
 
 You can use either Python `openai` library with appropriate checkpoints: