server : add some missing env variables (#9116)

author Xuan Son Nguyen <redacted>

Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)

committer GitHub <redacted>

Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)
author Xuan Son Nguyen <redacted>
Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)
committer GitHub <redacted>
Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)
diff --git a/.devops/llama-server-cuda.Dockerfile b/.devops/llama-server-cuda.Dockerfile

index 67328cf1c17881a5b6bb7d51e0d4d8b7f3ebd3f6..1842489841f8ced13ee8b21a530920399989f152 100644 (file)
--- a/.devops/llama-server-cuda.Dockerfile
+++ b/.devops/llama-server-cuda.Dockerfile
@@ -24,6 +24,8 @@ ENV CUDA_DOCKER_ARCH=${CUDA_DOCKER_ARCH}
  ENV GGML_CUDA=1
  # Enable cURL
  ENV LLAMA_CURL=1
+# Must be set to 0.0.0.0 so it can listen to requests from host machine
+ENV LLAMA_ARG_HOST=0.0.0.0
  
  RUN make -j$(nproc) llama-server
  
diff --git a/.devops/llama-server-intel.Dockerfile b/.devops/llama-server-intel.Dockerfile

index f525658dddfe5d6beff9c589c36c4500442c5353..9c355b664f15e94f44e43183c7cb3d694c58bb88 100644 (file)
--- a/.devops/llama-server-intel.Dockerfile
+++ b/.devops/llama-server-intel.Dockerfile
@@ -26,6 +26,8 @@ RUN apt-get update && \
  COPY --from=build /app/build/bin/llama-server /llama-server
  
  ENV LC_ALL=C.utf8
+# Must be set to 0.0.0.0 so it can listen to requests from host machine
+ENV LLAMA_ARG_HOST=0.0.0.0
  
  HEALTHCHECK CMD [ "curl", "-f", "http://localhost:8080/health" ]
  
diff --git a/.devops/llama-server-rocm.Dockerfile b/.devops/llama-server-rocm.Dockerfile

index 763b4cd3f1c2ed8038da9019ac2e403a650f9adc..fd0e19ad6e49cf45cffbcedf5cc8091758e166af 100644 (file)
--- a/.devops/llama-server-rocm.Dockerfile
+++ b/.devops/llama-server-rocm.Dockerfile
@@ -39,6 +39,8 @@ ENV GPU_TARGETS=${ROCM_DOCKER_ARCH}
  ENV GGML_HIPBLAS=1
  ENV CC=/opt/rocm/llvm/bin/clang
  ENV CXX=/opt/rocm/llvm/bin/clang++
+# Must be set to 0.0.0.0 so it can listen to requests from host machine
+ENV LLAMA_ARG_HOST=0.0.0.0
  
  # Enable cURL
  ENV LLAMA_CURL=1
diff --git a/.devops/llama-server-vulkan.Dockerfile b/.devops/llama-server-vulkan.Dockerfile

index 13a61ffd8454b68cbd88f8cfa32e0018800ccd1b..93c5e0c26e6917936ff2685a78e3da9097eef34f 100644 (file)
--- a/.devops/llama-server-vulkan.Dockerfile
+++ b/.devops/llama-server-vulkan.Dockerfile
@@ -23,6 +23,8 @@ RUN cp /app/build/bin/llama-server /llama-server && \
      rm -rf /app
  
  ENV LC_ALL=C.utf8
+# Must be set to 0.0.0.0 so it can listen to requests from host machine
+ENV LLAMA_ARG_HOST=0.0.0.0
  
  HEALTHCHECK CMD [ "curl", "-f", "http://localhost:8080/health" ]
  
diff --git a/.devops/llama-server.Dockerfile b/.devops/llama-server.Dockerfile

index ff558604ebde23616976bd8bac654f000788dad4..02accc85e1368f9db1a50d0d0af7447eebc93361 100644 (file)
--- a/.devops/llama-server.Dockerfile
+++ b/.devops/llama-server.Dockerfile
@@ -21,6 +21,8 @@ RUN apt-get update && \
  COPY --from=build /app/llama-server /llama-server
  
  ENV LC_ALL=C.utf8
+# Must be set to 0.0.0.0 so it can listen to requests from host machine
+ENV LLAMA_ARG_HOST=0.0.0.0
  
  HEALTHCHECK CMD [ "curl", "-f", "http://localhost:8080/health" ]
  
diff --git a/common/common.cpp b/common/common.cpp

index 72859c9674418fa06e1d688b16087ca87fc4cce2..715adf94658f0e5d5fe1cba93a1172ba475b8f7f 100644 (file)
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -327,6 +327,10 @@ bool gpt_params_parse_ex(int argc, char ** argv, gpt_params & params) {
  void gpt_params_parse_from_env(gpt_params & params) {
      // we only care about server-related params for now
      get_env("LLAMA_ARG_MODEL",            params.model);
+    get_env("LLAMA_ARG_MODEL_URL",        params.model_url);
+    get_env("LLAMA_ARG_MODEL_ALIAS",      params.model_alias);
+    get_env("LLAMA_ARG_HF_REPO",          params.hf_repo);
+    get_env("LLAMA_ARG_HF_FILE",          params.hf_file);
      get_env("LLAMA_ARG_THREADS",          params.n_threads);
      get_env("LLAMA_ARG_CTX_SIZE",         params.n_ctx);
      get_env("LLAMA_ARG_N_PARALLEL",       params.n_parallel);
@@ -341,6 +345,9 @@ void gpt_params_parse_from_env(gpt_params & params) {
      get_env("LLAMA_ARG_EMBEDDINGS",       params.embedding);
      get_env("LLAMA_ARG_FLASH_ATTN",       params.flash_attn);
      get_env("LLAMA_ARG_DEFRAG_THOLD",     params.defrag_thold);
+    get_env("LLAMA_ARG_CONT_BATCHING",    params.cont_batching);
+    get_env("LLAMA_ARG_HOST",             params.hostname);
+    get_env("LLAMA_ARG_PORT",             params.port);
  }
  
  bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
diff --git a/examples/server/README.md b/examples/server/README.md

index abe245271195b27b0dae7f5e98ebf55ea1b0024d..805e05b4a51142fa81b922c87274d59cb09efdce 100644 (file)
--- a/examples/server/README.md
+++ b/examples/server/README.md
@@ -249,23 +249,49 @@ logging:
  
  Available environment variables (if specified, these variables will override parameters specified in arguments):
  
-- `LLAMA_CACHE` (cache directory, used by `--hf-repo`)
-- `HF_TOKEN` (Hugging Face access token, used when accessing a gated model with `--hf-repo`)
-- `LLAMA_ARG_MODEL`
-- `LLAMA_ARG_THREADS`
-- `LLAMA_ARG_CTX_SIZE`
-- `LLAMA_ARG_N_PARALLEL`
-- `LLAMA_ARG_BATCH`
-- `LLAMA_ARG_UBATCH`
-- `LLAMA_ARG_N_GPU_LAYERS`
-- `LLAMA_ARG_THREADS_HTTP`
-- `LLAMA_ARG_CHAT_TEMPLATE`
-- `LLAMA_ARG_N_PREDICT`
-- `LLAMA_ARG_ENDPOINT_METRICS`
-- `LLAMA_ARG_ENDPOINT_SLOTS`
-- `LLAMA_ARG_EMBEDDINGS`
-- `LLAMA_ARG_FLASH_ATTN`
-- `LLAMA_ARG_DEFRAG_THOLD`
+- `LLAMA_CACHE`: cache directory, used by `--hf-repo`
+- `HF_TOKEN`: Hugging Face access token, used when accessing a gated model with `--hf-repo`
+- `LLAMA_ARG_MODEL`: equivalent to `-m`
+- `LLAMA_ARG_MODEL_URL`: equivalent to `-mu`
+- `LLAMA_ARG_MODEL_ALIAS`: equivalent to `-a`
+- `LLAMA_ARG_HF_REPO`: equivalent to `--hf-repo`
+- `LLAMA_ARG_HF_FILE`: equivalent to `--hf-file`
+- `LLAMA_ARG_THREADS`: equivalent to `-t`
+- `LLAMA_ARG_CTX_SIZE`: equivalent to `-c`
+- `LLAMA_ARG_N_PARALLEL`: equivalent to `-np`
+- `LLAMA_ARG_BATCH`: equivalent to `-b`
+- `LLAMA_ARG_UBATCH`: equivalent to `-ub`
+- `LLAMA_ARG_N_GPU_LAYERS`: equivalent to `-ngl`
+- `LLAMA_ARG_THREADS_HTTP`: equivalent to `--threads-http`
+- `LLAMA_ARG_CHAT_TEMPLATE`: equivalent to `--chat-template`
+- `LLAMA_ARG_N_PREDICT`: equivalent to `-n`
+- `LLAMA_ARG_ENDPOINT_METRICS`: if set to `1`, it will enable metrics endpoint (equivalent to `--metrics`)
+- `LLAMA_ARG_ENDPOINT_SLOTS`: if set to `0`, it will **disable** slots endpoint (equivalent to `--no-slots`). This feature is enabled by default.
+- `LLAMA_ARG_EMBEDDINGS`: if set to `1`, it will enable embeddings endpoint (equivalent to `--embeddings`)
+- `LLAMA_ARG_FLASH_ATTN`: if set to `1`, it will enable flash attention (equivalent to `-fa`)
+- `LLAMA_ARG_CONT_BATCHING`: if set to `0`, it will **disable** continuous batching (equivalent to `--no-cont-batching`). This feature is enabled by default.
+- `LLAMA_ARG_DEFRAG_THOLD`: equivalent to `-dt`
+- `LLAMA_ARG_HOST`: equivalent to `--host`
+- `LLAMA_ARG_PORT`: equivalent to `--port`
+
+Example usage of docker compose with environment variables:
+
+```yml
+services:
+  llamacpp-server:
+    image: ghcr.io/ggerganov/llama.cpp:server
+    ports:
+      - 8080:8080
+    volumes:
+      - ./models:/models
+    environment:
+      # alternatively, you can use "LLAMA_ARG_MODEL_URL" to download the model
+      LLAMA_ARG_MODEL: /models/my_model.gguf
+      LLAMA_ARG_CTX_SIZE: 4096
+      LLAMA_ARG_N_PARALLEL: 2
+      LLAMA_ARG_ENDPOINT_METRICS: 1  # to disable, either remove or set to 0
+      LLAMA_ARG_PORT: 8080
+```
  
  ## Build
author	Xuan Son Nguyen <redacted>
	Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)
committer	GitHub <redacted>
	Tue, 27 Aug 2024 09:07:01 +0000 (11:07 +0200)
.devops/llama-server-cuda.Dockerfile		patch \| blob \| history
.devops/llama-server-intel.Dockerfile		patch \| blob \| history
.devops/llama-server-rocm.Dockerfile		patch \| blob \| history
.devops/llama-server-vulkan.Dockerfile		patch \| blob \| history
.devops/llama-server.Dockerfile		patch \| blob \| history
common/common.cpp		patch \| blob \| history
examples/server/README.md		patch \| blob \| history