]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
ggml: add env var GGML_OP_OFFLOAD_MIN_BATCH (#18535)
authorDoctor Shotgun <redacted>
Thu, 8 Jan 2026 09:03:21 +0000 (01:03 -0800)
committerGitHub <redacted>
Thu, 8 Jan 2026 09:03:21 +0000 (11:03 +0200)
commit9a5724dee2457d58e506268efcb1d2286498cf3d
tree7c41cb22b875347381ac9d2fa081739dad3ad073
parent9c142e3a2a8f1c7415511bd9d24f4790ce2dac88
ggml: add env var GGML_OP_OFFLOAD_MIN_BATCH (#18535)

* ggml: add env var GGML_OP_OFFLOAD_MIN_BATCH
* makes the min_batch_size for triggering op offload configurable via env var, defaulting to the prior hardcoded value of 32

* ggml: read GGML_OP_OFFLOAD_MIN_BATCH once and store to dev ctx

* cann: forward declaration of device context struct

* cann: move offload op check after device context declaration

* cuda: fix whitespace

Co-authored-by: Aman Gupta <redacted>
---------

Co-authored-by: Aman Gupta <redacted>
ggml/src/ggml-cann/ggml-cann.cpp
ggml/src/ggml-cuda/ggml-cuda.cu
ggml/src/ggml-metal/ggml-metal-device.h
ggml/src/ggml-metal/ggml-metal-device.m
ggml/src/ggml-metal/ggml-metal.cpp
ggml/src/ggml-sycl/ggml-sycl.cpp
ggml/src/ggml-vulkan/ggml-vulkan.cpp