]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
cuda : Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs (#14741)
authorOliver Simons <redacted>
Fri, 18 Jul 2025 11:35:32 +0000 (13:35 +0200)
committerGitHub <redacted>
Fri, 18 Jul 2025 11:35:32 +0000 (04:35 -0700)
commit021cc28bef4dd7d0bf9c91dbbd0803caa6cb15f2
treee26b8682f6a0cb7233a44c0164bc9189ca23df7b
parentd498af3d5a00f96bdd37b534860f03a6d9e98d39
cuda : Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs (#14741)

* Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs

Gemma3n uses Matrix-Matrix addition as part of their input processing,
wrongly triggering CUDA_GRAPH disablement on NVGPUs even when batch-size
of 1 is used.

* Exclude `project_per_layer_input` by matching node names

This ensures that all other graphs which don't exhibit this pattern do
not have their behavior changed.

* Revert unnecessary formatting changes
ggml/src/ggml-cuda/ggml-cuda.cu