]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
cuda : Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs (llama/14741)
authorOliver Simons <redacted>
Fri, 18 Jul 2025 11:35:32 +0000 (13:35 +0200)
committerGeorgi Gerganov <redacted>
Sat, 19 Jul 2025 14:47:23 +0000 (17:47 +0300)
commit3132422f4e6c2a4cd149bcfef069b9c69e004d52
treef8a52e346c55b3441fe84b2e95b78448ae770292
parent0e6d761ce4e08ec32f56b32910559a5b29fa4bea
cuda : Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs (llama/14741)

* Fix Gemma3n not executed as CUDA_GRAPH on NVGPUs

Gemma3n uses Matrix-Matrix addition as part of their input processing,
wrongly triggering CUDA_GRAPH disablement on NVGPUs even when batch-size
of 1 is used.

* Exclude `project_per_layer_input` by matching node names

This ensures that all other graphs which don't exhibit this pattern do
not have their behavior changed.

* Revert unnecessary formatting changes
src/ggml-cuda/ggml-cuda.cu