]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
Hexagon Op queue & dispatch optimizations (llama/16820)
authorMax Krasnyansky <redacted>
Wed, 29 Oct 2025 13:29:12 +0000 (06:29 -0700)
committerGeorgi Gerganov <redacted>
Sat, 1 Nov 2025 07:41:35 +0000 (09:41 +0200)
commit4f455950b0f665fda5bdc4cfe5afbe67f515529f
treecbee6dc2ffe89bd8059cea3a0b6976ef9f6ef605
parent9f3fde1f1a063f87876f8b9b938c411cd90bc3e5
Hexagon Op queue & dispatch optimizations (llama/16820)

* hexagon: remove dspqueue callbacks and do all read processing inplace

* hexagon: there is no need to ref/deref the buffers at this point

We're not going to release the buffers without flushing the session queue.
So there is no need to inc/dec the refcounts for every request.
We also don't need to include those bufs in the response.

* hexagon: bump the thread count in the adb wrapper scripts

We can use more CPU cores now that the dedicated dspqueue polling threads are not used (ie no contention).
Also enable more agressive polling for now since we still map Flash Attention (and a few other kernels) to
the CPU and those dspqueue threads were keeping the CPU cores are higher clock freqs.

* hexagon: add lhez as the second code owner
src/ggml-hexagon/ggml-hexagon.cpp
src/ggml-hexagon/htp/main.c