]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
ggml-webgpu: improve flastAttention performance by software pipelining (llama/19151)
authorZheyuan Chen <redacted>
Thu, 29 Jan 2026 22:05:30 +0000 (14:05 -0800)
committerGeorgi Gerganov <redacted>
Fri, 30 Jan 2026 13:56:40 +0000 (15:56 +0200)
commit829e70044b51d48e6a57c043a61b5b086b3acb0f
tree2e5623d6541635a92ba17926d707e1b630465409
parent2a89a3f35c0567ce9d132ed72f24b75835c407e2
ggml-webgpu: improve flastAttention performance by software pipelining (llama/19151)

* webgpu : pipeline flash_attn Q/K loads in WGSL

* ggml-webgpu: unroll Q*K accumlation inner loop

* ggml-webgpu: vectorization

* ggml-webgpu: unrolling

* ggml-webgpu: remove redundant unrolling

* ggml-webgpu: restore the config

* ggml-webgpu: remove redundant comments

* ggml-webgpu: formatting

* ggml-webgpu: formatting and remove vectorization

* ggml-webgpu: remove unnecessary constants

* ggml-webgpu: change QKV buffer to read_write to pass validation

* ggml-webgpu: add explanation for the additional bracket around Q K accumulate

* Indentation and for -> if for tail

* Kick off CI on wgsl only commits

---------

Co-authored-by: Reese Levine <redacted>
ggml/src/ggml-webgpu/wgsl-shaders/flash_attn.wgsl