]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
ggml webgpu: faster normal quant and some k-quant matrix operations, better shader...
authorReese Levine <redacted>
Tue, 10 Mar 2026 16:14:27 +0000 (09:14 -0700)
committerGeorgi Gerganov <redacted>
Sun, 15 Mar 2026 19:50:13 +0000 (21:50 +0200)
commit779d380599dbc6b4833deaf7e15bfc828911de08
tree924a05ae027014b951933d6c54c7a71cf4312c59
parentffe79fa1470816cd7b66712bc1207ec18ac20578
ggml webgpu: faster normal quant and some k-quant matrix operations, better shader parameter handling (llama/20173)

* K quant speedup (llama/20)

* Basic JIT compilation for mul_mat, get_rows, and scale (llama/17)

* scale jit working

* preliminary working jit for getrows and mulmat, needs refining

* simplified mul_mat preprocessing switch statement

* get_rows fixes, mul_mat refinement

* formatted + last edits

* removed some extraneous prints

* fixed get_rows, fixed workgroup dispatch in mul_mat. no gibberish

* small fix

* some changes, working

* get_rows and mul_mat jit fixed and working

* Update formatting

* formatting

* Add header

---------

Co-authored-by: Neha Abbas <redacted>
Co-authored-by: Reese Levine <redacted>
* Start work on all-encompassing shader library

* refactor argmax, set_rows

* Refactor all but flashattention, mat mul

* no gibberish, all k quants added, merged

* vec memory fix

* q6_k matching metal on my machine, tests passing

* Set tile size for q6_k separately

* Separate out fast shaders

---------

Co-authored-by: neha-ha <redacted>
* Move towards writeBuffer for params

* Move away from multiple buffers for set_rows errors, remove host buffer for parameter buffers, minor cleanups

* Remove extra file

* Formatting

---------

Co-authored-by: neha-ha <redacted>
src/ggml-webgpu/ggml-webgpu-shader-lib.hpp
src/ggml-webgpu/ggml-webgpu.cpp
src/ggml-webgpu/wgsl-shaders/mul_mat_decls.tmpl
src/ggml-webgpu/wgsl-shaders/mul_mat_reg_tile.wgsl
src/ggml-webgpu/wgsl-shaders/mul_mat_vec.wgsl