]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
ggml : make i-quants work with super-blocks of 64 (CPU,Metal) (llama/5760)
authorKawrakow <redacted>
Wed, 28 Feb 2024 08:37:02 +0000 (10:37 +0200)
committerGeorgi Gerganov <redacted>
Wed, 28 Feb 2024 11:00:30 +0000 (13:00 +0200)
commit2533305596afbae074c8f467435029e6d9c69f2d
treec2216a2f3b2438a9d3eb9cada40d3fa7de7bc690
parent0eca512ac865f34c519d6bbfd97bb0154ce78408
ggml : make i-quants work with super-blocks of 64 (CPU,Metal) (llama/5760)

* WIP: make i-quants work for QK_K = 64

* iq2_xs: attempt to fix AVX dot product for QK_K = 64

Tests pass, but I get gibberish.

* QK_K = 64 tests pass on ARM_NEON and Metal

Sadly, that does not mean it actually works.

* Make CUDA compile with QK_K = 64

Tests don't pass, plus we get misaligned access

* Q2_K: fixed bug in imatrix quantization for QK_K = 64

* iq1_s: turn off SIMD implementation for QK_K = 64 (it does not work)

---------

Co-authored-by: Iwan Kawrakow <redacted>
ggml-cuda.cu
ggml-metal.metal
ggml-quants.c
ggml-quants.h
ggml.c