]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
ggml : add Q5_0 and Q5_1 quantization (#1187)
authorGeorgi Gerganov <redacted>
Wed, 26 Apr 2023 20:14:13 +0000 (23:14 +0300)
committerGitHub <redacted>
Wed, 26 Apr 2023 20:14:13 +0000 (23:14 +0300)
commit574406dc7e350ddbffaeca33bf0392b7bfeb1436
tree03c50ad8b07a612b2169b0bba6b08bd20b11d83a
parent87a6f846d3e929632c45916dd08f1e2a9c72d2a3
ggml : add Q5_0 and Q5_1 quantization (#1187)

* ggml : add Q5_0 quantization (cuBLAS only)

* ggml : fix Q5_0 qh -> uint32_t

* ggml : fix q5_0 histogram stats

* ggml : q5_0 scalar dot product

* ggml : q5_0 ARM NEON dot

* ggml : q5_0 more efficient ARM NEON using uint64_t masks

* ggml : rename Q5_0 -> Q5_1

* ggml : adding Q5_0 mode

* quantize : add Q5_0 and Q5_1 to map

* ggml : AVX2 optimizations for Q5_0, Q5_1 (#1195)

---------

Co-authored-by: Stephan Walter <redacted>
.gitignore
examples/quantize/quantize.cpp
ggml-cuda.cu
ggml-cuda.h
ggml.c
ggml.h
llama.cpp
llama.h