]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
ggml : alternative Q4_3 implementation using modified Q8_0 (#1109)
authorGeorgi Gerganov <redacted>
Sat, 22 Apr 2023 07:55:35 +0000 (10:55 +0300)
committerGitHub <redacted>
Sat, 22 Apr 2023 07:55:35 +0000 (10:55 +0300)
commit955ef9a5d53d8f911fe00580ac9bd0caa56430af
treed60f9ac6b426c8f3e59992691d7686c2d7ff89db
parentc5aa5e577741d0359ad26ec50b9e21a74c65d911
ggml : alternative Q4_3 implementation using modified Q8_0 (#1109)

* ggml : prefer vzip to vuzp

This way we always use the same type of instruction across all quantizations

* ggml : alternative Q4_3 implementation using modified Q8_0

* ggml : fix Q4_3 scalar imlpementation

* ggml : slight improvement of Q4_3 - no need for loop unrolling

* ggml : fix AVX paths for Q8_0 quantization
ggml.c