]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
ggml : add mmla kernels for quantized GEMM (llama/4966)
authorsnadampal <redacted>
Sun, 11 Feb 2024 13:22:33 +0000 (07:22 -0600)
committerGeorgi Gerganov <redacted>
Mon, 12 Feb 2024 07:25:26 +0000 (09:25 +0200)
commit3655bf83a9d6132a046973dac47aa362ae92afc8
treef758af1c453cb5fad9e273e862159ca0736135fd
parent04b3bf5ddb49a3de311a1066599a3d1f7e9d5085
ggml : add mmla kernels for quantized GEMM (llama/4966)

* ggml: aarch64: implement smmla kernel for q8_0_q8_0 quantized gemm

armv8.2-a and above supports MMLA instructions that have higher
throughput than DOT. this commit adds mmla kernel for
q8_0_q8_0 gemm. The feature is enabled if the platform supports
"__ARM_FEATURE_MATMUL_INT8"

On AWS Graviton3 processors this kernel resulted up to 1.5x
improvement for prompt evaluation throughput compared to the
default sdot kernel.

* ggml: aarch64: implement smmla kernel for q4_0_q8_0 quantized gemm

armv8.2-a and above supports MMLA instructions that have higher
throughput than DOT. this commit adds mmla kernel for
q4_0_q8_0 gemm. The feature is enabled if the platform supports
"__ARM_FEATURE_MATMUL_INT8"

On AWS Graviton3 processors this kernel resulted up to 1.5x
improvement for prompt evaluation throughput compared to the
default sdot kernel.

* ggml: aarch64: implement smmla kernel for q4_1_q8_1 quantized gemm

armv8.2-a and above supports MMLA instructions that have higher
throughput than DOT. this commit adds mmla kernel for
q4_1_q8_1 gemm. The feature is enabled if the platform supports
"__ARM_FEATURE_MATMUL_INT8"

On AWS Graviton3 processors this kernel resulted up to 1.5x
improvement for prompt evaluation throughput compared to the
default sdot kernel.

* ggml: update unit tests for the new vec_dot interface

* llama.cpp: add MATMUL_INT8 capability to system_info
include/ggml/ggml.h
src/ggml-quants.c
src/ggml-quants.h
src/ggml.c
tests/test-quantize-fns.cpp
tests/test-quantize-perf.cpp