]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
ggml : optimize llamafile cpu matrix multiplication for ppc64le (llama/10156)
authoramritahs-ibm <redacted>
Sat, 9 Nov 2024 07:17:50 +0000 (12:47 +0530)
committerGeorgi Gerganov <redacted>
Wed, 13 Nov 2024 17:03:32 +0000 (19:03 +0200)
commit0155808f50f544234ab8e9368dfdc53e6ddb2c2c
treeb27fec5097d73f5556d48343dd4899a41afe7882
parent7a0807006b20b48dc71d93843057d3de5706dbdc
ggml : optimize llamafile cpu matrix multiplication for ppc64le (llama/10156)

This change upstreams llamafile's cpu matrix
multiplication kernels for ppc64le using MMA
builtins for FP32 datatype.

This change results in a consistent 90%
improvement in input processing time, and 20%
to 80% improvement in output processing time,
across various batch sizes.

The patch is tested with Meta-Lllama-3-8B,
Mistral-7B, Llama-2-7B-chat-hf models on a
IBM POWER10 machine.

Signed-off-by: Amrita H S <redacted>
src/CMakeLists.txt