]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
llamafile: PowerPC Sgemm Optimization (llama/15558)
authorshalinib-ibm <redacted>
Tue, 26 Aug 2025 15:35:25 +0000 (21:05 +0530)
committerGeorgi Gerganov <redacted>
Sat, 20 Sep 2025 10:42:42 +0000 (13:42 +0300)
commit31c7784e0932843bbde59f78324a0b06d39e7b39
treeff51f99c4844ea67cc683f7625fdc6d6e29371c3
parent53010199a109630728cb64b46fd97a8ce2547e31
llamafile: PowerPC Sgemm Optimization (llama/15558)

This patch improves GEMM for FP32 Data Type on PowerPC

Implements GEMM on large blocks with configurable block size mc, nc, kc
(default: 256, 256, 256).
Packing Function optimized to access blocks as per memory layout.
GEMM Optimized to work on larger blocks.
Isolated Packing from GEMM Operations for better MMA utilization.

Verified functionality and correctness uing llama-cli and stand alone
test case (performs matmul and compares final mattrix C result with base).

Minor code refactoring changes:
Replace macro with inline function
Code Indent made consistent with 4 spaces

Performance Testing:

Observed 50% ~ 70% improvement in Prompt Processing Speed mesured using
llama-bench with Meta-Llama3-8B FP32 Model.  Similar gains observed with
Mistral-7b-Instruct-v0.3 Model.

model                   Size                Params     Backend       Threads   Test    Patch   Base
llama 8B all F32        29.92 GiB           8.03 B      CPU           20       pp512   98.58   60.3
llama 8B all F32        29.92 GiB           8.03 B      CPU           20       pp1024  95.88   57.36
llama 8B all F32        29.92 GiB           8.03 B      CPU           20       pp2048  85.46   53.26
llama 8B all F32        29.92 GiB           8.03 B      CPU           20       pp4096  68.66   45.78
llama 8B all F32        29.92 GiB           8.03 B      CPU           20       pp6144  57.35   40.44

25 ~ 30% improvement in llama-batched-bench with Metla-Llama3-8B in
Prompt Processing Speed for large prompts (256, 512, 1024, 2048, 4096)tokens with various batch
sizes ( 1, 2, 4, 8, 16)

Signed-off-by: Shalini Salomi Bodapati <redacted>
ggml/src/ggml-cpu/llamafile/sgemm.cpp