]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
metal : improve FA + improve MoE (llama/12612)
authorGeorgi Gerganov <redacted>
Fri, 28 Mar 2025 18:21:59 +0000 (20:21 +0200)
committerGeorgi Gerganov <redacted>
Fri, 28 Mar 2025 19:47:42 +0000 (21:47 +0200)
commit27533e7f633ffd0c3e0b1dc7702217052563f273
tree31cbdf834a17df915c5c42e60203c1b89c5a9d7e
parent1b81415963b5238f8f358827a5b6798372ea082e
metal : improve FA + improve MoE (llama/12612)

* ggml : FA with different K, V head sizes (CPU)

ggml-ci

* metal : add FA with HS=192

* metal : extend FA to support different K and V head sizes

ggml-ci

* metal : add FA vector kernels for heads K 192 and V 128

ggml-ci

* ggml : restrict op on other backends to equal head sizes

ggml-ci

* metal : optimize FA-vec kernel

ggml-ci

* metal : FA remove mq registers

* metal : improve MoE mul_mat_id condition

ggml-ci

* metal : fix comments + remove unnecessary addition

ggml-ci

* metal : avoid too much shared memory usage with mul_mat_id

ggml-ci
ggml/include/ggml.h
ggml/src/ggml-cpu/ggml-cpu.c
ggml/src/ggml-cuda/ggml-cuda.cu
ggml/src/ggml-metal/ggml-metal-impl.h
ggml/src/ggml-metal/ggml-metal.m
ggml/src/ggml-metal/ggml-metal.metal
ggml/src/ggml-vulkan/ggml-vulkan.cpp
ggml/src/ggml.c