]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
CUDA: mul_mat_id for mmf for bs <= 64 for f16 and bs <= 32 for f32 (llama/16277)
authorAman Gupta <redacted>
Sat, 27 Sep 2025 16:49:32 +0000 (00:49 +0800)
committerGeorgi Gerganov <redacted>
Mon, 29 Sep 2025 12:18:11 +0000 (15:18 +0300)
commit85e4455cd3c15f97fc64a542548a2649d626213b
tree9ff965536b8d15a8a9bc7e4a9293caabb0a5f9e1
parente856483cd6adb0014ee6c7e7ebdb6dc6c841944b
CUDA: mul_mat_id for mmf for bs <= 64 for f16 and bs <= 32 for f32 (llama/16277)

* CUDA: mul_mat_id for mmf for bs <= 64 for f16 and bs <= 32 for f32

This commit adds mul_mat_id support for ncols_dst >= 16. It does this by
packing ncols_dst tiles into the blockDim.y.

My tests on a RTX 3090 show that this is faster than the cuBLAS fallback
for f16 till bs=64, and for f32 till bs=32

* Review: refactor if statement
ggml/src/ggml-cuda/ggml-cuda.cu
ggml/src/ggml-cuda/mmf.cu
ggml/src/ggml-cuda/mmf.cuh