git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

CUDA: faster FA for GQA > 1 but not power of 2 (#19092)

Packaging of ggml-org/llama.cpp

ggml/src/ggml-cuda/fattn-common.cuh		diff \| blob \| history
ggml/src/ggml-cuda/fattn-mma-f16.cuh		diff \| blob \| history
ggml/src/ggml-cuda/fattn.cu		diff \| blob \| history
ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_1-ncols2_32.cu	[new file with mode: 0644]	blob
ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_2-ncols2_32.cu	[new file with mode: 0644]	blob
ggml/src/ggml-cuda/template-instances/generate_cu_files.py		diff \| blob \| history