git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

author	Jeff Bolz <redacted>
	Sat, 10 May 2025 06:07:07 +0000 (23:07 -0700)
committer	GitHub <redacted>
	Sat, 10 May 2025 06:07:07 +0000 (08:07 +0200)
commit	dc1d2adfc0f4de84da7923866d00781ec5c4e666
tree	b85cf7bb14a2a3a1d82f5321a90573edf6fff23a	tree
parent	7c28a74e0783f4bb74a246fb9f19bf212139e365	commit \| diff

vulkan: scalar flash attention implementation (#13324)

* vulkan: scalar flash attention implementation

* vulkan: always use fp32 for scalar flash attention

* vulkan: use vector loads in scalar flash attention shader

* vulkan: remove PV matrix, helps with register usage

* vulkan: reduce register usage in scalar FA, but perf may be slightly worse

* vulkan: load each Q value once. optimize O reduction. more tuning

* vulkan: support q4_0/q8_0 KV in scalar FA

* CI: increase timeout to accommodate newly-supported tests

* vulkan: for scalar FA, select between 1 and 8 rows

* vulkan: avoid using Float16 capability in scalar FA

.github/workflows/build.yml		diff \| blob \| history
ggml/src/ggml-vulkan/ggml-vulkan.cpp		diff \| blob \| history
ggml/src/ggml-vulkan/vulkan-shaders/flash_attn.comp	[new file with mode: 0644]	blob
ggml/src/ggml-vulkan/vulkan-shaders/vulkan-shaders-gen.cpp		diff \| blob \| history