]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
Vulkan k-quant mmq and ggml-backend offload functionality (#6155)
author0cc4m <redacted>
Fri, 29 Mar 2024 16:29:21 +0000 (17:29 +0100)
committerGitHub <redacted>
Fri, 29 Mar 2024 16:29:21 +0000 (17:29 +0100)
commitba0c7c70ab5b15f1f2be7fb0dfbe0366dda30d6c
tree041a10dd587c26c42171be18e0f587f1fca2feca
parentd48ccf3ad4fea5b9ede209c7f40be65371987bfe
Vulkan k-quant mmq and ggml-backend offload functionality (#6155)

* Fix Vulkan no kv offload incoherence

* Add k-quant mul mat mat shaders

* Rework working buffer allocation, reduces vram use noticeably

Clean up cpu assist code, replaced with ggml-backend offload function

* Default to all dedicated GPUs

* Add fallback for integrated GPUs if no dedicated GPUs are found

* Add debug info which device is allocating memory

* Fix Intel dequant issue

Fix validation issue

* Fix Vulkan GGML_OP_GET_ROWS implementation

* Clean up merge artifacts

* Remove Vulkan warning
README.md
ggml-vulkan-shaders.hpp
ggml-vulkan.cpp
ggml-vulkan.h
ggml.c
ggml_vk_generate_shaders.py
llama.cpp