]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
Vulkan k-quant mmq and ggml-backend offload functionality (llama/6155)
author0cc4m <redacted>
Fri, 29 Mar 2024 16:29:21 +0000 (17:29 +0100)
committerGeorgi Gerganov <redacted>
Sat, 6 Apr 2024 15:27:03 +0000 (18:27 +0300)
commit11fff06364fbf26abb1ccd236c2b35509135c260
tree13daf1333967612b2fc69107424402681388ab9e
parent2edc1098867ea5d847a9079e72f1f91465136123
Vulkan k-quant mmq and ggml-backend offload functionality (llama/6155)

* Fix Vulkan no kv offload incoherence

* Add k-quant mul mat mat shaders

* Rework working buffer allocation, reduces vram use noticeably

Clean up cpu assist code, replaced with ggml-backend offload function

* Default to all dedicated GPUs

* Add fallback for integrated GPUs if no dedicated GPUs are found

* Add debug info which device is allocating memory

* Fix Intel dequant issue

Fix validation issue

* Fix Vulkan GGML_OP_GET_ROWS implementation

* Clean up merge artifacts

* Remove Vulkan warning
src/ggml-vulkan.cpp
src/ggml-vulkan.h
src/ggml.c