]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
cuda : fix vmm pool with multi GPU (#4620)
authorslaren <redacted>
Tue, 26 Dec 2023 20:23:59 +0000 (21:23 +0100)
committerGitHub <redacted>
Tue, 26 Dec 2023 20:23:59 +0000 (21:23 +0100)
commitdc68f0054cd279cddddb0cae0c9ef4f9cbaa512a
tree1c437ea7e78a09d3a1fc7786f42fd3ea8615b292
parentde8e496437c59e7d1cc84109e3e49a3478aee25a
cuda : fix vmm pool with multi GPU (#4620)

* cuda : fix vmm pool with multi GPU

* hip

* use recommended granularity instead of minimum

* better error checking

* fix mixtral

* use cudaMemcpy3DPeerAsync

* use cuda_pool_alloc in ggml_cuda_op_mul_mat

* consolidate error checking in ggml_cuda_set_device

* remove unnecessary inlines

ggml-ci

* style fixes

* only use vmm for the main device

* fix scratch buffer size, re-enable vmm pool for all devices

* remove unnecessary check id != g_main_device
ggml-cuda.cu
ggml.c
llama.cpp