]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
OpenCL: Fix duplication of layers in VRAM and RAM, add GPU mul kernel (#1653)
author0cc4m <redacted>
Sun, 4 Jun 2023 06:12:05 +0000 (08:12 +0200)
committerGitHub <redacted>
Sun, 4 Jun 2023 06:12:05 +0000 (08:12 +0200)
commitdcb2ed48268e421baf25adc00d602dad0f415564
tree261ef84fe660d06fce90c58fc01a16ae0e69be52
parentd8bd0013e8768aaa3dc9cfc1ff01499419d5348e
OpenCL: Fix duplication of layers in VRAM and RAM, add GPU mul kernel (#1653)

* Use events instead of clFinish, where possible

* OpenCL: Don't load gpu layers into RAM, add mul_f32 kernel

* Reduce queueing overhead for contiguous tensors by using single mul kernel call

* Adapt to #1612 cl_mem malloc changes

* Reduce code duplication between cuda and opencl branches

* Improve implementation
ggml-opencl.cpp
ggml-opencl.h
ggml.c
llama.cpp