]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
metal : optimize ggml_mul_mat_id (faster Mixtral PP) (llama/4725)
authorGeorgi Gerganov <redacted>
Tue, 2 Jan 2024 19:07:47 +0000 (21:07 +0200)
committerGeorgi Gerganov <redacted>
Wed, 3 Jan 2024 12:20:04 +0000 (14:20 +0200)
commitf0b9db4d3de0814475649ae3abc5cfc952362e0d
tree672fcc92a083f29707176a1be3282018e5e0d39d
parent9c60bcde28e4f3d658d638ec22ae01f71d67936a
metal : optimize ggml_mul_mat_id (faster Mixtral PP) (llama/4725)

* ggml : disable fast-math for Metal (cmake build only)

ggml-ci

* metal : fix Metal API debug warnings

* cmake : add -fno-inline for Metal build (llama/4545)

* metal : fix API debug warnings

* metal : fix compile warnings

* metal : use uint64_t for strides

* cmake : rename option to LLAMA_METAL_SHADER_DEBUG

* metal : fix mat-vec Q8_0 kernel for BS > 1

* metal : normalize mat-vec kernel signatures

* cmake : respect LLAMA_QKK_64 option

* metal : fix mat-vec Q4_K kernel for QK_K == 64

* metal : optimizing ggml_mul_mat_id (wip)

* metal : minor fix

* metal : opt mul_mm_id
src/ggml-metal.m
src/ggml-metal.metal