git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit

author	Molly Sophia <redacted>
	Fri, 10 Jan 2025 01:58:08 +0000 (09:58 +0800)
committer	GitHub <redacted>
	Fri, 10 Jan 2025 01:58:08 +0000 (09:58 +0800)
commit	ee7136c6d1e0ba7633294dad137b1573048031ec
tree	7aaf56a126b7ab6da25b789b041a8c6d5298ce5b	tree
parent	c6860cc7346c90219475e4467bb8a288e0df975c	commit \| diff

llama: add support for QRWKV6 model architecture (#11001)

llama: add support for QRWKV6 model architecture (#11001)

* WIP: Add support for RWKV6Qwen2

Signed-off-by: Molly Sophia <redacted>
* RWKV: Some graph simplification

Signed-off-by: Molly Sophia <redacted>
* Add support for RWKV6Qwen2 with cpu and cuda GLA

Signed-off-by: Molly Sophia <redacted>
* RWKV6[QWEN2]: Concat lerp weights together to reduce cpu overhead

Signed-off-by: Molly Sophia <redacted>
* Fix some typos

Signed-off-by: Molly Sophia <redacted>
* code format changes

Signed-off-by: Molly Sophia <redacted>
* Fix wkv test & add gla test

Signed-off-by: Molly Sophia <redacted>
* Fix cuda warning

Signed-off-by: Molly Sophia <redacted>
* Update README.md

Signed-off-by: Molly Sophia <redacted>
* Update ggml/src/ggml-cuda/gla.cu

Co-authored-by: Georgi Gerganov <redacted>
* Fix fused lerp weights loading with RWKV6

Signed-off-by: Molly Sophia <redacted>
* better sanity check skipping for QRWKV6 in llama-quant

thanks @compilade

Signed-off-by: Molly Sophia <redacted>
Co-authored-by: compilade <redacted>
---------

Signed-off-by: Molly Sophia <redacted>
Co-authored-by: Georgi Gerganov <redacted>
Co-authored-by: compilade <redacted>

README.md		diff \| blob \| history
convert_hf_to_gguf.py		diff \| blob \| history
ggml/include/ggml.h		diff \| blob \| history
ggml/src/ggml-cpu/ggml-cpu.c		diff \| blob \| history
ggml/src/ggml-cuda/ggml-cuda.cu		diff \| blob \| history
ggml/src/ggml-cuda/gla.cu	[new file with mode: 0644]	blob
ggml/src/ggml-cuda/gla.cuh	[new file with mode: 0644]	blob
ggml/src/ggml-cuda/wkv6.cu		diff \| blob \| history
ggml/src/ggml-sycl/wkv6.cpp		diff \| blob \| history
ggml/src/ggml-vulkan/ggml-vulkan.cpp		diff \| blob \| history
ggml/src/ggml.c		diff \| blob \| history
gguf-py/gguf/constants.py		diff \| blob \| history
gguf-py/gguf/gguf_writer.py		diff \| blob \| history
gguf-py/gguf/tensor_mapping.py		diff \| blob \| history
src/llama-arch.cpp		diff \| blob \| history
src/llama-arch.h		diff \| blob \| history
src/llama-hparams.cpp		diff \| blob \| history
src/llama-hparams.h		diff \| blob \| history
src/llama-model.cpp		diff \| blob \| history
src/llama-model.h		diff \| blob \| history
src/llama-quant.cpp		diff \| blob \| history
src/llama.cpp		diff \| blob \| history
tests/test-backend-ops.cpp		diff \| blob \| history