]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
llm : add MPT support (#3417)
authorJan Ploski <redacted>
Tue, 10 Oct 2023 07:50:23 +0000 (09:50 +0200)
committerGitHub <redacted>
Tue, 10 Oct 2023 07:50:23 +0000 (10:50 +0300)
commitf5f9121de140eff558f13b5c5e78a3a3b6b94377
treefd285f824769ea716ff3612720d7d7de026dbf62
parent11ea5c7d96f2c28e1c99659e08ec0a44574056e2
llm : add MPT support (#3417)

* CUDA: added support for ggml_clamp (see also: https://github.com/ggerganov/ggml/issues/545)

* mpt : added an implementation based (mostly) on falcon integration, modified with deltas from ggml/examples/mpt

* mpt : protect against "clip_qkv": null in mpt-7b

* mpt : quick fix to avoid "Strange model" warning when quantizing MPT models

* mpt : addendum to changeset:84e30e8 - leave parameter clamp_kqv out from metadata rather than use 0.0 to indicate "no clamping" (more compliant with the current GGUF spec?)

* mpt : standardized all tensor names to follow GGUF spec

* mpt : addendum to changeset:1be89c40 - use "req" parameter of GGUF_GET_KEY macro instead of duplicate code

* mpt : fixed comment s/gptneox/mpt/

* mpt : remove tabs, trailing whitespace

* mpt : removed ne01 + n_past == ne00 assertion from alibi (cuda/f32) and rope_shift from build_mpt

* mpt : updated convert-mpt-hf-to-gguf.py to reflect changes made to convert-gptneox-hf-to-gguf.py in pr:3252

* comment out n_past instead of marking it unused

* mpt : removed hardcoded +178 from convert script in favor of utilizing hparams["vocab_size"]

* mpt : remove unused tokenizer_json in convert script

* ggml : remove obsolete n_past assert in ggml_alibi

* llama : print clam_kqv and max_alibi_bias hparams

---------

Co-authored-by: Cebtenzzre <redacted>
Co-authored-by: Georgi Gerganov <redacted>
convert-mpt-hf-to-gguf.py [new file with mode: 0755]
ggml-cuda.cu
ggml-metal.m
ggml.c
llama.cpp