]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
falcon : fix CUDA inference by making K and Q contiguous (#2830)
authorGeorgi Gerganov <redacted>
Sun, 27 Aug 2023 13:40:48 +0000 (16:40 +0300)
committerGitHub <redacted>
Sun, 27 Aug 2023 13:40:48 +0000 (16:40 +0300)
commiteaa13a48ff4136f01c1cdb79cacd61b67ec53095
tree1e22d465164eb73b72dd6dab345987ea5691e6f2
parentda7455d0467b5f5cc2e45d0dcffaf098df13db63
falcon : fix CUDA inference by making K and Q contiguous (#2830)

* falcon : fix CUDA inference by making K and Q contiguous

ggml-ci

* cuda : add assert to guard from non-cont ropes
ggml-cuda.cu
llama.cpp