CUDA: mul_mat_q=true llama_context_params default (#2912)

author Johannes Gäßler <redacted>

Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)

committer GitHub <redacted>

Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)
author Johannes Gäßler <redacted>
Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)
committer GitHub <redacted>
Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)
diff --git a/llama.cpp b/llama.cpp

index fcd6f276a065583abe9b98a2fa0653cc3ef7d305..95ee6ffe41c3a05d74d7e956649f1d2af13a822e 100644 (file)
--- a/llama.cpp
+++ b/llama.cpp
@@ -5287,7 +5287,7 @@ struct llama_context_params llama_context_default_params() {
          /*.progress_callback           =*/ nullptr,
          /*.progress_callback_user_data =*/ nullptr,
          /*.low_vram                    =*/ false,
-        /*.mul_mat_q                   =*/ false,
+        /*.mul_mat_q                   =*/ true,
          /*.f16_kv                      =*/ true,
          /*.logits_all                  =*/ false,
          /*.vocab_only                  =*/ false,
author	Johannes Gäßler <redacted>
	Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)
committer	GitHub <redacted>
	Wed, 30 Aug 2023 19:46:19 +0000 (21:46 +0200)