CUDA: fix mul_mat_q not used for output tensor (#3127)

author Johannes Gäßler <redacted>

Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)

committer GitHub <redacted>

Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)
author Johannes Gäßler <redacted>
Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)
committer GitHub <redacted>
Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)
diff --git a/ggml-cuda.cu b/ggml-cuda.cu

index 9e9eac487103e0f38bf32548d11ab3d0e1d3f1a4..a14e2362aba91a15390f217e3ef6f020deb7bf90 100644 (file)
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -6291,7 +6291,7 @@ void ggml_cuda_mul_mat(const ggml_tensor * src0, const ggml_tensor * src1, ggml_
                  ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_dequantize_mul_mat_vec, false);
              }
          } else {
-            if (src1->backend == GGML_BACKEND_GPU && g_mul_mat_q && ggml_is_quantized(src0->type) && min_compute_capability >= MIN_CC_DP4A) {
+            if (g_mul_mat_q && ggml_is_quantized(src0->type) && min_compute_capability >= MIN_CC_DP4A) {
                  ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_mul_mat_q, true);
              } else {
                  ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_mul_mat_cublas, false);
author	Johannes Gäßler <redacted>
	Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)
committer	GitHub <redacted>
	Mon, 11 Sep 2023 20:58:41 +0000 (22:58 +0200)