examples : fix n_gpu_layers usage in talk-llama (#1441)

author Jhen-Jie Hong <redacted>

Tue, 7 Nov 2023 01:36:23 +0000 (09:36 +0800)

committer GitHub <redacted>

Tue, 7 Nov 2023 01:36:23 +0000 (01:36 +0000)
author Jhen-Jie Hong <redacted>
Tue, 7 Nov 2023 01:36:23 +0000 (09:36 +0800)
committer GitHub <redacted>
Tue, 7 Nov 2023 01:36:23 +0000 (01:36 +0000)
diff --git a/examples/talk-llama/talk-llama.cpp b/examples/talk-llama/talk-llama.cpp

index 6cc30c1653ecb01305fe6366b952229e2890bb73..bc0119a7f894c1f6744617a4284f0c5da8e6d320 100644 (file)
--- a/examples/talk-llama/talk-llama.cpp
+++ b/examples/talk-llama/talk-llama.cpp
@@ -266,6 +266,9 @@ int main(int argc, char ** argv) {
      llama_backend_init(true);
  
      auto lmparams = llama_model_default_params();
+    if (!params.use_gpu) {
+        lcparams.lmparams = 0;
+    }
  
      struct llama_model * model_llama = llama_load_model_from_file(params.model_llama.c_str(), lmparams);
  
@@ -276,9 +279,6 @@ int main(int argc, char ** argv) {
      lcparams.seed       = 1;
      lcparams.f16_kv     = true;
      lcparams.n_threads  = params.n_threads;
-    if (!params.use_gpu) {
-        lcparams.n_gpu_layers = 0;
-    }
  
      struct llama_context * ctx_llama = llama_new_context_with_model(model_llama, lcparams);
author	Jhen-Jie Hong <redacted>
	Tue, 7 Nov 2023 01:36:23 +0000 (09:36 +0800)
committer	GitHub <redacted>
	Tue, 7 Nov 2023 01:36:23 +0000 (01:36 +0000)