params.logit_bias[llama_token_eos(lctx)] = -INFINITY;
}
+ {
+ LOG("warming up the model with an empty run\n");
+
+ const std::vector<llama_token> tmp = { llama_token_bos(lctx), };
+ llama_eval(lctx, tmp.data(), tmp.size(), 0, params.n_threads);
+ llama_reset_timings(lctx);
+ }
+
return std::make_tuple(model, lctx);
}
std::vector<llama_token> embd;
std::vector<llama_token> embd_guidance;
- {
- LOG("warming up the model with an empty run\n");
-
- const std::vector<llama_token> tmp = { llama_token_bos(ctx), };
- llama_eval(ctx, tmp.data(), tmp.size(), 0, params.n_threads);
- llama_reset_timings(ctx);
- }
-
while ((n_remain != 0 && !is_antiprompt) || params.interactive) {
// predict
if (embd.size() > 0) {