Fix HellaSwag (#2805)

author Kawrakow <redacted>

Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)

committer GitHub <redacted>

Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)
author Kawrakow <redacted>
Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)
committer GitHub <redacted>
Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)
diff --git a/examples/perplexity/perplexity.cpp b/examples/perplexity/perplexity.cpp

index 18635932b3a39ddf66b04f43f1a4ee4269fb0630..fd89852d6deddb9dc0e88e5b52d7eb7be7297ca6 100644 (file)
--- a/examples/perplexity/perplexity.cpp
+++ b/examples/perplexity/perplexity.cpp
@@ -351,6 +351,7 @@ void hellaswag_score(llama_context * ctx, const gpt_params & params) {
      fprintf(stderr, "%s : loaded %zu tasks from prompt.\n", __func__, hs_task_count);
  
      const bool is_spm = llama_vocab_type(ctx) == LLAMA_VOCAB_TYPE_SPM;
+    fprintf(stderr, "================================= is_spm = %d\n", is_spm);
  
      // This is needed as usual for LLaMA models
      const bool add_bos = is_spm;
@@ -406,6 +407,8 @@ void hellaswag_score(llama_context * ctx, const gpt_params & params) {
      double acc = 0.0f;
      const int n_vocab = llama_n_vocab(ctx);
  
+    std::vector<std::vector<int>> ending_tokens(4);
+
      std::vector<float> tok_logits(n_vocab);
  
      for (size_t task_idx = 0; task_idx < hs_task_count; task_idx++) {
@@ -413,11 +416,21 @@ void hellaswag_score(llama_context * ctx, const gpt_params & params) {
          std::vector<int> context_embd = ::llama_tokenize(ctx, hs_data[task_idx].context, add_bos);
          size_t context_size = context_embd.size();
  
+        for (int i = 0; i < 4; ++i) {
+            ending_tokens[i] = ::llama_tokenize(ctx, hs_data[task_idx].context + hs_data[task_idx].ending[i], add_bos);
+            for (int k = 0; k < int(context_size); ++k) {
+                if (ending_tokens[i][k] != context_embd[k]) {
+                    fprintf(stderr, "Oops: ending %d of task %d differs from context at position %d\n",i,int(task_idx),k);
+                    break;
+                }
+            }
+        }
+
          // Do the 1st ending
          // In this case we include the context when evaluating
-        auto query_embd = ::llama_tokenize(ctx, hs_data[task_idx].context + hs_data[task_idx].ending[0], add_bos);
+        //auto query_embd = ::llama_tokenize(ctx, hs_data[task_idx].context + hs_data[task_idx].ending[0], add_bos);
+        auto query_embd = ending_tokens[0];
          auto query_size = query_embd.size();
-        //printf("First query: %d\n",(int)query_size);
  
          // Stop if query wont fit the ctx window
          if (query_size > (size_t)params.n_ctx) {
@@ -462,7 +475,8 @@ void hellaswag_score(llama_context * ctx, const gpt_params & params) {
          for (size_t ending_idx = 1; ending_idx < 4; ending_idx++) {
  
              // Tokenize the query
-            query_embd = ::llama_tokenize(ctx, hs_data[task_idx].ending[ending_idx], false);
+            query_embd.resize(ending_tokens[ending_idx].size() - context_size);
+            std::memcpy(query_embd.data(), ending_tokens[ending_idx].data() + context_size, query_embd.size()*sizeof(int));
              query_size = query_embd.size();
  
              // Stop if query wont fit the ctx window
author	Kawrakow <redacted>
	Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)
committer	GitHub <redacted>
	Sat, 26 Aug 2023 13:48:53 +0000 (16:48 +0300)