llama : minor fixes for up llama load model speed (#11448)

author lexasub <redacted>

Mon, 27 Jan 2025 13:42:09 +0000 (17:42 +0400)

committer GitHub <redacted>

Mon, 27 Jan 2025 13:42:09 +0000 (14:42 +0100)
author lexasub <redacted>
Mon, 27 Jan 2025 13:42:09 +0000 (17:42 +0400)
committer GitHub <redacted>
Mon, 27 Jan 2025 13:42:09 +0000 (14:42 +0100)
diff --git a/src/llama-model-loader.cpp b/src/llama-model-loader.cpp

index 75073bf610ac3323359c78d898415e47f9f708c7..05d58ad90eba91ac302e1fe2f97f2cb60922fb71 100644 (file)
--- a/src/llama-model-loader.cpp
+++ b/src/llama-model-loader.cpp
@@ -819,7 +819,7 @@ void llama_model_loader::init_mappings(bool prefetch, llama_mlocks * mlock_mmaps
          for (const auto & file : files) {
              auto * reg = ggml_backend_dev_backend_reg(ggml_backend_dev_by_type(GGML_BACKEND_DEVICE_TYPE_CPU));
              auto * is_numa_fn = (decltype(ggml_is_numa) *) ggml_backend_reg_get_proc_address(reg, "ggml_backend_cpu_is_numa");
-            std::unique_ptr<llama_mmap> mapping(new llama_mmap(file.get(), prefetch ? -1 : 0, is_numa_fn()));
+            std::unique_ptr<llama_mmap> mapping = std::make_unique<llama_mmap>(file.get(), prefetch ? -1 : 0, is_numa_fn());
              mmaps_used.emplace_back(mapping->size(), 0);
              if (mlock_mmaps) {
                  std::unique_ptr<llama_mlock> mlock_mmap(new llama_mlock());
diff --git a/src/llama-vocab.cpp b/src/llama-vocab.cpp

index 0782d3a41a1f5bf06ea08a898708e769585e1f19..561f8bdb840106a871d6866effe8d71c2030dd26 100644 (file)
--- a/src/llama-vocab.cpp
+++ b/src/llama-vocab.cpp
@@ -1245,8 +1245,13 @@ struct llama_vocab::impl {
  
      std::vector<llama_token> cache_special_tokens;
      std::vector<std::string> cache_token_to_piece; // llama_token_to_piece(special = true);
-
-    std::map<std::pair<std::string, std::string>, int> bpe_ranks;
+    struct pair_hash {
+        size_t operator()(const std::pair<std::string, std::string> & p) const {
+            return std::hash<std::string>{}(p.first) ^  //create some hash for pair
+                   (std::hash<std::string>{}(p.second) << 1);
+        }
+    };
+    std::unordered_map<std::pair<std::string, std::string>, int, pair_hash> bpe_ranks;
  
      // set of all tokens that cause "end of generation"
      std::set<llama_token> special_eog_ids;
author	lexasub <redacted>
	Mon, 27 Jan 2025 13:42:09 +0000 (17:42 +0400)
committer	GitHub <redacted>
	Mon, 27 Jan 2025 13:42:09 +0000 (14:42 +0100)
src/llama-model-loader.cpp		patch \| blob \| history
src/llama-vocab.cpp		patch \| blob \| history