mtmd : support home-cooked Mistral Small Omni (#14928)

author Xuan-Son Nguyen <redacted>

Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)

committer GitHub <redacted>

Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)
author Xuan-Son Nguyen <redacted>
Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)
committer GitHub <redacted>
Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)
diff --git a/tools/mtmd/clip-impl.h b/tools/mtmd/clip-impl.h

index 7a7523851c117b1f0eac86246e0e23512d3a692b..1669fad99b36b35300b4a284d7fe6bee2df22e31 100644 (file)
--- a/tools/mtmd/clip-impl.h
+++ b/tools/mtmd/clip-impl.h
@@ -30,6 +30,7 @@
  #define KEY_LAYER_NORM_EPS      "clip.%s.attention.layer_norm_epsilon"
  
  // vision-specific
+#define KEY_VISION_PROJ_TYPE    "clip.vision.projector_type" // for models with mixed modalities
  #define KEY_IMAGE_SIZE          "clip.vision.image_size"
  #define KEY_PREPROC_IMAGE_SIZE  "clip.vision.preproc_image_size"
  #define KEY_PATCH_SIZE          "clip.vision.patch_size"
@@ -48,6 +49,7 @@
  #define KEY_MINICPMV_QUERY_NUM    "clip.minicpmv_query_num"
  
  // audio-specific
+#define KEY_AUDIO_PROJ_TYPE     "clip.audio.projector_type" // for models with mixed modalities
  #define KEY_A_NUM_MEL_BINS      "clip.audio.num_mel_bins"
  #define KEY_A_PROJ_STACK_FACTOR "clip.audio.projector.stack_factor"
  
diff --git a/tools/mtmd/clip.cpp b/tools/mtmd/clip.cpp

index 98e68af27a690af17b55f68b98f374164ab356fa..f2abf88523843243d362c7f1e5859539d1767b43 100644 (file)
--- a/tools/mtmd/clip.cpp
+++ b/tools/mtmd/clip.cpp
@@ -2221,15 +2221,27 @@ struct clip_model_loader {
          // projector type
          std::string proj_type;
          {
+            // default key
              get_string(KEY_PROJ_TYPE, proj_type, false);
-            if (!proj_type.empty()) {
-                model.proj_type = clip_projector_type_from_string(proj_type);
+
+            // for models with mixed modalities
+            if (proj_type.empty()) {
+                if (modality == CLIP_MODALITY_VISION) {
+                    get_string(KEY_VISION_PROJ_TYPE, proj_type, false);
+                } else if (modality == CLIP_MODALITY_AUDIO) {
+                    get_string(KEY_AUDIO_PROJ_TYPE, proj_type, false);
+                } else {
+                    GGML_ABORT("unknown modality");
+                }
              }
+
+            model.proj_type = clip_projector_type_from_string(proj_type);
+
              if (model.proj_type == PROJECTOR_TYPE_UNKNOWN) {
                  throw std::runtime_error(string_format("%s: unknown projector type: %s\n", __func__, proj_type.c_str()));
              }
  
-            // correct arch for multimodal models
+            // correct arch for multimodal models (legacy method)
              if (model.proj_type == PROJECTOR_TYPE_QWEN25O) {
                  model.proj_type = modality == CLIP_MODALITY_VISION
                                      ? PROJECTOR_TYPE_QWEN25VL
author	Xuan-Son Nguyen <redacted>
	Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)
committer	GitHub <redacted>
	Thu, 16 Oct 2025 17:00:31 +0000 (19:00 +0200)
tools/mtmd/clip-impl.h		patch \| blob \| history
tools/mtmd/clip.cpp		patch \| blob \| history