ggml : compute forward no longer pass src tensors (ggml/729)

author Siddharth Ramakrishnan <redacted>

Wed, 21 Feb 2024 12:34:53 +0000 (04:34 -0800)

committer Georgi Gerganov <redacted>

Thu, 22 Feb 2024 13:12:35 +0000 (15:12 +0200)
author Siddharth Ramakrishnan <redacted>
Wed, 21 Feb 2024 12:34:53 +0000 (04:34 -0800)
committer Georgi Gerganov <redacted>
Thu, 22 Feb 2024 13:12:35 +0000 (15:12 +0200)
diff --git a/ggml.c b/ggml.c

index 86e3bc2ea3c2568f6b107dcac90a06788798ed4d..a79db8daf58833201e70b4ccc2cff71fbe4ff4cd 100644 (file)
--- a/ggml.c
+++ b/ggml.c
@@ -6637,8 +6637,10 @@ void ggml_set_param(
  
  static void ggml_compute_forward_dup_same_cont(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_nelements(dst) == ggml_nelements(src0));
      GGML_ASSERT(ggml_is_contiguous(dst) && ggml_is_contiguous(src0));
      GGML_ASSERT(src0->type == dst->type);
@@ -6669,8 +6671,10 @@ static void ggml_compute_forward_dup_same_cont(
  }
  static void ggml_compute_forward_dup_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_nelements(dst) == ggml_nelements(src0));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -6683,7 +6687,7 @@ static void ggml_compute_forward_dup_f16(
      const int nth = params->nth; // number of threads
  
      if (ggml_is_contiguous(src0) && ggml_is_contiguous(dst) && src0->type == dst->type) {
-        ggml_compute_forward_dup_same_cont(params, src0, dst);
+        ggml_compute_forward_dup_same_cont(params, dst);
          return;
      }
  
@@ -6940,8 +6944,10 @@ static void ggml_compute_forward_dup_f16(
  
  static void ggml_compute_forward_dup_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_nelements(dst) == ggml_nelements(src0));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -6954,7 +6960,7 @@ static void ggml_compute_forward_dup_f32(
      const int nth = params->nth; // number of threads
  
      if (ggml_is_contiguous(src0) && ggml_is_contiguous(dst) && src0->type == dst->type) {
-        ggml_compute_forward_dup_same_cont(params, src0, dst);
+        ggml_compute_forward_dup_same_cont(params, dst);
          return;
      }
  
@@ -7190,8 +7196,10 @@ static void ggml_compute_forward_dup_f32(
  // A simplified version of ggml_compute_forward_dup that doesn't do float upcasting, and just plain old memcpy.
  static void ggml_compute_forward_dup_bytes(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_nelements(dst) == ggml_nelements(src0));
      GGML_ASSERT(src0->type == dst->type);
  
@@ -7200,7 +7208,7 @@ static void ggml_compute_forward_dup_bytes(
      }
  
      if (ggml_is_contiguous(src0) && ggml_is_contiguous(dst)) {
-        ggml_compute_forward_dup_same_cont(params, src0, dst);
+        ggml_compute_forward_dup_same_cont(params, dst);
          return;
      }
  
@@ -7339,21 +7347,23 @@ static void ggml_compute_forward_dup_bytes(
  
  static void ggml_compute_forward_dup(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (src0->type == dst->type) {
-        ggml_compute_forward_dup_bytes(params, src0, dst);
+        ggml_compute_forward_dup_bytes(params, dst);
          return;
      }
  
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_dup_f16(params, src0, dst);
+                ggml_compute_forward_dup_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_dup_f32(params, src0, dst);
+                ggml_compute_forward_dup_f32(params, dst);
              } break;
          default:
              {
@@ -7366,9 +7376,11 @@ static void ggml_compute_forward_dup(
  
  static void ggml_compute_forward_add_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_can_repeat(src1, src0) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -7454,9 +7466,11 @@ static void ggml_compute_forward_add_f32(
  
  static void ggml_compute_forward_add_f16_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, src1) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -7531,9 +7545,11 @@ static void ggml_compute_forward_add_f16_f32(
  
  static void ggml_compute_forward_add_f16_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, src1) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -7585,9 +7601,11 @@ static void ggml_compute_forward_add_f16_f16(
  
  static void ggml_compute_forward_add_q_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, src1) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -7663,14 +7681,16 @@ static void ggml_compute_forward_add_q_f32(
  
  static void ggml_compute_forward_add(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
                  if (src1->type == GGML_TYPE_F32) {
-                    ggml_compute_forward_add_f32(params, src0, src1, dst);
+                    ggml_compute_forward_add_f32(params, dst);
                  }
                  else {
                      GGML_ASSERT(false);
@@ -7679,10 +7699,10 @@ static void ggml_compute_forward_add(
          case GGML_TYPE_F16:
              {
                  if (src1->type == GGML_TYPE_F16) {
-                    ggml_compute_forward_add_f16_f16(params, src0, src1, dst);
+                    ggml_compute_forward_add_f16_f16(params, dst);
                  }
                  else if (src1->type == GGML_TYPE_F32) {
-                    ggml_compute_forward_add_f16_f32(params, src0, src1, dst);
+                    ggml_compute_forward_add_f16_f32(params, dst);
                  }
                  else {
                      GGML_ASSERT(false);
@@ -7703,7 +7723,7 @@ static void ggml_compute_forward_add(
          case GGML_TYPE_IQ3_XXS:
          case GGML_TYPE_IQ1_S:
              {
-                ggml_compute_forward_add_q_f32(params, src0, src1, dst);
+                ggml_compute_forward_add_q_f32(params, dst);
              } break;
          default:
              {
@@ -7716,9 +7736,11 @@ static void ggml_compute_forward_add(
  
  static void ggml_compute_forward_add1_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_scalar(src1));
  
@@ -7768,9 +7790,11 @@ static void ggml_compute_forward_add1_f32(
  
  static void ggml_compute_forward_add1_f16_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_scalar(src1));
  
@@ -7818,9 +7842,11 @@ static void ggml_compute_forward_add1_f16_f32(
  
  static void ggml_compute_forward_add1_f16_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_scalar(src1));
  
@@ -7868,9 +7894,11 @@ static void ggml_compute_forward_add1_f16_f16(
  
  static void ggml_compute_forward_add1_q_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_scalar(src1));
  
@@ -7935,21 +7963,23 @@ static void ggml_compute_forward_add1_q_f32(
  
  static void ggml_compute_forward_add1(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_add1_f32(params, src0, src1, dst);
+                ggml_compute_forward_add1_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
              {
                  if (src1->type == GGML_TYPE_F16) {
-                    ggml_compute_forward_add1_f16_f16(params, src0, src1, dst);
+                    ggml_compute_forward_add1_f16_f16(params, dst);
                  }
                  else if (src1->type == GGML_TYPE_F32) {
-                    ggml_compute_forward_add1_f16_f32(params, src0, src1, dst);
+                    ggml_compute_forward_add1_f16_f32(params, dst);
                  }
                  else {
                      GGML_ASSERT(false);
@@ -7971,7 +8001,7 @@ static void ggml_compute_forward_add1(
          case GGML_TYPE_IQ3_XXS:
          case GGML_TYPE_IQ1_S:
              {
-                ggml_compute_forward_add1_q_f32(params, src0, src1, dst);
+                ggml_compute_forward_add1_q_f32(params, dst);
              } break;
          default:
              {
@@ -7984,9 +8014,11 @@ static void ggml_compute_forward_add1(
  
  static void ggml_compute_forward_acc_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_contiguous(dst) && ggml_is_contiguous(src0));
  
@@ -8066,14 +8098,14 @@ static void ggml_compute_forward_acc_f32(
  
  static void ggml_compute_forward_acc(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_acc_f32(params, src0, src1, dst);
+                ggml_compute_forward_acc_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
          case GGML_TYPE_Q4_0:
@@ -8102,9 +8134,11 @@ static void ggml_compute_forward_acc(
  
  static void ggml_compute_forward_sub_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, src1) && ggml_are_same_shape(src0, dst));
  
@@ -8162,13 +8196,14 @@ static void ggml_compute_forward_sub_f32(
  
  static void ggml_compute_forward_sub(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sub_f32(params, src0, src1, dst);
+                ggml_compute_forward_sub_f32(params, dst);
              } break;
          default:
              {
@@ -8181,9 +8216,11 @@ static void ggml_compute_forward_sub(
  
  static void ggml_compute_forward_mul_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_can_repeat(src1, src0) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -8264,15 +8301,17 @@ static void ggml_compute_forward_mul_f32(
  
  static void ggml_compute_forward_mul(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src1->type == GGML_TYPE_F32 && "only f32 src1 supported for now");
  
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_mul_f32(params, src0, src1, dst);
+                ggml_compute_forward_mul_f32(params, dst);
              } break;
          default:
              {
@@ -8285,9 +8324,11 @@ static void ggml_compute_forward_mul(
  
  static void ggml_compute_forward_div_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_can_repeat(src1, src0) && ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -8358,13 +8399,14 @@ static void ggml_compute_forward_div_f32(
  
  static void ggml_compute_forward_div(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_div_f32(params, src0, src1, dst);
+                ggml_compute_forward_div_f32(params, dst);
              } break;
          default:
              {
@@ -8377,8 +8419,10 @@ static void ggml_compute_forward_div(
  
  static void ggml_compute_forward_sqr_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -8401,12 +8445,14 @@ static void ggml_compute_forward_sqr_f32(
  
  static void ggml_compute_forward_sqr(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sqr_f32(params, src0, dst);
+                ggml_compute_forward_sqr_f32(params, dst);
              } break;
          default:
              {
@@ -8419,8 +8465,10 @@ static void ggml_compute_forward_sqr(
  
  static void ggml_compute_forward_sqrt_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -8443,12 +8491,14 @@ static void ggml_compute_forward_sqrt_f32(
  
  static void ggml_compute_forward_sqrt(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sqrt_f32(params, src0, dst);
+                ggml_compute_forward_sqrt_f32(params, dst);
              } break;
          default:
              {
@@ -8461,8 +8511,10 @@ static void ggml_compute_forward_sqrt(
  
  static void ggml_compute_forward_log_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
  
@@ -8485,12 +8537,14 @@ static void ggml_compute_forward_log_f32(
  
  static void ggml_compute_forward_log(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_log_f32(params, src0, dst);
+                ggml_compute_forward_log_f32(params, dst);
              } break;
          default:
              {
@@ -8503,8 +8557,10 @@ static void ggml_compute_forward_log(
  
  static void ggml_compute_forward_sum_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_is_scalar(dst));
  
@@ -8536,8 +8592,10 @@ static void ggml_compute_forward_sum_f32(
  
  static void ggml_compute_forward_sum_f16(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
            struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_is_scalar(dst));
  
@@ -8568,16 +8626,18 @@ static void ggml_compute_forward_sum_f16(
  
  static void ggml_compute_forward_sum(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sum_f32(params, src0, dst);
+                ggml_compute_forward_sum_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_sum_f16(params, src0, dst);
+                ggml_compute_forward_sum_f16(params, dst);
              } break;
          default:
              {
@@ -8590,8 +8650,10 @@ static void ggml_compute_forward_sum(
  
  static void ggml_compute_forward_sum_rows_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -8623,12 +8685,14 @@ static void ggml_compute_forward_sum_rows_f32(
  
  static void ggml_compute_forward_sum_rows(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sum_rows_f32(params, src0, dst);
+                ggml_compute_forward_sum_rows_f32(params, dst);
              } break;
          default:
              {
@@ -8641,8 +8705,10 @@ static void ggml_compute_forward_sum_rows(
  
  static void ggml_compute_forward_mean_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -8678,12 +8744,14 @@ static void ggml_compute_forward_mean_f32(
  
  static void ggml_compute_forward_mean(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_mean_f32(params, src0, dst);
+                ggml_compute_forward_mean_f32(params, dst);
              } break;
          default:
              {
@@ -8696,8 +8764,10 @@ static void ggml_compute_forward_mean(
  
  static void ggml_compute_forward_argmax_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -8724,12 +8794,14 @@ static void ggml_compute_forward_argmax_f32(
  
  static void ggml_compute_forward_argmax(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_argmax_f32(params, src0, dst);
+                ggml_compute_forward_argmax_f32(params, dst);
              } break;
          default:
              {
@@ -8742,8 +8814,10 @@ static void ggml_compute_forward_argmax(
  
  static void ggml_compute_forward_repeat_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_can_repeat(src0, dst));
  
@@ -8785,8 +8859,10 @@ static void ggml_compute_forward_repeat_f32(
  
  static void ggml_compute_forward_repeat_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_can_repeat(src0, dst));
  
@@ -8831,18 +8907,20 @@ static void ggml_compute_forward_repeat_f16(
  
  static void ggml_compute_forward_repeat(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
          case GGML_TYPE_I16:
              {
-                ggml_compute_forward_repeat_f16(params, src0, dst);
+                ggml_compute_forward_repeat_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
          case GGML_TYPE_I32:
              {
-                ggml_compute_forward_repeat_f32(params, src0, dst);
+                ggml_compute_forward_repeat_f32(params, dst);
              } break;
          default:
              {
@@ -8855,8 +8933,10 @@ static void ggml_compute_forward_repeat(
  
  static void ggml_compute_forward_repeat_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_can_repeat(dst, src0));
  
@@ -8912,12 +8992,14 @@ static void ggml_compute_forward_repeat_back_f32(
  
  static void ggml_compute_forward_repeat_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_repeat_back_f32(params, src0, dst);
+                ggml_compute_forward_repeat_back_f32(params, dst);
              } break;
          default:
              {
@@ -8930,10 +9012,11 @@ static void ggml_compute_forward_repeat_back(
  
  static void ggml_compute_forward_concat_f32(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
-    const struct ggml_tensor * src1,
      struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -8978,14 +9061,15 @@ static void ggml_compute_forward_concat_f32(
  
  static void ggml_compute_forward_concat(
      const struct ggml_compute_params* params,
-    const struct ggml_tensor* src0,
-    const struct ggml_tensor* src1,
      struct ggml_tensor* dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
          case GGML_TYPE_I32:
              {
-                ggml_compute_forward_concat_f32(params, src0, src1, dst);
+                ggml_compute_forward_concat_f32(params, dst);
              } break;
          default:
              {
@@ -8998,8 +9082,10 @@ static void ggml_compute_forward_concat(
  
  static void ggml_compute_forward_abs_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9022,12 +9108,14 @@ static void ggml_compute_forward_abs_f32(
  
  static void ggml_compute_forward_abs(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_abs_f32(params, src0, dst);
+                ggml_compute_forward_abs_f32(params, dst);
              } break;
          default:
              {
@@ -9040,8 +9128,10 @@ static void ggml_compute_forward_abs(
  
  static void ggml_compute_forward_sgn_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9064,12 +9154,14 @@ static void ggml_compute_forward_sgn_f32(
  
  static void ggml_compute_forward_sgn(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_sgn_f32(params, src0, dst);
+                ggml_compute_forward_sgn_f32(params, dst);
              } break;
          default:
              {
@@ -9082,8 +9174,10 @@ static void ggml_compute_forward_sgn(
  
  static void ggml_compute_forward_neg_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9106,12 +9200,14 @@ static void ggml_compute_forward_neg_f32(
  
  static void ggml_compute_forward_neg(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_neg_f32(params, src0, dst);
+                ggml_compute_forward_neg_f32(params, dst);
              } break;
          default:
              {
@@ -9124,8 +9220,10 @@ static void ggml_compute_forward_neg(
  
  static void ggml_compute_forward_step_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9148,12 +9246,14 @@ static void ggml_compute_forward_step_f32(
  
  static void ggml_compute_forward_step(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_step_f32(params, src0, dst);
+                ggml_compute_forward_step_f32(params, dst);
              } break;
          default:
              {
@@ -9166,8 +9266,10 @@ static void ggml_compute_forward_step(
  
  static void ggml_compute_forward_tanh_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9190,12 +9292,14 @@ static void ggml_compute_forward_tanh_f32(
  
  static void ggml_compute_forward_tanh(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_tanh_f32(params, src0, dst);
+                ggml_compute_forward_tanh_f32(params, dst);
              } break;
          default:
              {
@@ -9208,8 +9312,10 @@ static void ggml_compute_forward_tanh(
  
  static void ggml_compute_forward_elu_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9232,12 +9338,14 @@ static void ggml_compute_forward_elu_f32(
  
  static void ggml_compute_forward_elu(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_elu_f32(params, src0, dst);
+                ggml_compute_forward_elu_f32(params, dst);
              } break;
          default:
              {
@@ -9250,8 +9358,10 @@ static void ggml_compute_forward_elu(
  
  static void ggml_compute_forward_relu_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9274,12 +9384,14 @@ static void ggml_compute_forward_relu_f32(
  
  static void ggml_compute_forward_relu(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_relu_f32(params, src0, dst);
+                ggml_compute_forward_relu_f32(params, dst);
              } break;
          default:
              {
@@ -9292,8 +9404,10 @@ static void ggml_compute_forward_relu(
  
  static void ggml_compute_forward_gelu_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(src0));
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(dst));
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
@@ -9333,12 +9447,14 @@ static void ggml_compute_forward_gelu_f32(
  
  static void ggml_compute_forward_gelu(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_gelu_f32(params, src0, dst);
+                ggml_compute_forward_gelu_f32(params, dst);
              } break;
          default:
              {
@@ -9351,8 +9467,10 @@ static void ggml_compute_forward_gelu(
  
  static void ggml_compute_forward_gelu_quick_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(src0));
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(dst));
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
@@ -9392,12 +9510,14 @@ static void ggml_compute_forward_gelu_quick_f32(
  
  static void ggml_compute_forward_gelu_quick(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_gelu_quick_f32(params, src0, dst);
+                ggml_compute_forward_gelu_quick_f32(params, dst);
              } break;
          default:
              {
@@ -9410,8 +9530,10 @@ static void ggml_compute_forward_gelu_quick(
  
  static void ggml_compute_forward_silu_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(src0));
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(dst));
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
@@ -9451,12 +9573,14 @@ static void ggml_compute_forward_silu_f32(
  
  static void ggml_compute_forward_silu(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_silu_f32(params, src0, dst);
+                ggml_compute_forward_silu_f32(params, dst);
              } break;
          default:
              {
@@ -9468,8 +9592,10 @@ static void ggml_compute_forward_silu(
  
  static void ggml_compute_forward_leaky_relu_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9495,12 +9621,14 @@ static void ggml_compute_forward_leaky_relu_f32(
  
  static void ggml_compute_forward_leaky_relu(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_leaky_relu_f32(params, src0, dst);
+                ggml_compute_forward_leaky_relu_f32(params, dst);
              } break;
          default:
              {
@@ -9513,9 +9641,11 @@ static void ggml_compute_forward_leaky_relu(
  
  static void ggml_compute_forward_silu_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * grad,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * grad = dst->src[1];
+
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(grad));
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(src0));
      GGML_ASSERT(ggml_is_contiguous_except_dim_1(dst));
@@ -9558,13 +9688,14 @@ static void ggml_compute_forward_silu_back_f32(
  
  static void ggml_compute_forward_silu_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * grad,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_silu_back_f32(params, src0, grad, dst);
+                ggml_compute_forward_silu_back_f32(params, dst);
              } break;
          default:
              {
@@ -9576,8 +9707,10 @@ static void ggml_compute_forward_silu_back(
  
  static void ggml_compute_forward_hardswish_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9599,12 +9732,14 @@ static void ggml_compute_forward_hardswish_f32(
  }
  static void ggml_compute_forward_hardswish(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_hardswish_f32(params, src0, dst);
+                ggml_compute_forward_hardswish_f32(params, dst);
              } break;
          default:
              {
@@ -9615,8 +9750,10 @@ static void ggml_compute_forward_hardswish(
  
  static void ggml_compute_forward_hardsigmoid_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, dst));
  
@@ -9639,12 +9776,14 @@ static void ggml_compute_forward_hardsigmoid_f32(
  
  static void ggml_compute_forward_hardsigmoid(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_hardsigmoid_f32(params, src0, dst);
+                ggml_compute_forward_hardsigmoid_f32(params, dst);
              } break;
          default:
              {
@@ -9658,8 +9797,10 @@ static void ggml_compute_forward_hardsigmoid(
  
  static void ggml_compute_forward_norm_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -9711,12 +9852,14 @@ static void ggml_compute_forward_norm_f32(
  
  static void ggml_compute_forward_norm(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_norm_f32(params, src0, dst);
+                ggml_compute_forward_norm_f32(params, dst);
              } break;
          default:
              {
@@ -9729,8 +9872,10 @@ static void ggml_compute_forward_norm(
  
  static void ggml_compute_forward_rms_norm_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -9779,12 +9924,14 @@ static void ggml_compute_forward_rms_norm_f32(
  
  static void ggml_compute_forward_rms_norm(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_rms_norm_f32(params, src0, dst);
+                ggml_compute_forward_rms_norm_f32(params, dst);
              } break;
          default:
              {
@@ -9795,9 +9942,11 @@ static void ggml_compute_forward_rms_norm(
  
  static void ggml_compute_forward_rms_norm_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst) && ggml_are_same_shape(src0, src1));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -9952,13 +10101,14 @@ static void ggml_compute_forward_rms_norm_back_f32(
  
  static void ggml_compute_forward_rms_norm_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_rms_norm_back_f32(params, src0, src1, dst);
+                ggml_compute_forward_rms_norm_back_f32(params, dst);
              } break;
          default:
              {
@@ -9971,8 +10121,10 @@ static void ggml_compute_forward_rms_norm_back(
  
  static void ggml_compute_forward_group_norm_f32(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -10043,12 +10195,14 @@ static void ggml_compute_forward_group_norm_f32(
  
  static void ggml_compute_forward_group_norm(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_group_norm_f32(params, src0, dst);
+                ggml_compute_forward_group_norm_f32(params, dst);
              } break;
          default:
              {
@@ -10094,9 +10248,11 @@ static bool ggml_compute_forward_mul_mat_use_blas(struct ggml_tensor * dst) {
  
  static void ggml_compute_forward_mul_mat(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      int64_t t0 = ggml_perf_time_us();
      UNUSED(t0);
  
@@ -10341,10 +10497,11 @@ static void ggml_compute_forward_mul_mat(
  
  static void ggml_compute_forward_mul_mat_id(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * ids,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * ids = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      const struct ggml_tensor * src0 = dst->src[2]; // only for GGML_TENSOR_BINARY_OP_LOCALS
  
      GGML_TENSOR_BINARY_OP_LOCALS
@@ -10535,9 +10692,11 @@ static void ggml_compute_forward_mul_mat_id(
  
  static void ggml_compute_forward_out_prod_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      // int64_t t0 = ggml_perf_time_us();
      // UNUSED(t0);
  
@@ -10727,9 +10886,11 @@ static void ggml_compute_forward_out_prod_f32(
  
  static void ggml_compute_forward_out_prod_q_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      // int64_t t0 = ggml_perf_time_us();
      // UNUSED(t0);
  
@@ -10840,9 +11001,10 @@ static void ggml_compute_forward_out_prod_q_f32(
  
  static void ggml_compute_forward_out_prod(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_Q4_0:
          case GGML_TYPE_Q4_1:
@@ -10859,16 +11021,16 @@ static void ggml_compute_forward_out_prod(
          case GGML_TYPE_IQ3_XXS:
          case GGML_TYPE_IQ1_S:
              {
-                ggml_compute_forward_out_prod_q_f32(params, src0, src1, dst);
+                ggml_compute_forward_out_prod_q_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
              {
                  GGML_ASSERT(false); // todo
-                // ggml_compute_forward_out_prod_f16_f32(params, src0, src1, dst);
+                // ggml_compute_forward_out_prod_f16_f32(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_out_prod_f32(params, src0, src1, dst);
+                ggml_compute_forward_out_prod_f32(params, dst);
              } break;
          default:
              {
@@ -10881,8 +11043,10 @@ static void ggml_compute_forward_out_prod(
  
  static void ggml_compute_forward_scale_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_is_contiguous(src0));
      GGML_ASSERT(ggml_is_contiguous(dst));
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
@@ -10923,12 +11087,14 @@ static void ggml_compute_forward_scale_f32(
  
  static void ggml_compute_forward_scale(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_scale_f32(params, src0, dst);
+                ggml_compute_forward_scale_f32(params, dst);
              } break;
          default:
              {
@@ -10941,9 +11107,11 @@ static void ggml_compute_forward_scale(
  
  static void ggml_compute_forward_set_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
      GGML_ASSERT(ggml_is_contiguous(dst) && ggml_is_contiguous(src0));
  
@@ -11014,14 +11182,14 @@ static void ggml_compute_forward_set_f32(
  
  static void ggml_compute_forward_set(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_set_f32(params, src0, src1, dst);
+                ggml_compute_forward_set_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
          case GGML_TYPE_Q4_0:
@@ -11050,29 +11218,25 @@ static void ggml_compute_forward_set(
  
  static void ggml_compute_forward_cpy(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
-    ggml_compute_forward_dup(params, src0, dst);
+    ggml_compute_forward_dup(params, dst);
  }
  
  // ggml_compute_forward_cont
  
  static void ggml_compute_forward_cont(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
-    ggml_compute_forward_dup(params, src0, dst);
+    ggml_compute_forward_dup(params, dst);
  }
  
  // ggml_compute_forward_reshape
  
  static void ggml_compute_forward_reshape(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
      // NOP
      UNUSED(params);
-    UNUSED(src0);
      UNUSED(dst);
  }
  
@@ -11080,39 +11244,41 @@ static void ggml_compute_forward_reshape(
  
  static void ggml_compute_forward_view(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0) {
+        const struct ggml_tensor * dst) {
      // NOP
      UNUSED(params);
-    UNUSED(src0);
+    UNUSED(dst);
  }
  
  // ggml_compute_forward_permute
  
  static void ggml_compute_forward_permute(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0) {
+        const struct ggml_tensor * dst) {
      // NOP
      UNUSED(params);
-    UNUSED(src0);
+    UNUSED(dst);
  }
  
  // ggml_compute_forward_transpose
  
  static void ggml_compute_forward_transpose(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0) {
+        const struct ggml_tensor * dst) {
      // NOP
      UNUSED(params);
-    UNUSED(src0);
+    UNUSED(dst);
  }
  
  // ggml_compute_forward_get_rows
  
  static void ggml_compute_forward_get_rows_q(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11148,9 +11314,11 @@ static void ggml_compute_forward_get_rows_q(
  
  static void ggml_compute_forward_get_rows_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11183,9 +11351,11 @@ static void ggml_compute_forward_get_rows_f16(
  
  static void ggml_compute_forward_get_rows_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11218,9 +11388,10 @@ static void ggml_compute_forward_get_rows_f32(
  
  static void ggml_compute_forward_get_rows(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_Q4_0:
          case GGML_TYPE_Q4_1:
@@ -11238,16 +11409,16 @@ static void ggml_compute_forward_get_rows(
          case GGML_TYPE_IQ3_XXS:
          case GGML_TYPE_IQ1_S:
              {
-                ggml_compute_forward_get_rows_q(params, src0, src1, dst);
+                ggml_compute_forward_get_rows_q(params, dst);
              } break;
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_get_rows_f16(params, src0, src1, dst);
+                ggml_compute_forward_get_rows_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
          case GGML_TYPE_I32:
              {
-                ggml_compute_forward_get_rows_f32(params, src0, src1, dst);
+                ggml_compute_forward_get_rows_f32(params, dst);
              } break;
          default:
              {
@@ -11278,9 +11449,11 @@ static void ggml_compute_forward_get_rows(
  
  static void ggml_compute_forward_get_rows_back_f32_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_is_contiguous(dst));
  
@@ -11315,9 +11488,11 @@ static void ggml_compute_forward_get_rows_back_f32_f16(
  
  static void ggml_compute_forward_get_rows_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(params->ith == 0);
      GGML_ASSERT(ggml_is_contiguous(dst));
  
@@ -11352,17 +11527,18 @@ static void ggml_compute_forward_get_rows_back_f32(
  
  static void ggml_compute_forward_get_rows_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_get_rows_back_f32_f16(params, src0, src1, dst);
+                ggml_compute_forward_get_rows_back_f32_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_get_rows_back_f32(params, src0, src1, dst);
+                ggml_compute_forward_get_rows_back_f32(params, dst);
              } break;
          default:
              {
@@ -11393,8 +11569,10 @@ static void ggml_compute_forward_get_rows_back(
  
  static void ggml_compute_forward_diag_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11433,12 +11611,14 @@ static void ggml_compute_forward_diag_f32(
  
  static void ggml_compute_forward_diag(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_diag_f32(params, src0, dst);
+                ggml_compute_forward_diag_f32(params, dst);
              } break;
          default:
              {
@@ -11451,10 +11631,11 @@ static void ggml_compute_forward_diag(
  
  static void ggml_compute_forward_diag_mask_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst,
          const float value) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      const int ith = params->ith;
      const int nth = params->nth;
  
@@ -11504,12 +11685,14 @@ static void ggml_compute_forward_diag_mask_f32(
  
  static void ggml_compute_forward_diag_mask_inf(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_diag_mask_f32(params, src0, dst, -INFINITY);
+                ggml_compute_forward_diag_mask_f32(params, dst, -INFINITY);
              } break;
          default:
              {
@@ -11520,12 +11703,14 @@ static void ggml_compute_forward_diag_mask_inf(
  
  static void ggml_compute_forward_diag_mask_zero(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_diag_mask_f32(params, src0, dst, 0);
+                ggml_compute_forward_diag_mask_f32(params, dst, 0);
              } break;
          default:
              {
@@ -11538,10 +11723,12 @@ static void ggml_compute_forward_diag_mask_zero(
  
  static void ggml_compute_forward_soft_max_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * src2,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+    const struct ggml_tensor * src2 = dst->src[2];
+
      assert(ggml_is_contiguous(dst));
      assert(ggml_are_same_shape(src0, dst));
  
@@ -11652,14 +11839,14 @@ static void ggml_compute_forward_soft_max_f32(
  
  static void ggml_compute_forward_soft_max(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * src2,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_soft_max_f32(params, src0, src1, src2, dst);
+                ggml_compute_forward_soft_max_f32(params, dst);
              } break;
          default:
              {
@@ -11672,9 +11859,11 @@ static void ggml_compute_forward_soft_max(
  
  static void ggml_compute_forward_soft_max_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_is_contiguous(src0));
      GGML_ASSERT(ggml_is_contiguous(src1));
      GGML_ASSERT(ggml_is_contiguous(dst));
@@ -11749,13 +11938,14 @@ static void ggml_compute_forward_soft_max_back_f32(
  
  static void ggml_compute_forward_soft_max_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_soft_max_back_f32(params, src0, src1, dst);
+                ggml_compute_forward_soft_max_back_f32(params, dst);
              } break;
          default:
              {
@@ -11768,8 +11958,10 @@ static void ggml_compute_forward_soft_max_back(
  
  static void ggml_compute_forward_alibi_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11825,8 +12017,10 @@ static void ggml_compute_forward_alibi_f32(
  
  static void ggml_compute_forward_alibi_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11885,16 +12079,18 @@ static void ggml_compute_forward_alibi_f16(
  
  static void ggml_compute_forward_alibi(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_alibi_f16(params, src0, dst);
+                ggml_compute_forward_alibi_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_alibi_f32(params, src0, dst);
+                ggml_compute_forward_alibi_f32(params, dst);
              } break;
          case GGML_TYPE_Q4_0:
          case GGML_TYPE_Q4_1:
@@ -11926,8 +12122,10 @@ static void ggml_compute_forward_alibi(
  
  static void ggml_compute_forward_clamp_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -11966,12 +12164,14 @@ static void ggml_compute_forward_clamp_f32(
  
  static void ggml_compute_forward_clamp(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_clamp_f32(params, src0, dst);
+                ggml_compute_forward_clamp_f32(params, dst);
              } break;
          case GGML_TYPE_F16:
          case GGML_TYPE_Q4_0:
@@ -12060,10 +12260,12 @@ GGML_CALL void ggml_rope_yarn_corr_dims(
  
  static void ggml_compute_forward_rope_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst,
          const bool forward) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -12236,10 +12438,12 @@ static void ggml_compute_forward_rope_f32(
  
  static void ggml_compute_forward_rope_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst,
          const bool forward) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -12401,17 +12605,18 @@ static void ggml_compute_forward_rope_f16(
  
  static void ggml_compute_forward_rope(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_rope_f16(params, src0, src1, dst, true);
+                ggml_compute_forward_rope_f16(params, dst, true);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_rope_f32(params, src0, src1, dst, true);
+                ggml_compute_forward_rope_f32(params, dst, true);
              } break;
          default:
              {
@@ -12424,17 +12629,18 @@ static void ggml_compute_forward_rope(
  
  static void ggml_compute_forward_rope_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_rope_f16(params, src0, src1, dst, false);
+                ggml_compute_forward_rope_f16(params, dst, false);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_rope_f32(params, src0, src1, dst, false);
+                ggml_compute_forward_rope_f32(params, dst, false);
              } break;
          default:
              {
@@ -12447,9 +12653,11 @@ static void ggml_compute_forward_rope_back(
  
  static void ggml_compute_forward_conv_transpose_1d_f16_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src0->type == GGML_TYPE_F16);
      GGML_ASSERT(src1->type == GGML_TYPE_F32);
      GGML_ASSERT( dst->type == GGML_TYPE_F32);
@@ -12544,9 +12752,11 @@ static void ggml_compute_forward_conv_transpose_1d_f16_f32(
  
  static void ggml_compute_forward_conv_transpose_1d_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src0->type == GGML_TYPE_F32);
      GGML_ASSERT(src1->type == GGML_TYPE_F32);
      GGML_ASSERT( dst->type == GGML_TYPE_F32);
@@ -12641,17 +12851,18 @@ static void ggml_compute_forward_conv_transpose_1d_f32(
  
  static void ggml_compute_forward_conv_transpose_1d(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_conv_transpose_1d_f16_f32(params, src0, src1, dst);
+                ggml_compute_forward_conv_transpose_1d_f16_f32(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_conv_transpose_1d_f32(params, src0, src1, dst);
+                ggml_compute_forward_conv_transpose_1d_f32(params, dst);
              } break;
          default:
              {
@@ -12665,9 +12876,11 @@ static void ggml_compute_forward_conv_transpose_1d(
  // dst:  result [N, OH, OW, IC*KH*KW]
  static void ggml_compute_forward_im2col_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src0->type == GGML_TYPE_F16);
      GGML_ASSERT(src1->type == GGML_TYPE_F32);
      GGML_ASSERT( dst->type == GGML_TYPE_F32);
@@ -12751,9 +12964,11 @@ static void ggml_compute_forward_im2col_f32(
  // dst:  result [N, OH, OW, IC*KH*KW]
  static void ggml_compute_forward_im2col_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src0->type == GGML_TYPE_F16);
      GGML_ASSERT(src1->type == GGML_TYPE_F32);
      GGML_ASSERT( dst->type == GGML_TYPE_F16);
@@ -12833,17 +13048,15 @@ static void ggml_compute_forward_im2col_f16(
  
  static void ggml_compute_forward_im2col(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
      switch (dst->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_im2col_f16(params, src0, src1, dst);
+                ggml_compute_forward_im2col_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_im2col_f32(params, src0, src1, dst);
+                ggml_compute_forward_im2col_f32(params, dst);
              } break;
          default:
              {
@@ -12857,9 +13070,11 @@ static void ggml_compute_forward_im2col(
  
  static void ggml_compute_forward_conv_transpose_2d(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(src0->type == GGML_TYPE_F16);
      GGML_ASSERT(src1->type == GGML_TYPE_F32);
      GGML_ASSERT( dst->type == GGML_TYPE_F32);
@@ -12963,9 +13178,11 @@ static void ggml_compute_forward_conv_transpose_2d(
  static void ggml_compute_forward_pool_1d_sk_p0(
          const struct ggml_compute_params * params,
          const enum ggml_op_pool op,
-        const struct ggml_tensor * src,
          const int k,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src = dst->src[0];
+
      assert(src->type == GGML_TYPE_F32);
      assert(params->ith == 0);
  
@@ -13014,7 +13231,6 @@ static void ggml_compute_forward_pool_1d_sk_p0(
  
  static void ggml_compute_forward_pool_1d(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
                struct ggml_tensor * dst) {
  
      const int32_t * opts = (const int32_t *)dst->op_params;
@@ -13025,15 +13241,17 @@ static void ggml_compute_forward_pool_1d(
      GGML_ASSERT(p0 == 0); // padding not supported
      GGML_ASSERT(k0 == s0); // only s = k supported
  
-    ggml_compute_forward_pool_1d_sk_p0(params, op, src0, k0, dst);
+    ggml_compute_forward_pool_1d_sk_p0(params, op, k0, dst);
  }
  
  // ggml_compute_forward_pool_2d
  
  static void ggml_compute_forward_pool_2d(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src = dst->src[0];
+
      GGML_ASSERT(src->type == GGML_TYPE_F32);
      GGML_ASSERT(params->ith == 0);
  
@@ -13106,9 +13324,10 @@ static void ggml_compute_forward_pool_2d(
  
  static void ggml_compute_forward_upscale_f32(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -13145,12 +13364,14 @@ static void ggml_compute_forward_upscale_f32(
  
  static void ggml_compute_forward_upscale(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_upscale_f32(params, src0, dst);
+                ggml_compute_forward_upscale_f32(params, dst);
              } break;
          default:
              {
@@ -13163,9 +13384,10 @@ static void ggml_compute_forward_upscale(
  
  static void ggml_compute_forward_pad_f32(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
            struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -13203,12 +13425,14 @@ static void ggml_compute_forward_pad_f32(
  
  static void ggml_compute_forward_pad(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_pad_f32(params, src0, dst);
+                ggml_compute_forward_pad_f32(params, dst);
              } break;
          default:
              {
@@ -13221,9 +13445,10 @@ static void ggml_compute_forward_pad(
  
  static void ggml_compute_forward_argsort_f32(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -13263,13 +13488,14 @@ static void ggml_compute_forward_argsort_f32(
  
  static void ggml_compute_forward_argsort(
      const struct ggml_compute_params * params,
-    const struct ggml_tensor * src0,
      struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_argsort_f32(params, src0, dst);
+                ggml_compute_forward_argsort_f32(params, dst);
              } break;
          default:
              {
@@ -13282,11 +13508,13 @@ static void ggml_compute_forward_argsort(
  
  static void ggml_compute_forward_flash_attn_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * q,
-        const struct ggml_tensor * k,
-        const struct ggml_tensor * v,
          const bool masked,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * q = dst->src[0];
+    const struct ggml_tensor * k = dst->src[1];
+    const struct ggml_tensor * v = dst->src[2];
+
      int64_t t0 = ggml_perf_time_us();
      UNUSED(t0);
  
@@ -13472,11 +13700,13 @@ static void ggml_compute_forward_flash_attn_f32(
  
  static void ggml_compute_forward_flash_attn_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * q,
-        const struct ggml_tensor * k,
-        const struct ggml_tensor * v,
          const bool masked,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * q = dst->src[0];
+    const struct ggml_tensor * k = dst->src[1];
+    const struct ggml_tensor * v = dst->src[2];
+
      int64_t t0 = ggml_perf_time_us();
      UNUSED(t0);
  
@@ -13698,19 +13928,19 @@ static void ggml_compute_forward_flash_attn_f16(
  
  static void ggml_compute_forward_flash_attn(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * q,
-        const struct ggml_tensor * k,
-        const struct ggml_tensor * v,
          const bool masked,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * q = dst->src[0];
+
      switch (q->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_flash_attn_f16(params, q, k, v, masked, dst);
+                ggml_compute_forward_flash_attn_f16(params, masked, dst);
              } break;
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_flash_attn_f32(params, q, k, v, masked, dst);
+                ggml_compute_forward_flash_attn_f32(params, masked, dst);
              } break;
          default:
              {
@@ -13723,12 +13953,14 @@ static void ggml_compute_forward_flash_attn(
  
  static void ggml_compute_forward_flash_ff_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,  // F16
-        const struct ggml_tensor * b0, // F16 fc_w
-        const struct ggml_tensor * b1, // F32 fc_b
-        const struct ggml_tensor * c0, // F16 proj_w
-        const struct ggml_tensor * c1, // F32 proj_b
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * a = dst->src[0];  // F16
+    const struct ggml_tensor * b0 = dst->src[1]; // F16 fc_w
+    const struct ggml_tensor * b1 = dst->src[2]; // F32 fc_b
+    const struct ggml_tensor * c0 = dst->src[3]; // F16 proj_w
+    const struct ggml_tensor * c1 = dst->src[4]; // F32 proj_b
+
      int64_t t0 = ggml_perf_time_us();
      UNUSED(t0);
  
@@ -13856,16 +14088,14 @@ static void ggml_compute_forward_flash_ff_f16(
  
  static void ggml_compute_forward_flash_ff(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
-        const struct ggml_tensor * b0,
-        const struct ggml_tensor * b1,
-        const struct ggml_tensor * c0,
-        const struct ggml_tensor * c1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * b0 = dst->src[1];
+
      switch (b0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_flash_ff_f16(params, a, b0, b1, c0, c1, dst);
+                ggml_compute_forward_flash_ff_f16(params, dst);
              } break;
          case GGML_TYPE_F32:
              {
@@ -13882,12 +14112,14 @@ static void ggml_compute_forward_flash_ff(
  
  static void ggml_compute_forward_flash_attn_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * q,
-        const struct ggml_tensor * k,
-        const struct ggml_tensor * v,
-        const struct ggml_tensor * d,
          const bool masked,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * q = dst->src[0];
+    const struct ggml_tensor * k = dst->src[1];
+    const struct ggml_tensor * v = dst->src[2];
+    const struct ggml_tensor * d = dst->src[3];
+
      int64_t t0 = ggml_perf_time_us();
      UNUSED(t0);
  
@@ -14235,16 +14467,15 @@ static void ggml_compute_forward_flash_attn_back_f32(
  
  static void ggml_compute_forward_flash_attn_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * q,
-        const struct ggml_tensor * k,
-        const struct ggml_tensor * v,
-        const struct ggml_tensor * d,
          const bool masked,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * q = dst->src[0];
+
      switch (q->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_flash_attn_back_f32(params, q, k, v, d, masked, dst);
+                ggml_compute_forward_flash_attn_back_f32(params, masked, dst);
              } break;
          default:
              {
@@ -14257,8 +14488,10 @@ static void ggml_compute_forward_flash_attn_back(
  
  static void ggml_compute_forward_win_part_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14301,12 +14534,14 @@ static void ggml_compute_forward_win_part_f32(
  
  static void ggml_compute_forward_win_part(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_win_part_f32(params, src0, dst);
+                ggml_compute_forward_win_part_f32(params, dst);
              } break;
          default:
              {
@@ -14319,8 +14554,10 @@ static void ggml_compute_forward_win_part(
  
  static void ggml_compute_forward_win_unpart_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14361,12 +14598,14 @@ static void ggml_compute_forward_win_unpart_f32(
  
  static void ggml_compute_forward_win_unpart(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_win_unpart_f32(params, src0, dst);
+                ggml_compute_forward_win_unpart_f32(params, dst);
              } break;
          default:
              {
@@ -14379,58 +14618,58 @@ static void ggml_compute_forward_win_unpart(
  
  static void ggml_compute_forward_unary(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
      const enum ggml_unary_op op = ggml_get_unary_op(dst);
  
      switch (op) {
          case GGML_UNARY_OP_ABS:
              {
-                ggml_compute_forward_abs(params, src0, dst);
+                ggml_compute_forward_abs(params, dst);
              } break;
          case GGML_UNARY_OP_SGN:
              {
-                ggml_compute_forward_sgn(params, src0, dst);
+                ggml_compute_forward_sgn(params, dst);
              } break;
          case GGML_UNARY_OP_NEG:
              {
-                ggml_compute_forward_neg(params, src0, dst);
+                ggml_compute_forward_neg(params, dst);
              } break;
          case GGML_UNARY_OP_STEP:
              {
-                ggml_compute_forward_step(params, src0, dst);
+                ggml_compute_forward_step(params, dst);
              } break;
          case GGML_UNARY_OP_TANH:
              {
-                ggml_compute_forward_tanh(params, src0, dst);
+                ggml_compute_forward_tanh(params, dst);
              } break;
          case GGML_UNARY_OP_ELU:
              {
-                ggml_compute_forward_elu(params, src0, dst);
+                ggml_compute_forward_elu(params, dst);
              } break;
          case GGML_UNARY_OP_RELU:
              {
-                ggml_compute_forward_relu(params, src0, dst);
+                ggml_compute_forward_relu(params, dst);
              } break;
          case GGML_UNARY_OP_GELU:
              {
-                ggml_compute_forward_gelu(params, src0, dst);
+                ggml_compute_forward_gelu(params, dst);
              } break;
          case GGML_UNARY_OP_GELU_QUICK:
              {
-                ggml_compute_forward_gelu_quick(params, src0, dst);
+                ggml_compute_forward_gelu_quick(params, dst);
              } break;
          case GGML_UNARY_OP_SILU:
              {
-                ggml_compute_forward_silu(params, src0, dst);
+                ggml_compute_forward_silu(params, dst);
              } break;
          case GGML_UNARY_OP_HARDSWISH:
              {
-                ggml_compute_forward_hardswish(params, src0, dst);
+                ggml_compute_forward_hardswish(params, dst);
              } break;
          case GGML_UNARY_OP_HARDSIGMOID:
              {
-                ggml_compute_forward_hardsigmoid(params, src0, dst);
+                ggml_compute_forward_hardsigmoid(params, dst);
              } break;
          default:
              {
@@ -14443,8 +14682,10 @@ static void ggml_compute_forward_unary(
  
  static void ggml_compute_forward_get_rel_pos_f16(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14470,12 +14711,14 @@ static void ggml_compute_forward_get_rel_pos_f16(
  
  static void ggml_compute_forward_get_rel_pos(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F16:
              {
-                ggml_compute_forward_get_rel_pos_f16(params, src0, dst);
+                ggml_compute_forward_get_rel_pos_f16(params, dst);
              } break;
          default:
              {
@@ -14488,11 +14731,12 @@ static void ggml_compute_forward_get_rel_pos(
  
  static void ggml_compute_forward_add_rel_pos_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * src2,
          struct ggml_tensor * dst) {
  
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+    const struct ggml_tensor * src2 = dst->src[2];
+
      const bool inplace = (bool) ((int32_t *) dst->op_params)[0];
      if (!inplace && params->type == GGML_TASK_INIT) {
          if (params->ith != 0) {
@@ -14556,14 +14800,14 @@ static void ggml_compute_forward_add_rel_pos_f32(
  
  static void ggml_compute_forward_add_rel_pos(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * src2,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_add_rel_pos_f32(params, src0, src1, src2, dst);
+                ggml_compute_forward_add_rel_pos_f32(params, dst);
              } break;
          default:
              {
@@ -14576,9 +14820,11 @@ static void ggml_compute_forward_add_rel_pos(
  
  static void ggml_compute_forward_map_unary_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst,
          const ggml_unary_op_f32_t fun) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      GGML_ASSERT(ggml_are_same_shape(src0, dst));
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -14600,13 +14846,15 @@ static void ggml_compute_forward_map_unary_f32(
  
  static void ggml_compute_forward_map_unary(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
          struct ggml_tensor * dst,
          const ggml_unary_op_f32_t fun) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_map_unary_f32(params, src0, dst, fun);
+                ggml_compute_forward_map_unary_f32(params, dst, fun);
              } break;
          default:
              {
@@ -14619,10 +14867,12 @@ static void ggml_compute_forward_map_unary(
  
  static void ggml_compute_forward_map_binary_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst,
          const ggml_binary_op_f32_t fun) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      assert(params->ith == 0);
      assert(ggml_are_same_shape(src0, src1) && ggml_are_same_shape(src0, dst));
  
@@ -14647,14 +14897,15 @@ static void ggml_compute_forward_map_binary_f32(
  
  static void ggml_compute_forward_map_binary(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst,
          const ggml_binary_op_f32_t fun) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_map_binary_f32(params, src0, src1, dst, fun);
+                ggml_compute_forward_map_binary_f32(params, dst, fun);
              } break;
          default:
              {
@@ -14667,9 +14918,11 @@ static void ggml_compute_forward_map_binary(
  
  static void ggml_compute_forward_map_custom1_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
          struct ggml_tensor * dst,
          const ggml_custom1_op_f32_t fun) {
+
+    const struct ggml_tensor * a = dst->src[0];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -14683,10 +14936,12 @@ static void ggml_compute_forward_map_custom1_f32(
  
  static void ggml_compute_forward_map_custom2_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
-        const struct ggml_tensor * b,
          struct ggml_tensor * dst,
          const ggml_custom2_op_f32_t fun) {
+
+    const struct ggml_tensor * a = dst->src[0];
+    const struct ggml_tensor * b = dst->src[1];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -14700,11 +14955,13 @@ static void ggml_compute_forward_map_custom2_f32(
  
  static void ggml_compute_forward_map_custom3_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
-        const struct ggml_tensor * b,
-        const struct ggml_tensor * c,
          struct ggml_tensor * dst,
          const ggml_custom3_op_f32_t fun) {
+
+    const struct ggml_tensor * a = dst->src[0];
+    const struct ggml_tensor * b = dst->src[1];
+    const struct ggml_tensor * c = dst->src[1];
+
      assert(params->ith == 0);
  
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
@@ -14718,8 +14975,10 @@ static void ggml_compute_forward_map_custom3_f32(
  
  static void ggml_compute_forward_map_custom1(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * a = dst->src[0];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14733,9 +14992,11 @@ static void ggml_compute_forward_map_custom1(
  
  static void ggml_compute_forward_map_custom2(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
-        const struct ggml_tensor * b,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * a = dst->src[0];
+    const struct ggml_tensor * b = dst->src[1];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14749,10 +15010,12 @@ static void ggml_compute_forward_map_custom2(
  
  static void ggml_compute_forward_map_custom3(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * a,
-        const struct ggml_tensor * b,
-        const struct ggml_tensor * c,
                struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * a = dst->src[0];
+    const struct ggml_tensor * b = dst->src[1];
+    const struct ggml_tensor * c = dst->src[2];
+
      if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
          return;
      }
@@ -14766,9 +15029,11 @@ static void ggml_compute_forward_map_custom3(
  
  static void ggml_compute_forward_cross_entropy_loss_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+
      GGML_ASSERT(ggml_is_contiguous(src0));
      GGML_ASSERT(ggml_is_contiguous(src1));
      GGML_ASSERT(ggml_is_scalar(dst));
@@ -14872,13 +15137,14 @@ static void ggml_compute_forward_cross_entropy_loss_f32(
  
  static void ggml_compute_forward_cross_entropy_loss(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_cross_entropy_loss_f32(params, src0, src1, dst);
+                ggml_compute_forward_cross_entropy_loss_f32(params, dst);
              } break;
          default:
              {
@@ -14891,10 +15157,12 @@ static void ggml_compute_forward_cross_entropy_loss(
  
  static void ggml_compute_forward_cross_entropy_loss_back_f32(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * opt0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+    const struct ggml_tensor * src1 = dst->src[1];
+    const struct ggml_tensor * opt0 = dst->src[2];
+
      GGML_ASSERT(ggml_is_contiguous(dst));
      GGML_ASSERT(ggml_is_contiguous(src0));
      GGML_ASSERT(ggml_is_contiguous(src1));
@@ -14981,14 +15249,14 @@ static void ggml_compute_forward_cross_entropy_loss_back_f32(
  
  static void ggml_compute_forward_cross_entropy_loss_back(
          const struct ggml_compute_params * params,
-        const struct ggml_tensor * src0,
-        const struct ggml_tensor * src1,
-        const struct ggml_tensor * opt0,
          struct ggml_tensor * dst) {
+
+    const struct ggml_tensor * src0 = dst->src[0];
+
      switch (src0->type) {
          case GGML_TYPE_F32:
              {
-                ggml_compute_forward_cross_entropy_loss_back_f32(params, src0, src1, opt0, dst);
+                ggml_compute_forward_cross_entropy_loss_back_f32(params, dst);
              } break;
          default:
              {
@@ -15036,312 +15304,312 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm
      switch (tensor->op) {
          case GGML_OP_DUP:
              {
-                ggml_compute_forward_dup(params, tensor->src[0], tensor);
+                ggml_compute_forward_dup(params, tensor);
              } break;
          case GGML_OP_ADD:
              {
-                ggml_compute_forward_add(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_add(params, tensor);
              } break;
          case GGML_OP_ADD1:
              {
-                ggml_compute_forward_add1(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_add1(params, tensor);
              } break;
          case GGML_OP_ACC:
              {
-                ggml_compute_forward_acc(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_acc(params, tensor);
              } break;
          case GGML_OP_SUB:
              {
-                ggml_compute_forward_sub(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_sub(params, tensor);
              } break;
          case GGML_OP_MUL:
              {
-                ggml_compute_forward_mul(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_mul(params, tensor);
              } break;
          case GGML_OP_DIV:
              {
-                ggml_compute_forward_div(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_div(params, tensor);
              } break;
          case GGML_OP_SQR:
              {
-                ggml_compute_forward_sqr(params, tensor->src[0], tensor);
+                ggml_compute_forward_sqr(params, tensor);
              } break;
          case GGML_OP_SQRT:
              {
-                ggml_compute_forward_sqrt(params, tensor->src[0], tensor);
+                ggml_compute_forward_sqrt(params, tensor);
              } break;
          case GGML_OP_LOG:
              {
-                ggml_compute_forward_log(params, tensor->src[0], tensor);
+                ggml_compute_forward_log(params, tensor);
              } break;
          case GGML_OP_SUM:
              {
-                ggml_compute_forward_sum(params, tensor->src[0], tensor);
+                ggml_compute_forward_sum(params, tensor);
              } break;
          case GGML_OP_SUM_ROWS:
              {
-                ggml_compute_forward_sum_rows(params, tensor->src[0], tensor);
+                ggml_compute_forward_sum_rows(params, tensor);
              } break;
          case GGML_OP_MEAN:
              {
-                ggml_compute_forward_mean(params, tensor->src[0], tensor);
+                ggml_compute_forward_mean(params, tensor);
              } break;
          case GGML_OP_ARGMAX:
              {
-                ggml_compute_forward_argmax(params, tensor->src[0], tensor);
+                ggml_compute_forward_argmax(params, tensor);
              } break;
          case GGML_OP_REPEAT:
              {
-                ggml_compute_forward_repeat(params, tensor->src[0], tensor);
+                ggml_compute_forward_repeat(params, tensor);
              } break;
          case GGML_OP_REPEAT_BACK:
              {
-                ggml_compute_forward_repeat_back(params, tensor->src[0], tensor);
+                ggml_compute_forward_repeat_back(params, tensor);
              } break;
          case GGML_OP_CONCAT:
              {
-                ggml_compute_forward_concat(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_concat(params, tensor);
              } break;
          case GGML_OP_SILU_BACK:
              {
-                ggml_compute_forward_silu_back(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_silu_back(params, tensor);
              } break;
          case GGML_OP_NORM:
              {
-                ggml_compute_forward_norm(params, tensor->src[0], tensor);
+                ggml_compute_forward_norm(params, tensor);
              } break;
          case GGML_OP_RMS_NORM:
              {
-                ggml_compute_forward_rms_norm(params, tensor->src[0], tensor);
+                ggml_compute_forward_rms_norm(params, tensor);
              } break;
          case GGML_OP_RMS_NORM_BACK:
              {
-                ggml_compute_forward_rms_norm_back(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_rms_norm_back(params, tensor);
              } break;
          case GGML_OP_GROUP_NORM:
              {
-                ggml_compute_forward_group_norm(params, tensor->src[0], tensor);
+                ggml_compute_forward_group_norm(params, tensor);
              } break;
          case GGML_OP_MUL_MAT:
              {
-                ggml_compute_forward_mul_mat(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_mul_mat(params, tensor);
              } break;
          case GGML_OP_MUL_MAT_ID:
              {
-                ggml_compute_forward_mul_mat_id(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_mul_mat_id(params, tensor);
              } break;
          case GGML_OP_OUT_PROD:
              {
-                ggml_compute_forward_out_prod(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_out_prod(params, tensor);
              } break;
          case GGML_OP_SCALE:
              {
-                ggml_compute_forward_scale(params, tensor->src[0], tensor);
+                ggml_compute_forward_scale(params, tensor);
              } break;
          case GGML_OP_SET:
              {
-                ggml_compute_forward_set(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_set(params, tensor);
              } break;
          case GGML_OP_CPY:
              {
-                ggml_compute_forward_cpy(params, tensor->src[0], tensor);
+                ggml_compute_forward_cpy(params, tensor);
              } break;
          case GGML_OP_CONT:
              {
-                ggml_compute_forward_cont(params, tensor->src[0], tensor);
+                ggml_compute_forward_cont(params, tensor);
              } break;
          case GGML_OP_RESHAPE:
              {
-                ggml_compute_forward_reshape(params, tensor->src[0], tensor);
+                ggml_compute_forward_reshape(params, tensor);
              } break;
          case GGML_OP_VIEW:
              {
-                ggml_compute_forward_view(params, tensor->src[0]);
+                ggml_compute_forward_view(params, tensor);
              } break;
          case GGML_OP_PERMUTE:
              {
-                ggml_compute_forward_permute(params, tensor->src[0]);
+                ggml_compute_forward_permute(params, tensor);
              } break;
          case GGML_OP_TRANSPOSE:
              {
-                ggml_compute_forward_transpose(params, tensor->src[0]);
+                ggml_compute_forward_transpose(params, tensor);
              } break;
          case GGML_OP_GET_ROWS:
              {
-                ggml_compute_forward_get_rows(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_get_rows(params, tensor);
              } break;
          case GGML_OP_GET_ROWS_BACK:
              {
-                ggml_compute_forward_get_rows_back(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_get_rows_back(params, tensor);
              } break;
          case GGML_OP_DIAG:
              {
-                ggml_compute_forward_diag(params, tensor->src[0], tensor);
+                ggml_compute_forward_diag(params, tensor);
              } break;
          case GGML_OP_DIAG_MASK_INF:
              {
-                ggml_compute_forward_diag_mask_inf(params, tensor->src[0], tensor);
+                ggml_compute_forward_diag_mask_inf(params, tensor);
              } break;
          case GGML_OP_DIAG_MASK_ZERO:
              {
-                ggml_compute_forward_diag_mask_zero(params, tensor->src[0], tensor);
+                ggml_compute_forward_diag_mask_zero(params, tensor);
              } break;
          case GGML_OP_SOFT_MAX:
              {
-                ggml_compute_forward_soft_max(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
+                ggml_compute_forward_soft_max(params, tensor);
              } break;
          case GGML_OP_SOFT_MAX_BACK:
              {
-                ggml_compute_forward_soft_max_back(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_soft_max_back(params, tensor);
              } break;
          case GGML_OP_ROPE:
              {
-                ggml_compute_forward_rope(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_rope(params, tensor);
              } break;
          case GGML_OP_ROPE_BACK:
              {
-                ggml_compute_forward_rope_back(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_rope_back(params, tensor);
              } break;
          case GGML_OP_ALIBI:
              {
-                ggml_compute_forward_alibi(params, tensor->src[0], tensor);
+                ggml_compute_forward_alibi(params, tensor);
              } break;
          case GGML_OP_CLAMP:
              {
-                ggml_compute_forward_clamp(params, tensor->src[0], tensor);
+                ggml_compute_forward_clamp(params, tensor);
              } break;
          case GGML_OP_CONV_TRANSPOSE_1D:
              {
-                ggml_compute_forward_conv_transpose_1d(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_conv_transpose_1d(params, tensor);
              } break;
          case GGML_OP_IM2COL:
              {
-                ggml_compute_forward_im2col(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_im2col(params, tensor);
              } break;
          case GGML_OP_CONV_TRANSPOSE_2D:
              {
-                ggml_compute_forward_conv_transpose_2d(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_conv_transpose_2d(params, tensor);
              } break;
          case GGML_OP_POOL_1D:
              {
-                ggml_compute_forward_pool_1d(params, tensor->src[0], tensor);
+                ggml_compute_forward_pool_1d(params, tensor);
              } break;
          case GGML_OP_POOL_2D:
              {
-                ggml_compute_forward_pool_2d(params, tensor->src[0], tensor);
+                ggml_compute_forward_pool_2d(params, tensor);
              } break;
          case GGML_OP_UPSCALE:
              {
-                ggml_compute_forward_upscale(params, tensor->src[0], tensor);
+                ggml_compute_forward_upscale(params, tensor);
              } break;
          case GGML_OP_PAD:
              {
-                ggml_compute_forward_pad(params, tensor->src[0], tensor);
+                ggml_compute_forward_pad(params, tensor);
              } break;
          case GGML_OP_ARGSORT:
              {
-                ggml_compute_forward_argsort(params, tensor->src[0], tensor);
+                ggml_compute_forward_argsort(params, tensor);
              } break;
          case GGML_OP_LEAKY_RELU:
              {
-                ggml_compute_forward_leaky_relu(params, tensor->src[0], tensor);
+                ggml_compute_forward_leaky_relu(params, tensor);
              } break;
          case GGML_OP_FLASH_ATTN:
              {
                  const int32_t t = ggml_get_op_params_i32(tensor, 0);
                  GGML_ASSERT(t == 0 || t == 1);
                  const bool masked = t != 0;
-                ggml_compute_forward_flash_attn(params, tensor->src[0], tensor->src[1], tensor->src[2], masked, tensor);
+                ggml_compute_forward_flash_attn(params, masked, tensor);
              } break;
          case GGML_OP_FLASH_FF:
              {
-                ggml_compute_forward_flash_ff(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor->src[3], tensor->src[4], tensor);
+                ggml_compute_forward_flash_ff(params, tensor);
              } break;
          case GGML_OP_FLASH_ATTN_BACK:
              {
                  int32_t t = ggml_get_op_params_i32(tensor, 0);
                  GGML_ASSERT(t == 0 || t == 1);
                  bool masked = t != 0;
-                ggml_compute_forward_flash_attn_back(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor->src[3], masked, tensor);
+                ggml_compute_forward_flash_attn_back(params, masked, tensor);
              } break;
          case GGML_OP_WIN_PART:
              {
-                ggml_compute_forward_win_part(params, tensor->src[0], tensor);
+                ggml_compute_forward_win_part(params, tensor);
              } break;
          case GGML_OP_WIN_UNPART:
              {
-                ggml_compute_forward_win_unpart(params, tensor->src[0], tensor);
+                ggml_compute_forward_win_unpart(params, tensor);
              } break;
          case GGML_OP_UNARY:
              {
-                ggml_compute_forward_unary(params, tensor->src[0], tensor);
+                ggml_compute_forward_unary(params, tensor);
              } break;
          case GGML_OP_GET_REL_POS:
              {
-                ggml_compute_forward_get_rel_pos(params, tensor->src[0], tensor);
+                ggml_compute_forward_get_rel_pos(params, tensor);
              } break;
          case GGML_OP_ADD_REL_POS:
              {
-                ggml_compute_forward_add_rel_pos(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
+                ggml_compute_forward_add_rel_pos(params, tensor);
              } break;
          case GGML_OP_MAP_UNARY:
              {
                  ggml_unary_op_f32_t fun;
                  memcpy(&fun, tensor->op_params, sizeof(fun));
-                ggml_compute_forward_map_unary(params, tensor->src[0], tensor, fun);
+                ggml_compute_forward_map_unary(params, tensor, fun);
              }
              break;
          case GGML_OP_MAP_BINARY:
              {
                  ggml_binary_op_f32_t fun;
                  memcpy(&fun, tensor->op_params, sizeof(fun));
-                ggml_compute_forward_map_binary(params, tensor->src[0], tensor->src[1], tensor, fun);
+                ggml_compute_forward_map_binary(params, tensor, fun);
              }
              break;
          case GGML_OP_MAP_CUSTOM1_F32:
              {
                  ggml_custom1_op_f32_t fun;
                  memcpy(&fun, tensor->op_params, sizeof(fun));
-                ggml_compute_forward_map_custom1_f32(params, tensor->src[0], tensor, fun);
+                ggml_compute_forward_map_custom1_f32(params, tensor, fun);
              }
              break;
          case GGML_OP_MAP_CUSTOM2_F32:
              {
                  ggml_custom2_op_f32_t fun;
                  memcpy(&fun, tensor->op_params, sizeof(fun));
-                ggml_compute_forward_map_custom2_f32(params, tensor->src[0], tensor->src[1], tensor, fun);
+                ggml_compute_forward_map_custom2_f32(params, tensor, fun);
              }
              break;
          case GGML_OP_MAP_CUSTOM3_F32:
              {
                  ggml_custom3_op_f32_t fun;
                  memcpy(&fun, tensor->op_params, sizeof(fun));
-                ggml_compute_forward_map_custom3_f32(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor, fun);
+                ggml_compute_forward_map_custom3_f32(params, tensor, fun);
              }
              break;
          case GGML_OP_MAP_CUSTOM1:
              {
-                ggml_compute_forward_map_custom1(params, tensor->src[0], tensor);
+                ggml_compute_forward_map_custom1(params, tensor);
              }
              break;
          case GGML_OP_MAP_CUSTOM2:
              {
-                ggml_compute_forward_map_custom2(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_map_custom2(params, tensor);
              }
              break;
          case GGML_OP_MAP_CUSTOM3:
              {
-                ggml_compute_forward_map_custom3(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
+                ggml_compute_forward_map_custom3(params, tensor);
              }
              break;
          case GGML_OP_CROSS_ENTROPY_LOSS:
              {
-                ggml_compute_forward_cross_entropy_loss(params, tensor->src[0], tensor->src[1], tensor);
+                ggml_compute_forward_cross_entropy_loss(params, tensor);
              }
              break;
          case GGML_OP_CROSS_ENTROPY_LOSS_BACK:
              {
-                ggml_compute_forward_cross_entropy_loss_back(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
+                ggml_compute_forward_cross_entropy_loss_back(params, tensor);
              }
              break;
          case GGML_OP_NONE:
author	Siddharth Ramakrishnan <redacted>
	Wed, 21 Feb 2024 12:34:53 +0000 (04:34 -0800)
committer	Georgi Gerganov <redacted>
	Thu, 22 Feb 2024 13:12:35 +0000 (15:12 +0200)