]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
CUDA: Fix bug in topk-moe for gpt-oss (llama/16821)
authorAman Gupta <redacted>
Wed, 29 Oct 2025 07:55:06 +0000 (15:55 +0800)
committerGeorgi Gerganov <redacted>
Sat, 1 Nov 2025 07:41:35 +0000 (09:41 +0200)
commit52589d7021e564cc8c997a1c9894797a8c41db9b
tree75e1d7e4a59deb9c881294b7269f627b7703ba53
parent2141745a55129440273551678dcb1da503cf2727
CUDA: Fix bug in topk-moe for gpt-oss (llama/16821)

* CUDA: Fix bug in topk-moe for gpt-oss

When using ggml_can_fuse_subgraph, the output nodes which are passed are wrong. This causes `test-backend-ops` to still fuse ndoes (because the nodes are not used elsewhere in the graph),
but it actually doesn't fuse in the actual gpt-oss

* fix for qwen3 too

* change ifndef to ifdef
src/ggml-cuda/ggml-cuda.cu