]> git.djapps.eu Git - pkg/ggml/sources/llama.cpp/commit
CUDA: Fix bug in topk-moe for gpt-oss (#16821)
authorAman Gupta <redacted>
Wed, 29 Oct 2025 07:55:06 +0000 (15:55 +0800)
committerGitHub <redacted>
Wed, 29 Oct 2025 07:55:06 +0000 (15:55 +0800)
commit9a3ea685b937c0f0cbfda2e50004ea54bf187512
treedb6d9a9e218b9ce7c35dfa1a13cb6758c2f95e43
parent338074c383c81366320d176d83b94b0a567ee0c2
CUDA: Fix bug in topk-moe for gpt-oss (#16821)

* CUDA: Fix bug in topk-moe for gpt-oss

When using ggml_can_fuse_subgraph, the output nodes which are passed are wrong. This causes `test-backend-ops` to still fuse ndoes (because the nodes are not used elsewhere in the graph),
but it actually doesn't fuse in the actual gpt-oss

* fix for qwen3 too

* change ifndef to ifdef
ggml/src/ggml-cuda/ggml-cuda.cu