]> git.djapps.eu Git - pkg/ggml/sources/ggml/commit
whisper : use flash attention (whisper/2152)
authorGeorgi Gerganov <redacted>
Wed, 15 May 2024 06:38:19 +0000 (09:38 +0300)
committerGeorgi Gerganov <redacted>
Wed, 15 May 2024 07:37:24 +0000 (10:37 +0300)
commitda79cd67548704dd5bead501b8ec2b9b265d0bbb
tree6535663f13525bb75066daf20bb5565968ef8fa5
parente87c0557b012350005269c49e1c2b5a8631da59a
whisper : use flash attention (whisper/2152)

* whisper : use flash attention in the encoder

* whisper : add kv_pad

* whisper : remove extra backend instance (huh?)

* whisper : use FA for cross-attention

* whisper : use FA for self-attention

* whisper : simplify encoder FA

* whisper : add flash_attn runtime parameter

* scripts : add bench log

* scripts : add M1 Pro bench log
examples/whisper/main.cpp
examples/whisper/whisper.cpp
examples/whisper/whisper.h