]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commit
whisper : token-level timestamps with DTW (#1485)
authordenersc <redacted>
Wed, 20 Mar 2024 16:25:26 +0000 (13:25 -0300)
committerGitHub <redacted>
Wed, 20 Mar 2024 16:25:26 +0000 (18:25 +0200)
commit741abb162ce8207eca2562e59c03efefb21c0122
tree37b8431556b9a75f2a3a2bd23039bd120c9c9192
parente7794a868ffb53f5299125aaaf74fbcad93cd06c
whisper : token-level timestamps with DTW (#1485)

* whisper.cpp: impl dtw algo

* WIP: producing and placing DTW timestamps on tokens

* Fix compile and assertion errors. Attempt to DTW timestamp with single_segment=false.

* Fix mistake causing incorrect alignment of dtw timestamps

* implement N_TOP_MOST and CUSTOM alignment heads setting

* whisper: fix typo on alignment heads enum

* Fix issues related to changes in whisper.cpp

* Fixed excessive memory use when using DTW timestamps. Other minor fixes to DTW timestamping function

* decoder: save cross QKs only if requested

* Calling median filter with ggml_map_custom1

* Reimpl aheads n_top_most and custom. Sanity checks on chosen aheads

* Copying cross QKs from decoder backend correctly

* dtw: cleanup

* Fix incorrect n_frames passed to dtw when near end of audio

* Fix aheads_masks_init for backend != CPU

* whisper : minor style

* main : add dtw (wip)

* whisper: fix invalid memory access in aheads_masks_init

* main : add dtw (cont)

* whisper : minor

---------

Co-authored-by: Georgi Gerganov <redacted>
examples/main/main.cpp
whisper.cpp
whisper.h