]> git.djapps.eu Git - pkg/ggml/sources/whisper.cpp/commitdiff
models : add the new "large" model release by OpenAI
authorGeorgi Gerganov <redacted>
Tue, 6 Dec 2022 16:48:57 +0000 (18:48 +0200)
committerGeorgi Gerganov <redacted>
Tue, 6 Dec 2022 16:48:57 +0000 (18:48 +0200)
The old "large" model is now renamed "large-v1".
If you have been using it, make sure to rename it and download the new
"large" model for best results.

Makefile
README.md
examples/livestream.sh
extra/convert-all.sh
models/README.md
models/download-ggml-model.cmd
models/download-ggml-model.sh
tests/run-tests.sh

index 1224818197b2f6dc3406ac08384f6c74199e6326..991f65065f27f683b6a2197c45475ffe14b4cc0d 100644 (file)
--- a/Makefile
+++ b/Makefile
@@ -189,9 +189,10 @@ samples:
 .PHONY: small
 .PHONY: medium.en
 .PHONY: medium
+.PHONY: large-v1
 .PHONY: large
 
-tiny.en tiny base.en base small.en small medium.en medium large: main
+tiny.en tiny base.en base small.en small medium.en medium large-v1 large: main
        bash ./models/download-ggml-model.sh $@
        @echo ""
        @echo "==============================================="
index 9c77782e2815bec7a63d355513a721aaa58417ce..0b9005aa02350914937a8c7f2109060ea3a1a936 100644 (file)
--- a/README.md
+++ b/README.md
@@ -206,6 +206,7 @@ make small.en
 make small
 make medium.en
 make medium
+make large-v1
 make large
 ```
 
@@ -217,7 +218,7 @@ make large
 | base   | 142 MB | ~500 MB | `465707469ff3a37a2b9b8d8f89f2f99de7299dac` |
 | small  | 466 MB | ~1.0 GB | `55356645c2b361a969dfd0ef2c5a50d530afd8d5` |
 | medium | 1.5 GB | ~2.6 GB | `fd9727b6e1217c2f614f9b698455c4ffd82463b4` |
-| large  | 2.9 GB | ~4.7 GB | `b1caaf735c4cc1429223d5a74f0f4d0b9b59a299` |
+| large  | 2.9 GB | ~4.7 GB | `0f4c8e34f21cf1a914c59d8b3ce882345ad349d6` |
 
 ## Another example
 
index 167ce0bc0a40827e8a2be5b0e0da0c072466613e..de279a8b071d9746240f423f70ee6eba0b360681 100755 (executable)
@@ -34,7 +34,7 @@ if [ -n "$3" ]; then
 fi
 
 # Whisper models
-models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large" )
+models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large-v1" "large" )
 
 # list available models
 function list_models {
index 20801af5ef2502b1f6490348f33d4223686765b8..c5ba9094d7b805ee019c3907de7337f2a1d05f7b 100755 (executable)
@@ -1,6 +1,6 @@
 #!/bin/bash
 
-models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large" )
+models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large-v1" "large" )
 
 for model in "${models[@]}"; do
     python3 models/convert-pt-to-ggml.py ~/.cache/whisper/$model.pt ../whisper models/
index 42a2aaff71855ae1e3dd25ff77eda5bf7c92d32c..64ce6b3836b89503d451cb3a918afbd24b7ece40 100644 (file)
@@ -37,7 +37,8 @@ https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
 | small.en  | 466 MB | ~1.0 GB | `db8a495a91d927739e50b3fc1cc4c6b8f6c2d022` |
 | medium    | 1.5 GB | ~2.6 GB | `fd9727b6e1217c2f614f9b698455c4ffd82463b4` |
 | medium.en | 1.5 GB | ~2.6 GB | `8c30f0e44ce9560643ebd10bbe50cd20eafd3723` |
-| large     | 2.9 GB | ~4.7 GB | `b1caaf735c4cc1429223d5a74f0f4d0b9b59a299` |
+| large-v1  | 2.9 GB | ~4.7 GB | `b1caaf735c4cc1429223d5a74f0f4d0b9b59a299` |
+| large     | 2.9 GB | ~4.7 GB | `0f4c8e34f21cf1a914c59d8b3ce882345ad349d6` |
 
 ## Model files for testing purposes
 
index 52fde946dd1d0f8e369ebd518e7b5df63995cf41..a20ac80ae67608b199c925f99e7941881b428e3a 100644 (file)
@@ -7,7 +7,7 @@ popd
 set argc=0
 for %%x in (%*) do set /A argc+=1
 
-set models=tiny.en tiny base.en base small.en small medium.en medium large
+set models=tiny.en tiny base.en base small.en small medium.en medium large-v1 large
 
 if %argc% neq 1 (
   echo.
index e85e04cefa333f40df48f4a71611a0dc76029786..cf5462301cfcaa40540187cd221d5a0e6ebe7cf7 100755 (executable)
@@ -22,7 +22,7 @@ function get_script_path() {
 models_path=$(get_script_path)
 
 # Whisper models
-models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large" )
+models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large-v1" "large" )
 
 # list available models
 function list_models {
index 048dfbdaae9c998aaa8091bd107ee8d3e2970583..eda6bbeb6400c5858a0331d18086c9c30d12330e 100755 (executable)
@@ -19,7 +19,7 @@
 cd `dirname $0`
 
 # Whisper models
-models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large" )
+models=( "tiny.en" "tiny" "base.en" "base" "small.en" "small" "medium.en" "medium" "large-v1" "large" )
 
 # list available models
 function list_models {
@@ -107,7 +107,7 @@ function run_lang() {
 
         $main -m ../models/ggml-$model.bin -f $fname_dst -l $lang -otxt 2> /dev/null
 
-        git diff --no-index --word-diff=color --word-diff-regex=. $fname_dst.txt $lang-$i-ref.txt
+        git diff --no-index --word-diff=color --word-diff-regex=. $lang-$i-ref.txt $fname_dst.txt
 
         i=$(($i+1))
     done