Whisper (Robust Speech Recognition via Large-Scale Weak Supervision)

Veteran Digitalnog Doba · 30.01.2023.

trenutno izuzetno popularan projekat otvorenog koda koji transkriptuje veliki br. jezika medju kojima i nas.
Transkriptuje i prevodi audio i video fajlove, od dijaloga, pa cak i muzicke numere sto je mene licno odusevilo.
po zelji pravi subtitl uz prevod na engleski.
projekat se nalazi na stranici
Whisper

da se ne bi petljali python, mini/ana/-conda okruzenjima
C++ port koji radi mnogo brze od pytorcha
i malecka aplikacija (od 1MB)
WhisperDesktop
potrebno je preuzeti aktuelan WhisperDesktop.zip, koji kad otpakujete i udjete u WhisperDesktop.exe, podesite da koristi GPU zbog HW ubrzanja, podesite model koji da koristi kao i jezik ulaznog fajla i da li zelite transkripciju ili prevod(opcija translate) uz format datoteke izlaznog fajla/subtitla.

E sad da kazem. Transkripcija engleskog je fenomenalna, za nju koristiti -.en model ... cak i izuzetno brzi,manji od 100MB tiny.en model je precizan
sa ostalim modelima vece velicine se dobija na preciznosti ali gubi na brzini
Opet sve je to puno brze nego u pytorchu. Govorim o large modelu.

mozete preuzeti vec konvertovane c++ modele sa CPP modeli

ggml-large.bin multijezicni large-v2.bin
i neki od ggml-medium.en.bin, ggml-base.en.bin,ggml-small.en.bin ili ggml-tiny.en.bin model za EN Transkripciju.

Large multijezicni model transkriptuje ostale jezike uz engleski prevod po zelji. na zalost whisper ne dozvoljava prevod u suprotnom smeru(en na sr itd)

ima raje koji dodatno treniraju i model za nas jezik da bi bio precizniji i od vece koristi, npr.
Serbian large-v2 fine tuned model

koga bude dodatno interesovalo da bi bas taj model konverovali u c++

potrebno je preuzeti fajlove sa navedene HF stranice
i konvertovati ga skriptom sa ovog linka
konverzija u cpp

/# convert the model to ggml
python3 ./whisper.cpp/models/convert-h5-to-ggml.py ./whisper-large-v2-serbian/ ./whisper .

tako dobijeni cirilicni c++ model koristiti u navedenom programcetu WhisperDesktop

Srpski fine tuned transkipt model preciznoscu zaostaje za en. Ali je OKej da kazem, solidan, sa Word Error Rate cca 10.8
u nekim testovima i originalni whisperov Large-v2 (ili samo large) model i Bosanski jezik ulaznog audio materijala daje neki put preciznije rezultate. Tako da probajte oba pa koji vam vise odgovara.

Sigurno je da ce se jezicki model usavrsavati vremenom.

Ako ima interesenata za srpski model large-v2 konvertovan u c++ i ako je po pravilima foruma mozda uploadujem, sto da ne.

Pozz

Whisper (Robust Speech Recognition via Large-Scale Weak Supervision)

Veteran Digitalnog Doba

PCAXE Member

Statistika prisutnih

Statistika foruma