• Apgrejdovali smo forum na XenForo 2.1.1, ukoliko imate predloga vezanih za izgled ili funkcionalnost foruma, ili ukoliko naletite na neki problem, javite nam OVDE

    DEFINISALI SMO PRAVILA FORUMA. Pročitajte ih, pojaviće se automatski kada krenete da čitate nešto!

Whisper (Robust Speech Recognition via Large-Scale Weak Supervision)

pijani pacov

PCAXE Member
Učlanjen(a)
11.11.2017.
Poruka
350
Rezultat reagovanja
71
Moja konfiguracija
trenutno izuzetno popularan projekat otvorenog koda koji transkriptuje veliki br. jezika medju kojima i nas.
Transkriptuje i prevodi audio i video fajlove, od dijaloga, pa cak i muzicke numere sto je mene licno odusevilo.
po zelji pravi subtitl uz prevod na engleski.
projekat se nalazi na stranici
Whisper

da se ne bi petljali python, mini/ana/-conda okruzenjima
C++ port koji radi mnogo brze od pytorcha
i malecka aplikacija (od 1MB)
WhisperDesktop
potrebno je preuzeti aktuelan WhisperDesktop.zip, koji kad otpakujete i udjete u WhisperDesktop.exe, podesite da koristi GPU zbog HW ubrzanja, podesite model koji da koristi kao i jezik ulaznog fajla i da li zelite transkripciju ili prevod(opcija translate) uz format datoteke izlaznog fajla/subtitla.

E sad da kazem. Transkripcija engleskog je fenomenalna, za nju koristiti -.en model ... cak i izuzetno brzi,manji od 100MB tiny.en model je precizan
sa ostalim modelima vece velicine se dobija na preciznosti ali gubi na brzini
Opet sve je to puno brze nego u pytorchu. Govorim o large modelu.

mozete preuzeti vec konvertovane c++ modele sa CPP modeli

ggml-large.bin multijezicni large-v2.bin
i neki od ggml-medium.en.bin, ggml-base.en.bin,ggml-small.en.bin ili ggml-tiny.en.bin model za EN Transkripciju.

Large multijezicni model transkriptuje ostale jezike uz engleski prevod po zelji. na zalost whisper ne dozvoljava prevod u suprotnom smeru(en na sr itd) :(

ima raje koji dodatno treniraju i model za nas jezik da bi bio precizniji i od vece koristi, npr.
Serbian large-v2 fine tuned model

koga bude dodatno interesovalo da bi bas taj model konverovali u c++

potrebno je preuzeti fajlove sa navedene HF stranice
i konvertovati ga skriptom sa ovog linka
konverzija u cpp

/# convert the model to ggml
python3 ./whisper.cpp/models/convert-h5-to-ggml.py ./whisper-large-v2-serbian/ ./whisper .

tako dobijeni cirilicni c++ model koristiti u navedenom programcetu WhisperDesktop

Srpski fine tuned transkipt model preciznoscu zaostaje za en. Ali je OKej da kazem, solidan, sa Word Error Rate cca 10.8
u nekim testovima i originalni whisperov Large-v2 (ili samo large) model i Bosanski jezik ulaznog audio materijala daje neki put preciznije rezultate. Tako da probajte oba pa koji vam vise odgovara.

Sigurno je da ce se jezicki model usavrsavati vremenom.

Ako ima interesenata za srpski model large-v2 konvertovan u c++ i ako je po pravilima foruma mozda uploadujem, sto da ne.

Pozz
 
Vrh