• Apgrejdovali smo forum na XenForo 2.1.1, ukoliko imate predloga vezanih za izgled ili funkcionalnost foruma, ili ukoliko naletite na neki problem, javite nam OVDE

    DEFINISALI SMO PRAVILA FORUMA. Pročitajte ih, pojaviće se automatski kada krenete da čitate nešto!

Whisper (Robust Speech Recognition via Large-Scale Weak Supervision)

Učlanjen(a)
11.11.2017.
Poruka
409
Rezultat reagovanja
127
Moja konfiguracija
CPU & cooler:
Ryzen 7 7950x + Arctic III 360
Motherboard:
MSI B650 MAG Tomahawk Wifi
RAM:
2x32GB Kingston DDR5 6000MHz
VGA & cooler:
RTX 3090 Zotac
Display:
AOC 31.5" Q3279vwf
HDD:
1TB KC3000 + Crucial m.2 od 500 2HDD od po 4TB (WD RED i Blue) i Geil SSD od 512GB + Kingston SSD od
Sound:
Microlab Solo 6c+S.M.S.L SU-1 DAC
Case:
Lian Li Lancool 216 argb
PSU:
MSI A850GF 80+Gold 850W
Mice & keyboard:
Redragon/Logitech
Internet:
Optika
OS & Browser:
Win 11/Ubuntu
Other:
Logitech C270 Epson L386
trenutno izuzetno popularan projekat otvorenog koda koji transkriptuje veliki br. jezika medju kojima i nas.
Transkriptuje i prevodi audio i video fajlove, od dijaloga, pa cak i muzicke numere sto je mene licno odusevilo.
po zelji pravi subtitl uz prevod na engleski.
projekat se nalazi na stranici
Whisper

da se ne bi petljali python, mini/ana/-conda okruzenjima
C++ port koji radi mnogo brze od pytorcha
i malecka aplikacija (od 1MB)
WhisperDesktop
potrebno je preuzeti aktuelan WhisperDesktop.zip, koji kad otpakujete i udjete u WhisperDesktop.exe, podesite da koristi GPU zbog HW ubrzanja, podesite model koji da koristi kao i jezik ulaznog fajla i da li zelite transkripciju ili prevod(opcija translate) uz format datoteke izlaznog fajla/subtitla.

E sad da kazem. Transkripcija engleskog je fenomenalna, za nju koristiti -.en model ... cak i izuzetno brzi,manji od 100MB tiny.en model je precizan
sa ostalim modelima vece velicine se dobija na preciznosti ali gubi na brzini
Opet sve je to puno brze nego u pytorchu. Govorim o large modelu.

mozete preuzeti vec konvertovane c++ modele sa CPP modeli

ggml-large.bin multijezicni large-v2.bin
i neki od ggml-medium.en.bin, ggml-base.en.bin,ggml-small.en.bin ili ggml-tiny.en.bin model za EN Transkripciju.

Large multijezicni model transkriptuje ostale jezike uz engleski prevod po zelji. na zalost whisper ne dozvoljava prevod u suprotnom smeru(en na sr itd) :(

ima raje koji dodatno treniraju i model za nas jezik da bi bio precizniji i od vece koristi, npr.
Serbian large-v2 fine tuned model

koga bude dodatno interesovalo da bi bas taj model konverovali u c++

potrebno je preuzeti fajlove sa navedene HF stranice
i konvertovati ga skriptom sa ovog linka
konverzija u cpp

/# convert the model to ggml
python3 ./whisper.cpp/models/convert-h5-to-ggml.py ./whisper-large-v2-serbian/ ./whisper .

tako dobijeni cirilicni c++ model koristiti u navedenom programcetu WhisperDesktop

Srpski fine tuned transkipt model preciznoscu zaostaje za en. Ali je OKej da kazem, solidan, sa Word Error Rate cca 10.8
u nekim testovima i originalni whisperov Large-v2 (ili samo large) model i Bosanski jezik ulaznog audio materijala daje neki put preciznije rezultate. Tako da probajte oba pa koji vam vise odgovara.

Sigurno je da ce se jezicki model usavrsavati vremenom.

Ako ima interesenata za srpski model large-v2 konvertovan u c++ i ako je po pravilima foruma mozda uploadujem, sto da ne.

Pozz
 
Vrh