OpenCL i CPU sintetika
CompuBench CL 1.1.3
U pitanju je sintetički test koji meri OpenCL performanse grafičkog procesora (GPU) i centralnog procesora (CPU). Ovaj test meri performanse pri izvršavanju različitih GP-GPU algoritama, kao što je simulacija dinamike fluida, raytracing, razni efekti, odnosno filteri za obradu slika poput Sobel efekta, Gausovog blur-a. Između ostalog ovaj test meri i performanse koje su više CPU fah, ali se izvršavaju preko GPU-a, kao na primer Bucketing (grupisanje), redukcije, pretrage, sortiranja itd…
Compubench koristi najnovije biblioteke i HSA unutar Kaveri APU-a. Simulacija fluida teče neuporedivo glatkije na 7850K nego na Richland APU-ovima, a znatna razlika postoji čak i u odnosu na diskretni HD6850 GPU.
Raytracing optimizovan za heterogeno procesiranje daje značajno bolje rezultate nego stari APU sa diskretnom grafikom, ali je značajna razlika i u odnosu na Intel Haswell.
Veoma zanimljiv scenario. Kaveri koristi globalnu memoriju, odnosno CPU adresni prostor za GPGPU, odnosno za obradu slike. Rezultati su opet značajno bolji nego na diskretnom GPU sa 960 stream procesora. Kaveri je ovde propisno „isprašio“ sve uključujući i neprikosnovenog Haswell-a.
Obrada slike u lokalnoj memoriji već zavisi isključivo od snage GPU-a, pa je logično da će diskretni GPU sa većim hardverskim resursima brže raditi ovaj posao. Međutim u realnim scenarijima kao što smo već objasnili, stvari nisu baš tako proste. Ipak, Spectra GPU je proporcionalno jači od Devastatora iz prethodne generacije.
Kod algoritama za grupisanje podataka, kao što smo već objasnili u prvom delu recenzije, veoma je bitno kako se radi sa memorijom. Da bi imali efikasan rad sa dinamičkim strukturama podataka u memoriji, potreban je direktniji pristup memorijskim adresama. Naravno, Kaveri i u ovom testu pokazuje dominaciju u odnosu na non-HSA rešenja, jer nema kopiranja iz globalne u lokalnu memoriju i pretvaranja struktura podataka u nizove.
Bitonički merge sort i pretraga binarnog stabla u lokalnoj memoriji je znatno efikasnije nego na prethodnoj generaciji APU-a, ali iz razloga neadekvatne optimizacije ovaj „merge sort“ algoritam za sortiranje mreže koji spada u „divide and conquer“ algoritme zaostaje za Intel Core i5 4670K procesorom sa HD4600 grafikom.
Basemark CL v1.1
Basemark CL je benčmark alat razvijen od strane Rightware-a, koji služi za merenje performansi OpenCL 1.1 implementacija na različitim uređajima od desktop platforme do SoC sistema. Basemark CL koristi OpenGL ES 2.0 i OpenGL 2.1 za rendering u zavisnosti od platforme. Basemark CL meri performanse prilikom obrade slike, kao i pomeranje podataka između CPU-a i GPU-a, uz korišćenje OpenCL biblioteke. Ovaj test meri i računsku snagu prilikom izvođenja simulacija fizike. Tu je i merenje performansi prilikom izvođenja popularnih algoritama kao što je rekurzivno računanje Mandelbrot fraktala, ali u 3D, zatim računanje Julia fraktala, a tu je i online compiler.
U ovom OpenCL testu, Kaveri pokazuje zavidno poboljšanje u odnosu na prethodnu generaciju kada je u pitanju simulacija fizike i rad sa fraktalima, dok je prema ovom testu obrada videa i slike čak neznatno slabija nego što je to slučaj na prethodnoj generaciji APU-a. Što se tiče rada sa fraktalima, Intelov procesor se tu pokazao kao prilično snažno rešenje. Dobici prilikom overkloka su značajni na A10 7850K.
HSA JPEG decoder
Uz Kaveri AMD je predstavio i optimizovani JPEG dekoder koji koristi prednosti HSA arhitekture. Ovo može da bude značajno na primer za web rendering, ali i za brz pregled velikih slika.
Ubrzanje je naravno rapidno, preko 120% u korist HSA i tabela govori sve. Ukoliko u bude više softvera koji koriste ove prednosti, budućnost AMD-ovih APU-ova je veoma izvesna.
Fritz chess
Fritzchess je benchmark koji simulira brzinu izvršavanja poznatog istoimenog šahovskog programa (Made in Germany J). Ovaj program je pokazatelj brzine izvršavanja ALU operacija procesora i pokazatelj performansi prediktora grananja u procesoru. Takođe je dobar pokazatelj rada mikroarhitekture procesora sa radnom memorijom (RAM).
Iskreno, očekivali smo malo bolje rezultate u single thread-u, obzirom na to da Steamroller CPU jezgro donosi bolji prediktor grananja, veći L1 instrukcijski keš, pipeline sa nižom latencijom i još po neke novitete u samoj mikroarhitekturi. Ipak, skaliranje u multithreadingu je rapidno bolje nego na Piledriver i Bulldozer modulima.
Linpack AVX
LinPack je softverska biblioteka za izvršavanje numeričkih operacija sa matricama. Originalno je pisana u Fortran-u 70. godina prošloga veka. Linpack koristi BLAS biblioteke (Basic Linear Algebra Subprograms) za izvođenje osnovnih matričnih i vektorskih operacija. LinPack testovi mere koliko brzo FPU i CPU rešava sisteme linearnih jednačina „n x n“ koje predstavljaju jednu od glavnih operacija u inžinjeringu. Rešenja su dobijena Gausovom eliminacijom (Gausova metoda) i LU dekompozicijom (LU dekompozicija). Rezultat koji se dobija se predstavlja kao broj operacija sa pokretnim zarezom, tj Gflops. Ovaj test se koristi za rangiranje 500 najbržih superkompijutera, ali je takođe i dobar pokazatelj performasni „klasičnih“ računara koje svi mi koristimo. Na desktop i laptop računarima LinPack demonstrira koliko je maksimum performansi koji ti računari mogu da isporuče (peak performasne). LinPack u potpunosti upošljava sve hardverske resorse unutar sistema „procesor&memorija“. Treba napomenuti da LinPack nije uvek realan pokazatelj prosečnih performasni celokupnog računara.
Čisto radoznalosti radi, proverili smo efikasnost rada FP jedinica i došli do zaključka da izvesnog napretka i ovde ima. Steamroller daje nešto više GFLOPS-a uz nešto niži klok. Otprilike nekih 6-7% više klok za klok, odnosno 1-2% više na 200MHz nižem kloku. Dodatne optimizacije FP bloka nisu uticale negativno na performanse, ali su svakako uticale pozitivno na nižu potrošnju.
Dodaj komentar