Rezultati u sintetičkim programima
Rad sa memorijom i kešom
SiSoft Sandra 2011
SiSoftware Sandra (the System ANalyser, Diagnostic and Reporting Assistant) je dijagnostički alat za vaš PC koji sadrži i par popularnih benchmark alata. Ovaj softverski alat koristimo da bi smo izmerili brzinu memorijskog kontrolera odnosno RAM memorije.
RightMark Memory Analyser
Ovo je alat koji služi za testiranje propusne moći svih nivoa keš memorije i RAM-a. Jednostavnim određivanjem data seta, određujete da li hoćete da testirate L1, L2, L3 keš ili RAM memoriju.Pored ovoga, moguće je koristiti prefetch instrukcije za rad sa memorijom, kao i non-temporalne za upis u memoriju. Ove instrukcije su deo 128-bitnog SSE2 seta instrukcija.
Iz testova se jasno vidi da Write Through L1D keš polisa limitira brzinu upisa u L1 keš na nivo koji je osoben brzini upisa u L2 keš. Brzina čitanja iz L2 keša je oko 40% veća nego na K10 arhitekturi, ali brzina upisa u L2 je ostala nepromenjena. Ovo može da predstavlja problem ukoliko veći broj datastrimova krene da vrši operacije kopiranja u memoriji. U „Optimisation Manual-u“ je bilo navedeno da familija procesora 15h može da zaostaje kod netemporalnog upisa u memoriju. Ipak, na osnovu naših merenja, 15h je daleko ispred 10h kada je u pitanju brzina upisa u memoriju. Brzina memorijskog kontrolera je povećana sa maksimalnih 16 GB/s na čak 25 GB/s.
U poređenju sa SB arhitekturom, brzina drugostepene i trećestepene keš memorije i dalje zaostaje znatno. Brzina L1 read pokazuje adekvatnu brzinu koja je svojstvena za dvostruki 128-bitni load. Bandwidth memorijskog kontrolera je za nijansu iza SB jezgra.
Cachemem – AIDA64
Aida 64 je dijagnostički i benčmark softver kompanije FinalWire namenjen kućnim korisnicima, hardverskim entuzijastima i overklokerima. Ovaj program poseduje širok spektar karakteristika koje služe overklokerima za dijagnostiku, testiranje stabilnosti i monitoring. U sebi poseduje brz i efikasan program za merenje performansi keš memorija, RAM-a, latencija i bandwitha.
PCMark Vantage x64
PCMark Vantage je benchmark paket dizajniran za merenje performansi PC računara kroz različite primene i workload-e. Neke od tih primena su video editovanje, gledanje i editovanje slika, muzike i drugih multimedijalnih sadržaja, komunikacija, produktivnost i sigurnost i zaštita podataka. PCMark rezultat je mera performansi izmerenih kroz propuštanje gore navedenog skupa poslova.
ALU/FPU performanse
Speedtraq integer benchmark
SpeedTraq je multitred benchmark aplikacija koja radi isključivo sa celobrojnim i ALU operacijama. U to spadaju operacije deljenja, množenja, sabiranja, oduzimanja, kao i operacije pomeranja bitova u desno i u levo (bitshift operacije).
Uglavnom rad sa celobrojnim operacijama je poboljšan u odnosu na K10. Jasno poboljšanje se vidi kod celobrojnog deljenja, kao i kod svih ostalih integer operacija. Inspekciju operacija smo izvršili u single thread režimu. U poređenju sa SB, BD znatno zaostaje u celobrojnom deljenju, ali se oseća napredak u odnosu na K10.
n-Queen OpenCL
n Queen OpenCL je vrsta benchmark programa koji se poziva iz commmand prompt-a. Ono što je veoma zanimljivo za ovaj benchmark alat, odnosno rešavanje ovog optimizacionog matematičkog problema (linearnog programiranja), je to što se može izvršavati ili na CPU-u ili na GPU-u. Reč je o šahovskoj problematici izvršavanja bektreking algoritma – rešavanje problema n-kraljica na šahovskoj tabli, zahteva dosta rekurzije (funkcija koja poziva samu sebe) u radu. Dakle na šahovskoj tabli veličine n x n polja se nalazi n kraljica, a program trebi da reši problem tako da se ni jedna od dve kraljice ne „napada“ – da ne dele istu kolonu, red ili dijagonalu. Upotreba ovog algoritma je u praksi izražena u softveru (najčešće igrama), kada se priča o AI-u, tj veštačkoj inteligenciji.
nQueen pokazuje značajan pad IPC-a na novijoj mikroarhitekturi. Ovo nije ni prvi ni poslednji benchmark koji podbacuje na Buldožeru. U multithread režimu FX je za nijansu sporiji od svog prethodnika, Phenoma II X6 1100T. Singlethread pravi veliku razliku.
w-Prime
w-Prime je vodeć multithreadovani benchmark za x86 procesore koji testira performanse procesora računajući kvadratne korenove pomoću rekurzivnih poziva Njutnovog metoda za aproksimaciju funkcija. Ovaj program koristi uglavnom celobrojnu aritmetiku.
Propust u dizajnu Buldožer mikroarhitekture se ogleda i u ovom testu. FX serija procesora nije u stanju da se približi Phenom II X6. Razlika je skoro 14% u korist 1100T koji ima 300 MHz niži klok i dva jezgra manje. Veoma nizak IPC, možda čak i 40% niži nego na K10. Sandy Bridge sa četiri jezgra i osam „slabih“ threadova bez problema izlazi na kraj sa ovom osmoglavom aždajom. Deljeni resursi kod ovog testa ne predstavljaju usko grlo. Četiri modula sa četiri threada rade čak nešto sporije od dva modula sa četiri threada. Ova razlika je zahvaljujući tome što turbo mod gura dva modula na 300 MHz veći klok od slučaja gde su opterećena 4 modula.
Fritz Chess
Fritzchess je benchmark koji simulira brzinu izvršavanja poznatog istoimenog šahovskog programa (Made in Germany). Ovaj program je pokazatelj brzine izvršavanja ALU operacija procesora i pokazatelj performansi prediktora grananja u procesoru. Takođe je dobar pokazatelj rada mikroarhitekture procesora sa radnom memorijom (RAM).
FX 8150 ovde je za dlaku bolji od svog prethodnika uz pomoć većeg kloka i većeg broja jezgara. Ne smemo ni da zamislimo kako bi se neki slabiji model FX-a „proveo“ protiv znatno jeftinijih X4 i X6 procesora. Problem sa niskim IPC-om se i ovde reflektuje. Iako je ovaj test mahom koristi celobrojne operacije, skaliranje na većem broju modula je bolje. Deljeni resurs poput prediktora grananja i L1 instrukcijskog keša mogu da utiču na smanjene multithread performanse ovog popularnog šahovskog endžina.
SIMD FP performanse
Linpack (LinX)
LinPack je softverska biblioteka za izvršavanje numeričkih operacija sa matricama. Originalno je pisana u Fortran-u 70. godina prošloga veka. Linpack koristi BLAS biblioteke (Basic Linear Algebra Subprograms) za izvođenje osnovnih matričnih i vektorskih operacija. LinPack testovi mere koliko brzo FPU i CPU rešava sisteme linearnih jednačina „n x n“ koje predstavljaju jednu od glavnih operacija u inžinjeringu. Rešenja su dobijena Gausovom eliminacijom (Gausova metoda) i LU dekompozicijom (LU dekompozicija). Rezultat koji se dobija se predstavlja kao broj operacija sa pokretnim zarezom, tj Gflops. Ovaj test se koristi za rangiranje 500 najbržih superkompijutera, ali je takođe i dobar pokazatelj performasni „klasičnih“ računara koje svi mi koristimo. Na desktop i laptop računarima LinPack demonstrira koliko je maksimum performansi koji ti računari mogu da isporuče (peak performasne). LinPack u potpunosti upošljava sve hardverske resorse unutar sistema „procesor&memorija“. Treba napomenuti da LinPack nije uvek realan pokazatelj prosečnih performasni celokupnog računara.
Rezultat u Linpacku je drastično podbacio na Buldožeru. Potrebno je 4.8 GHz da bi se dostigao rezultat koji se dobija uz pomoć Phenom II X4 940 procesora na 3 GHz. Nismo sigurni u potpunosti šta je ovde problem, s’ obzirom da je Linpack visokooptimizovan, perfomanse bi morale da budu barem na nivou Phenom II X4 procesora, s’ obzirom na broj FPU jedinica. Krivac za ovako loše performanse najverovatnije leži u ICC – Intelovom kompajleru koji ne prepoznaje uopšte novu arhitekturu i ko zna koji set instrukcija koristi za Linpack. AVX verzija Linpacka ne radi na Buldožeru, iz prostog razloga jer ICC kompajler ne podržava AVX instrukcije na non-Intel procesorima. Isto tako nije podržan ni SSE3, kao ni SSE4 na AMD K10.
Matlab 2011 x64 – PCAXE matrix benchmark
Matlab je programsko okruženje visokog nivoa koje omogućava korisniku da na jednostavan, ili manje jednostavan način isprogramira računski zahtevne operacije koje se izvršavaju obično daleko brže nego u tradicionalnim programskim jezicima poput C, C++ i Fortrana. Optimizacija u radu sa matričnim proračunima je na najvišem nivou i nije pod uticajem kompajlera najvećeg proizvođača poluprovodnika. Koristeći Matlab napravili smo naš nezavistan benchmark koji radi intenzivne proračune sa matricama. Rešavanje determinante veličine 5000 x 5000 brojeva, brza furijerova transformacija sa 32 miliona random generisanih brojeva, sparse matrica veličine 10K x 10K brojeva, rešavanje sistema jednačina LU dekompozicijom, sa matricama od 250 x 250 i od 5000 x 5000.
Primećeno je da Buldožer radi daleko bolje sa manjim matricama, dok sa većim znatno zaostaje u odnosu na Phenom II X6. Razlika između korišćenja 4 modula i 2 modula je enormna i ovo je ekstreman slučaj gde deljeni FPU uzima svoj danak. Na žalost Matlab nije kompajliran za korišćenje FMA4 instrukcija, a verujemo da bi rezultati bili bolji.
γCruncher
γCruncher je još jedan program za računanje broja π na mnogo decimala. Multithreadovan je i koristi SSE2,3 i AVX optimizacije. Još uvek se nije pojavila FMA4 revizija.
Dodaj komentar