Devastator GPU
Grafički procesor unutar Trinity APU-a je zasnovan na Northern Island arhitekturi. U pitanju je VLIW4 GPU, koji predstavlja optimizaciju prethodnih VLIW5 arhitektura, počev od ATi HD2900 familije. Glavna razlika se ogleda u broju stream procesora thread procesoru. VLIW4 za razliku od VLIW5 ne poseduje T-unit, koji služi za trigonometrijske operacije. Sada su ove operacije prebačene na prva tri od ukupno četiri izvršna porta.
Integer operacije mogu da se izvrše na sva četiri ALU-a, pa je moguće izvršiti do 4 32-bitne ADD operacije sa celim brojevima, odnosno jednu 64-bitnu ADD, kao i jednu 32-bitnu vektorsku sa spojenim ADD i MUL operacijama. (ADD – sabiranje, MUL – mnozenje).
Česte operacije sa 24-bitnim celobrojnim operandima mogu da se izvrše na sve četiri ALU jedinice i to ADD, MUL i MAD (Multiply ADD).
Na ukupno dve izvršne jedinice moguće je izvršiti jednu 64-bitnu FP ADD operaciju, odnosno 2 x 64-bit FP ADD na sve četiri ALU jedinice, kao i jednu 64-bitnu FMA operaciju, odnosno jednu 64-bitnu MUL operaciju.
Ako uporedimo ovaj FP endžin sa FPU jedinicom u procesoru, shvatićemo da jedan thread procesor poseduje jednaku širinu kao jedna FMA 128-bit jedinica u Piledriver modulu. Dva thread procesora po širini jednaka su celokupnom FPU bloku u Piledriver modulu. Ceo SIMD endžin sadrži 16 thread procesora, što je jednako po širini 8 FPU jedinica u PD modulima koju dele 16 procesorskih jezgara.
Na kraju krajeva, ceo GPU sadrži ukupno šest ovakvih endžina, što je ekvivalent broju od 96 Piledriver jezgara sa 48 256-bitnih FMA FPU jedinica. Ipak, GPU radi na samo 800 MHz, dok Piledriver CPU radi na 4,2 GHz i daleko je podesniji za serijsku obradu. Sa druge strane, paralelizovana obrada daje oko 9x veći „FP throughput“ nego 2 Piledriver FPU-a deljena između četiri klasična procesorska jezgra.
U poređenju sa VLIW5, VLIW4 poseduje praktično istu FP snagu ali sa 25% manjem brojem FP stream procesora + dodatne stream procesore za rad sa celobrojnim operacijama.
Zbog ovoga VLIW4 arhitektura je kompaktnija, efikasnija i podesnija za postizanje viših radnih učestalosti. SIMD niz sadrži identičan broj thread VLIW4 procesora, kao i VLIW5, ali zbog manjeg broja stream procesora, celokupan SIMD je kompaktniji, pa je moguće na istu površinu čipa upakovati veći broj SIMD-ova, čime se pored svega znatno povećavaju performanse i fill rate. Zbog prisustva 4 FP32 teksturne jedinice na kraju SIMD niza, veći broj SIMD-ova proporcionalno daje veće performanse. Tako naš „razarač“ na sličnoj površini čipa poseduje 6 SIMD VLIW4 niza umesto 5 SIMD VLIW5, zbog čega „Devastator“ ima 20% veći fill rate, a ukupan broj teksturnih jedinica je 24, umesto 20.
Trinity i Llano APU-ovi su zvanično dobili softversku podršku za Eyefinity tehnologiju, pa je moguće “ekstendovati” sliku u 3D režimu rada na više monitora. Da ovo ne bi samo ostalo prazno slovo na papiru, odnosno na ekranu vašeg monitora, probali smo da odigramo nekoliko igara koristeći EyeFinity i zaključak je da je za ovo ipak potrebno malo više grafičkog procesora od onoga što je integrisano na silicijumskom čipu površine 246 kvadratnih milimetara. No ipak, neki manje zahtevni naslovi radiće bez problema u nekoj razumnoj rezoluciji.
Korišćenje GPU-a i CPU-a putem OCL optimizovanog plejbeka:
Korišćenje GPU-a i CPU-a kod standardnog dekodiranja:
OpenCL akceleracija prisutna je u sve većem broju aplikacija. Čak je i WinZIP 16.5 dobio OpenCL podršku i zaista, kada smo probali ovu aplikaciju, brzina otpakivanja i zapakivanja je bila veoma velika. Ipak, zbog nemogućnosti smislenog merenja performansi u ovoj aplikaciji, nismo je uvrstili u standardnu bateriju testova. Open source program za grafičku obradu, GIMP, popularan naročito na Linux platformi, poseduje punu podršku za OCL. Koristeći GEGL filter endžin, izmerili smo ubrzanja i do 10x u odnosu na verziju GIMP-a koja koristi isključivo CPU.
Plejbek video materijala u full HD rezoluciji, sada je u dobrom delu aplikacija prebačen na GPU, tako da je procesor potpuno rasterećen od dekodiranja. Za ovako nešto potrebno je izabrati odgovarajući video plejer.
AMD A10 5800K sa svojim GPU-om podržava crossfire sa diskretnom grafičkom kartom. Dodavanjem HD6570 ili HD6670 grafičkih karti, dobija se prilično ozbiljna igračka platforma. U konkretnom slučaju HD6670 donosi i do 70% ubrzanja u odnosu na integrisano rešenje. Za razliku od Llano APU-a, Trinity u Crossfire režimu donosi ubrzanje za većinu naslova, uključujući directX 9, 10 i 11.
Dodaj komentar