| Rubrike | Edukacija | AMD-ovi vrući čipovi
Edukacija

AMD-ovi vrući čipovi


Ekonomični „Jaguar“

 

Zvuči neverovatno, ali ako shvatimo da se ne radi o automobilu, nego o najnovijem niskopotrošnom HTPC AMD-ovom APU, onda nam je sve jasno. Upravo tako, Jaguar predstavlja naslednika veoma uspešnog Brazos-a, koji je kako je svima poznato, „obrisao patos“ sa Intelovim Atomom.

Ipak, u međuvremenu se pojavila i novija verzija (die shrink) u 32nm, koji ima značajno nižu potrošnju od Brazos-a. Ukoliko Brazos upakujete u kutiju veličine prosečnog WiFi rutera dobijate high-tech toster, koji se zagreva na impozantih 80 stepeni. Istina, performanse su bolje nego na Atomu, HD filmovi rade bez problema, ali temperatura je ono što kvari užitak, a uz temperaturu ide velika buka.

 

catfamily Tdesin goals T

 

Jaguar predstavlja deo „Cat Family“ (familije mačaka), koja je tu da omogući solidne korisničke, klijentske performanse uz malu disipaciju i zagrevanje, što naravno podrazumeva korišćenje u raznim SFF – Small Form Factor uređajima. Ovaj dizajn je evolutivni pomak u odnosu na Bobcat i donosi veći IPC faktor, višu frekvenciju sa istim naponom, kao i bolju energetsku efikasnost. Pored toga, Jaguar dobija i nove setove instrukcija koji nisu bili prisutni kod Bobcat jezgara.

 

ISA featureset TJaguar CU T

 

Jaguar L2 interface T

 

Jaguar koristi do 4 nezavisna jezgra i deljen L2 keš ukupnog kapaciteta 2 MB. L2 keš je inkluzivan, što znači da se podaci iz L1 keša kopiraju u keš višeg nivoa. L2 tagovi se koriste kao „probe filter“ koji služi za sinhronizaciju podataka između jezgara, a glavna svrha mu je smanjenje „saobraćaja“ između jezgara. L2 radi na dvostruko nižoj frekvenciji od procesorske, a klok se podiže na punu brzinu samo kada je to potrebno.

Po jezgru sada imamo L2 stream prefetcher, koji omogućuje do 24 uparene operacije čitanja i pisanja odjednom. Od setova instrukcija dodati su SSE4.1, 4.2, AES, CLMUL (Carry-less Multiplication je ekstenzija x86 seta uvedena 2008. od strane Intela i pojavila se prvo kod Westmere procesora, a zatim kod Bulldozera.

Svrha seta je da se poboljša brzina u primeni kriptografskih „block cipher“ algoritama, kao na primer kod AES algoritma. Konkretno korišćenje CLMUL seta je preporučljivo kod AES-GCM algoritma koji koristi Galois/Counter mod. MOVBE instrukcija vrši pomeranje podataka nakon zamene bajtova i koristi se uglavnom za manipulaciju sa stringovima. Do sada je bila prisutna u Atom procesorima. Jaguar jezgro podržava i AVX instrukcije uključujući XSAVE i XSAVEOPT koje služe da sačuvaju stanja registara procesora u memoriju. Tu su i instrukcije poput F16C (CVT16) koje služi za konverziju 16-bitnih FP argumenata (half precision), kao i BMI1 instrukcije koje služe za bitovske operacije nad podacima.

Jaguar ima mogućnost 40-bitne adresacije, što znači da je moguće alocirati veću količinu fizičke, odnosno virtualne memorije. Takođe je unapređena i virtuelizacija. Zbog svega ovoga, ovaj mali, a prilično moćan CPU podseća mnogo na „lightweight“ serverski procesor.

 

Jaguar core1 T

 

Blok dijagram Jaguar mikroarhitekture jasno pokazuje da se radi o evolutivnom pomaku u odnosu na Bobcat. U pitanju je efikasna, 2-way mikroarhitektura, sa vrlo pametno dizajniranim hardverom i izvršnim resursima. Mišljenja smo da će ovaj procesor imati performanse vrlo blizu Phenom procesorima na istom radnom kloku, uz određene kompromise zarad znatno niže potrošnje.

 

Jaguar core2 T

 

Kao i Bobcat, instrukcijski keš je veličine 32K, ali je iTLB sa 512 ulaza, sa mogućnošću keširanja 4KB strana. Branch predictor je u više nivoa, slično kao kod Phenom arhitekture, a instrukcijski fetch je 32B, što je dovoljno da napoji dve 128-bitne FPU jedinice koje mogu da izvrše SIMD operacije množenja i sabiranja (FADD i FMUL).

Kao i Steamroller, Jaguar koristi loop buffer, koji služi da kešira dekodirane loop instrukcije, koje se izvršavaju u „tight loop“ petljama. Prefetcher iz instrukcijskog keša je poboljšan, pa je vrlo verovatno IPC znatno veći nego kod Bobcata. Dekodiranje se vrši u dve pipeline faze, pa je pipeline produžen za jedno stanje, što bi trebalo da omogući više frekvencije rada. Poređenja radi, Jaguar poseduje pipeline duži nego AMD K10, odnosno jednaku dužinu pipelina kao Intelova Core arhitektura.

 

pipeline T

 

U poređenju sa Bobcatom, Jaguar takođe koristi dva FP izvršna pipelinea i dva integer izvršna pipelinea. Sirove performanse ovog mališe su zaista impresivne i donose ukupno 8 SP (Single Precision) FP operacija po ciklusu, što je vrlo blizu onome što nude Phenom II jezgra, kao i Intel Core i7 prve generacije. Moguće je izvršiti 4 + 4 SP operacije (4 single precision 4×32-bit množenja i 4×32-bit sabiranja vektorskog tipa pomoću AVX 128 ili SSE instrukcija), zatim 1DP (1×64-bit double precision množenja) + 2 DP (2×64-bit double precision sabiranja). 256-bitne AVX operacije su podržane tako što se dekodiraju kroz dve kompleksne makrooperacije (COPS – complex operations), pa se izvršavaju jedna za drugom redom. Ovime se ne dobija na performansama, ali se zadržava kompatibilnost.

 

Jaguar core3 TJaguar core4 T
Jaguar core5 TJaguar core6 T

 

Nažalost, izvršavanje 256-bitnih operacija predstavlja problem i za „high performance“ jezgro kakvo bi trebalo da bude Bulldozer. Što se tiče Data keša, Jaguar koristi identične mehanizme kao i Bobcat, ali sa značajnim poboljšanjima u Out Of Order egzekuciji, unapređen „store to load forwarding“ i slične tehnike za napredan rad sa memorijom. Pod „more OOO resources“ se očigledno misli na veće i pametnije scheduler-e i dublje register renamer-e, čime se postiže veći broj paralelnih instrukcija i bolja iskorišćenost izvršnih resursa.

Prefetcher dozvoljava do 8 operacija istovremenog dovlačenja u data keš u slučaju promašaja u ovom kešu, kao i do 3 dovlačenja iz L2 i memorije u L1 instrukcijski keš u slučajevima promašaja. Upis u memoriju i keš višeg nivoa je poboljšan sa 4 WCB – Write Combining Buffer-a. FPU koristi 128-bitne „putanje“ za podatke, baš kao i kod „velikih“ procesora.

 

Jaguar core floor plan TJaguar core vs bobcat TJaguar C6 T

 

Bilo koje od jezgara može nezavisno da radi u CC6 power gating modu, gde se kompletno jezgro isključuje i ide u stanje duboke hibernacije. Specijalne rutine na nivou mikrokoda, omogućavaju hardveru brz ulaz i izlaz iz CC6 moda. Deljen L2 ostavlja dovoljno keša za preostala aktivna jezgra. Poslednje jezgro u procesoru koje je „power gateovano“ prazni svoj sadržaj L2 keša prilikom pripreme za prelazak svih jezgara u stanje hibernacije, odnosno C6 mod. Implementacija hardverskih algoritama u Jaguar jezgru služi da poboljša vreme pražnjenja L2 keša.

Ova znatno unapređena Bobcat mikroarhitektura doneće najmanje 25% bolje performanse u svet malih prenosivih računara, HTPC uređaja i što je najbitnije, tu je i znatno pametniji power managemant. Setovi instrukcija koji su podržani približiće APU-ove bazirane na Jaguar jezgrima na nivo današnjih desktop računara. Maksimalna potrošnja četvorojezgarnog Jaguar APU-a ne bi trebalo da prelazi potrošnju današnje dvojezgarne Brazos platforme, dok bi potrošnja dvojezgarnog Jaguar-a mogla da bude na nivou današnjih Atom N2800 procesora, ali uz znatno bolje performanse. Priča se naravno ne završava samo na procesoru. GPU koji bude bio aktuelan u kombinaciji sa Jaguar jezgrima, doneće znatno bolje performanse nego dosadašnji unutar Brazos platforme.

Šta da kažemo za kraj, sem da ostaje samo da čekamo…


Zahvaljujemo se lokalnoj kancelariji AMD na realizaciji ovog testa


Komentarišite na forumu


Ivan Vujić

Software, storage, network etc editor @ AXE
Database migration @ RC ETF

Dodaj komentar

Kliknite ovde da biste poslali komentar