Maxwell 2. gen (GM204)
Pre nego što uopšte i krenemo sa standardnom pričom, osvrnućemo se na to šta je nVidia uradila i šta je to novo što ovaj grafički čip donosi u odnosu na stariji Kepler (pa i Maxwell v1). Informacija koju smo dobili pre bilo kakvog testa je da GTX980 ima oko 10% bolje performanse u odnosu na GTX 780Ti. U neku ruku je sasvim logično da novi flagship GPU ima bolje performanse od prethodnog. Međutim, tu se krije dosta toga. Pre svega, pogledajte tabelu sa uporednim informacijama.
nVidia model | GTX 980 | GTX 970 | GTX 780 Ti | GTX 780 |
GPU | GM204 | GM204 | GK110 | GK110 |
Broj tranzistora | 5,2 milijarde | 5,2 milijarde | 7,1 milijarda | 7,1 milijarda |
Arhitektura | Maxwell | Maxwell | Kepler | Kepler |
Proizvodni proces (TSMC) | 28nm | 28nm | 28nm | 28nm |
CUDA jezgra | 2048 | 1664 | 2880 | 2304 |
Jedinice za teksturisanje | 128 | 104 | 240 | 192 |
ROPs | 64 | 64 | 48 | 48 |
GPU frekvencija | 1126 MHz | 1050 MHz | 875 MHz | 863 MHz |
Boost frekvencija | 1216 MHz | 1178 MHz | 928 MHz | 900 MHz |
VRAM frekvencija | 7000 MHz | 7000 MHz | 7000 MHz | 7000 MHz |
Memorijski interfejs | 256-bit | 256-bit | 384-bit | 384-bit |
Instalirano VRAM | 4 GB | 4 GB | 3 GB | 3 GB |
Propusna moć memorije | 224 Gb/s | 224 GB/s | 336 GB/s | 288,4 GB/s |
Maksimalna potrošnja (TDP) | 165 W | 145 W | 250 W | 250 W |
Konektori za napajanje | 2x 6-pin | 2x 6-pin | 1x 6-pin + 1x 8-pin | 1x 6-pin + 1x 8-pin |
Ok, ovde mora biti da nešto debelo ne valja. Kepler 7,1 milijardu tranzistora i 250W potrošnje – Maxwell 5,2 milijarde i 165W (145W). Odnos CUDA jezgra – 2880 vs 2048 (kepler vs maxwell). Magistrala “osakaćena” – 256 bit umesto 384 bit. Većina bitnijih brojki za performanse kaže da Maxwell ne može nikako biti bolji, zar ne?
Nvidija je odradila odličan posao i napravila nešto neverovatno. Era monolitnih GPU-ova je prošla i sada imamo segmentaciju arhitekture radi optimizacije. Na slici ispod imate uporedni Kepler vs. Maxwell multiprocesorski klaster.
Kepler klaster sadrži 192 CUDA jezgra, dok ih Maxwell ima tek 128. Vidimo da umesto jednog ogromnog bloka, sada imamo četri particionisana dela. Svaki deo ima 16 384 fajl registra, zasebni warp scheduler i instrukcijski bafer. Instrukcijski keš je ostao šerovan (deljen) između blokova, kao i unapređeni teksturni L1 keš kome je povećana veličina sa 64 KB na 96 KB.
Prednost monolitnog dizajna sa deljenim resursima se pokazuje kada su sva jezgra i registri uposleni istovremeno. Tada je komunikacija između svih delova masivnog čipa najbrža, a vreme čekanja na dalje procesuiranje podataka između delova čipa je svedeno na minimum. Problem je što je retko koji softver (koji koriste obični korisnici) toliko optimizovan da bi pokazao pravu snagu ovakvog dizajna. Šta se dešava kada mnogi delovi GPU-a zvrje prazni ili tek čekaju da dobiju nove podatke (završivši prethodni posao brže nego što novi podaci stižu)? Tada su resursi bačeni u nepovrat, a efikasnost takvog čipa se vidno umanjuje. Takođe i Crossbar magistrala koja povezuje ceo dizajn nije nimalo umerena u konzumaciji energije, a uz sve to postoji i latencija koordinisanja operacija u okviru celog takvog čipa. Nvidija je upravo ovo izmenila i benefite koji bi doneo monolitni dizajn usmerila u optimizaciju potrošnje, uz smanjivanje veličine GPU-a. Upravo su to razlozi da GM204 ima 2 milijarde tranzistora manje i skoro 100W nižu potrošnju (što je 33% baj d vej) od GK110.
Pored svega toga tu je još gomila manjih tweakova, koaja se ogleda u novoj verziji Polymorhp 3.0 endžina, preko iznova napisanog schedulera, pa sve do nivoa tranzistora, koji su sada tvikovani da se iz njih iscede poslednji delići snage 28nm procesa. TSMC već toliko dugo koristi ovu tehnologiju, pa nas i ne čudi što je još uvek moguće optimizovati i same tranzistore u okviru 28nm.
E sad idemo da sklopimo slagalicu. Dakle, imamo SMM blok i videli smo iz čega se sve sastoji. Svaki klaster sarži 128 CUDA jezgara, pri čemu je particionisan na četri segmenta koji imaju svoje zasebne fajl registre. L2 keš memorija je povećana sa 512KB na 2MB.
Generalno gledano Maxwell SMM klaster je oko 40% efikasniji u odnosu na Keplerov SMX. Ovo je i glavni razlog zbog čega GM204 dobija u performansama čak i full GK110 čip, koji ima 2880 CUDA jezgara.
Što se tiče ROP jedinica, u ranijim arhitekturama odnos ROP-ova i memorijskih kontrolera je bio 8:1. U prevodu, obrađivalo se 8 piksela po kloku. Kako GK110 ima šest memorijskih kontrolera (6×64-bit), dolazimo do računice od 48 ROP jedinica. Sada je taj odnos promenjen na 16:1 (dupliran), pa uz četri memorijska kontrolera (4×64-bit) izbijamo na 64 ROP jedinica. ROP jedinice se uparuju direktno na magistralu zbog prirode posla koji obavljaju, a koji zahteva enorman propusni opseg. Generalno, više je bolje, ali to ne važi uvek kada je ROP u pitanju. Ukoliko ubacite previše ROP jedinica po kontroleru, može vrlo lako da se desi da zagušite memorijsku magistralu i dobijete kontra efekat. Iz te perspektive, povećanje odnosa broja ROP-ova i kontrolera treba uvek pažljivo planirati.
U tom kontekstu, nVidija je primenila poslednju iteraciju svoje tehnologije kompresije boja, čime je postignuta prilično velika ušteda u potrebnom memorijskom propusnom opsegu. Rezultati su i do 25% bolja iskorišćenost magistrale, pa tako memorija koja je 7Gbps radi efektivno kao 9Gbps.
Kompresija boja uz 64 ROP mehanizam i 2MB šerovanog L2 keša donosi bolju optimizaciju u visokim rezolucijama (4K). AMD je ovu tranziciju izvršio u protekloj generaciji svojih čipova, sa GCN 1.1 (Hawaii), pa je sve ovo vreme bio u nešto boljoj poziciji kada je 4K gejming u pitanju.
Dodaj komentar