ASUS GTX 980 STRIX | Stranica 3 od 30

Strana 3 od 30

Maxwell 2. gen (GM204)

Pre nego što uopšte i krenemo sa standardnom pričom, osvrnućemo se na to šta je nVidia uradila i šta je to novo što ovaj grafički čip donosi u odnosu na stariji Kepler (pa i Maxwell v1). Informacija koju smo dobili pre bilo kakvog testa je da GTX980 ima oko 10% bolje performanse u odnosu na GTX 780Ti. U neku ruku je sasvim logično da novi flagship GPU ima bolje performanse od prethodnog. Međutim, tu se krije dosta toga. Pre svega, pogledajte tabelu sa uporednim informacijama.

nVidia model	GTX 980	GTX 970	GTX 780 Ti	GTX 780
GPU	GM204	GM204	GK110	GK110
Broj tranzistora	5,2 milijarde	5,2 milijarde	7,1 milijarda	7,1 milijarda
Arhitektura	Maxwell	Maxwell	Kepler	Kepler
Proizvodni proces (TSMC)	28nm	28nm	28nm	28nm
CUDA jezgra	2048	1664	2880	2304
Jedinice za teksturisanje	128	104	240	192
ROPs	64	64	48	48
GPU frekvencija	1126 MHz	1050 MHz	875 MHz	863 MHz
Boost frekvencija	1216 MHz	1178 MHz	928 MHz	900 MHz
VRAM frekvencija	7000 MHz	7000 MHz	7000 MHz	7000 MHz
Memorijski interfejs	256-bit	256-bit	384-bit	384-bit
Instalirano VRAM	4 GB	4 GB	3 GB	3 GB
Propusna moć memorije	224 Gb/s	224 GB/s	336 GB/s	288,4 GB/s
Maksimalna potrošnja (TDP)	165 W	145 W	250 W	250 W
Konektori za napajanje	2x 6-pin	2x 6-pin	1x 6-pin + 1x 8-pin	1x 6-pin + 1x 8-pin

Ok, ovde mora biti da nešto debelo ne valja. Kepler 7,1 milijardu tranzistora i 250W potrošnje – Maxwell 5,2 milijarde i 165W (145W). Odnos CUDA jezgra – 2880 vs 2048 (kepler vs maxwell). Magistrala “osakaćena” – 256 bit umesto 384 bit. Većina bitnijih brojki za performanse kaže da Maxwell ne može nikako biti bolji, zar ne?

Nvidija je odradila odličan posao i napravila nešto neverovatno. Era monolitnih GPU-ova je prošla i sada imamo segmentaciju arhitekture radi optimizacije. Na slici ispod imate uporedni Kepler vs. Maxwell multiprocesorski klaster.

ASUS Strix GTX980 OC kepler smx blok

ASUS Strix GTX980 OC maxwell smm blok

Kepler klaster sadrži 192 CUDA jezgra, dok ih Maxwell ima tek 128. Vidimo da umesto jednog ogromnog bloka, sada imamo četri particionisana dela. Svaki deo ima 16 384 fajl registra, zasebni warp scheduler i instrukcijski bafer. Instrukcijski keš je ostao šerovan (deljen) između blokova, kao i unapređeni teksturni L1 keš kome je povećana veličina sa 64 KB na 96 KB.

Prednost monolitnog dizajna sa deljenim resursima se pokazuje kada su sva jezgra i registri uposleni istovremeno. Tada je komunikacija između svih delova masivnog čipa najbrža, a vreme čekanja na dalje procesuiranje podataka između delova čipa je svedeno na minimum. Problem je što je retko koji softver (koji koriste obični korisnici) toliko optimizovan da bi pokazao pravu snagu ovakvog dizajna. Šta se dešava kada mnogi delovi GPU-a zvrje prazni ili tek čekaju da dobiju nove podatke (završivši prethodni posao brže nego što novi podaci stižu)? Tada su resursi bačeni u nepovrat, a efikasnost takvog čipa se vidno umanjuje. Takođe i Crossbar magistrala koja povezuje ceo dizajn nije nimalo umerena u konzumaciji energije, a uz sve to postoji i latencija koordinisanja operacija u okviru celog takvog čipa. Nvidija je upravo ovo izmenila i benefite koji bi doneo monolitni dizajn usmerila u optimizaciju potrošnje, uz smanjivanje veličine GPU-a. Upravo su to razlozi da GM204 ima 2 milijarde tranzistora manje i skoro 100W nižu potrošnju (što je 33% baj d vej) od GK110.

Pored svega toga tu je još gomila manjih tweakova, koaja se ogleda u novoj verziji Polymorhp 3.0 endžina, preko iznova napisanog schedulera, pa sve do nivoa tranzistora, koji su sada tvikovani da se iz njih iscede poslednji delići snage 28nm procesa. TSMC već toliko dugo koristi ovu tehnologiju, pa nas i ne čudi što je još uvek moguće optimizovati i same tranzistore u okviru 28nm.

E sad idemo da sklopimo slagalicu. Dakle, imamo SMM blok i videli smo iz čega se sve sastoji. Svaki klaster sarži 128 CUDA jezgara, pri čemu je particionisan na četri segmenta koji imaju svoje zasebne fajl registre. L2 keš memorija je povećana sa 512KB na 2MB.

Generalno gledano Maxwell SMM klaster je oko 40% efikasniji u odnosu na Keplerov SMX. Ovo je i glavni razlog zbog čega GM204 dobija u performansama čak i full GK110 čip, koji ima 2880 CUDA jezgara.

Što se tiče ROP jedinica, u ranijim arhitekturama odnos ROP-ova i memorijskih kontrolera je bio 8:1. U prevodu, obrađivalo se 8 piksela po kloku. Kako GK110 ima šest memorijskih kontrolera (6×64-bit), dolazimo do računice od 48 ROP jedinica. Sada je taj odnos promenjen na 16:1 (dupliran), pa uz četri memorijska kontrolera (4×64-bit) izbijamo na 64 ROP jedinica. ROP jedinice se uparuju direktno na magistralu zbog prirode posla koji obavljaju, a koji zahteva enorman propusni opseg. Generalno, više je bolje, ali to ne važi uvek kada je ROP u pitanju. Ukoliko ubacite previše ROP jedinica po kontroleru, može vrlo lako da se desi da zagušite memorijsku magistralu i dobijete kontra efekat. Iz te perspektive, povećanje odnosa broja ROP-ova i kontrolera treba uvek pažljivo planirati.

ASUS Strix GTX980 OC ColorCompression

ASUS Strix GTX980 OC memory efficiency

U tom kontekstu, nVidija je primenila poslednju iteraciju svoje tehnologije kompresije boja, čime je postignuta prilično velika ušteda u potrebnom memorijskom propusnom opsegu. Rezultati su i do 25% bolja iskorišćenost magistrale, pa tako memorija koja je 7Gbps radi efektivno kao 9Gbps.

Kompresija boja uz 64 ROP mehanizam i 2MB šerovanog L2 keša donosi bolju optimizaciju u visokim rezolucijama (4K). AMD je ovu tranziciju izvršio u protekloj generaciji svojih čipova, sa GCN 1.1 (Hawaii), pa je sve ovo vreme bio u nešto boljoj poziciji kada je 4K gejming u pitanju.

Strana 3 od 30

Tagoviasus benchmark GM204 nVidia recenzija review test

Maxwell 2. gen (GM204)

Pročitajte i...

O autoru

Atila Gobor

Dodaj komentar