• Apgrejdovali smo forum na XenForo 2.1.1, ukoliko imate predloga vezanih za izgled ili funkcionalnost foruma, ili ukoliko naletite na neki problem, javite nam OVDE

    DEFINISALI SMO PRAVILA FORUMA. Pročitajte ih, pojaviće se automatski kada krenete da čitate nešto!

Steamroller bdver3 compiler support

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Kompajlerske optimizacije uvek prve kazu sta donosi nova i unapređena mikroarhitektura. Evo nekih detalja vezanih za Steamroller:

The bdver3 contains three pipelined FP units and two integer units. Fetching and decoding logic is different from previous fam15 processors. Fetching is done every two cycles rather than every cycle and two decode units are available. The decode units therefore decode four instructions in two cycles.

Three DirectPath instructions decoders and only one VectorPath decoder is available. They can decode three DirectPath instructions or one VectorPath instruction per cycle.

The load/store queue unit is not attached to the schedulers but communicates with all the execution units separately instead.

bdver3 belong to fam15 processors. We use the same insn attribute that was used for bdver3 decoding scheme.
Dekoderi:
* Postoje 2 dekoderska bloka u modulu - mogu da dekodiraju 3 direct path (hardwired) operacije ili jednu vectorpath (mikrokodovanu)
* Dekoderi mogu da dekodiraju u svakom ciklusu, dok kod BD dekodiraju najvise 4 operacije za ceo modul u svakom ciklusu, odnosno 4 operacije svaki drugi ciklus za jezgro, sto je po meni jedan od najgorih "tradeoff-ova" koje su mogli da naprave - BD dekoderi ne samo da imaju 2-way bandwidth po threadu, vec imaju i veliku latenciju, a to negativno utice na branch misspredict, dodaje nepotrebno stanje u pipelineu itd... po meni teska glupost koja govori o tome da je mikroarhitektura nedovrsena. BD bi bio znatno bolji da dekodira po dve instrukcije u svakom ciklusu po jezgru, nego 4 u svaka dva ciklusa.
FPU:
* FPU jedinica ima 3 FP bloka i 2 INT bloka, za razliku od 2 + 2 kod BD. Ovo je interesantno, ali najverovatnojije treci blok sluzi za FP MISC operacije, dok prva dva sluze za cesto koriscene FADD i FMULL odnosno FMA operacije. Po threadu sa 3 dekodirane operacije, moguce je iskoristiti oba FPU bloka i jos dodatnu operaciju.

* L/S jedinice su nezavisne, sto je slicno kao i kod Bulldozera.

* Steamroller takodje nosi oznaku 15h, kao i Bulldozer, tako da pripada istoj familiji procesora.

Steamroller IPC bi mogao biti veci ili jednak u odnosu na K10. Operacije u kojima je BD relativno dobar ce biti naravno jos efikasnije.
 
Poslednja izmena:

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Ispravka: FPU ima 2 FMA + 1 INT, skraćena je u odnosu na PD po broju izvršnih jedinica. Razlog ovome je nepotrebno dupliranje izvršnih resursa. Navodno, performanse FPU-a će biti iste ili veće.

SR modul će biti verovatno 3+3 dekoding konfiguracija, umesto dosadašnje 4/2 kod BD/PD.
 
Poslednja izmena:
Vrh