• Apgrejdovali smo forum na XenForo 2.1.1, ukoliko imate predloga vezanih za izgled ili funkcionalnost foruma, ili ukoliko naletite na neki problem, javite nam OVDE

    DEFINISALI SMO PRAVILA FORUMA. Pročitajte ih, pojaviće se automatski kada krenete da čitate nešto!

Bulldozer uArch. spekulacije....

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB


Na ovoj slici se vidi jasno da ce nova mikroarhitektura biti 4-way, u pravom smislu te reci.

Dakle, radi se o postojanju 2 integer klastera, sa po 2 ALU jedinice i 4 dekodera.

Isto vazi i za FPU jedinicu. Register file poseduje 12 read i 8 write portova. Prica se o mogucnosti da FPU jedinica podrzava multi-witdh mode, sto znaci da je moguce razlicite velicine vektorskih (SSE instrukcija) "spakovati" u 4 128-bit wide floating point jedinice. Ove cetiri jedinice bi mogle da rade i kao 2x 256-bit sa novim AVX ili SSE5 instrukcijama.

Pored toga FPU jedinice bi trebal da imaju mogucnost da istovremeno rade read i write operacije.

hyperthreading na AMD-ov nacin
Prica se o nekakvom "cluster based multithreadingu" koji bi trebalo sa 50% povecanja broja tranzistora da donese 80% bolje performanse.

2-way superskalarni procesor ima 80-100% performansi 3-way za mnoge aplikacije. Samo mali deo softvera zaista ima benefit od 3-way. Isto tako i 4-way superskalarni dizajn ima jos manju prednost u odnosu na 3-way.

Naravno ukoliko zelimo da imamo korist od 4-way arhitekture, ne bi bilo lose prvo da imamo 2-way jezgra visoke efikasnosti, bas kako je opisano na dijagramu Bulldozera, gde se vide 2 odvojena integer klastera.

Ovo se moze postici na taj nacin sto se 4-way procesor "razlomi" na dva odvojena 2-way, koja nezavisno odradjuju tredove, kao dual core procesor, sa tom razlikom sto se nalaze iza jednog dekodera i upravljackog bloka koji upravlja raspodelom threadova na ove klastere.

U ovakvom "cluster" baziranom procesoru FPU jedinica je share-ovana. Eventualno povecanje troughput-a moguce je dodavanjem eksterne ATi GPGPU jedinice ili integracijom GPU-a u procesor.

Ovakav CPU iz AMD-a mozemo ocekivati negde tamo 2011.
 
Poslednja izmena:

nano.tube

PCAXE Member
Učlanjen(a)
02.04.2009.
Poruka
214
Rezultat reagovanja
0
Moja konfiguracija
Koristice MCM?
http://www.eetimes.com/showArticle.jhtml?articleID=219400955&pgno=2

For its part, AMD is stealing a page from archrival Intel by building its 12-core Magny-Cours out of two of its six-core Istanbul dice. Intel released some of its early multicore chips using two die sharing a single front-side bus and external memory controller.

AMD is improving on Intel's approach by providing on each die a two-channel DDR3 memory controller and four coherent HyperTransport 3 links. As a result, data in a two-chip system can travel between any two cores in a single hop and in two hops in a four-chip server.

"Basically we are taking a leaf from [Intel's] book but doing it differently, said Pat Conway, principal member of technical staff at AMD who said to expect use of MCMs in the company's future CPUs.

The next big turn of the screw for AMD will involve plugging its next-generation Bulldozer core into a Magny-Cours design. The new core expands what has been the single-threaded nature of the AMD cores "in a different fashion than Hyperthreading," said Conway, referring to Intel's method for supporting two threads on a core.
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Magny Cours nece biti Bulldozer, taj koji je to napisao se izlupetao. Magny Cours su dva sestojezgarna chipa, dva Istambula u MCM modulu, dakle K10. Taj MCM modul bi trebalo da ima dodatnu L3 kesh memoriju, koja bi bila offchip. Nesto na ovu foru...



Komunikacija izmedju procesora u serveru se obavlja preko G3MX interfejsa.

To o cemu oni pricaju nema veze sa Cluster Multithreadingom i novom arhitekturom.... ;)

AMD jos uvek javno ne prica o tome sta razvija za naredni period, ali ako ovo sto sam napisao u grubim crtama bude tako, radice to dosta dobro.
 
Poslednja izmena:

nano.tube

PCAXE Member
Učlanjen(a)
02.04.2009.
Poruka
214
Rezultat reagovanja
0
Moja konfiguracija
Hvala za info ;). EET verovatno "spekulise" o upotrebi MCM-a.
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Ne spekulise, MCM ce biti u upotrebi, ali Magny Cours nije nova uArch... ja govorim o novoj arhitekturi, a ne o upotrebi MCM modula. MCM svakako nije losa stvar za serversku primenu, narocito ako to bude ovako kao sto sam objasnio.
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
A sad back to topic.....

sta su noviteti jos:
My try to predict AMD's bulldozer core µarchitecture

by Dresdenboy @ 2009-04-15 – 10:37:15 am

It's time for my first blog post after publishing my thoughts in several forums for years.

I want to start with a graphic (first published on planet3dnow) showing what some of AMD's last year's patent applications contained as an exemplary MPU architecture. It's worth to note, that this architecture fits nicely to some rumor brought up by Charlie on the Inquirer.

Another hint is this old AMD presentation, which mentions future developments like "Throughput Architecture" and "Cluster-based Multi-threading", although not explicitly stating its planned use. However, both sources tell us about some clusters. Now this is, what appeared in the patent applications:



Additionally there are many other interesting bits hidden in many different patent applications (long numbers) and filed patents (shorter numbers):
clustered multithreading with 2 int clusters with each of them having:
2 ALUs, 2 AGUs
one L1 data cache
scheduler, integer register file (IRF), ROB
(see 20080263373*, 20080209173, 7315935)
a trace cache, not to make cheaper decoders but to quickly recover from a mispredicted branch (7197630 and many others)
read port arbitration for a faster IRF (7315935)
shared FPU supporting ADD, MUL, FMAC etc. and 64 or 128 bit max. operand width (20080263373)
FPU may run in full bit or reduced bit modes to save power (20080209185)
32 byte fetch, 4-way Decoder - multithreaded round robin or depending on queue saturation (20080263373, EP1244962)
fine grained power management (token based, 20080263373) for optimal usage of given TDP/ACP
a lot more speculation (data speculation, cache way prediction, see 7024537, 7028166 and many others)
2 loads from L1 D$ per cycle per cluster (7502914)
maybe 2 cycle effective L1 D$ latency instead of 4 thanks to replaying (7502914)
possibly a shared L2 (7502914)
loop detectors (7130991)
dynamically scalable cache architecture to save power by switching off cache portions or levels (20080104324)
AMD's turbo mode (running cores faster if others are less utilized, 7490254, filed 2005/08/02)

Even if only some of these points will be true for Bulldozer, it will be a very interesting MPU.
Reversibilni hyperthrading .... sigurno se seca neko ove price u doba izlaska Core 2 procesora i nesrecne AM2 platforme. Mogucnost izvrsavanja jednog threada na vise jezgara.... :d Zvuci zanimljivo, ali problematicno. Dizajn procesora kakav bi trebalo da bude Bulldozer, mogao bi da omoguci nesto slicno u razumnoj meri. Ali za to je neophodna potpuno nova mikroarhitektura.

Jedno je sigurno, a to je da AMD nece implementirati hyperthreading onakav kakav je Intel implementirao. Multithreading koji dolazi u obzir je slican onome sto je vec vidjeno na nekim RISC procesorima, npr. Alpha 21464, odnosno EV8.
 
Poslednja izmena:

nano.tube

PCAXE Member
Učlanjen(a)
02.04.2009.
Poruka
214
Rezultat reagovanja
0
Moja konfiguracija
Ne spekulise, MCM ce biti u upotrebi, ali Magny Cours nije nova uArch... ja govorim o novoj arhitekturi, a ne o upotrebi MCM modula. MCM svakako nije losa stvar za serversku primenu, narocito ako to bude ovako kao sto sam objasnio.
Onda se nismo razumeli :). Znam da MC nije nova arh, postovao sam zbog informacije o MCM-u.
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Onda se nismo razumeli :). Znam da MC nije nova arh, postovao sam zbog informacije o MCM-u.
MCM ce se verovatno koristiti za "umrezavanje" vise ovakvih procesora. Npr, ako imas cetiri socketa, sa 4 jezgra i osam tredova, imaces ukupno 32 treda.
Poenta price je da ce kao single jezgro ovaj CPU imati imati implementaciju dvojezgarnog 2-way ALU-a, koje ce moci da radi kao jedan 4-way ili 2x2-way. Analogno memorijskom kontroleru koji moze da radi u ganged i un-ganged rezimu. Slicnu fleksibilnost imace i FPU jedinica koja ce biti deljena izmedju ovih ALU/AGU jedinica.

Bulldozer bi trebalo da ima dobar balans izmedju TLP i ILP. (TLP - Thread Level Parallelism, ILP - Instruction Level Parallelism).
 

animaN

Administrator
Urednik
Učlanjen(a)
28.03.2009.
Poruka
9.407
Rezultat reagovanja
121
Moja konfiguracija
CPU & cooler:
Ci7 3930K@ Coolink CoratorDS
Motherboard:
ASUS P9X79 Deluxe
RAM:
4x4GB Mushkin 1600 MHz cl9, 1.5V
VGA & cooler:
Sapphire HD6950 FleX Edition
Display:
3x Belinea 102035W
HDD:
Corsair ForceGT 120GB SSD,WD AAKS 640 GB, WD MyBook 500GB
Sound:
Realtek ALC889 - Logitech Z2300
Case:
Cooler Master bench table
PSU:
Cooler Master Silent Pro 850W
Optical drives:
USB LiteOn
Mice & keyboard:
Logitech G15 - Logitech MX518
Internet:
SBB 10/1 Mbit
OS & Browser:
Windows 7 x64 SP1
Other:
Volim AXE
drfedja je napisao(la):
Bulldozer bi trebalo da ima dobar balans izmedju TLP i ILP. (TLP - Thread Level Parallelism, ILP - Instruction Level Parallelism).
A od chega zavisi da li ce ili nece da "potegne" na jednu stranu? Shta to u praksi znachi?

:wave:
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
A od chega zavisi da li ce ili nece da "potegne" na jednu stranu? Shta to u praksi znachi?

:wave:
Razlika je u paradigmi... Npr, ako imas 4 ALU i 4 FPU jedinice u jednom procesorskom jezgru i 4 dekodera za x86/x87/SSE instrukcije, tvoj CPU moze da izvrsi teoretski 4 IPC. To vazi za 1 thread i to je u slucaju da nemas L1 cache miss, branch prediction miss, L2 miss itd.... i to ti je broj instrukcija koje paralelno mozes da izvrsis....odnosno ILP.

Ukoliko imas cache miss, BP miss itd... a u velikoj vecini slucajeva je tako, IPC je drasticno manji. Da bi uspeo da "napunis" i iskoristis te izvrsne resurse, koristis hyperthreading ili SMT, koji je zasnovan na TLP-u, thread level paralelism. To moze da radi na razlicite nacine i da ima razlicitu efikasnost.
Intel je to prvo uradio sa Netburst arhitekturom ciji je pipeline zbog velike duzine uspevao da "popuni" dodatnim threadom, gde je dobijano do 20% ubrzanja u multithreadovanom rezimu rada. Na Nehalemu je prosirio "instruction window", broj instrukcija koje se registruju u "letu", sto mu je omogucilo da bolje iskoristi 3 ALU, 3 AGU i 3 FPU jedinice i 4 dekodera.

Eh sad, posto u vecini slucajeva po threadu IPC retko kad prelazi 2 u Bulldozeru cemo imati 2 integer klastera, koji ce raditi kao 2 zasebna mini jezgra i delice jednu mocnu i fleksibilnu FPU jedinicu. Ta 2 integer klastera ce imati mogucnost da izvrsavaju 1 thread, jer se nalaze unutar istog instrukcijskog prozora. To omogucuje teoretski IPC 4, sto je vise od Core 2, Nehalema i naravno K10, pa je ILP veci nego na ovim procesorima. U prosecnom slucaju IPC mnogo zavisi od kesh arhitekture i BP-a, pa ostaje da se vidi kako ce to da rese.
U multithread rezimu Bulldozer ce verovatno da razvaljuje jer ce na taj nacin biti iskoriscene sve izvrsne jedinice.
 
Poslednja izmena:

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Ovo je nesto sa AMD-ovih starih slajdova....

 

animaN

Administrator
Urednik
Učlanjen(a)
28.03.2009.
Poruka
9.407
Rezultat reagovanja
121
Moja konfiguracija
CPU & cooler:
Ci7 3930K@ Coolink CoratorDS
Motherboard:
ASUS P9X79 Deluxe
RAM:
4x4GB Mushkin 1600 MHz cl9, 1.5V
VGA & cooler:
Sapphire HD6950 FleX Edition
Display:
3x Belinea 102035W
HDD:
Corsair ForceGT 120GB SSD,WD AAKS 640 GB, WD MyBook 500GB
Sound:
Realtek ALC889 - Logitech Z2300
Case:
Cooler Master bench table
PSU:
Cooler Master Silent Pro 850W
Optical drives:
USB LiteOn
Mice & keyboard:
Logitech G15 - Logitech MX518
Internet:
SBB 10/1 Mbit
OS & Browser:
Windows 7 x64 SP1
Other:
Volim AXE
drfedja je napisao(la):
U multithread rezimu Bulldozer ce verovatno da razvaljuje jer ce na taj nacin biti iskoriscene sve izvrsne jedinice.
Majku mu bozju :D Mogao si i ovako samo da mi kazesh :D :D :D

Shalu na stranu, odlichan post, pojasnio si mi malo neke stvari ;)

:wave:
 

monteboy

PCAXE Addicted
Učlanjen(a)
01.04.2009.
Poruka
2.019
Rezultat reagovanja
0
Moja konfiguracija
CPU & cooler:
Phenom II X4 965
Motherboard:
Asus M4A79T Deluxe
RAM:
2048 G.Skill 12800HZ
VGA & cooler:
NV 7900 GTO
Case:
no case
PSU:
Silverstone Olympia 1000W
Internet:
DSL-16000
OS & Browser:
Windows 7 Ultimate
Lepo slikovito se vidi na sledecoj slici o cemu Fedja prica



AMD ide korak dalje i spaja dva mala jezgra u takozvanu modularnu jedinicu sto nam po prvi put omogucuje realni multithreading jer obadva jezgra operisu simultano !
L2 Cache nije vise rezervisan za jedno jezgro nego se takodje kao i do sada L3 deli.
 
Poslednja izmena:

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Tacno o ovome sam ja pricao pre par meseci. ;) To su dva jezgra koja mogu da rade kao jedno i imaju deljen FP i cache. Dekoder se nalazi ispred dva jednostavna Integer klastera i jednog mocnog FP klastera. To je ono sto se zove CMT - clustered based multithreading.

Eh sad, posto u vecini slucajeva po threadu IPC retko kad prelazi 2 u Bulldozeru cemo imati 2 integer klastera, koji ce raditi kao 2 zasebna mini jezgra i delice jednu mocnu i fleksibilnu FPU jedinicu. Ta 2 integer klastera ce imati mogucnost da izvrsavaju 1 thread, jer se nalaze unutar istog instrukcijskog prozora. To omogucuje teoretski IPC 4, sto je vise od Core 2, Nehalema i naravno K10, pa je ILP veci nego na ovim procesorima. U prosecnom slucaju IPC mnogo zavisi od kesh arhitekture i BP-a, pa ostaje da se vidi kako ce to da rese.
U multithread rezimu Bulldozer ce verovatno da razvaljuje jer ce na taj nacin biti iskoriscene sve izvrsne jedinice.
AMD ide korak dalje i spaja dva mala jezgra u takozvanu modularnu jedinicu sto nam po prvi put omogucuje realni multithreading jer obadva jezgra operisu simultano !
Zapravo, retko gde IPC prelazi 2. Ako imas unutar jednog "debelog" jezgra, dva koja imaju IPC2, i na njima pustis 2 treda sa realnim IPC-om 1.8, dobijas IPC 3.6 za 2 threada. Core i7 ne moze da ima vise od IPC 3 za 2 threada jer 2 treda dele jedno "debelo" jezgro sa IPC-om 3, koje ima 3 ALU, AGU i FPU jedinice. Opet u single thread rezimu, na raspolaganju je siri execution engine kod Bulldozera, pa je IPC opet veci. Ali ostaje da se vidi u praksi kako ce da radi. Mnogo toga zavisi od kesh i memorijske arhitekture, kao i od branch prediktora. Npr. AMD K5 je imao 4-way jezgro, pa je radio losije od Pentiuma I koji je ima 2-way. ;) Naravno, ne verujem da ce to biti slucaj sa Bulldozerom. :)

L2 Cache nije vise rezervisan za jedno jezgro nego se takodje kao i do sada L3 deli.
L2 kes je deljen izmedju 2 integer klastera i jednog FP. Oni se svi nalaze ispred istog dekodera. Ostaje pitanje dekoding bandwidth-a, koji bi morao da bude dovoljan da "nahrani" ovako sirok "execution path".

Inace, AMD vec ima testni 32nm wafer:

sto znaci da ce ovog puta mozda jos manje kasniti za Intelom.
 
Poslednja izmena:

monteboy

PCAXE Addicted
Učlanjen(a)
01.04.2009.
Poruka
2.019
Rezultat reagovanja
0
Moja konfiguracija
CPU & cooler:
Phenom II X4 965
Motherboard:
Asus M4A79T Deluxe
RAM:
2048 G.Skill 12800HZ
VGA & cooler:
NV 7900 GTO
Case:
no case
PSU:
Silverstone Olympia 1000W
Internet:
DSL-16000
OS & Browser:
Windows 7 Ultimate
AMD je postao oprezen sto se tice najavljivanja novih proivoda i iznosenja realnih termina za njihovu dostupnost na trzistu sto se da videti i na C3 stepingu Phenom'a II koji je bio takodje najavaljen za pocetak 2010.

Verujem da ce ovaj put biti po planu a mozda i malkice ispred plana :)

Slazem se veliko pitanje ce biti implementacija dekodera odnosno njegov bandwidth
 
Poslednja izmena:

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Slazem se veliko pitanje ce biti implementacija dekodera odnosno njegov bandwidth
Pitanje je koliko novo jezgro moze da vrati mikrooperacija u ciklusu.
Postoji spisak nedostataka K8/K10 arhitekture. Ako su bar pola od toga ispravili, onda ce Bulldozer biti zaista buldozer. :d

spisak izgleda otprilike ovako:

Instrukcijski fetch - dovlacenje, je limitirano na 16 bajtova po klok signalu na K7/K8 arhitekturi. Ovo je bilo usko grlo jer ostatak pipeline-a moze da odradi 3 x86 instrukcije u ciklusu. Ovo je ispravljeno kod K10, u prvom redu zbog sire 128-bitne floating point jedinice, koja moze da izvrsi do 2 16-bajtne instrukcije u ciklusu. Troughput za uslovne skokove trazi 2 klok signala. Instrukcijski fetch posle skoka je odlozen ako je tu imamo 16-bajtni dotok za prve tri instrukcije posle skoka. Ovo limitira IPC rejt. Zbog toga je bitno da vecinu ulaza za funkcije i petlje imamo poravnate (aligned) ulaze na svakih 16-bajtova, cime se sprecava zastoj, jer instrukcija sama po sebi nije deljiva.
Out-of-order scheduling
Maksimalna dubina reorder buffera je 24 integer makro-operacije i 36 floating point makro-operacija.
Memorijske operacije ne mogu da se kombinuju out-of-order. Doduse, kod K10 je to donekle ispravljeno, ali "if then" operacije i dalje idu u 2 ciklusa, in-order, za razliku recimo od Core 2 arhitekture.
Izvršne jedinice
...kod K7/K8/K10 one poseduju mnogo veci kapacitet nego sto ih realno koriste. Broj izvrsnih jedinica na K10 nije nista manji nego na Nehalemu.
Tu imamo 9 izvrsnih jedinica, 3xALU, 3xAGU i 3xFPU. ALU su za integer operacije i za logicke operacije, AGU su jedinice za adresne kalkulacije, a FPU jedinice su za rad sa realnim brojevima (pisem za citaoce koji ne razumeju ovo). Prakticno je nemoguce potvrditi eksperimentalnim putem tvrdnju da je retire rejt jednak broju od 3 makro operacije po ciklusu. Tri integer jedinice ne mogu biti usko grlo osim u kodu koji ima izuzetno veliki broj operacija mnozenja. Troughput od 3 makrooperacije po ciklusu mogu se obaviti kada izvrsne jedinice ne izvrsavaju ne vise od 1/3 makrooperacija po ciklusu. Za floating point kod je tesko odrediti pravu distribuciju makro-operacija izmedju 3 FP jedinice. Preporucljivo je miksovati floating point i integer operacije. Floating point scheduler ne distribuira makrooperacije optimalno izmedju 3 floating point jedinice. Imamo 32-bajta fetch bandwidth i ako on nije idealno izdeljen, jedna floating point jedinica uvek zvrchi prazna. To je onda losa optimizacija. Sve floating point jedinice su napravljene za troughput od jedne makro-operacije po klok signalu, osim za deljenje i poneke kompleksne trigonometrijske funkcije.
Razlicite latencije makrooperacijaa
Mesanje makro-operacija razlicitih latencija za istu floating point jedinicu, moze da spreci out-of-order izvrsavanje.
Skokovi i grananja
Skokovi i grananja imaju troughput od jednog uslovnog skoka svaka 2 klok signala. Troughput je jos manji ako imamo blokove instrukcija u 16-bajtnim komadima odmah nakon skoka.
Mehanizam predikcije (branch predictor) dozvoljava ne vise od tri uslovna skoka za svakih 16-bajta "poravnatog" koda.
Dinamicki prediktor kakav je u K10 je baziran na istoriji od samo 8-bita. Prepoznavanje paterna cesto zakazuje zbog nepoznatih razloga. Grananja koja uvek idu istim putem ne zagadjuju registar grananja (branch history register).
Retirement - povlacenje instrukcija
Ovaj proces se dogadja na kraju izvrsnog ciklusa. Obicno se zavrsava sa upisom rezultata u Data cache, memoriju ili promenom vrednosti u registrima. On je kod K10 limitiran na 3 makrooperacije po ciklusu. Ovo bi moglo biti usko grlo ako neka instrukcija generise vise od 1 makrooperacije, a ima ih.

faze u izvrsavanju


Makrooperacije: Pre faze izvršavanja postoji faza dekodiranja x86 instrukcija koja standardne instrukcije razbija na mikrooperacije u Intel terminologiji, odnosno makrooperacije u AMD terminologiji. Takve operacije se izvršavaju out-of-order unutar paralelnih jedinica, ALU za celobrojne operacije FP za rad sa realnim brojevima. Unutar faze egzekucije makrooperacije postoji još jedna faza dekodiranja makrooperacije na mikroprogram koji je kontrolisan od strane ICU – instruction control unit-a, koja određuje šta će procesor raditi na najnižem mašinskom nivou.
Ako makrooperaciju posmatramo kao operacioni kod, taj operacioni kod poseduje svoj mikroprogram, koji određuje šta će se dešavati u procesoru. Prema tome, programer može pristupiti jedino standardnim x86 instrukcijama, sve ostalo se obavlja na nivou samog hardvera. Sekvenca dekodiranja ide otprilike ovako x86->x86 dekoding->MOP->ICU.
U samom izvršavanju krajnja faza bi bila tzv. „instruction retire“, koja praktično vraća rezultat izvršavanja i pomera „program counter“ registar za jednu adresu unapred. PC – program counter je registar u procesoru koji pokazuje na adresu sledeće instrukcije. Na taj način procesor „zna“ gde se nalazi sledeća instrukcija. S ’ obzirom na to da su instrukcije u programu „poređane“ sekvencijalno, odnosno u nizu, PC je dovoljno uvećati za veličinu instrukcije u bajtovima i na taj način se odmah prelazi na izvršavanje sledeće.

old school K7/K8/K10 jezgro


brand new Bulldozer K11 jezgro
 
Poslednja izmena:

Hector Ruiz

PCAXE Member
Učlanjen(a)
09.05.2009.
Poruka
883
Rezultat reagovanja
18
Moja konfiguracija
CPU & cooler:
Intel i5 4670K@ Megahalem
Motherboard:
ASUS Maximus VI Hero
RAM:
Corsair Vengeance® — 16GB Quad Channel DDR3 Memory Kit
VGA & cooler:
Intel HD4600
Display:
Samsung P2470H
HDD:
Crucial MX100 256GB + WD 1001 FALS
Sound:
microlab Solo6C
Case:
Corsair 800D
PSU:
Seasonic X-850 SS-850KM
Mice & keyboard:
Razer DeathAdder Left-Hand Edition & OCZ ILLUMIATI
Internet:
Kablovska
OS & Browser:
Windows 8.1 64bit
Da li je realno da sledece godine vidimo AMD-ov 32nm cpu?
 

Chabex

PCAXE Member
Učlanjen(a)
05.04.2009.
Poruka
653
Rezultat reagovanja
1
Moja konfiguracija
CPU & cooler:
Phenom II X4 980 4GHz NB2600 - Thermalright HR2 Macho
Motherboard:
ASUS M5A97 Pro
RAM:
GSkill Ripjaws GBRL 2x4GB 1600 CL9@CL8
VGA & cooler:
Sapphire 380X Nitro
Display:
Samsung S2350/Panasonic plazma 42S30
HDD:
Samsung F3 1TB, WD Green 1TB, Seagate 250GB
Sound:
Audigy 2 / Musical Fidelity A1 / B&W DM602
Case:
CM 590
PSU:
OCZ ModXstream 600W
Optical drives:
Pioneer 215DBK
Mice & keyboard:
A4tech X-7 ,a tastatura najjeftinija za lupanje kad se iznerviram ;o))
Internet:
ADSL
OS & Browser:
win7 64
Other:
~~~~~~~~~~~~~~~~~
@ drfedja - svaka cast na ovim detaljim zapazanjima, komentarima. Ja tu u stvari ne razumem nista ali uvek volim da procitam sta napises :d
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Da li je realno da sledece godine vidimo AMD-ov 32nm cpu?
Moguce je na jesen 2010. , verovatno prvo neki K10 sestojezgarni ili osmojezgarni, pa onda i Bulldozer. ;) P

@ drfedja - svaka cast na ovim detaljim zapazanjima, komentarima. Ja tu u stvari ne razumem nista ali uvek volim da procitam sta napises :d
E, pa kreni da citas polako, pa pitaj sta ti nije jasno, pa da krenem od Kulina Bana... :d

Inace, Dule i ja treba da razgovaramo na ovu temu, trebalo bi da napisem neki tekst koji bi razjasnio neke pojmove iz mikroarhitekture.
S' obzirom da je najavljen Bulldozer, sada vec zvanicno, pravo vreme bi bilo za takav tekst.
Razmisljao sam cak da se napise nesto i o arhitekturi GPU-ova.
 
Poslednja izmena:

animaN

Administrator
Urednik
Učlanjen(a)
28.03.2009.
Poruka
9.407
Rezultat reagovanja
121
Moja konfiguracija
CPU & cooler:
Ci7 3930K@ Coolink CoratorDS
Motherboard:
ASUS P9X79 Deluxe
RAM:
4x4GB Mushkin 1600 MHz cl9, 1.5V
VGA & cooler:
Sapphire HD6950 FleX Edition
Display:
3x Belinea 102035W
HDD:
Corsair ForceGT 120GB SSD,WD AAKS 640 GB, WD MyBook 500GB
Sound:
Realtek ALC889 - Logitech Z2300
Case:
Cooler Master bench table
PSU:
Cooler Master Silent Pro 850W
Optical drives:
USB LiteOn
Mice & keyboard:
Logitech G15 - Logitech MX518
Internet:
SBB 10/1 Mbit
OS & Browser:
Windows 7 x64 SP1
Other:
Volim AXE
Inace, Dule i ja treba da razgovaramo na ovu temu, trebalo bi da napisem neki tekst koji bi razjasnio neke pojmove iz mikroarhitekture.
S' obzirom da je najavljen Bulldozer, sada vec zvanicno, pravo vreme bi bilo za takav tekst.
Razmisljao sam cak da se napise nesto i o arhitekturi GPU-ova.
First things first ;)

:wave:
 

Chabex

PCAXE Member
Učlanjen(a)
05.04.2009.
Poruka
653
Rezultat reagovanja
1
Moja konfiguracija
CPU & cooler:
Phenom II X4 980 4GHz NB2600 - Thermalright HR2 Macho
Motherboard:
ASUS M5A97 Pro
RAM:
GSkill Ripjaws GBRL 2x4GB 1600 CL9@CL8
VGA & cooler:
Sapphire 380X Nitro
Display:
Samsung S2350/Panasonic plazma 42S30
HDD:
Samsung F3 1TB, WD Green 1TB, Seagate 250GB
Sound:
Audigy 2 / Musical Fidelity A1 / B&W DM602
Case:
CM 590
PSU:
OCZ ModXstream 600W
Optical drives:
Pioneer 215DBK
Mice & keyboard:
A4tech X-7 ,a tastatura najjeftinija za lupanje kad se iznerviram ;o))
Internet:
ADSL
OS & Browser:
win7 64
Other:
~~~~~~~~~~~~~~~~~
E, pa kreni da citas polako, pa pitaj sta ti nije jasno, pa da krenem od Kulina Bana... :d
Veoma slabo mogu da pratim ovu tematiku sada, i mislim da bi bilo previse pitanja sa moje strane. Mozda je bolje za ovu temu da pitaju neki koji ce da postave pametno, konkretno pitanje :). A za nas laike bi verovatno interesantnija tema bila (ako je bude) ona od Kulina Bana ;), tako nesto bi moj mozak i svario (nadam se) :wave:
 

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Veoma slabo mogu da pratim ovu tematiku sada, i mislim da bi bilo previse pitanja sa moje strane. Mozda je bolje za ovu temu da pitaju neki koji ce da postave pametno, konkretno pitanje :). A za nas laike bi verovatno interesantnija tema bila (ako je bude) ona od Kulina Bana ;), tako nesto bi moj mozak i svario (nadam se) :wave:
Pitanja laika su vrlo bitna za nas. Ako ja i ostatak ekipe koja pise za sajt uspemo da napisemo nesto sto mozes da pratis ti ili neko drugi ko se ne razume toliko u ovu tematiku, onda smo uspeli da postignemo ono sto smo hteli. Cilj postojanja Sekire je bas u tome da se publika edukuje sto je vise moguce. ;) :sekira:
Ja sam spreman da celu ovu terminologiju spustim na taj nivo da moze da je razume svako ko zna da se registruje na ovaj forum. Uz pomoc svog teorijskog, prakticnog znanja i sirine pogleda na celokupnu materiju pokusacu da "prizemljim" neke stvari.
 
Poslednja izmena:

animaN

Administrator
Urednik
Učlanjen(a)
28.03.2009.
Poruka
9.407
Rezultat reagovanja
121
Moja konfiguracija
CPU & cooler:
Ci7 3930K@ Coolink CoratorDS
Motherboard:
ASUS P9X79 Deluxe
RAM:
4x4GB Mushkin 1600 MHz cl9, 1.5V
VGA & cooler:
Sapphire HD6950 FleX Edition
Display:
3x Belinea 102035W
HDD:
Corsair ForceGT 120GB SSD,WD AAKS 640 GB, WD MyBook 500GB
Sound:
Realtek ALC889 - Logitech Z2300
Case:
Cooler Master bench table
PSU:
Cooler Master Silent Pro 850W
Optical drives:
USB LiteOn
Mice & keyboard:
Logitech G15 - Logitech MX518
Internet:
SBB 10/1 Mbit
OS & Browser:
Windows 7 x64 SP1
Other:
Volim AXE
drfedja je napisao(la):
Ja sam spreman da celu ovu terminologiju spustim na taj nivo da moze da je razume svako ko zna da se registruje na ovaj forum. Uz pomoc svog teorijskog, prakticnog znanja i sirine pogleda na celokupnu materiju pokusacu da "prizemljim" neke stvari.
Tako da narode slobodno pitajte i ono za shta vas je mozda sramota da pitate ili pak mislite da je pitanje glupo (nelogichno)...

:sekira:
 

Ace Rimmer

PCAXE Member
Učlanjen(a)
15.11.2009.
Poruka
520
Rezultat reagovanja
438
Moja konfiguracija
CPU & cooler:
Xeon x5675 @ LC-CC-120
Motherboard:
Asus P6T Deluxe V2
RAM:
24GB Kingston HyperX Genesis 1600
VGA & cooler:
MSI RX 480 Gaming X 8GB
Display:
Samsung 971p
HDD:
više komada
Sound:
Asus Xonar DG
Case:
CM Stacker
PSU:
Corsair RM650x
Optical drives:
ASUS DVD-RW
Mice & keyboard:
Glorious Model O & HyperX Alloy Elite RGB (brown)
Internet:
DSL
OS & Browser:
Linux / Windows
Malo se reklo u vezi novih čipseta i njihova odnosa naspram APU-a (Liano, Lynx mainstream platforma) i Bobcata.
Npr:
Da li će APU biti K10.5 ili K11 (Bulldozer) baziran - informacije su oprečene?
Da li će 2010. RD8xx/RS8xx čipseti podržavati Bulldozer/APU/Bobcat ?
Da li će APU imati bilo kakve veze s grafikom?
Da li ima smisla RD8xx/RD9xx (ne-integriran čipset) + APU, a bez diskretne grafike?
Hoće li integrirani GPUovi (čipset + APU) biti u sync-u pa omogućiti neku vrstu integriranog crossfire-a?

Također me čudi da Bobcat nebi mogli ponuditi već u 2010.
Em je mali i low power + dizajniran na način da se lako proizvede i integrira u bilo šta drugo (nisu potrebni neki posebni tweakovi), em proizvodnju sada mogu autsourcati vam GFa (npr. u TSMC), ako je problem u kapacitetima GFa. Praktički bi mogli spojiti RS8xx (TSMC) + Bobcat i dobiti ultimate platformu na nettopove i netbookove koja se sastoji od samo 2 čipa. Ne vidim razloga da to ne uradi TSMC na 40nm procesu već 2010. godine. Naravno, ako je Bobcat gotov dizajn.
 
Poslednja izmena:

drfedja

CPU Guru
Učlanjen(a)
01.04.2009.
Poruka
3.084
Rezultat reagovanja
14
Moja konfiguracija
PC / Laptop Name:
Dell n5010, Intel Core i3 370M 2.4 GHz, 4 GB DDR3 1333
CPU & cooler:
Intel Core i7 4790K @ 4.5 GHz
Motherboard:
Biostar Hi-Fi Z97WE
RAM:
16GB Kingston HyperX Beast 2400
VGA & cooler:
Sapphire AMD Radeon R9-280X
Display:
Viewsonic VA2342 23" LED, LG 25"Ultrawide, Samsung VA2342 23"
HDD:
Samsung SSD850 Evo 250GB, Kingston 120GB V300 SSD, 2x1GB WD Caviar black
Sound:
Altec Lansing 5100E
Case:
Cooler Master 690-III
PSU:
Cooler Master G650M modular
Optical drives:
N/A
Mice & keyboard:
Keyboard/Mouse Cooler Master Storm
Internet:
Cable
OS & Browser:
Windows 10 Pro 64-bit
Other:
iPhone 6S 64GB
Malo se reklo u vezi novih čipseta i njihova odnosa naspram APU-a (Liano, Lynx mainstream platforma) i Bobcata.
Npr:
Da li će APU biti K10.5 ili K11 (Bulldozer) baziran - informacije su oprečene?
Da li će 2010. RD8xx/RS8xx čipseti podržavati Bulldozer/APU/Bobcat ?
Da li će APU imati bilo kakve veze s grafikom?
Da li ima smisla RD8xx/RD9xx (ne-integriran čipset) + APU, a bez diskretne grafike?
Hoće li integrirani GPUovi (čipset + APU) biti u sync-u pa omogućiti neku vrstu integriranog crossfire-a?
Ovo su sve pitanja na koja bi mozda mogao neko iz AMD-a da odgovori i nemaju veze sa Bulldozer uArch.

Bobcat bi trebalo da je K11 baziran, ali bez CMT-a. Dakle u modulu se nalazi jedno ALU jezgro i FPU.

Također me čudi da Bobcat nebi mogli ponuditi već u 2010.
Em je mali i low power + dizajniran na način da se lako proizvede i integrira u bilo šta drugo (nisu potrebni neki posebni tweakovi), em proizvodnju sada mogu autsourcati vam GFa (npr. u TSMC), ako je problem u kapacitetima GFa. Praktički bi mogli spojiti RS8xx (TSMC) + Bobcat i dobiti ultimate platformu na nettopove i netbookove koja se sastoji od samo 2 čipa. Ne vidim razloga da to ne uradi TSMC na 40nm procesu već 2010. godine. Naravno, ako je Bobcat gotov dizajn.
Bobcat je derivat Bulldozer dizajna. Do sada nisu imali outsource CPU-ova van Dresdenskih fab-ova i eventualno Chartered-a. Ne vidim razlog da krenu da prave CPU-ove u TSMC-u. Pre bi moglo da bude obrnuto - da GPU-ove prave u GF-u.
 
Vrh