AMD Bulldozer [official thread]

drfedja · 24.08.2011.

Bogdan901 je napisao(la):
Znam da su stari, video sam skorije screenshotove, koji pokazuju jos gore skaliranje. Imaju izgleda problema sa tim procesorom, nazalost. Ne mogu da nadjem te slike, mozda su obrisani.

Oni gledaju da dobiju 33% bolje performanse od phenoma X6, po recima Johna Frueha, jer toliko ima vise jezgara (octo core), cemu onda drndanje oko nove arhitekture...

I jednostavno, ako smatraju da pariraju intelu u ozbiljnim aplikacijama (iako se u principu za to koriste Tesle), moraju vise da iskoriste FP.

Gledaj ovako.... sa 33% istih jezgara vise ne dobijas 33% performansi, zbog ogranicenja kao sto su memorijski protok, paralelizovanost podataka itd...
U slucaju dobre paralelizacije sa 33% jezgara mozes dobiti oko 22-25% performansi sa istim jezgrima. Za CMT arhitekturu 33% vece perfromanse u proseku su dobar rezultat.
Throughput je nesto sasvim drugo. To je kolika je maksimalna propusna moc ovih jezgara. Tako npr. sa 33% vise jezgara imas oko 30-33% veci throughput u zavisnosti od frekvencije tih jezgara.
AMD je najavio 50% veci throughput sa 33% vise jezgara. Dakle u ovo ulazi i veca frekvencija. Npr. ako Magny Cours radi na 2.2 GHz, a Interlagos sa 16c radi na 2.3 GHz, on bi trebalo da da oko 35% vise performansi i 50% veci throughput, sto je ekvivalentno broju od 18 K10 jezgara.
Fermi ima manji FP throughput od npr. Caymann arhitekture, ali ima fancy apple like marketing.

I to je potpuno druga strana medalje, na kojoj AMD takodje radi - GPGPU procesoranje. Npr. Interlagos moze da napuni 8x2.3x16 GigaSP operacija, tj. oko 294 GFLOPS-a. Ako imas server sa 4 socketa, taj ti daje FP throughput od 1.1 TFLops. Caymann GPU npr. 6970 gura 2.7 TFLOPS-a u SP, ali DP - double precision ima "675" GFLOPS-a.
Poredjenja radi 4P Interlagos ima 588 GFLOPS-a i daleko bolje serijske performanse nego GPU. Dakle, CPU se koristi za serijske workloade, a GPU za paralelizovane. OpenCL u principu koristi snagu i procesora i GPU-a.

Kada porede Interlagos i MC, MC daje po procesoru 48 DP operacija / ciklusu , dok Interlagos daje 64 DP operacije po ciklusu. To je FP throughput. Ako ima 13% veci klok, to ti je okruglo 50% veci throughput. Npr, 2.5 GHz Interlagos vs 2.3 GHz Opteron MC.

Bogdan901 · 24.08.2011.

drfedja je napisao(la):
Gledaj ovako.... sa 33% istih jezgara vise ne dobijas 33% performansi, zbog ogranicenja kao sto su memorijski protok, paralelizovanost podataka itd...
U slucaju dobre paralelizacije sa 33% jezgara mozes dobiti oko 22-25% performansi sa istim jezgrima. Za CMT arhitekturu 33% vece perfromanse u proseku su dobar rezultat.
Throughput je nesto sasvim drugo. To je kolika je maksimalna propusna moc ovih jezgara. Tako npr. sa 33% vise jezgara imas oko 30-33% veci throughput u zavisnosti od frekvencije tih jezgara.

Ma da, sve je to jasno, ali 33% bolje performanse sa totalno novom arhitekturom i nije neki napredak. Koliki je intel imao napredak kada je raskrstio sa NetBurst arhitekturom? Zaboravio sam, al znam da je veci od 33%.

I kod Bulldozera mi se jednostavno ne svidja sto su jezgra na nivou integer-a a moduli na nifou FPU-a, koji se dele jezgrima. Ne znam koliko bi mesta na modulu zauzelo, ali bolje je da su napravili 2 FP jedinice za svako integer jezgro po jedna, ako su vez fuzionisali jezgra u module.

drfedja · 24.08.2011.

Bogdan901 je napisao(la):
Ma da, sve je to jasno, ali 33% bolje performanse sa totalno novom arhitekturom i nije neki napredak. Koliki je intel imao napredak kada je raskrstio sa NetBurst arhitekturom? Zaboravio sam, al znam da je veci od 33%.

Prvo 10h nije netburst, drugo, pitanje je koliko jos ima prostora za poboljsavanje ILP-a (instrukcijskog paralelizma). 33% u cemu? Ja licno smatram da ce u nekim stvarima biti razlike daleko vece od 33%, a u nekima manje. 33% je prosek, a s obzirom na potencijal za vece frekvencije, ovo moze da bude i vise. Drugo, JF-ova tvrdnja se odnosi za CPU sa istim TDP-om. Da li ce BD sa 8 jezgara imati isti, manji ili veci TDP od X6, ostaje da se vidi. U klijentskim aplikacijama Phenom II X6 1090T je brzi sa sve turbo modom 24% od Phenoma II X4 955 iako ima 50% vise jezgara. Prema tome ako je 35% brzi sa 33% vise jezgara, to uopste onda nije lose.
Pogledaj rezultate Npr. i5 2500K je brzi od Phenoma II X4 965 35%, dok je i7 980X brzi 34% od Phenoma II X6 1100T. Ne znam sta ti ocekujes? Da bude 3x brzi?

I kod Bulldozera mi se jednostavno ne svidja sto su jezgra na nivou integer-a a moduli na nifou FPU-a, koji se dele jezgrima. Ne znam koliko bi mesta na modulu zauzelo, ali bolje je da su napravili 2 FP jedinice za svako integer jezgro po jedna, ako su vez fuzionisali jezgra u module.

To sto se tebi ne svidja ne mora da znaci da to ne funkcionise kako valja. Evo dacu ti primer:

Kod:

PerfMonitor Record file
Counter 0 :	Instructions per cycle (IPC)
Counter 1 :	Retired instructions
Counter 2 :	Retired packed SSE/SSE2 instructions
Counter 3 :	Retired uops

T(ms)	c0(i/c)	c1(M/s)	c2(M/s)	c3(M/s)	


34550	1.3	4544.9	1725.8	4850.4	
34600	1.3	4473.8	1677.0	4775.6	
34650	1.3	4482.3	1678.5	4784.2	
34700	1.3	4513.5	1631.8	4819.9	
34750	1.3	4516.9	1708.7	4821.8	
34800	1.3	4473.3	1703.6	4773.9	
34850	1.3	4473.3	1703.6	4773.9	
34900	1.3	4515.9	1707.5	4819.1	
34950	1.2	4354.3	1660.1	4648.3	
35000	1.2	4325.2	1696.5	4615.9	
35050	1.2	4350.1	1715.5	4640.2	
35100	1.2	4350.1	1715.5	4640.2	
35150	1.2	4468.1	1699.1	4768.7	
35200	1.2	4377.1	1689.1	4671.8	
35250	1.2	4371.8	1609.8	4669.1	
35300	1.2	4395.4	1634.9	4694.0	
35350	1.2	4395.4	1634.9	4694.0	
35400	1.2	4440.1	1670.1	4738.7	
35450	1.2	4417.3	1599.5	4716.4	
35500	1.2	4388.7	1621.6	4684.7	
35550	1.2	4389.9	1617.0	4687.1

Ovo je rezultat merenja performansi CB11.5 x64 render benchmarka.
Prva kolona je IPC. Druga je broj vracenih instrukcija, treca je broj FP SSE/SSE2 vektorskih operacija i cetvrta je broj mikrooperacija, t.j. dekodiranih instrukcija. U pitanju je Phenom II X6 na 3.6 GHz.
Ukupan IPC je = 1.2-1.3 od maksimalnih 3. Integer IPC = 0.78, FP IPC = 0.47!!! FPU moze da izvrsi do 2 FP instrukcije u ciklusu, a izvrsava 1 u 2 ciklusa. Dodaj jos jedan integer blok i FPU ce biti mnogo bolje iskoriscen. Mozda performanse nece skociti duplo, ali ce skociti znacajno, jer usko grlo nisu ni FPU ni dekoderi koji mogu da dekodiraju maksimalno 3 instrukcije po ciklusu. Nadam se da sam bio jasan. FPU je neiskoriscen, zato je dodat jos jedan integer blok, jer FPU i integer rade u korelaciji. FPU je koprocesor i ne moze da racuna memorijske adrese i radi sam za sebe load/store operacije.
Po threadu imas u BD modulu 4 loada i 2 store-a, sto je 2x vise nego u Phenomu. Pored toga imas maksimalno 4 dekodirane instrukcije, sto je dovoljno da proguras dva jaka threada.

Bogdan901 · 24.08.2011.

drfedja je napisao(la):
Prvo 10h nije netburst, drugo, pitanje je koliko jos ima prostora za poboljsavanje ILP-a (instrukcijskog paralelizma). 33% u cemu? Ja licno smatram da ce u nekim stvarima biti razlike daleko vece od 33%, a u nekima manje. 33% je prosek, a s obzirom na potencijal za vece frekvencije, ovo moze da bude i vise. Drugo, JF-ova tvrdnja se odnosi za CPU sa istim TDP-om. Da li ce BD sa 8 jezgara imati isti, manji ili veci TDP od X6, ostaje da se vidi. U klijentskim aplikacijama Phenom II X6 1090T je brzi sa sve turbo modom 24% od Phenoma II X4 955 iako ima 50% vise jezgara.

Phenom II X6 1090T ima 33% vise jezgara od X4, a ne 50%.

Ne ocekujem da bude 3x brzi, nego ocekujem da bude 33% brzi ali od Sandy-ja, a ne od Phenoma II. (33% generalno brzi, a ne u necemu konkrentno)

Sta nije netburst? Mislio sam na skakanje sa netbursta na core arhitekturu.

Nisam ni mislio razlicit TDP.

voodoons · 24.08.2011.

6 jezgara je za 50% vise od 4 jezgra ** 4 jezgra su za 33% manja od 6 jezgara
:p

drfedja · 24.08.2011.

Bogdan901 je napisao(la):
Phenom II X6 1090T ima 33% vise jezgara od X4, a ne 50%.

Ne valja ti matematika... od kad je 6/4 = 1.33 ?

6/4 je 1.5, dakle 50%.

Ne ocekujem da bude 3x brzi, nego ocekujem da bude 33% brzi ali od Sandy-ja, a ne od Phenoma II. (33% generalno brzi, a ne u necemu konkrentno)

To mnogo zavisi od koda. Ako je paralelizovan, bice brzi vise od 33% jer ima vise jezgara od 4 jezgarnog i7. Ako je single thread, bice isti, a mozda bude i sporiji od i7, kao sto rece neko vec, BD jos uvek ima vremena da usere motku. :rotf:

U svakom slucaju ako u single threadu bude sporiji 5-10% od SB, bice opet brzi 30-35% od K10 i to sa istim brojem jezgara...

Sta nije netburst? Mislio sam na skakanje sa netbursta na core arhitekturu.

Pa kolika je razlika bila? Ne mozes porediti klok za klok netburst i Core 2. Core 2 svakako ima mnogo bolji balans izmedju kloka i IPC-a.

gx-x · 24.08.2011.

ah sto volim kad se brinu ljudi oko TDP pa onda krknu 1+ ghz overklok kad kupe CPU

drfedja · 24.08.2011.

Pa TDP ume da bude limitirajuci faktor u overkloku. Sto nizi TDP, to visi OC.

gx-x · 24.08.2011.

da

ili sto veci TDP limit = veci kuler + jos paprke u vidu napona

Bogdan901 · 24.08.2011.

drfedja je napisao(la):
Ne valja ti matematika... od kad je 6/4 = 1.33 ?
6/4 je 1.5, dakle 50%.

Pa kolika je razlika bila? Ne mozes porediti klok za klok netburst i Core 2. Core 2 svakako ima mnogo bolji balans izmedju kloka i IPC-a.

Sorry, my bad. Nesto sam se prebacio na X6 prema octo

E ne mogu da se setim kolka je bila tacno, al bila je ogromna. Pa i mogu da poredim, jer je nova arhitektura. K10 nije nova u odnosu na K8, nista nije novo. Core je pravljen od nule kao i Bulldozer, tako da mogu da poredim.

drfedja · 24.08.2011.

Bogdan901 je napisao(la):
Sorry, my bad. Nesto sam se prebacio na X6 prema octo

E ne mogu da se setim kolka je bila tacno, al bila je ogromna. Pa i mogu da poredim, jer je nova arhitektura. K10 nije nova u odnosu na K8, nista nije novo. Core je pravljen od nule kao i Bulldozer, tako da mogu da poredim.

Core nije pravljen od nule, kao ni Bulldozer.

Core je u velikoj meri baziran na PIII, t.j. P6 mikroarhitekturi, koja je zapravo iz vremena Pentiuma Pro. Ono sto je unapredjeno je.... pa skoro sve..

Salu na stranu, kod Core mikroarhitekture je duga istorija evolucije. Prvo L1 cache, pa posebne instrukcije, pa branch prediction. Zatim Core 2 u odnosu na Core 1, t.j. Yonah, je 4-way, poseduje potpuni MLP (memory level paralelism a.k.a. memory disambiguation), branch fusion itd... Kod Core arhitekture, tj. kod Pentiuma M je novost u odnosu na PIII to sto je dodato spajanje mikrooperacija u jednu. Konkretno to je slicno kao kod Athlona double op makro fuzija, da ne idem u detalje ako te zanima mogu da ti objasnim.

Yonah, je zapravo Banias, tj. Dothan ali dual core sa deljenim L2 cacheom. Ovde je prvi put primenjen koncept deljenih resursa. Isto je primenjeno i kod Bulldozera, samo sto osim L2 cachea, deljen je i jedan veliki mocan FPU.

Kljucne karakteristike P6 mikroarhitekture su:
-jedan jedini scheduler (t.j. reservation station ili instruction pool) za FP i integer instrukcije
-stack organizacija na izvrsnim portovima. Prvo se izvrsava instrukcija koja je zadnja poslata na izvrsenje. Istovremeno se mogu pokrenuti do 6 mikroinstrukcija, na Core 2 - SB, odnosno 5 na Pentiumu Pro - Yonah.
- instrukcijski i data cache jednake velicine, kao i load/store jedinica "okacena" na zajednicki scheduler. (kod AMD-a L/S jedinica je u pozadini)
-Out of order izvrsavanje
-12-14 stanja pipeline (P6 originalni je imao 12 stanja, Core i7 ima 14)
-jedan kompleksni dekoder i 2, odnosno 3 jednostavna na C2D i jacim. Kompleksni dekodira do 4 mikrooperacije, a prosti po jednu.
-kod originalnog P6 je bilo 2 ALU i 2 FPU bloka, kod Core 2 i jacih 3 ALU i 3 FPU bloka, kao i jedna load AGU i jedna store AGU. Ovo je malo promenjeno kod SB koji ima 2 AGU za load/store operacije (kao AMD) i dvoportni cache.

Sve ostalo je sminka i nadogradnja u odnosu na prvobitni dizajn koji je napravljen 1995. godine.

Sto se tice AMD-a, BD je nov koncept, ali sa elementima iz K7/K8/K10.

Specificno za K7/K8/K10:
- izdvojen integer od floating point bloka (koprocesorska organizacija)
- dvo-portni L1 data cache (tek kod Sandy Bridgea je ovo uvedeno)
- 3-way dizajn organizovan po putanjama, svaka instrukcija ima svoju putanju i kada jednom udje u pipeline, nema menjanja "kolovoznih traka". Ovo je donekle sredjeno kod K8.
- 3x ALU i AGU jedinice, spojene u parovima ALU/AGU, separatni reservation station-i (pogledati sliku)
- 3x FP bloka, 1xFADD, 1xFMUL
- 3x x86 dekodera koji dekodiraju 1-2 makrooperacije
- makrooperacije su uredjeni parovi ALU operacije i memorijske operacije (load/store). LS operacije se prosledjuju AGU - adresnim jedinicama na obradu, zbog kalkulacije memorijskih adresa sa kojima procesor radi. Ovo je isto i na Bulldozeru. U sustini, jedna makrooperacija sadrzi 1 - 2 mikrooperacije. Svaka mikrooperacija otprilike odgovara jednoj intelovoj mikrooperaciji. AMDova mikroarhitektura je u stanju da velike instrukcije dekodira kao dve makrooperacije (double OP), koje mogu da se izvrsavaju paralelno ili redno na izvrsnim jedinicama. Npr. kod K8 je FPU jedinica bila 64-bitna, pa su se 128 bitne SSE2 instrukcije dekodirale kao double op-ovi, da bi se kasnije izvrsavale kao dve instrukcije jedna za drugom. Ovo je kasnije ispravljeno kod K10, jer je FPU jedinica prosirena na 128-bita, pa je sada FP throughput dvostruko veci.
Kod BD se 256-bitne AVX instrukcije dekodiraju kao double op-ovi, pa se paraleln izvrsavaju na dve 128-bitne jedinice. Svaki dekoder moze da isporuci dva makro opa.

-L1 Instrukcijski kes od 64KB 2-way je specifican za sve K7-15h procesore.
-72 entry ReOrder Buffer (kod Llanoa je 84-entry) ovo je broj instrukcija za koje procesor sadrzi status da li su izvrsene ili tek treba da se izvrse. Na izvrsavanje u ovu kruznu listu se prima po tri makrooperacije, kod K7/K8/K10.

Dakle, K10 je nadogradnja K7, dok je Sandy nadogradnja Pentiuma Pro, s tim sto moram priznati da je Intel malo vise nadogradjivao Pentium Pro koncept nego sto je AMD svoj K7.

Sta je slicno kod BD:

-dekoderi, samo ih ima 4
-koprocesorska organizacija integer blok + FPU su odvojeni
-L1 instrukcijski kes je isti
-branch prediktor je slicno koncipiran, ali ne mogu da tvrdim da je isti
-backside Load/Store operacije.

Ovo ostalo je uglavnom razlicito. Front End je slican, s tom razlikom sto je u front endu organizovan vertikalni multithreading, dok se kasnije ovo rasporedjuje na 2 integer bloka.

Bogdan901 je napisao(la):
E ne mogu da se setim kolka je bila tacno, al bila je ogromna. Pa i mogu da poredim, jer je nova arhitektura. K10 nije nova u odnosu na K8, nista nije novo. Core je pravljen od nule kao i Bulldozer, tako da mogu da poredim.

Razlika je bila izmedju K8 i P4 na nominalnom taktu oko 20% u korist K8, dok je C2D bio oko 20-25% brzi od K8. To mu dodje nekih 50-60% ubrzanja u odnosu na Netburst. Medjutim, to je tako bilo, jer je Netburst bio shitina.

Beagle · 25.08.2011.

drfedja je napisao(la):
Razlika je bila izmedju K8 i P4 na nominalnom taktu oko 20% u korist K8, dok je C2D bio oko 20-25% brzi od K8. To mu dodje nekih 50-60% ubrzanja u odnosu na Netburst. Medjutim, to je tako bilo, jer je Netburst bio shitina.

Netburst je pre bio promasaj nego shitina. Ideja je bila da se napravi arhitektura koja ce Intelu obezbediti procesore koji mogu da rade na taktovima i od 10GHz... E sad sto je njih proizvodni proces malko z... Boze moj

gx-x · 25.08.2011.

sve sto ja znam je da overall moj c2d e8200 na 4ghz ne zaostaje puno ni za jednim ferenomom 2 starije generacije, a ni X4 mu nisu uvek ravne, cak i klokovane. 4mb cache po jezgru ftw. Pricam o igrama, raspakivanje dzanka i super pi me ne interesuju. Kolko sam gledao ni i3 nije neki napredak u odnosnu c2d

reb0rn · 25.08.2011.

i3 bogami jeste napredak....... HT i veci IPC pogotovo za SB verziju

drfedja · 25.08.2011.

Beagle je napisao(la):
Netburst je pre bio promasaj nego shitina. Ideja je bila da se napravi arhitektura koja ce Intelu obezbediti procesore koji mogu da rade na taktovima i od 10GHz... E sad sto je njih proizvodni proces malko z... Boze moj

Ma nije proizvodni proces bio problem sa netburstom, nego preterivanje u visokofrekventnom dizajnu. Previse zrtvovanja IPC-a zarad visokih taktova. Rezultat toga je neizbalansiran proizvod koji vrlo retko gde nudi performanse.

Kako u istom 90nm procesu Pentium M Banias nema problem sa leakage-om, grejanjem i IPC-om. Jednostavno, mikroarhitektura je problematicna.

Bogdan901 · 25.08.2011.

drfedja je napisao(la):
Core nije pravljen od nule, kao ni Bulldozer.
Core je u velikoj meri baziran na PIII, t.j. P6 mikroarhitekturi, koja je zapravo iz vremena Pentiuma Pro. Ono sto je unapredjeno je.... pa skoro sve..

Sve ostalo je sminka i nadogradnja u odnosu na prvobitni dizajn koji je napravljen 1995. godine.

Sto se tice AMD-a, BD je nov koncept, ali sa elementima iz K7/K8/K10.

Specificno za K7/K8/K10:
- izdvojen integer od floating point bloka (koprocesorska organizacija)
- dvo-portni L1 data cache (tek kod Sandy Bridgea je ovo uvedeno)
- 3-way dizajn organizovan po putanjama, svaka instrukcija ima svoju putanju i kada jednom udje u pipeline, nema menjanja "kolovoznih traka". Ovo je donekle sredjeno kod K8.
- 3x ALU i AGU jedinice, spojene u parovima ALU/AGU, separatni reservation station-i (pogledati sliku)
- 3x FP bloka, 1xFADD, 1xFMUL
- 3x x86 dekodera koji dekodiraju 1-2 makrooperacije
- makrooperacije su uredjeni parovi ALU operacije i memorijske operacije (load/store). LS operacije se prosledjuju AGU - adresnim jedinicama na obradu, zbog kalkulacije memorijskih adresa sa kojima procesor radi. Ovo je isto i na Bulldozeru. U sustini, jedna makrooperacija sadrzi 1 - 2 mikrooperacije. Svaka mikrooperacija otprilike odgovara jednoj intelovoj mikrooperaciji. AMDova mikroarhitektura je u stanju da velike instrukcije dekodira kao dve makrooperacije (double OP), koje mogu da se izvrsavaju paralelno ili redno na izvrsnim jedinicama. Npr. kod K8 je FPU jedinica bila 64-bitna, pa su se 128 bitne SSE2 instrukcije dekodirale kao double op-ovi, da bi se kasnije izvrsavale kao dve instrukcije jedna za drugom. Ovo je kasnije ispravljeno kod K10, jer je FPU jedinica prosirena na 128-bita, pa je sada FP throughput dvostruko veci.
Kod BD se 256-bitne AVX instrukcije dekodiraju kao double op-ovi, pa se paraleln izvrsavaju na dve 128-bitne jedinice. Svaki dekoder moze da isporuci dva makro opa.

Razlika je bila izmedju K8 i P4 na nominalnom taktu oko 20% u korist K8, dok je C2D bio oko 20-25% brzi od K8. To mu dodje nekih 50-60% ubrzanja u odnosu na Netburst. Medjutim, to je tako bilo, jer je Netburst bio shitina.

Sve ovo stoji, ali ja nisam rekao da je K10 nova arhitektura (znam da je bazirana na prethodnos), nego BD. Ne moze bas sve da bude OD NULE, ali core concept je od nule i to je to. Ono sto radi - radi i tu nema sta da se menja... najbolje bi bilo da su batalili celu stvar sa silikonskim poluprovodnicima i krenuli da prave procesor od dijamanta ili karbonera

... ne ide to bas tako, neke stvari ostaju tu gde su.

Pa to je upravo moja poenta, sto ocekujem i od BD-a da bude 50-60% brzi od Phrnoma II, a 30-ak% od Sandy-a. Ako ne bude toliko brzi, dzaba su krecili i ja ne znam zasto bih placao $500 za precenjen proizvod. Da se razumemo, ja ceo zivot kupujem AMD i voleo bih da BD oduva konkurenciju, al pored onih silnih problematicnih benchmarka, malo sam skeptican

U stvari, jedva cekam da downgrade-ujem moj X2 555 na BD

Ace Rimmer · 25.08.2011.

Bogdan901 je napisao(la):
Ne moze bas sve da bude OD NULE, ali core concept je od nule i to je to.

Core koncept je bio baziran na Pentium M liniji (Banias, Dothan) kojeg su dizajnirali Izraelci, a Pentium M je opet bio baziran na PIII i tako unazad .... objasnio ti je 'fedja. Da nije bilo P4, moglo bi se reći da je sve išlo nekom evolucijom.

Bogdan901 · 25.08.2011.

Ace Rimmer je napisao(la):
Core koncept je bio baziran na Pentium M liniji (Banias, Dothan) kojeg su dizajnirali Izraelci, a Pentium M je opet bio baziran na PIII i tako unazad .... objasnio ti je 'fedja. Da nije bilo P4, moglo bi se reći da je sve išlo nekom evolucijom.

Mislio sam na CORE koncept u smislu INICIJALNI koncept, ne Core (2Duo) :rotf:

Alk0 · 25.08.2011.

reb0rn je napisao(la):
i3 bogami jeste napredak....... HT i veci IPC pogotovo za SB verziju

U teoriji. U praksi je negde malko brzi, negde malko sporiji u odnosu na elitne E8000 dual korce.
Nema nikakvog smisla prelaziti sa E8000 na i3. Tek na i5. Kome ne smeta veci TDP. Kome smeta, taj ce ceka Ivy kao ja

Ili ako AMD izbaci poseban model sa native 2-module BD-om koji bi imao TDP od 65W... Ako sam dobro shvatio FX4 ce biti zapravo originalni 4 modulni CPU sa dva onesposobljena modula ?

reb0rn · 25.08.2011.

@offtopic
http://www.anandtech.com/bench/Product/289?vs=55

Fx4 ce mozda u pocetku biti 4 modulni CPU sa skartom, ako je yeald los, cim se yeald poveca njima se ne isplati da namerno disabluju module

Alk0 · 25.08.2011.

@off i3 VS E8000
Pa upravo kako sam i rekao, negde je brzi negde sporiji. Upgrade nije.

A sto se tice BD-a. Native 2 modulni CPU sa malom povrsinom bi im sigurno imao sjajan yield i mali procenat skarta. Medjutim, mozda im je previse komlikovano da prave tako dve verzije procesora. Ili su procenili da ne bi bilo potraznje za dvomodularnim CPU-om. U svakom slucaju oni bolje znaju sta im je ciniti...

drfedja · 25.08.2011.

Bogdan901 je napisao(la):
Sve ovo stoji, ali ja nisam rekao da je K10 nova arhitektura (znam da je bazirana na prethodnos), nego BD. Ne moze bas sve da bude OD NULE, ali core concept je od nule i to je to. Ono sto radi - radi i tu nema sta da se menja... najbolje bi bilo da su batalili celu stvar sa silikonskim poluprovodnicima i krenuli da prave procesor od dijamanta ili karbonera ... ne ide to bas tako, neke stvari ostaju tu gde su.

Ma core concept nije od nule, to je P6, PIII, PII, Pentium Pro familija. Napisao sam ti tamo celu stranu o tome.
Core arhitektura je mnogo vise PIII nego sto je BD K7.

Gde ti ode na karbonske procesore koji ce za 10 godina da se prave....

Pa to je upravo moja poenta, sto ocekujem i od BD-a da bude 50-60% brzi od Phrnoma II, a 30-ak% od Sandy-a.

Opet, pitanje je u cemu smatras da toliko treba da bude brzi?
Singlethread, multithread?

Ako ne bude toliko brzi, dzaba su krecili i ja ne znam zasto bih placao $500 za precenjen proizvod.

Bice on i 2x brzi od Phenoma, ali ce vreme malo da prodje. Uostalom, koliko je Phenom II X6 danas brzi od Athlona 64 X2 6000+? :rolleyes:

Da se razumemo, ja ceo zivot kupujem AMD i voleo bih da BD oduva konkurenciju, al pored onih silnih problematicnih benchmarka, malo sam skeptican

Prvo, ti screenshtotovi su ko zna na kakvom setupu napravljeni i ko zna da li su fake ili nisu. Ja se ne bih preterano uzdao u te benchmarke jer jedino sto eventualno govore je to da semplovi rade na nizem kloku i da imaju problem sa turbo modom. Iz tih brojki ne mogu nikakvi zakljucci da se izvedu. Zato sedi i cekaj da vidis hoce li BD biti konkurentan i koliko ce doneti. Mislim da je koncept koji donosi BD biti dobar i da ce na kraju krajeva i sam Intel prihvatiti nesto slicno. Uostalom, AMD je doneo mnogo toga dobrog u x86 svet, sto se danas koristi i u Intelovim i AMD-ovim procesorima. Prvo, memorijski kontroler i 64-bitne rezim rada.

U stvari, jedva cekam da downgrade-ujem moj X2 555 na BD

Da, da... mislim da ces imati downgrade, a tek ja sa X6 1100T, pa BD nema sta da trazi pored ovoga... :rotf:

Alk0 je napisao(la):
U teoriji. U praksi je negde malko brzi, negde malko sporiji u odnosu na elitne E8000 dual korce.

Nije nigde sporiji i3. Tacnije, uglavnom je brzi, a ponegde su isti npr. u igrama.
Pravo poredjenje bi bilo npr. Pentium G840 vs C2D E8300
Razlika je mnogo manja u multithreadu, zbog toga sto Pentium nema hypethreading. Sve jedno, SB Pentium je brzi oko 15-25% od C2D.

Jedino u Excel Monte Carlo simulaciji je C2D brzi zbog 2x veceg cachea, jer je ovaj test izrazito keš zavistan. Ovde lepo vidimo direktno poredjenje Sandy Bridge mikroarhitekture i Core 2 arhitekture. Intel SB naziva novom mikroarhitekturom, ali eto, razlika je 15-25%.

Nema nikakvog smisla prelaziti sa E8000 na i3.

Slazem se, ali ima smisla prelaziti na i5.

Alk0 · 25.08.2011.

drfedja je napisao(la):
Nije nigde sporiji i3. Tacnije, uglavnom je brzi, a ponegde su isti npr. u igrama.
Pravo poredjenje bi bilo npr. Pentium G840 vs C2D E8300
Razlika je mnogo manja u multithreadu, zbog toga sto Pentium nema hypethreading. Sve jedno, SB Pentium je brzi oko 20-25% od C2D.
Jedino u Excel Monte Carlo simulaciji je C2D brzi zbog 2x veceg cachea, jer je ovaj test izrazito keš zavistan.

Heh, moja greska, malo sam ofrlje pogledao onu tabelu sto je Zeljko postavio

Ali ipak ima pojedinih slucajeva gde je E8000 brzi od i3, sto je meni dovoljno da pobeda ne bude bas "cista".
U svakom slucaju doba dualaca prolazi. Pre ce zafaliti jezgra nego brzina, tako da gledamo samo u kvadove, heksove i oktove sada

Beagle · 25.08.2011.

drfedja je napisao(la):
Ma nije proizvodni proces bio problem sa netburstom, nego preterivanje u visokofrekventnom dizajnu. Previse zrtvovanja IPC-a zarad visokih taktova. Rezultat toga je neizbalansiran proizvod koji vrlo retko gde nudi performanse.

Kako u istom 90nm procesu Pentium M Banias nema problem sa leakage-om, grejanjem i IPC-om. Jednostavno, mikroarhitektura je problematicna.

Pa kako nije bio problem, kad se Prescott topio u realnom vremenu?

Jednostavno su preterali, a to proizvodni proces nije mogao da isprati (Prescoti su dogurali do 4 GHz, ako me pamcenje ne vara). Koliko je meni poznato, netburst arhitektura je trebala dalje da bude razvijana u TeraHertz tehnologiji... E sad, verovatno im se to nije isplatilo, ili su imali nekih problema.

krang · 25.08.2011.

Alk0 je napisao(la):
Pre ce zafaliti jezgra nego brzina, tako da gledamo samo u kvadove, heksove i oktove sada

+1

Kao sto se i govorkalo, Frostbyte 2 enginy ce koristiti vise od 4 jezgra, znaci vec od BF3 ce biti itekakvog benefita od hexa i octocore-ova, a u svakom slucaju vise nego od puke frekvencije.

http://battlefield-srbija.com/vesti/107-maine-koje-e-pokretati-bf3-na-gamescom-u

AMD Bulldozer [official thread]

CPU Guru

PCAXE Member

CPU Guru

PCAXE Member

Moderator

CPU Guru

Display Guru

CPU Guru

Display Guru

PCAXE Member

CPU Guru

PCAXE News Guru

Display Guru

PCAXE Member

CPU Guru

PCAXE Member

PCAXE Member

PCAXE Member

PCAXE Addicted

PCAXE Member

PCAXE Addicted

CPU Guru

PCAXE Addicted

PCAXE News Guru

PCAXE Member