L3 keš, ring bus, system agent…
Jezgra, memorijski kontroler, integrisani GPU i Last Level Cache – LLC su kod Sandy Bridge-a povezani pomoću 256-bitnog ring-busa. Ring-bus, odnosno ring-interconnect kako ime kaže poseduje topologiju prstena. Oko L3 keša nalazi se interkonekcija kružnog oblika, gde je za svako jezgro i GPU korišćen po jedan čvor za povezivanje prstena sa jezgrima, GPU-om i sistemskim agentom. Ukupan broj čvorova ili agenata je šest. Četiri za svako jezgro ponaosob, jedan za GPU i jedan za integrisani northbridge odnosno sistemski agent (IMC). Interkonekcijski prsten se sastoji zapravo od četiri prstena od kojih svaki ima određenu funkciju: request, snoop, acknowledge i data prsten širine 32 bajta (256-bita).
Zajedno ova četiri prstena su odgovorna za interkomunikaciju između jezgara, keša, sistemskog kontrolera (agenta) i GPU jezgra. Protokol po kojem rade je sličan QPI linku sa nekim dodatnim mogućnostima. Prstenovi rade po principu pipeline-a i rade na frekvenciji jezgara. Protok raste sa povećanjem broja čvorova-agenata.
Skaliranje ne mora da bude idealno zbog topologije, jer podaci koji putuju kroz prsten mogu da blokiraju rad drugih agenata. Rešenje dosta podseća na IBM-ovu Token ring topologiju LAN mreže, čije su prednosti u tome što je mreža strogo uređena i svaki uređaj ima pristup svom tokenu.
Ovakav tip mreže bolje funkcioniše od klasične magistrale pod velikim opterećenjem. Ne zahteva specijalni arbitar, unutar mreže (server) koji bi bio odgovoran za konektivnost između uređaja. Isto tako i unutar procesorskog jezgra, za razliku od Nehalem i AMD K8/K10 koji poseduju CrosSandy Bridgear X-bar interfejs – arbitar, kod Sandy Bridge-a ceo saobraćaj između jezgara, L3 keša IMC-a i GPU-a se odvija putem interfejsa (tokena) i prstenaste magistrale. Ring-bus magistrala je odavno korišćena unutar ATi-jevih GPU-ova. Svaki od interfejsa povezuje po jedno jezgro sa po jednim isečkom L3 keša. Konkretno to su isečci od po 2MB. Za četiri jezgra imamo četiri interfejsa i ukupno 8 MB L3 keša. Svaki isečak L3 keša može da isporuči do 32 bajta podataka. Sve fizičke adrese su distribuirane kroz isečke keša sa jedinstvenom hash funkcijom. Particionisanje podataka između keš isečaka upošćava koherenciju, povećava dostupan bandwidth. Svaki isečak L3 keša poseduje zaseban keš kontroler i povezan je sa ring interfejsom za konkretan deo L3 keša. Keš kontroler je odgovoran za izdavanje zahteva za mapiranje fizičkih adresa i održavanje koherencije. L3 keš je inkluzivan. Latencija L3 keša je značajno smanjena u odnosu na Nehalem, sa 35-40 ciklusa na 26-31 ciklus. Razlozi za smanjene latencije L3 keša leže u nekoliko faktora. Svaki isečak keša je daleko manji od ukupne veličine Nehalemovog L3 keša. Pristupne latencije nizovima podataka i tagovima su smanjene. Prsten i L3 rade na brzini jezgara, što je možda i najbitniji faktor u smanjenju latencije L3 keša. Latencija prstena će biti u porastu ukoliko se doda još agenata. Svaki hop na prstenu dodaje još jedan ciklus. Latencija zavisi od relativne pozicije jezgra u odnosu na isečak keša. Primera radi, najveća latencija će biti ako jezgro br. 4 pristupa isečku L3 keša broj 1. Teoretski na 3.4 GHz Core i7 2600K ima protok ka L3 kešu od 435 GB/s. Do ove cifre se došlo tako što je frekvencija od 3400MHz pomnožena sa 32 bajta i sa 4 jezgra.
System agent sadrži sve što je izvan jezgara, L3 keša i grafičkog jezgra. U prethodnoj generaciji se ovo zvalo „uncore“. Kod AMD-ovih procesora se ovo zove integrisani northbridge. Sistemski agent sadrži PCU – power control unit, PCI-Express 2.0 interfejs, kao i DMI – direct media interface kao I/O port ka southbridge-u i perifernim uređajima na matičnoj ploči.
PCU je odgovoran za „Turbo mod“, dinamičku promenu frekvencije i napona za jezgra, keš i grafiku. DFVS – Dynamic Frequency Voltage Scaling je veoma sofisticiran. Omogućeno je podizanje radne frekvencije i napona ali je ovo limitirano specifikovanom termalnom disipacijom. Ukoliko disipacija prelazi određenu granicu, procesor obara radnu frekvenciju.
Klik za veću sliku |
U zavisnosti od uslova rada, moguće je prekoračiti TDP do 25 sekundi pre nego što se vrati u normalne okvire termalne disipacije. Da bi overklokovali ovaj procesor potrebna vam je matična ploča na kojoj je moguće povećati maksimalan TDP. Ovime se otključava overklok potencijal procesora. Povećanjem TDP-a u BIOS-u i podizanjem množioca za turbo mod postiže se overkloking. Ukoliko samo promenite množilac za Turbo mod PCU će konstantno throtlovati procesor na standardni, a možda čak i niži klok od standardnog, ukoliko je podignut radni napon. Ovakav način rada power managemant-a donosi potpuno novi pristup u overklokingu. SANDY BRIDGE dinamički menja frekvencije jezgara i GPU-a. S’ obzirom da je GPU integrisan na procesorskom jezgru, sada se o power managemantu GPU-a stara PCU, a ne softver, tj. sistemski drajver.
Turbo mod je poboljšan u odnosu na prethodnu generaciju zahvaljujući naprednijim algoritmima za termalni menadžment u novom PCU. Algoritam funkcioniše na principu pronalaženja prosečne vrednosti termalne disipacije. Ukoliko imate bolje hlađenje, procesor će brže raditi.
Tako na primer Core i5 750 koji radi na 2,66 GHz dostiže 2,8 GHz sa 3 ili 4 aktivna jezgra ili 3,2 GHz sa 1 do 2 aktivna jezgra. Sada sa novim turbo modom 2.0 Core i5 2500K sa baznim klokom od 3,3 GHz radi na 3,4 GHz sa sva četiri aktivna jezgra i do 3,7 GHz sa jednim aktinim jezgrom.
Svako od četiri jezgra u procesoru ima svoj „power gating“ pa je moguće potpuno isključivanje prilikom neaktivnosti. Grafički čip ima svoj izvor energije i ne koristi izvor energije kojeg koriste procesorska jezgra. L3 keš i ring-bus se ne isključuju jer su deljeni resurs. Sistemski kontroler (system agent) ostaje stalno uključen jer on sadrži u sebi PCU (power control unit) i prima klok signal putem DMI interfejsa.
Dodaj komentar