Számítógép architektúrák v2

I.

Bevezets

Trtneti ttekints A szmols felgyorstsra hasznlt eszkz: Abacus ie. 5 vezred - Rmai Birodalom XX. szzad - zsiban a mai napig. Az abakusz kori (valsznleg mezopotmiai) eredet egyszer szmolsi segdeszkz. Rudakon, drtokon vagy hornyokban ide- oda mozgathat golykat tartalmaz. Az egy-egy rdon lv golyk helyzete egy-egy szmjegyet, a rudak egy-egy helyirtket jelentenek. gy egy hatsoros (hat rudat tartalmaz) abakuszon a legnagyobb brzolhat szm a 999 999. Az sszeads s a kivons igen egyszeren s gyorsan elvgezhet abakusszal, a szorzs s az oszts sokkal krlmnyesebb. Az abakusznak igen nagy elnye, hogy az analfabtk is tudtak vele szmolni. A legrgebbi megolds az volt, hogy egyszeren a fldre hztak nhny vonst az alkalmi szmols cljra. Hrodotosz lersa szerint mr az egyiptomiak hasznltak ilyet. A vonalak jelentettk az 1-es, 10 -es, 100-as, stb. helyirtkeket, a kztk lv hzag pedig az 5-t, 50-et, 500-at, stb. A szmokat kavicsokbl raktk ki, mindegyik helyirtkre a megfelel szm kavicsot. Hasznltak ilyen clra porral bortott tblt is. Ezt a fajta vonalas abakuszt hasznltk szerte Eurpban a rmai szmokkal val szmols idejn. Az eredmnyt igen knny volt lerni rmai szmokkal. A grgk, perzsk, rmaiak mr lland eszkzt, bevsett vonalakat vagy csatornkat tartalmaz tblkat s ugyancsak lland, a tblhoz ill mret kveket hasznltak a szmolshoz. A kavics latin neve calculus. A rmai abakuszon egy helyirtken 4 darab egyes rtk s egy darab ts rtk goly van, akrcsak a szorobnon. Ezeken a tblkon mr megtallhatk a trtszmok is. A drtra fztt golykat tartalmaz vltozat a TvolKeleten fejldtt ki. A kutatsok szerint Knban mr a VI. sz.-ban is ismertk, de igazn a XII. sz.-tl terjedt el. A knai vltozat, a szuan-pan, vlasztlcet tartalmaz. A vlasztlc alatt 5 db, darabonknt 1-et r goly van, a msik oldalon pedig 2 db, de mindkett 5-t r. Ennek letisztultabb vltozata a 4+1 felpts japn szorobn, hiszen ennyi goly is elg a 9-es szmjegy brzolshoz. Szamoszi Arisztarkhosz (kb. i. e. 310, Szamosz - kb. i. e. 230, Alexandria) grg matematikus s csillagsz. volt az els olyan tuds, aki Athnban mi- 2000 vvel Galileo Galilei eltt is azt tantotta, hogy a Fld a Nap krl kering s sajt tengelye krl forog - maga a Nap pedig nem istensg, hanem csak egy izz kgoly. E tanrt, Kleanthsz istentelensggel vdolta, ezrt el kellett meneklnie a vrosbl. Hromszgels mdszerekkel szmolta ki elszr elvileg helyesen, de a mrsek kezdetleges technikja miatt jelents hibkkal a Nap s a Hold tvolsgt. Arisztarkhosz rjtt, hogy trigonometriai mdszerekkel meghatrozhat a Hold s a Nap relatv tvolsga olyankor, amikor ezek a Flddel egy derkszg hromszg cscspontjain helyezkednek el gy, hogy a derkszg a Holdnl van (teht els s harmadik holdnegyed idejn). Ezt megmrte s gy tallta, hogy a Hold ilyenkor a Naptl 87 foknyira ltszik az gen, s ebbl kiszmolta, hogy a Nap mintegy hsszor van messzebb

tlnk, mint a Hold. Arisztarkhosz mg tbb rdekes ttelt is kimondott pl.: A Hold a Naptl nyeri fnyt. Alexandriai knyvtr Az kori vilg legnagyobb knyvtrt A Kr. e. 3. szzadban hoztk ltre Egyiptomban I. Ptolemaios utastsra, hogy az addig tbbnyire a templomokban rztt tekercseket egy helyen gyjtsk ssze. Fnykorban 700.000 tekercset riztek benne. A knyvtrban azonban nemcsak gyjtttk a tekercseket, viasztblkat, hanem az rnokok msolatokat is ksztettek rluk, illetve rnokokat kldtek ki a fontos mvek lemsolsra s knyvtrba eljuttatsra. A knyvtr majdnem 1000 ven keresztl mkdtt (sajnos egyre kevesebb tekercs birtokban)! Alexandriai Knyvtrban trolt hrom vezred tudsnak egy rsze gett hamuv ie. 48-ban. Amikor Julius Caesar Alexandriba rkezett, az egyiptomi papok felgyjtottk a knyvtrat, hogy a tuds ne jusson a barbr rmaiak kezre. A knyvtrban rztt 700 000 tekercsbl 40 000 tekercs megsemmislt. Marcus Antonius jjptette s Kleoptrval val eskvje alkalmbl 200 000 pergament ajndkozott az elgett kszlet ptlsra a grg Pergamon knyvtr kszletbl. Egszen isz. 389-ig virgzott az intzmny, mikor egy keresztny sereg a keresztny I. Theodosius csszr parancsra knyvgetst rendezett. Mint eretnek irodalmat, mglyra vetettek tbb mint 100 000 papirusztekercset. (Agra c. film). Alexandria isz. 646-ben kerlt Omar kalifa kezre. A vrost elfoglal hadvezr krdst kldtt a kalifhoz: mi legyen a hres knyvtrral? Omr kalifa vlasza: Ha azok a mvek ellentmondanak a Kornnak, meg kell ket semmisteni, hisz hazudnak. Ha ugyanazt tartalmazzk, ami a Kornban is ll, akkor pedig feleslegesek... A kteteket a vrosi frdk ftsre hasznltk fel. A knyvtr megsemmislsvel rengeteg, ms helyen nem fellelhet ismeretanyag veszett el vgleg. Az els mechanikus szmolgp ie. 82 Rhodos szigetn jelenik meg. (Antikythera) 37 bronz fogaskerkkel mkdtt. Az Antikythera-mechanizmus a Naprendszer ciklusait kveti nyomon, adott gitestek elhelyezkedst szmtja ki - a Napt s a Holdt biztosan - s a feltevsek szerint kpes csillagszati jelensgek elrejelzsre is. Segthetett az olimpiai jtkok idejnek kiszmtsban. A Napier plcikk John Napier Murchiston. A szorzs s az oszts elvgzsnek felgyorstsra. Edmund Gunter (1581-1626) 1620-ban logaritmikus szmollcet szerkesztett (logarlc). Az 1980-as vek elejig, mg kzpiskolai tananyag volt a logarlc hasznlata. A logarlc lehetv teszi klnbz matematikai mveletek gyors, 3-4 szmjegy pontossg elvgzst. Szabvnyos logarlcek esetben az elvgezhet mveletek a kvetkezk: szorzs, oszts, ngyzetre-, kbre emels, ngyzet, illetve kbgyk vonsa, logaritmus szmts, trigonometriai fggvnyek kiszmtsa. Mkdsnek alapelve, hogy a szmok szorzatt a szmok logaritmusnak sszegvel, a szmok hnyadost a szmok logaritmusnak klnbsgvel helyettestjk. A logarlc alapja kt, egymson elcssztathat logaritmikus skla. Ezt egsztik ki tovbbi sklk s egy tltsz mozgathat ablak, amelyen hajszlvonalak segtik a sklkon tallhat rtkek pontos belltst s leolvasst. Kt szm sszeszorozshoz, a nyelv (mozgathat skla) kezd rtkt a fix skln a szorzand rtkhez kell mozgatni (pl. 1,6) s ezt kveten a nyelven megkeresni a szorzt (pl. 4,5), s a vele szemben a fix skln tallhat rtk lesz a szorzat rtke. lg(x) + lg(y) = lg(xy)

A szorzat rtknek meghatrozshoz nem elegend a skla leolvassa. A logarlc hasznljnak fejben utnaszmolva, meg kell llaptania a szorzat nagysgrendjt is. A 1,6 x 4,5 szorzathoz ugyangy kell belltani a sklt, mint pl. 160 x 45 vagy 0,16 x 4,5- hz, a felhasznlnak folyamatosan utna kell szmolnia fejben, hogy a helyes eredmnyt megkapja. Osztskor a nyelven (mozg skln) meg kell keresni az osztt (pl. 4,5), ezt szembe kell lltani a fix skln az osztandval (pl. 7,2), s a nyelvnek a kezdeti rtknl talljuk a fix skln a hnyados rtkt. lg(x) - lg(y) = lg(x/y) Pl. 7,2 / 4,5 = 1,6 Az alapvet logaritmikus sklkon kvl a gyakorlatban hasznlatos logarlcek ms sklkat is tartalmaznak. A ktszeres lptk s egyszeres lptk logaritmikus sklk sszevetsvel knnyen lehet ngyzetre emelni s ngyzetgykt vonni. Arra azonban vigyzni kell, hogy pldul 4 s 40 ngyzetgykt mshol kell keresni a fels skln. Ngyzetgykvonsnl a szmot a tizedesvessztl szmtva kt szmjegybl ll csoportokra bontjuk, s ahol a feloszts mi- nem folytatdhat, ott ltjuk, melyik mezben kell keresni a ngyzetgykt. Az els ismert mechanikus szmolgp megjelense: 1617-ben John Napier, ill. 1623-ban Wilhelm Schickard a ngy alapmvelet elvgzsre kpes gpet ksztett. Az tvitelt egy tzfog s egy egyfog fogaskerk segtsgvel valstja meg. Blaise Pascal 1642-ben 8 jegy szmok sszeadsra, kivonsra alkalmas gppel llt el, mely a helyirtkeket tvitelt is meg tudta oldani. 1672- Wilhelm Leibniz tovbbfejlesztse rvn a szorzs s oszts mveletnek elvgzse is lehetv vlt. 1769-ben Kempelen Farkas billentyzetvezrls hangszintetiztort kezdett pteni, amit 1782ben mutatott be. Billentykkel s nylsok (csvek) ujjal val befogsval, illetve egyb mechanikus mdokon kzileg lehetett vezrelni, s mechanikus elveken alapult. Sztagokat s rvid szavakat tudott kimondani. 1786: Johann Mller nmet hadmrnk fogalmazza meg, hogy szksg van a rszeredmnyek trolsra, melyet regiszternek nevez el, s feladatnak az adatok ideiglenes elhelyezst jelli meg. 1820-ban Joseph-Marie Jacquard mechanikus szvgpet ptett, mely automatikusan, kls programozs rvn sztt mintkat. A gpet kartonbl kszlt lyukkrtya vezrelte, amely a mintkat trolta. Charles Babbage 1833-ban az els program vezrelt mechanikus gp tervt ksztette el, melynek vezrlse lyukkrtyn trolt programmal trtnik s 20 jegy szmokkal vgez mveleteket. Elszr (1834) Babbage fogalmazza meg, hogy egy (programozhat) szmolgpnek milyen kvetelmnyeknek kell megfelelnie: ne kelljen mindig belltani a szmokat, meg lehessen adni egyszerre az sszes szmot s mveletet (ez lyukkrtya segtsgvel oldhat meg); legyen utasts (a mvelet a lyukkrtyn); legyen kls programvezrls (a lyukkrtykon trolt utastssorozat, a program); legyen bemeneti egysg (ez a lyukkrtyt olvas berendezs); legyen olyan egysg, amely a kiindulsi s a keletkezett szmokat trolja (memria); legyen aritmetikai egysg, amely szmolgpen bell a mveleteket vgzi el; legyen kimeneti egysg (a gp nyomtassa ki az eredmnyt).

Hermann Hollerith elektromgneses lyukkrtys szmll gpet kszt, mellyel az l890-es npszmlls adatait 6 ht alatt dolgozta fel (43 gp munkba lltsval) a korbbi (l880) 7 v helyett, 500 ember munkjt kivltva. 1938-1941: Konrad Zuse megpti az els szabadon programozhat gpet, a Z3-t. Felptse hasonl a mai gpekhez: processzort (ALU), vezrlegysget (CU), memrit, bemeneti egysget (szalag) s kimeneti egysget tartalmaz. Az egytonns gp nhny ezer elektromgneses relbl llt, replk s raktk tervezshez hasznltk. Egy sszeadst tlag 0.7 mp, szorzst 3 mp alatt vgzett el, a tzes szmrendszerbeli szmokat mr lebegpontos binris brzols tjn kezelte. A Z1 mg csak mechanikus gp volt. A Z2-be mr rels elektromechanikus ramkrket is beptett. 1943-ban az angol titkosszolglat Alan Turing matematikus vezetsvel megptteti a Colossust, ez szintn rels alapon pl fel, s a H. vilghbors nmet katonai rejtjelezkd (ENIGMA) megfejtst segti. 1944 Howard H. Aiken ballisztikai szmtgpe, a Mark I. lvedkplya-tblzatokat szmol. Ez a gp fl fociplya mret volt, 800 km kbelt, vezetket s relt tartalmazott, egy mveletet 3-5 msodperc alatt vgzett el, kpes volt az sszes alapmvelet s komplex egyenletek megoldsra. 1945-47 kztt elkszlt az els elektronikus szmtgp az ENIAC (Electronic Numerical Integrator And Calculator) 30m x 3m x 1m mretekkel, 30 tonna tmeggel 70000 ellenllssal s 18000 db elektroncsvel. 2000x gyorsabb elektromechanikus eldeinl.160 kW-ot fogyaszt, 5 000 sszeadst, 357 szorzst, vagy 38 osztst tud vgezni msodpercenknt, 10 jegyig szmol, 20 regisztere van, 1000-szer gyorsabb, mint a Mark I.2 ra alatt vgez egy feladattal, ami az embernek 200 vig tartana. A 2,4 mter x 5 mteres Harwell mr egy modernebb gp, olyan jellemzkkel, amik mi- a mai szmtgpekre is emlkeztetnek. A relkkel mkd szmtgp memrija kilencszz dekatronbl, azaz villamos impulzusok tzes alap szmllsra hasznlatos elektron sugrcsbl llt. Minden dekatron egy digitet trolt, hasonlan a modern szmtgpek RAM-jaihoz. Az inputot s a mveleteket vezrl programokat papr rizte. 1945-ben Neumann Jnos sszefoglalta s kiegsztette a szmtgpek fejlesztsi elgondolsait: a szmtgp mkdse kzben az utastsok s az adatok bels trolban (memria) trtn trolsa teljesen elektronikus mkds kettes szmrendszer alkalmazsa utastsok egyms utni vgrehajtsa

Neumann elv: A szmtgp olyan elektronikus berendezs, amely az ember beavatkozsa nlkl (automatikusan) kpes adatok feldolgozsra a benne trolt program soros vgrehajtsa alapjn. Szmtgpek genercii

Els generci: 1946-1959-ig. Elektroncs ptelem, gyakori meghibsods, 1000 sszead mvelet/sec. Msodik generci: 1959-1965-ig. Tranzisztor a f ptelem, hosszabb lettartam, kisebb mret, adatok rgztse rszben mgneses elven trtnik. 10 ezer sszead mvelet/sec. Harmadik generci: 1965-1975-ig. Integrlt ramkr (IC) megjelense, 500 ezer sszead mvelet/sec., adattrolsra mgneses httrtrolt hasznlnak, egyszerre tbb felhasznl is ignybe vehette. Negyedik generci: 1975-tl. Mikroprocesszor (tbb IC-t tartalmaz),10 milli (napjainkban tbb 100 milli) sszead mvelet/sec. Hardver: A szmtgpet alkot elektronikus-, elektromechanikus berendezsek sszessge. Szoftver: azon szellemi termkek sszessge, mellyel egy adott szmtgpet mkdtetni lehet. Programok, hozzjuk tartoz adatok, lersok. A szmtgp rendelkezik be- s kiviteli egysgekkel, amelyek segtsgvel a program s a feldolgozand adatok bevihetk, ill. a vgrehajts eredmnye a klvilggal kzlhet. A gp ltalban csak egyszer logikai s szmtsi mveletek elvgzsre kpes, de a legbonyolultabb feladatok is visszavezethetk elemi mveletek sorozatra.

Trolegysg (kzponti memria): trolja a vgrehajtand program utastsait, valamint az utastsok ltal feldolgozand adatokat. Vezrl egysg (CU=Control Unit): a trolt program utastsait egyenknt sorra vve oldja meg a kvnt feladatot. Egy utasts szmll regiszter trolja a soron kvetkez utasts trolbeli helynek cmt. Aritmetikai s logikai mveletvgz egysg (ALU):a program utastsai ltal megkvnt aritmetikai s logikai mveletek elvgzsre szolgl.

Input/Output egysgek (perifrik): az adatok s a program bevitelre, ill. az elvgzett feladat eredmnynek kivitelre szolglnak. A kzponti egysg (CPU=Central Processing Unit) foglalja magban a vezrl egysget s az Aritmetikai s logikai mveletvgz egysget (ALU), melyet processzornak neveznk. Az egyes egysgeket egy snrendszer (bus system) kti ssze, mely gyors adattvitelt biztost. Tpusai: ISA, PCI, SCSI, PCMCIA, stb. A snrendszer egy szabvnyos vezetkrendszer, amely, adat, cm s vezrljel vezetkeket tartalmaz. Adatsn 16, 32 esetleg 64 vezetket tartalmaz, az adatokat ez kzvetti az egysgek kztt. Lgyegben brmely kt egysg kztt kpes adatforgalmat lebonyoltani (pl. processzor-memria, memriaperifria, processzor-perifria). Cmsn A memria s a perifrik cmeit tovbbtja, ahonnan/ahova az adatot tovbbtani kell. Vezetkeinek szma ltalban 32.Ez meghatrozza a cmezhet tartomnyt. Vezrlsn Vezrl jeleket tovbbtanak az eszkzk egymsnak a gp sszehangolt mkdse rdekben.

A helyi snre (local bs) a processzor, a koprocesszor (segdprocesszor lebegpontos mveletek vgrehajtsra) s bizonyos snvezrl ramkrk csatlakoznak. A helyi sn gyorsabb mkds (100MHz) a rendszersnnl, hiszen csupa gyors eszkz kapcsoldik r. A rendszer sn lassbb mkds. Tbbfle szabvnyos snrendszert (akr egy gpen bell is) hasznlhatnak. Pldul a PCI sn rajel frekvencija 33MHz. A processzor, a memria s nhny vezrl egysg ltalban a szmtgp alaplapjn tallhat. Az alaplapon nhny (6-8) bvt csatlakozt helyeznek el, amelyekbe a perifrilis egysgek vezrl krtyit illesztik (monitorvezrl, hlzati vezrl). A trolt utastsok tartalmazzk: a mveleti kdot (mit kell csinlni),

a kt adat trbeli cmt (mely adatokkal) s a kvetkez mveletet

Vezrl egysg (CU=Control Unit) Kt fontos regisztere: Az utastsszmll regiszter (PC=Program Counter). A program kezd cmt, majd ksbb mindig a soron kvetkez utasts cmt trolja. Az utasts regiszter (IR=Instruction Register) az ppen vgrehajtand utastst tartalmazza. A program vgrehajtsa az albbi mveletek automatikus ismtlsbl ll: A PC ltal kijellt memriacmrl betlti a vgrehajtand utastst az utasts regiszterbe. rtelmezi az utasts mveleti kdjt (operation code), majd ennek alapjn utastja az aritmetikailogikai egysget a kijellt mvelet vgrehajtsra. A PC tartalmt 1-el nveli, hogy az a kvetkez utastsra mutasson. Aritmetikai-logikai mveletvgz egysg (Arithmetic-Logic Unit) Egyik fontos regisztere az akkumultor regiszter (ACcumulator Register). Az egyik operandust (adatot), majd a mvelet eredmnyt trolja. A mvelet msik operandusa a memriban van, s cmt az utasts tartalmazza. Az utasts feldolgozsnak fzisai: Az 1. utasts cmnek megadsa Az utasts cmnek kijellse a memriban Az utasts kiolvassa a memribl, s bersa a vezrlegysg IR regiszterbe Az operandus cmnek kijellse Az operandus beolvassa s trolsa az ALU akkumultor regiszterben A mveleti kd alapjn az ALU elvgzi a mveletet Az eredmny visszatrolsa a memriba Alaplap Az alaplap egy integrlt ramkrkbl sszelltott lap, mely tartalmazza a szmtgp mkdse s vezrlse szempontjbl meghatroz egysgek csaknem mindegyikt. A konfigurcis lehetsgeket egy hozz mellkelt fzet tartalmazza. BIOS (basic input/output system) Feladata a hardver tesztelse s az opercis rendszer betltse Processzor Fbb jellemzi: rajel frekvencia: az alaplapon tallhat rajel-genertor lltja el. Megmutatja, hogy msodpercenknt hny elemi mveletet kezdhet a processzor Snslessg (bs szlessg): Az egyszerre elkldhet adatbitek szma Mveleti sebessg (MIPS=Millions of Instruction Per Second): A vgrehajtott utastsok szma msodpercenknt

A processzorok fejlesztse sorn szmos, az architektrt rint jtst vezettek be a teljestmny fokozsa rdekben. Ilyenek: Az utastsok elre beolvassa (pre-fetching). A program vgrehajtsa sorn a kvetkez vgrehajtand utasts nagy valsznsggel az ppen vgrehajtott utastst kvet utasts a memriban. Az utasts vgrehajtsa kzben a kvetkez utasts mr beolvashat s a gyorst (cache) trban trolhat. Futszalag elv (Pipelining) A processzor mikroarchitektrjt rint technika. Az utasts vgrehajtst egymst kvet elemi mveletek sorozatra bontja, melyek a processzor klnbz erforrsait veszik ignybe. Teht a processzor az elemi mveletek szmtl fggen egyszerre tbb utasts klnbz fzisainak vgrehajtsn dolgozik. Egy-egy utasts vgrehajtshoz szksges id ugyanannyi marad, de gyakrabban fejezdik be egyegy utasts vgrehajtsa.

Superpipeline A superpipeline-elv megvalstsnl a Pentium futszalagjnak hosszt 5-rl 14 lpcssre fejlesztettk (a Pentium 3-ban 10, a Pentium 4-ben 20, majd 31 lpcss futszalag tallhat), ezzel elrtk, hogy a feldolgozs (utasts behvs, dekdols s regiszter behvs, vgrehajts, eredmny visszars) tbb lpcsben hajtdjon vgre. Minl tbb lpcss a futszalag, azaz minl egyszerbb rszegysgekbl pl fel, annl magasabbra emelhet az rajel. Elgazs elrejelzs (branch prediction), vagy spekulatv vgrehajts A futszalag elven mkd processzorok elkezdik a kvetkez utasts vgrehajtst, mieltt befejezdne az elz. Az elgazs elrejelzs olyan technika, amely a program eddigi futsbl megksrli megjsolni a kvetkez utastst egy elgazsnl (ma mr ~90%-os sikerrel) s ennek eredmnye alapjn folytatdik a vgrehajts abban a remnyben, hogy az elrejelzs j volt. Ha j volt, akkor a CPU sok-sok ciklusnyi idt takartott meg, ha nem, a megkezdett kvetkez utasts (ok) vgrehajtst abba kell hagyni, a processzor llapott vissza kell lltani, majd knytelen a msik gon jrakezdeni a vgrehajtst, ami a futszalag hossza miatt nagy kiesst jelent. Soron kvli (out-of-order) vgrehajtsA korszer processzorok tbb mveletvgz egysggel rendelkeznek, amelyek egyszerre tbb utasts aritmetikai/logikai mvelett hajtjk vgre. A mveletvgz egysgek jobb kihasznlsa rdekben a processzorok a fordtprogram ltal generlt

utasts sorrendet megvltoztathatjk. Ha egyes utastsok szmra az operandusok mg nem llnak kszen, a mveleti vgeredmnyek kivrjk, hogy a programkdban elttk tallhat, de ksbb operandushoz jutott utastsok eredmnyeit tvegyk a regiszterek. Kzben a programban ksbb lv utastsok vgrehajtdhatnak, ha minden adatuk mr elrhet. Ez cskkenti a fut szalagvrakozsokat, s magasabb rajelek elrst teszi lehetv. Utasts cache (gyorsttr)A cache a processzorban vagy kzvetlen kzelben lv kis kapacits, gyors mkds memria, amely a vgrehajtott utastsokat trolja. Ha a program vgrehajts sorn az utastsok ismtelten vgrehajtdnak (pl. ciklusok), a processzor az utastst mr a cache-bl veszi, nem a lassbb mkds ftrbl. Szuperskalr mkds: A processzor azon kpessge, hogy egyszerre tbb utastst is kpes vgrehajtani. A Pentium processzor pldul 2 vgrehajt futszalaggal (pipeline) rendelkezik, gy a szuperskalr szintje 2. A Pentium Pro 3 utastst hajt vgre rajel ciklusonknt, gy a szuperskalr szintje 3. Hyper-Threading (Intel) Tbb programszl prhuzamos vgrehajtsa. A Hyper-Threading technolgival rendelkez processzorok gy jelennek meg a programok szmra, mint tbb logikai egysg. Az opercis rendszer s a feladatok mint kt-kt klnll logikai egysget programozhatnak, majd a processzor vgrehajtja a kt logikai egysg feladatait, ez a programok szmra mint valdi prhuzamos vgrehajts fog ltszani. HyperTransportnak 3.0 (AMD) A kezdeti 200 megahertzes buszsebessghez kpest mr 2,6 gigahertzes sebessggel kommuniklhat a processzor a szmtgp tbbi alkatrszvel, azaz irnyonknt 20,8 GB/s-os svszlessggel rendelkezik. Tbb magos rendszereknl az sszekapcsolt processzorok beleltnak egyms memrijba. Gyorsttr (cache) A gyorsttr egy nagy sebessg memria a CPU s a ftr (RAM) kztt. A fmemria DRAM technolgival kszl, amely viszonylag lass mkds (az elrsi ideje nagy). A processzornak vrakoznia kell ("wait state") a memribl rkez adatra vagy utastsra, vagy hogy az eredmny berdjon a memriba. Ha a processzornak utastsra/adatra van szksge, elbb a gyors mkds cache-ben keresi. Ha nem tallja, akkor fordul a fmemrihoz, majd a beolvasott utastst/adatot a cache-ben is elhelyezi.A cache lehetv teszi, hogy a processzor teljes sebessggel dolgozzon (zero wait state). A cache set-ekre (blokkokra) van osztva, ezek a blokkok pedig n darab cache-vonalat (cellt) tartalmaznak. Az adott szm memriablokkhoz hozzrendeldik egy cacheblokk, gy az adott memriablokkbl n darab cm trolhat el a cache-blokkban. Level 1. s Level 2. cache Az 1. szint cache jellemzi:igen gyors mkds (10 nanosec), a processzor vrakoz llapot nlkl elri a tartalmt,a processzorral egy tokban helyezkedik el,mrete 4-64 KB. A processzor elszr az 1. szint cache-ben keres. Ha nem tallja a keresett adatot, akkor fordul a 2. szint cache-hez (rgen az alaplapon helyezkedett el, jelenleg mr egy tokban a processzorral). A 2. szint cache nagyobb (128 KB-8 MB) , s lassbb mkds (20-30 nanosec.), mint az 1. szint cache (ma mr ez is a processzor rajeln fut). Ha a msodik szint cache-ben sincs meg a keresett cm memria rekesz tartalma, akkor fordul a processzor a fmemrhoz (-60 nanosec.). Visszars mdjai

Egy program utastsai nem rdnak fell. Ezrt az utasts cache tartalma csak akkor vltozik, ha egy vgrehajtand utasts nincs bent a cache-ben, s be kell hozni a ftrbl. Ekkor termszetesen a cache- bl egy rgta nem hasznlt ttelt trlni kell.Az adat cache tartalma a memria kirs sorn frissl. A memriba rskor a processzor (cache-hit esetn) a cache-ben vltoztatja meg az adatot.A cache s a ftr konzisztencijt biztostani kell, ezrt a megvltozott adatot a ftrba is ki kell rni. Kt mdszer van: Write through (memria trs) Write back (memria kirs) A memria trs mdszer a cache-bejegyzst s a ftrat egyidejleg frissti, mg a memria kirs mdszer a ftrat csak akkor frissti, ha a cache- bejegyzs helyre j adat kerl.Mr az ezredforduln ltszott, hogy az rajelet nem lehet a vgtelensgig emelni, br a Pentium 4 bevezetsvel mg az Intel abban bzott, hogy a 10 gigahertz elrhet. Aztn a ngy gigahertz fel kzeledve olyan problmk lptek fel, amilyenekrl korbban nem is tudtak a mrnkk. j megoldst kellett keresni. Ha nem tudjuk tovbb nvelni a processzor teljestmnyt, ptsnk be kettt. Ennek megfelelen jttek a ktmagos chipek. II. Processzor Fbb jellemzi: rajel frekvencia: az alaplapon tallhat rajel-genertor lltja el. Megmutatja, hogy msodpercenknt hny elemi mveletet kezdhet a processzor Snslessg (bus szlessg): Az egyszerre elkldhet adatbitek szma Mveleti sebessg (MIPS=Millions of Instruction Per Second): A vgrehajtott utastsok szma msodpercenknt TDP (Thermal Design Power/Point) Intel: a TDP az a maximlis hmennyisg amit a processzor termelhet nyilvnosan elrhet szoftverek norml zemmd futtatsval. Nem zrja ki azt, hogy bizonyos esetekben a hfejlds ne lpje tl ezt az rtket, ekkor a "Thermal Monitor" szolgltats kzbeavatkozik (lelltja a processzort vagy lecskkenti a frekvencijt). AMD: a TDP a megengedett maximlis processzorhmrskleten a felvehet maximlis ram s a maximlis feszltsg egyttese, soha nem haladhatja meg a tnyleges htermels a TDP-t (el sem rheti azt). Moore trvny (1965 ta) Az integrlt ramkrkben lv tranzisztorok szma (ezltal durvn a szmtsi teljestmnye) nagyjbl ktvente (eredetileg 18 havonta) megduplzdik. Az utbbi vekben mr nehznek tnt a betartsa, de valamilyen technolgiai jtsnak ksznheten tovbbra is rvnyes. Hyper-Threading

A Hyper-Threading alkalmazsval egy fizikai magban a feldolgozs sorn keletkez resjratokat is kihasznljk egy msodik szl (angolul thread) hozzadsval. Az els Hyper-Threadingre kpes CPU-t 2002- ben dobta piacra az Intel, melyben a hossz futszalagja miatti sok resjrat kikszblse volt a cl. A futszalagot fel lehetett tlteni egy msik szl utastsaival, mely a mr rendelkezsre ll erforrsok hatkonyabb kihasznlst tette lehetv minimlis szilciumtbblettel (-5%) magonknt. Egy mag kt teljesen egyenrtk vgrehajt szllal rendelkezhetett, amiket az opercis rendszerek egy-egy teljesen klnll processzorknt/magknt rzkeltek (logikai processzor=LP). A processzor kt szimmetrikus llapottrol, a kls egysgek szmra hozzfrhet egysggel rendelkezik, melyek osztoznak a processzor vgrehajt egysgein. Az opercis rendszer s a feladatok mint kt-kt klnll LP-t programozhatnak, majd a processzor vgrehajtja a kt LP feladatait, ez a programok szmra mint valdi prhuzamos vgrehajts fog ltszani. Minden LP-nek megvan a maga interrupt vezrlje, ami gy mkdik, hogy a processzor kls eszkz ltal adott megszaktskrs hatsra abbahagyja az aktulis programfolyamatot, elkezd egy msik, az adott eszkzhz elzetesen hozzrendelt kdot vgrehajtani, majd annak vgeztvel visszatr az eredeti programrszlethez ott, ahol abbahagyta. Pldul az egr megmozdtsakor a processzor abbahagyja a vgrehajtst, a mutat koordintit frissti, majd folytatja az eredeti programot. A cl, hogy az egyik LP vrakozsa esetn (cache hibk, rossz jsls, eredmnyre vrs) a msik gond nlkl folytathassa a mveleteket. Ehhez az szksges, hogy a bels mag sszes troljt ne hasznlhassa egyszerre egy szl, ami elrhet trhasznl at-1 i m i ttcl vagy pedig a trolk megosztsval.

Ktmagos processzorok Intel Pentium D, vagy Pentium Extreme Edition

2,8 - 3,2 GHz, 2x16 KB L1, 2x1 MB L2, nem tmogatja a Hyper-Threading technolgit, kt Pentium 4es core volt "sszedrtozva,, Intel Core 2 Duo feleannyit fogyaszt, mikzben hetven szzalkkal gyorsabb, mint az eld Pentium D; a teljestmny nem csak az rajeltl, hanem az rajelenknt vgrehajtott utastsok szmtl is fgg (vgre rjtt az Intel is ; az Intel 2000-tl 2005-ig azt lltotta, hogy csak a megahertzek szmtanak) Intel Core 2 Duo A Core mikroarchitektra t legfbb jtsa a kvetkez Intel Wide Dynamic Execution Intel Advanced Digital Media Boost Intel Advanced Smart Cache Intel Smart Memory Access Intel Intelligent Power Capability

Intel Wide Dynamic Execution A Dynamic Execution (dinamikus vgrehajts) olyan technikk kombincija (tbbszrs elgazsbecsls, adatfolyam-elemzs, spekulatv vgrehajts), melyet az Intel anno a P6-ban mutatott be (Pentium Pro). A Core esetben az Intel ezt a rszegysget ismt tovbbfejlesztette, gy megszletett a Wide Dynamic Execution. Ez rajelenknt tbb utasts vgrehajtst teszi lehetv, aminek hatsra gyorsul a vgrehajts sebessge s javul a fogyasztsi mutat. Az Intel Mobile s NetBurst mikroarchitektra (s az AMD K8 is) egy idben hrom x86-os utasts vgrehajtsra/dekdolsra kpes, ezzel szemben a Core mr ngyet (egyes esetekben tt) tud elvgezni. Ennek kvetkeztben azonos rajeleket felttelezve a Core gyorsabb, mint az elzleg felsorolt architektrk. A hatkonysg tovbbi nvelse rdekben mg pontosabb lett az elgazsbecsl s nagyobbak lettek az utastspufferek is. A Pentium III 10 lpcss s a Pentium 4 (Northwood) 20, illetve 31 (Prescott) lpcss futszalagjval ellenttben a Core-ban 14 lpcss pipeline-ok tallhatak. Intel Advanced Digital Media Boost A tovbbfejlesztett digitlis mdiagyorsts azokkal az utastskszletekkel foglalkozik, melyeket ezidig Streaming SIMD Extension (SSE) nven ismertnk. Ezek az utastsok az olyan feladatok elvgzsben vllalnak szerepet, mint pl. vide-, zene- vagy kpszerkeszts, kdolsok, konvertlsok s minden olyan program, melyek kihasznljk az SSE-utastskszletek ltal felknlt lehetsgeket. Ezek a 64 vagy 128 bites integer s lebegpontos operandusok cskkentik az sszes vgrehajtand utasts szmt (egy vektorban vagy tmbben eltrolt sszes adaton egyszerre hajtdik vgre egy utasts), gy nvekszik a teljestmny. Az elz CPU-generciknl egyetlen 128 bites SSE utasts vgrehajtshoz kt rajelciklusra volt szksg, hiszen ezek az egysgek csak 64 bites feldolgozsra lettek felksztve. Ezzel szemben a Core a 128 bites SSE operandusokkal mr egyetlen rajelciklus alatt vgez, ami a korbbi processzorokhoz kpest ktszeres gyorsulst jelent, amennyiben 128 bites SSE utastsokkal dolgozik a processzor (64 bites utastsok esetn a Core 4, az AMD K8 pedig 3 kalkulcival tud vgezni rajelenknt).

Intel Advanced Smart Cache A tovbbfejlesztett intelligens gyorsttr nem ms, mint a Core processzorokban tallhat megosztott, tovbbfejlesztett gyorsttr "beceneve". Intelligens (smart) elnevezst annak ksznheti, hogy a Core-ban a msodlagos gyorsttron a kt processzormag megosztozik. Az Intel gy fejlesztette ki az L2 cache-t, hogy ahhoz a kt mag brmikor hozzfrjen, teht a Core esetben mr nem a rendszerbuszt terheli a kt cache kztti adatforgalom. Ez a megolds egyrszt cskkenti az adatokhoz val hozzfrs idejt (cskkenti a ksleltetst), msrszt hatkonyabb teszi a helykihasznlst, hiszen nem kell dupliklni az adatokat ahhoz, hogy mindkt processzormag szmra elrhet legyen. A Core processzorok modelltl fggen sszesen 2 vagy 4 MB L2 cacheen osztoznak, ezt a vgrehajt egysgek dinamikusan osztjk fel egyms kztt, teht ersen tbbszl alkalmazsok esetben a fentebb vzolt pozitvumokban rszeslnk, a gyorsttr attl fggen kerl felosztsra, hogy az egyes vgrehajt egysgek milyen gyakran szeretnnek hozzfrni a gyorsttrban tallhat adatokhoz. Ugyanakkor az egyszlon vgrehajtott alkalmazsok sorn az egyik processzormag abban a megtiszteltetsben rszeslhet, hogy egyedliknt hasznlhatja akr az egsz msodszint gyorsttrat (ha a msiknak ppen nincs r szksge). Intel Smart Memory Access Az intelligens memriaelrs kt j technolgit takar. Az egyik az Advanced Pre-fetch, amely tovbbfejlesztett elbehvst jelent. A prefetcher-ek detektljk az alkalmazsok adatmozgatsi smit, s a gyakran ignyelt adatokat gyorsabban elrhetv teszik (beteszik a cache- be), ezzel cskkentve a memriaksleltetst. A Core processzorokban sszesen 8 prefetcher tallhat (magonknt 4), 2-2 db az L1 s L2 gyorsttrban. A prefetcherek folyamatosan figyelik, hogy mikor milyen adatokra van szksg, s ennek megfelelen irnytjk az adatforgalmat. Intel Smart Memory Access Az Advanced Pre-fetchen kvl a Smart Memory Access-t egy tovbbfejlesztett Memory Disambiguation (egyrtelmsts) nevezet technolgival is felvrteztk, amely a soron kvli (outof-order) algoritmusok rsi s olvassi hatkonysgt prblja meg nvelni azltal, hogy a LOAD mveleteket a STORE-ok el helyezi. Erre azrt van szksg, mert nem lehet tudni, hogy az egymst kvet LOAD s STORE mveletek fggenek-e egymstl (azaz ugyanazon memriacmre/regiszterre/stb. hivatkoznak-e). A Core architektra eldeihez mrten akr 30-40%kal is gyorsabb lehet abban az esetben, ha az algoritmus jl "jsolt", s az adatok kztti fggsgben ez a "kavar" nem okoz galibt ksbb (vagyis a LOAD utastssal elretlttt adattl a ksbb meghvsra kerl STORE nem fgg). Ha viszont a mvelet nem vgzdik sikeresen, a Memory Disambiguation detektlja a problmt, visszatlti az eredeti adatokat s jraindtja a kdot. A Memory Disambiguation a tovbbfejlesztett elbehvival tud hatkony lenni, utbbi ugyanis kpes elre megjsolni, hogy milyen adatokra lesz szksg a ksbbiekben, ami pont kapra jn a Memory Disambiguation szmra. Ez a pros jelentsen kpes nvelni a processzor s a memria kzti kommunikci hatkonysgt. Intel Intelligent Power Capability

Az intelligens energia-vezrls olyan tulajdonsgok gyjtneve, melyek a htermels kordban tartsrt felelsek. Ultra fine-grained Power Control (precz energiavezrls): a processzormagok kihasznlatlan rszei egyszeren lellhatnak, mikzben a mag ms rszei mg dolgoznak. Split Buses: a processzormagok s a bels adatbuszok feloszthatak tbb kisebb rszegysgre, melyeket gy egymstl elklnlve tud vezrelni (ki-be kapcsolni) egy vezrlramkr. Platformization of Power Management Architecture, hrom rszbl tevdik ssze: - PSI-2 vagyis Power Status Indicator (mobil CPU-k): a processzor jelzi a rendszer fel a terhelst, gy egyttesen kpesek optimalizlni a feszltsgszablyz ramkr s a leadott teljestmny hatkonysgi mutatit. - DTS (Digital Thermal Sensor): a processzorban immr nem egy, hanem tbb hszenzor tallhat, melyek a processzor minden egyes rszn kln-kln felgyelik a hmrskletet. - PECI Interface (Platform Environment Control): a processzor kpes egy kln erre a clra tervezett chipen keresztl a hmrsklettl fggen szablyozni a rendszer tbbi elemt is. AMD Athlon 64 X2 2,2 -2,4 GHz, 2x64 KB L1, 2x1 MB L2, a processzorok ssze vannak ktve. A System Request Interface szolgl a kt processzor kzvetlen kommunikcijra, mg a Crossbar Switch kommunikl a kt mag szmra kzs erforrsokkal. A Pentium D-nek ezen mveletek elvgzshez a rendszerbuszra van szksge (lassabb).Az AMD processzorok a K8-as sorozattl a crossbaron keresztl kommuniklnak egymssal, a crossbar pedig adott rajelen jr: a K8 esetben a CPU rajeln (a KlO-ben ez vltozik), illetve lehetleg minl kzelebb a CPU rajelhez, teht egy nagyon gyors, minimlis ksleltets sszekttetsrl van sz. Az Intel processzorai ezzel szemben a rendszerbuszt hasznljk (Intel Core 2-ig). Pl.: a kzs tok alatt tallhat CPU1/2-es mag elkldi xy adatot a CPU2/1-es magnak a rendszerbuszon keresztl, ehhez a chipsetet is ignybeveszi, ami nagyon lass az AMD megoldshoz kpest. A msik dolog a memriavezrls: a K8 processzorok megjelense ta a memriavezrlsrt a CPU felel, aminek a kvetkezmnye a rendkvl kis ksleltets. Az Intel processzorok ismt csak a rendszerbuszon s a chipseten keresztl knytelenek az adatokat lekrni, ezt a htrnyt a Core a processzorban megtallhat igen hatkony elbehvkkal (prefetch) prblja ellenslyozni. Ngymagos processzorok I. Intel Core 2 Quad (2006 sz) 4x 32 KB Ll, 2x 4 MB L2 cache. Az Intel fogott kt darab ktmagos Core 2 Duo csipet, s kzs tokozsba pakolta ket. A Core 2 Quad kt fele ennek megfelelen sokkal lassabban kommunikl egymssal, mint egy valdi ngymagos processzor rszei tennk. A kt Duo chip Front Side Bus - on keresztl kommunikl egymssal (lass, 1333 MHz). Ngymagos processzorok II. Az AMD a tkletes megoldson kezdett el dolgozni: ngy mag egybecsomagolva, villmgyors kommunikcival. K10, asztali processzor vltozata a Phenom. A K10-et, melyet nem a nullrl indulva alaktottak ki, hanem nagyon sok tekintetben a K8 bevlt

megoldsait vittk tovbb. Az j genercis AMD processzor a K8 architektrval sszehasonltva a kvetkez alapvet jdonsgokat tartalmazza: natv (monolitikus) ngymagos felpts, tovbbfejlesztett elbehvs, elgazsbecsls s gyorsttrak, 128 bites adatfeldolgozs, harmadszint gyorsttr (L3 cache), kibvtett cmfordtsi pufferek (TLB), sideband stack optimizer, magasabb FPU- teljestmny, SSE4a utastskszlet tmogatsa (core 2 duo csak a SSE3-at ismeri), 2 x 64 bites memriavezrl, HyperTransport 3.0, finomtott energiagazdlkods s tovbbfejlesztett virtualizci. A K10 az AMD els ngymagos processzora, mely gymond natv mdon ngymagos, teht egy szliciumlapkn tallhat mind a ngy mag. Ezzel szemben az Intel megoldsa (Kentsfield, Yorkfield, Clovertown, Harpertown) kt darab ktmagos lapkt kt ssze egyetlen tokozsban. A K10 65 nm-es cskszlessgen kszl; 463 milli tranzisztorbl pl fel, mrete pedig 285 mm2. A K10 sszesen 4 x 128 kB L1 s 4 x 512 kB L2 cache-t, illetve 2 MB L3 cache-t tartalmaz (sszesen 4608 kB), szemben a Kentsfielddel, mely 4 x 64 kB L1 s 2 x 4 MB megosztott L2 trral, azaz sszesen 8348 kB cache-sel rendelkezik (a Yorkfielden mr 2 x 6 MB L2 cache tallhat). A K10 memriavezrlje immr kt egymstl fggetlen 64 bites vonalon bonyoltja az adatforgalmat, szemben a K8 128 bites (dual-channel) megoldsval. Ez azt jelenti, hogy lehetv vlik az rsi, illetve olvassi mveletek egy idben trtn vgrehajtsa, illetve mindkt csatorna sajt memriaterlettel rendelkezik, azaz egyazon idben ktszer annyi adat vlik hozzfrhetv a processzor szmra, igaz, feleakkora svszlessg mellett, de ersen tbbszlas vgrehajtsnl (fleg egy ngymagos processzor esetben) ez a megvalsts tnik nyernek (Intelnl adott rajel alatt az adat/cm/utasts-folyam egyszerre csak egy irnyba mozoghat. Termszetesen az adatok egy idben ide-oda szeretnnek vndorolni, gy az a tny, hogy egyidejleg csak egy irnyba mehetnek, igencsak visszafoghatja az j Intel processzorokat). A KlO-ben debtl egy memriarsi krseket gyjt tmeneti trol is. Erre azrt volt szksg, mert mg a (Xeonok ltal hasznlt) FB-DIMM memrik az rsi s olvassi mveleteket kpesek egy idben vgrehajtani, addig a K8 memriavezrlje ezt nem tudja. Ha teht a memriavezrl fel rkezik egy nagy adag rsi s olvassi krs, akkor ezeket knytelen egyenknt vgrehajtani, rengeteg idt elpazarolva a vltsokra. Ezzel szemben a KlO-ben tallhat tmeneti trol begyjti az rsi krseket (ekzben az olvassi mveletek folyamatosan vgrehajtdnak), majd egy pontot tlpve a memriavezrl az sszes felgylemlett rsi krst vgrehajtja, ezzel megsprolva az rs/olvass vltsok idejt. Az adatfeldolgozs az utasts elbehvsval (prefetch) kezddik, ahol a K10 szintn szmos jtst vonultat fel. Az elbehvs sorn az x86-os utastsok az elsszint (Ll) utastscache-bl a dekdol egysgekhez rkeznek, amibl a K7/K8/K10 sszesen kettvel rendelkezik. A KlO-nl a cacheszervezsben s az elgazsbecslsben is komoly vltoztatsokat eszkzltek. Az elgazs-elrejelz puffer kibvlt egy 512 frhelyes indirekt elrejelzvel (amely a tbbirny elgazsok *switch, case+ vgeredmnyre tippel), s megduplzdott, 24 frhelyesre bvl a visszatrsi cmverem mrete (Return Address Stack), amelyben a kzeli s tvoli hvsok cmei troldnak. Vltozott az els- s msodszint gyorsttr is: az egyes processzormagok kt-kt adatibehvval (prefetcher) rendelkeznek (lapknknt sszesen nyolc), melyek immr kzvetlenl az L1 adatcachebe (ksleltetse 3 ciklusid) rjk az adatokat, szemben a K8- cal, amely az L2 cache-be dolgozott (ez persze lassabb, ksleltetse 9 ciklusid). Ha az Ll cache megtelik, akkor a legrgebben hasznlt adat az L2 cache-be kerl (exclusive cache).

Az L1 utasts- s adatcache mrete nem vltozott, de a TLB-ket optimalizltk, s nyolc bejegyzssel bvltek is (40-rl 48-ra). ATLB, azaz Translation Look-aside Buffer egy olyan gyorsttr, amelyben virtulis memriacmekhez tartoz fizikai memriacmek troldnak. Az opercis rendszerek a virtulis memrival gazdlkodnak, ezrt a processzor a virtulis cmek alapjn tudja megcmezni a fizikai memrit. Minl tbb bejegyzs fr el a TLB-ben, a CPU annl gyorsabban fr hozz az adatokhoz. Az L1 utasts- s adatcache szlessge is megvltozott, az utastscache immr ciklusonknt kt 128 bites utasts kldsre, illetve fogadsra kpes, szemben a K8 ktszer 64 bites sebessgvel, s az adatcache is dupljra gyorsult: immr kt 128 bites loadot vagy kt 64 bites store-t tmogat. Az L1 s L2 cache kzti tvonal szlessge szintn megduplzdott (128 bitrl 256 bitre), a msodszint gyorsttr mrete pedig magonknt 512 kB-ban fixldott, a TLB itt is optimalizlson esett keresztl, illetve az adatcache kibvlt nyolc 1 GB-os bejegyzssel (nagymret adatokkal dolgoz adatbziss HPC-alkalmazsoknl jelent majd elnyt). rdekessg, hogy az adatmozgs tvonala a K10-ben az x86-os CPU- knl megszokott sorrend fordtottja. Ez azt jelenti, hogy a memribl az adatok kzvetlenl az L1 cache-be kerlnek, majd onnan az L2-be s az L3-ba. A msodszint gyorsttr gymond victim, vagyis csak az L1 cache-bl kikerl adatokat talljuk meg benne. Amikor egy L2 cache- ben megtallhat adatra van szksg, akkor az tkerl az L1 cache-be, s trldik az L2 cache-bl. Az egyik legszembetnbb vltozs az L3 cache megjelense: a harmadszint gyorsttr megosztott a ngy mag kztt (teht mindegyik hozzfr). Az L3 cache az L2-hz hasonlan victim cache, teht csak az L2 cache-bl kitett adatokat tartalmazza, s majdnem teljesen exkluzv, de vannak olyan esetek is, amikor inkluzvknt mkdik: amikor egy adat az L3 cache-bl tkerlt az L1 gyorsttrba (az L2 mindig kimarad), az adott adatok attl fggen trldnek vagy nem trldnek onnan, hogy ahhoz egy vagy tbb processzormag akar-e hozzfrni. Ha egy, akkor az adat trldik a cache-bl, ha tbb, akkor megmarad. Az L3 cache szerverek esetn elnys nagy adatbziskrseknl. Hrom magos Phenom Ezek a processzorok valjban a CPU-gyrtstechnolgia sajtossgaibl add mellktermkek. Nagy rszk azokat az eredetileg ngy CPU-magot tartalmaz szilciumlapokat kapja majd, melyek elbuktak a minsgellenrzs bizonyos fzisaiban, ugyanakkor a ngybl hrom processzormag mg munkra foghat. Hatmagos Intel processzor Intel V8 Az Intel V8 kt Xeon X5365 processzorral rkezett. Ezek ngymagos, 3 GHz-en fut, 333 MHz-es FSBvel (1333 MHz QPB) s 8 MB msodszint gyorsttrral rendelkez szerverprocesszorok. A Xeon X5365 asztali megfelelje a Core 2 Extrm QX6850, mely hasonl tulajdonsgokkal rendelkezik, de nem tmogatja a tbbprocesszoros mkdst. AMD Phenom II A K10.5-alap processzorok els s legszembetnbb tulajdonsga (a megemelt rajeleket leszmtva) a 6 MB-ra nvelt harmadszint gyorsttr.

Nmileg talaktottk a memriavezrlt: az j csald memriavezrlje a DDR2-es memrikon tl mr a DDR3-as szabvnyt is tmogatja. Az AMD-fle K10.5-ben bemutatkoz "Smart Cache, cache flush on halt" lehetv teszi, hogy a gyorsttrakban tallhat informcikat csak azokbl a gyorsttrakbl olvashassa ki a processzor, melyek ppen mkdsben vannak, azaz egy adat megkeresse sorn egyik processzort sem "bresztik" fel feleslegesen, mr amennyiben az eltte lellt, mert nincs hasznlatban. A lell processzorok els- s msodszint gyorsttljban tallhat informcik a "halt" stdium meghvsa sorn tmsoldnak a harmadszint gyorstrba, gy a processzorokat ksbb "nyugiban" lehet hagyni, ami termszetesen fontos szempont az energiahatkonysg szempontjbl.

Intel Core i7 Az Intel tikk-takk nvre keresztelt taktikja azt jelenti, hogy a pros vekben bemutatkozik egy j architektra (ez a takk), a pratlan vekben pedig megjelenik a piacon ennek az alacsonyabb cskszlessgen gyrtott vltozata (ez a tikk). 2006- ban 2007- ben az Intel elhozakodott a Core architektrval (Merm). bemutatta a Core 45 nm cskszlessgen gyrtott vltozatt, a Penrynt.

2008- ban megjelent a Nehalem, mely egy j fejleszts. Azt az Intel nem tagadja, hogy az j generci alapja a Core architektra, amely a Pentium M-bl fejldtt ki, ennek eldje pedig a Pentium 3 lehetne, ami az 1995-s Pentium Pro jelents talakulson keresztlment, vltozata. Krds: mit vltoztattak meg a Core-on a Nehalem (Intel Core i7) processzor fejlesztsekor? szoks szerint nveltk az adott mennyisg fogyasztsra vettett rajelenknt elrhet teljestmnyt. modulrisan felpl architektra, ahol a komponensekbl knnyedn pthet ssze egy-egy ersebb-gyengbb CPU az egyes rendszerkomponensek sszektsrt felels adatbuszok levltsra kerltek, mostantl nincs mr FSB integrlt memriavezrl megjelense alaposan megvltozott a cache-hierarchia, megjelent a harmadszint gyorsttr jra megjelenik az SMT, azaz a Hyper-Threading technolgia dinamikusan kezelt processzormagok, programszlak, gyorsttrak, interfszek s fogyaszts a SIMD-utastskszletek kibvtse Intel Core i7 processzor felptse Az Intel Core i7 kt fbb rszre oszthat: A magra s minden egybre, ami azon kvl esik (core s uncore).A mag felptsben s mkdsben a legutbbi Core 2-t, a Penrynt kveti, gy maradt a szles utastsdekdol, a mindssze 2 lpcsfokkal megtoldott, de mg gy is rvid futszalag (16 lp-css).Intel processzorhoz a szoksok szerint j utastskszlet- kiegszts is trsul, mgpedig az SSE 4.2, ami 7 j utastst ad a szoftverfejlesztk kezbe.Egy rszk az XML, illetve szvegfeldolgozsra specializldott, tovbb tartalmaz specilis terletekre fkuszl, klnbz mintafelismer instrukcikat is (pl. kzrs felismers, arcfelismers, gnkutats stb.).

A Nehalem processzor hasonlan nagy jdonsga az LSD (Loop Stream Detector) jratervezse. Ez az egysg kpes arra, hogy a programokban lv ciklusok vgrehajtst gyorstsa fel nagysgrendekkel. Az j magnl az LSD egysg az utastsdekdols utn helyezkedik el a sorban, gy mikroutastsokkal kpes dolgozni, vagyis egy ciklus vgrehajtsakor a teljes dekdolshoz hasznlt rsz lekapcsolhat, amivel sok energia megsprolhat. Az x86-os makroutastsok fzijn is javtottak, mr nem csupn a 32 bites, de a 64 bites utastsokat is kpes sszefzni a dekdol, s tbb olyan idelis eset is elfordulhat, amikor egy mag akr t utastst is dekdol, vgrehajt s eredmnyeiket elmenti. Ezt az j felptst a cache hierarchia tformlsa is segti. A cache-hierarchia is jelents talakulson ment keresztl. A harmadszint gyorsttr megjelense jdonsg: 8 MB mret, megosztott a processzormagok kztt s inkluzv, azaz az sszes L1 s L2 gyorsttrban megtallhat informcit trolja: az Intel szerint ez sokkal jobb megolds, mint az AMD ltal alkalmazott exkluzv cache, mert gy az adatkeresglshez szksges forgalom cskkenthet, gy a kihasznlhat terlet viszont kisebb. Az L3 cache-ben val keresglst cache-cellnknt ngy "core valid" bit segti, melyek megmutatjk, hogy a keresett informci megtallhat-e valamelyik gyorsttrban vagy sem. A Core i7-nl ismt tallkozunk a Hyper-Threading technolgival. Ez a fejleszts alkalmas arra, hogy a valjban 4 magos Core i7 processzort a rendszer fel 8 magosnak mutassa. A Pentium 4-nl mr hasznlt SMT (Simultaneous MultiThreading), ami megfelel alkalmazsok esetn akr 10- 18%-ot is gyorstott a rendszer mkdsn, ezttal sokkal kifinomultabb megvalstst kapott, ahogy a szoftvertmogatottsg is sokkal jobb, mint vekkel ezeltt. A HTT jralesztsvel kiaknzhat a radiklisan megnvekedett svszlessg s a nagyobb bels bufferek, a rendkvl gyors utasts-vgrehajtk pedig kzel 100%-os kihasznltsggal futhatnak. Ez a megolds a jelenlegi ngy mag esetn jelentsen javtja a processzor hatkonysgt, ami a PC teljestmnyt akr 20%-kal is nvelheti. A Nehalem az els olyan Intel processzor, amely pont-pont sszekttetsen keresztl kommunikl a rendszer tbbi elemvel, ez pedig a QuickPath Interconnect (QPI). Ez a megvalsts ismers, hiszen az AMD mr a K8-tl kezdve egy ehhez hasonl linket hasznl (HyperTransport). Hatalmas elrelps a Front Side Bs (FSB) s ezzel egytt a processzoroldali QPB (Quad Pumped Bus) megszntetse ami eddig az szaki hidat kttte ssze a processzorral. Ez rendkvl szk keresztmetszet volt, hiszen ezen a maximlisan 12,8 GB/s-os csatornn kellett a memriavezrlvel s egyben az egsz rendszerrel tartania a CPU-nak a kapcsolatot. A Core i7-ben a tokon bellre az Uncore rszbe kltztt a hromcsatorns DDR3 memriavezrl, gy az j CPU-nak a rendszerrel val kapcsolatra (az szaki hdhoz) teljes, 25,6 GB/sos svszlessggel ll rendelkezsre a QPI (QuickPath InterConnect) busz. Ennek ksznheten a CPU kzvetlenl s dedikltan, 25,6 GB/s-os sebessgen ri el a hromcsatorns, DDR3 rendszermemrit, mikzben a rendszerrel is ekkora sebessgen kommuniklhat. Ez nagyban hasonlt az azonos svszlessget biztost, AMD Phenomnl is hasznlt Hyper Transport 3.1-re. Az olcsbb 1156 lb Core i5-s CPU-knl mr csak ktcsatorns DDR3 vezrlt alkalmaz az Intel, m mg ez is sokkal gyorsabb, mint Core 2-es eldje. Az integrlt memriavezrl nem csupn a QPI busz tehermentestse miatt nagyszer jdonsg, de a rendszermemrit is kzelebb hozta a processzormaghoz.

Az LGA1366-os Core i7-be hromcsatorns DDR3 memriavezrlt szereltek, ami maximlisan 25,6 GB/s-os sebessgre kpes - ez pedig a tbbszrse a Core 2 rendszereknl hasznlt szaki hdba integrlt memria kontrollernek. Aki Core i7-re vlt, nem csupn j alaplapot s CPU-t knytelen majd venni, de a hromcsatorns kipts miatt DDR3-as modulbl is hrmat kell vsrolnia, gy 3, 6 vagy 12 GB memria lesz gpben. Ennek kihasznlshoz pedig vltania kell a Windows 64 bites vltozatra. INTEL CORE 2 QUAD N

Az osztott L2 cache s a kls memriavezrl is szk keresztmetszet a rgebbi Intel CPU-knl. ami jelentsen visszafcg(hat)ja a teljestmnyt. AMD PHENOM II X4 Az AMD mr rgta integrlt memriavezrlvel (a Phenom ll-ben DDR3/DDR2-es hibrid) s L3 cache sel operl. Felptst tekintve a Core i7-re hasonlt a CPU. de nem kpes HyperThreadingre. ^ A Nehalem msik nagy jdonsga a fejlett energiagazdlkods. Minden mag, s a magon kvli rsz sajt feszltsgszinttel s frekvencin zemelhet a terheltsg fggvnyben, gy magonknt alv zemmdba kapcsolhat a CPU. Ezt javtja az EIST (Enhanced Intel SpeedStep: dinamikus rajel-szablyozs) Turbo mdja. Amennyiben a CPU fogyasztsa nem ri el a maximlisan megengedett TDP rtket, a CPU nveli eggyel az rajelszorzt, gy a CPU 133 MHz-cel gyorsabban zemel. Ha egy-kt magot terhel tl a program, a CPU akr kettvel is nveli a szorzt, feltve, hogy a maximlis fogyaszts nem haladja meg az elrtakat. A Turbo md legnagyobb erssge, hogy mindehhez semmifle szoftveres tmogats, segdprogram vagy klnleges bellts nem szksges, a CPU mindezt hardveresen vezrli. Mivel a Core i7 CPU egymstl fggetlenl vezrli a processzormagokat elkpzelhet, hogy mikzben egyik mag alszik, a msik hrom dolgozhat, de az is elfordulhat, hogy csak egy magot terhel le az aktulisan fut, egy programszlra optimalizlt program. Ekkor a processzor vezrlse akr kettvel is megemelheti a szorzt, ami 266 MHz-cel nveli az rajelet. Mivel azonban a tbbi mag alvsba kapcsolt, a processzor nem fogyaszt tbbet a megengedettnl, nem termel tbb ht, s garantltan nem fagy le. A mlyalvsi zemmdban az egyes magok tkletesen lekapcsoldnak a rendszerrl, nem fogyasztanak semmifle ramot, gy hasznlaton kvl a teljes fogyaszts is jelentsen lecskken. A rugalmas, core-uncore felptsnek ksznheten egy tokba annyi magot zsfolhatnak a fejlesztk, amennyit a gyrtstechnolgia megenged (jelenleg nyolcat), s ehhez hasonlan szabhat az uncore is. Lesz olyan uncore-ral szerelt modell, amiben csak duplacsatorns DDR3 vezrl van, viszont kap egy integrlt GPU-t, szerverekhez pedig ngycsatorns FB-DIMM memria kontrollert s tbb QPI kapcsolatot pthetnek be. Core i5, i3 jelzs Intel processzorok 32 nm-es gyrtstechnolgia 45 nm-es cskszlessg GMCH (Graphics Memory Controller HUB) vezrlchip, mely a

memriavezrlt, a PCI Express vezrlt, valamint az integrlt grafikus magot rejti. A Core i5 jelzs Clarkdale processzorok jdonsga az AES utastskszlet, mely hat j instrukcit knl az AES algoritmusok gyorsabb feldolgozsra. A kzponti lapka kt processzormagot tartalmaz, melyek egy-egy 256 kB-os L2, valamint egy 4 MBos megosztott L3 gyorsttrat hasznlnak, s tmogatjk a Hyper-Threading, illetve a Turbo Boost technolgit. Az Arrandale kdnven fut mobil processzoroknl a Turbo Boost technolgia az integrlt grafikus magra is ki lesz terjesztve, aminek ksznheten a rendszer automatikusan az ignyekhez lltja be magt. A GMCH vezrllapka ktcsatorns DDR3-as memriavezrlvel rendelkezik, tovbb 16 PCI Express 2.0-s csatornt kpes kezelni. Az integrlt grafikus mag az elz genercis GMA X4500HD rendszerhez viszonytva jelents jtsokat vonultat fel, emiatt az Intel mostantl HD Graphics nven kezeli az egysget. A teljesen megjult setup motor mostantl a kzponti processzor segtsge nlkl is kpes az informcik megfelel feldolgozsra, tovbb a rendszer tmogatja az AMD Fast Z Clear s Hierarchical Z nven bejegyzett eljrsait is. Az elbbi technika rendkvl gyorsan hasznlhatv teszi a mlysgpuffert anlkl, hogy erforrst pazarolna az elz kpkockra vonatkoz adatok trlsre, mg az utbbi elgondols a kppontok lekpzse eltt vgrehajtand Z-tesztet gyorstja fel egy msodlagos mlysgpuffer bevezetsvel. A szmtsokat 12 darab shader processzor vgzi, a grafikus mag a DirectX 10-es s az OpenGL 2.1-es API-kkal kompatibilis. Intel hexa-core processzor, a Core 7-980X Extrm Edition 32 nm-es cskszlessg Egy rszegysgekben 50%-kal kibvtett, hatmagos, Lynnfield-alap Core i7-es Hat db 256 KB msodszint, illetve 12 MB harmadszint gyorsttr A Hyper-Threading technolgia rvn sszesen 12 szlat kpes egyszerre kezelni. 1,17 millird tranzisztorbl pl fel, a mag mrete mgis kisebb (248 mm2), mint a 45 nm-en gyrtott Core i7-es (263 mm2). A 32nm-es cskszlessg miatt a hatmagos processzor annyit vagy kevesebbet fogyaszt, mint a 45 nm-es, ngymagos. A hatmagos AMD Phenom II X6 Negatvumok: 45 nm-es cskszlessg az AMD gymond hozzillesztett" kt tovbbi processzormagot a Phenom II X4 maghoz, s ebbl lett az X6. A CPU-n bell a harmadszint gyorsttl mrete vltozatlan maradt, optimlis esetben 6 MB. A gyorsttr rajele sem vltozott, tovbbra is 2 GHz, ami mr a ngymagos X4-et is sokszor visszafogta. Nem vltozott az szaki hd vezrllogikjnak az rajele sem, ez az L3 cache-sel egyetemben 2 GHz-

en jr. A kt "odatapasztott" CPU-magtl az adatoknak hosszabb utat kell megtennie a harmadszint gyorsttlig, mint a msik ngytl. A HyperTransport-link sebessge, ami a klvilggal val kapcsolattartsban jtszik kulcsszerepet, szintn vltozatlan maradt. Az AMD a memriavezrlhz sem nylt hozz, mivel akkor msik foglalat lett volna szksges.

A hatmagos AMD Phenom II X6 Pozitvumok: Fogyasztsa azonos a ngymagos Phenom II X4-el. AMD Turbo Core nvre keresztelt technolgija megjelense, mely rzkeli, hogy hny processzormag dolgozik, s ettl fggen lltja be az egyes magok rajelt. Ha mind a hat mag dolgozik, akkor az alaprajel rvnyesl, ez pl. az 1055T esetben 2,8 GHz. Ha viszont csak egy, kett vagy hrom mag dolgozik, akkor ennek a hrom magnak az rajele felugorhat egy elre meghatrozott szintre, ami 400 vagy 500 MHz tbbletet jelent tpustl fggen, a tbbi alv" mag pedig 800 MHz-en ketyeg, teht nem kapcsolja le a kihasznlatlan magokat, csak az rajelket s a feszltsgket cskkenti. Ugyanakkor a hasznlt hrom mag rajeln fell a feszltsgket is megemeli, gy kpes a meghatrozott TDP-kereten bell maradni. (Az Intel Turbo Boostja teljes, 4 vagy 6-magos terhels mellett is megemeli az rajelet, kevesebb erforrst ignyl esetekben pedig tovbb emeli a szorzt egy bizonyos szintig, ugyanakkor a feszltsghez nem nyl hozz, s a kihasznlatlan processzorokat kpes teljesen lekapcsolni). Intel Sandy Bridge (2011) 2011 elejn (2010 helyett) jabb takk-llomshoz rkezett az Intel, amikor egy j architektrt jelentet meg, s a mostani a Sandy Bridge nevet kapta. A Sandy Bridge alapjban vve a korbbi kts ngymagos Core i3/i5/i7 processzorok levltsra rkezett. Tovbbra is 32 nm-es gyrtstechnolgia. A Sandy Bridge az els olyan asztali processzor, amely a CPU- magokon fell egy GPU-t is tartalmaz. A korbbi Core i3/i5 is tartalmaz GPU-t, de ezeken a GPU egy klnll lapkn tallhat a tokban. Ennek ksznheten egyes rszegysgek vezrlse egyszerbb, s gyorsabb az adatkommunikci, ebbl kvetkezen magasabb a teljestmny. A GPU s a CPU sszektsrt felels tvonal eltnik, teht cskken a fogyaszts s a gyrtsi kltsg is. Az egy lapkn elterl CPU-magok s a GPU egyttesen hasznlhatjk a harmadszint gyorsttrat. Mivel ezt a processzormagok asztali krnyezetben ritkn hasznljk, ezrt a GPU sebessgt komolyan meg tudja nvelni. A CPU egyes rszegysgei (magok, GPU, L3 cache, memriavezrl) kztt egy krforgalmi adatbusz (ring bus) tallhat, ezen utaznak az adatok gy biztostva minden egyes rszegysg szmra az azonos idej hozzfrst. A front-end, az utastsbehvst s dekdolst vgz rsz kiegszlt egy, a Pentium 4esnl megjelent trace-cache-szer trral, amely a mr dekdolt mikroutastsok (Uop) eltrolsra kpes. Ez kb. 1500 mikroutastst kpes trolni: elnye akkor jelenik meg, ha a behvs (fetch) sorn egy mr a Uop-cache-ben tallhat utastsra kerlne a sor, akkor azt nem kell jra dekdolni, teht

lekapcsolhat a front-end rsz, ezzelgyorsul a parancsok vgrehajtsa, s energit is meg lehet takartani. Tovbbfejlesztettk az elgazsbecslst is egy kicsit, mint minden korbbi architektrnl. Megnveltk a ROB (Re-Order Buffer) mrett, valamint beillesztettek mg kt fizikai regiszterfjlt (egy FP s egy Int) is. A ROB alapveten az utastsok sorrendjt lltja vissza az eredeti llapotba, miutn az OoO-feldolgozs (Out of Order) megtrtnt, ugyanis ebben troldnak az egyes mveletek vgeredmnyei. A kt regiszterfjl bevezetsre a Sandy Bridge-ben bemutatkoz AVX (Advanced Vector Extensions) SIMD-utastskszlet miatt volt szksg, amely 256-bit szles utastsok feldolgozst lehetv teszi. Az AVX alapveten a lebegpontos feldolgozs gyorstsra lett kifejlesztve, s lehetv teszi a hromoperandusos mveletvgzst, teht az a:=a+b helyett immr hasznlhatjuk a c:=a+b formt. A lebegpontos teljestmny megfelel szlessg back-enddel hasznlhat ki igazn. A Sandy Bridge minden egyes 256-bites AVX utastst egyetlen Uop-knt hajt vgre, az j vgrehajtk pedig lehetv teszik, hogy rajelenknt egy 256-bites FP szorzst, egy 256-bites FP sszeadst s egy 256-bites eltolst (shuffle) hajtson vgre. Az utastsok vgrehajtsa utn a Load s Store gyorstrak lpnek mkdsbe. A Nehalem Load s Store gyorstrait, amelyek vagy csak loadot vagy csak store-t voltak kpesek trolni, felvltotta kt szimmetrikus tr, amelyek a Load s a Store utastsokat is kpesek vgrehajtani. Turbo Boost 2.0 Bellthat az a fogyasztsi keretet, amelyen bell megemelkedhet a CPU-magok rajele, st akr egy kis idre tl is lpheti. Ezen kvl az j Turbo Boost a GPU-rajelt a CPU-magok rajeltl fggetlenl vezrli, ha a CPU kevsb terhelt, akkor a grafikus mag rajele jobban megemelkedik. Az integrlt GPU (IGP) A HD Graphics 3000-ben tizenkett, a 2000-ben pedig hat, gynevezett EU, azaz feldolgoz egysg (Execution Unit) tallhat. jdonsg az Intel InTru 3D, ami a 3D-s Blu-ray filmek lejtszst teszi lehetv. Ehhez szksg van egy HDMI 1.4-es interfsszel szerelt tvre, s a H67-es lapkakszletere, ami kezeli az FDI buszt. A processzormagok s az IGP egy gyrs adatbuszon kapcsoldik a L3 gyorsttrhoz egy-egy ktirny megll segtsgvel. Az adott mag ltal ignyelt adatok mindig a legrvidebb ton jutnak el a clhoz, vagyis a ksleltets llandan minimlis lesz. Mivel a harmadszint gyorsttrat az integrlt grafikus mag is elri s jval tbb adattal dolgozik, mint a processzormagok egyttvve, ez azt jelenti, hogy akr teljes trterletet telerhatja adattal, ami rengeteg problmt eredmnyezhet. Ezrt a Sandy Bridge grafikus magjnak a driver kpes megadni, hogy bizonyos alkalmazsok ne rjanak a harmadszint gyorsttrba, illetve hogy a driver a grafikus magnak csak a gyorsttr egy meghatrozott rszt rendelje hozz. Hibs a Sandy Bridge CPU-khoz tervezett vezrlhid (2011 janur) Egy szoftveres ton javthatatlan hiba miatt visszahvtk az sszes leszlltott 6-os szriba tartoz vezrllapkt. A problma a SATA-vezrlben volt tallhat. Egy ideig jl mkdtek a csatlakoztatott meghajtk, de idvel a teljestmnyk fokozatosan cskkent, bizonyos id eltelte utn jelentsen cskkentve a teljes szmtgp sebessgt. Az informcik szerint csak a 3 Gbps-os SATA portok rendelkeztek ezzel a hibval. AMD Llano APU

Az AMD egy j kategrit hozott ltre a processzorok kztt, melyet az eddig jl megszokott CPU (Central Processing Unit, azaz kzponti vgrehajtegysg) helyett APU-nak (Accelerated Processing Unit, azaz gyorstott vgrehajtegysg) nevez. Az integrlt GPU szmtsi kapacitst ltalnos szmtsokra is fel lehet hasznlni, bizonyos esetekben lnyegesen kedvezbb teljestmny/fogyaszts mutatk elrse mellett. Az Intel Sandy Bridge GPU-jnak szmtsi teljestmnyt nem lehet ltalnos szmtsokra felhasznlni, azaz csak a kpi megjelents gyorsthat ltala. 32nm-es gyrtstechnolgia A magok szmnak nvelse elgg tranzisztorignyes megolds, emellett problma, hogy a tbbmagos processzorok programozsa nehzkes, mely a magok szmnak nvelsvel csak mg nehezebb. Ez oda vezet, hogy az extra magok beptse a teljestmnyt nem nveli szmotteven a a megfelel szoftverek hinyban. A Llano lapka egyelre sszesen ngy darab CPU magot tartalmaz s egy mretes GPU-t. Emellett egy sszesen 24 svbl ll PCI Express vezrl is integrlsra kerlt, mely melll nem maradt el az integrlt, maximum DDR3-1866 szabvny memrit tmogat IMC. A z UVD motor frisstse rvn megjelenik a harmadik genercis UVD 3. Ez a motor kezeli a H.264/AVC, az MPEG-2/4, a VC-1, a DivX s az XviD videk gyorstst egszen Ultra HD felbontsig. A GPU tmogatja a DirectX 11-es, az OpenGL 4.1-es, az OpenCL 1.1-es, az OpenGL ES 2.0-s, valamint a DirectCompute 5.0-s API-t. Kpes a Direct2D s a DirectWrite felhasznlsval a weboldalak megjelentst gyorstani. Tmogatja a WebGL-t is, ami a bngszablakban fut hromdimenzis animci gyorstst teszi lehetv, illetve a flash animcik gyorstsa sem jelent problmt. A Dual Graphics nvre hallgat technolgia tmogatsa a Hybrid CrossFire utdjnak tekinthet. Ezzel az APU-ban tallhat grafikus processzor szmtsi teljestmnye egy extra GPU-t tartalmaz diszkrt krtyval mg tovbb nvelhet. A memriavezrls A dediklt 128 bites interfsz helyett immron az APU egyetlen 128 bites memriavezrljre csatlakozik r egy sajt, GMC nev egysg segtsgvel. Ennek rtelmben a GPU osztozik a CPUmagokkal a rendelkezsre ll, DDR3-1866 szabvny memria esetn 29,8 GB/secundumos maximlis svszlessgen. Mikzben egy Redwood- alap, GDDR5 szabvny, 4 GHz-es effektv frekvencin mkd memrival szerelt HD 5670 ennek tbb mint dupljval, 64 GB/s svszlessggel gazdlkodhat nllan. A GPU sajt dediklt kapcsolatot kapott az integrlt memriavezrlhz (Garlic bus), gy br a GPU sajt memriaknt a rendszermemria egy szelett hasznlja, amihez a mr emltett GMC-n keresztl fr hozz, logikailag ezt a szeletet autonm mdon kezeli. Ez azrt rdekes, mert mg a CPU ltal kezelt memria-hozzfrsek szigor elrsok szerint (sorrendisg = koherencia) trtnnek, a GPU a sajt memriaolvassait s rsait meglehetsen szabadon trendezheti, ezzel nvelve hatkonysgt. A CPU s a GPU kommunikcija Ennek meggyorstsra ltrehoztak kztk egy kzvetlen buszt is (Onion bus). Eddig a CPU ltal kezelt memria, valamint a diszkrt vagy a chipsetbe integrlt GPU sajt memrija kztt idig egy PCI Express kapcsolat volt, illetve HyperTransport-link, amin keresztl folyhatott a kommunikci. Most mr sokkal egyszerbben hozz tudnak frni egyms memrijhoz. A CPU kzvetlenl az Onion buszon keresztl tudja megkldeni a GPU- nak sznt adatokat, amely aztn kirja azt a Garlic buszon keresztl sajt memrijba; mindezt kb. 8 GB/s sebessggel, mg a

PCI Expressen keresztl ez eddig ~ 6 GB/s-on trtnt. A CPU olvashatja is a GPU memrijt, viszont ez mr lassabb, mivel az olvassok eltt jeleznie kell a GPU fel, hogy az fejezze be a mg fggben lv memriarsait, ezutn lehet csak olvasni a GPUmemria tartalmt biztonsgosan. A GPU sajt memrijn kvl (a driver hozzrendelt virtulismemria-kezelssel) hozzfrhet a rendszermemria tbbi rszhez is kzvetlenl, ilyenkor viszont figyelembe kell vennie, hogy a krt memriatartalom akr valamely mag L1/L2 cache-ben is lehet, gy minden ilyen krst tovbbtani kell elszr a magokhoz. Erre az Onion buszt hasznlja szintn. Ha valamelyik cache-ben van a krt adat, akkor kzvetlenl onnan kapja meg, gy nem kell a rendszermemrihoz fordulnia. Mindez azt eredmnyezi, hogy CPU ltal kezelt rendszermemria s a GPU sajt memrija kztti adatmsolsok/adatduplzsok nagy rsze feleslegess vlik, hiszen az egyik fl ltal feldolgozott ksz adatokat a msik kzvetlenl felhasznlhatja tovbbi szmtsaihoz, felszabadtva ezzel a memriavezrl ltal biztostott 29,8 GB/s maximlis memria-svszlessg egy rszt. Az alacsony fogyaszts elrse rdekben (elsdlegesen mobilgpekbe sznt processzor) egy digitlis energiagazdlkodsi modul is beptsre kerlt, mely folyamatosan monitorozza a fbb rszegysgek hmrsklett s terhelst. Ez a K10 idejben bevezetsre kerlt rendszer tovbbfejlesztse. Amelyik egysgre ppen nincs szksg s a tervezsbl addan alkalmas erre, azt elaltatja a rendszer. Ez a Smart Fetch technolgia tovbbfejlesztse, amely az inaktvv vlt magok esetben azok L1 s L2 trainak tartalmt kpes volt kirni az L3 cache-be, majd lekapcsolni azokat. A Llano nem tartalmaz L3 cache-t, ezrt a rendszer lefoglal 16 MB rendszermemrit az L1 s L2 esetleges ideiglenes rtshez. Az adott mag ily mdon val lekapcsolsa utn mr csak elenysz ramfelvtellel kell szmolni. A korbbi Turbo Core technolgia megkapta a 2.0-s verziszmot. A Llano nem a pillanatnyi ramfelvtellel s hmrsklettel kalkull, hanem az aktulis terhelssel. Minden egyes lehetsges magi aktivitshoz (melyek szma 100 krl van) hozzrendeltek egy fogyasztsi mutatt, ami alapjn az energiagazdlkodsi modul kpes pontosan kiszmolni az ppen aktulis fogyasztst, hogy az minden esetben az ppen szban forg modell TDP keretnek figyelembe vtele mellett optimlisan mkdjn. A rendszer ennek megfelelen szablyozza az rajelet s feszltsget is. Amikor a GPU csak minimlis terhelsnek van kitve (pl. a Windows asztal nzegetse), akkor a grafikus rsz szmra fixen fenntartott keretet a CPU-magok kaphatjk meg teht rajelket (akr mind a ngy magt egyszerre) fel lehet emelni akr a legmagasabb szintre is. Amikor GPU kemnyen szmol valamit, de mgsem tlti ki teljesen a hozzrendelt keretet. Ilyenkor a mg fennmarad fogyasztsi keretet megkaphatjk a magok, s ha pldul a ngy kzl az adott alkalmazs csak kettt hasznl, akkor azok rajelt fel lehet emelni, mikzben a msik kettt addig le lehet kapcsolni. Amikor a GPU minimlis terhelsnek van kitve (pldul egy DVD film lejtszsa), de ekzben az sszes mag teljes terhelsen szmol valamit, akkor a CPU-magok kapjk meg a GPU TDP keretnek nagy rszt. Amikor az sszes CPU-mag s a GPU is teljesen aktv a GPU kapja a nagyobb prioritst, s a CPU magoknak a maradk keretbl kell gazdlkodniuk. Ilyenkor mr az APU hmrskletet is figyelembe veszi a rendszer, hogy semmilyen esetben se lpje tl a TDP keretet az aktulis fogyaszts. Ennek rdekben ideiglenesen akr lejjebb is veheti a magok rajelt s feszltsgt a vezrl. Az IBM z 196 jelzs processzora

Ngy darab, 5,2 GHz-es rajelen zemel, out of order elv magot tartalmaz, vagyis az utastsok sorrendtl fggetlen vgrehajtsa biztostott. 45 nm-es gyrtstechnolgijn kszl processzor 1,4 millird tranzisztort tartalmaz, s 512 mm2-es kiterjedssel rendelkezik. Az egyes magok 64 kB-os utasts, 128 kB-os adat, valamint 1,5 MB-os msodlagos gyorsttrat hasznlnak, mg a kzs harmadszint gyorsttr 24 MB-os kapacitst knl. Az Enterprise 196 szerver sszesen 24 darab ilyen processzort tartalmazhat, gy a rendszer ngy modulra oszthat fel s L4 gyorsttrat is alkalmaz, ami 192 MB-os kapacitst knl, a memria mrete maximum 3 TB lehet. A szerver msodpercenknt 50 millird mvelet elvgzsre alkalmas. Az ARM Cortex-A15 processzorok (2012-ben) A fleg okostelefonokban s tabletekben helyet kap rendszerek nagyon j teljestmnyt knlnak hihetetlenl alacsony fogyasztsi mutatk mellett. Az ARM a rendszert a gyrtpartnerek 32 s 28 nm-es gyrtstechnolgiihoz igaztja, st alkalmazhat lesz kisebb cskszlessg mellett is. Az rajel esetben a 2,5 GHz-es hatr van megclozva, gy a jelenlegi Cortex-A9 MPCore teljestmnynek tszrse is elrhet a fogyasztsi mutatk kzel azonos szintje mellett. Az j genercis megolds maximum ngy processzormag beptst teszi lehetv. jdonsg lesz a hardveres virtualizci tmogatsa, ami majd a rendkvl alacsony fogyaszts szerverek esetben lehet hasznos tulajdonsg. Intel Atom processzor Egyszerbb felpts, mint a nagyobb Core 2 chipek, gy lassabb ugyan valamivel, de sokkal kevesebbet fogyaszt. A Silverthorne mindssze 25 mm2 alapterlet, 47 milli tranzisztorbl ll, TDP rtke tpustl fggen 0,6 s 2,5 watt kztt alakul, rajele 1,8 GHz-ig sklzdik. A lapka kr pl platform Menlow kdnven fut, s tartalmazza a chipsetben helyet foglal memriavezrlt, grafikus magot, tovbb a vezetk nlkli hlzati vezrlt is. Az Atom minden olyan szmtgpben helyet kaphat, melyeknl nem fontos a komoly szmtsi teljestmny, mivel fknt internetezsre vagy ms hlzati alkalmazsok futtatsra sznjk ket, MID-ek (Mobile Internet Devices) s az UMPC-k (Ultra-Mobile PC). Az effle olcs hordozhat eszkzket el is kereszteltk netbookoknak, mg asztali vltozataikat nettopoknak. Az Intel ezzel j kategrit teremtett. Az Atom processzor mell kellett egy megfelel chipset is, amely tartalmazza a grafikai magot, a memriavezrlt, valamint a meghajt, USB s a tbbi vezrlst. Az egyik (SCH - System Controller Hub) a DirectX 9 GMA 500 nev grafikus rszt foglalta magban, amely segtsgvel a H.264/MPEG-4 AVC kdols anyagok lejtszsa is tmogatott vlt. A 130 nanomteres technolgival legyrtott megolds mrete 86 mm2 lett, amely tbb mint hromszorosa a Silverthorne lapknak. rdekessg, hogy az egyetlen chipes dizjn SATA vezrl helyett csak egyetlen PATA portot kapott, s a memriavezrl mindssze 1 GB DDR2-533 szabvny memrit volt kpes kezelni. 2009 legvgn az Intel bekltztette a CPU lapkjba a teljes szaki hidat. Az egycsatorns memriavezrl ltal tmogatott memriatpus tovbbra is a DDR2, de bizonyos modellek mell mr a DDR3-800 szabvny modulok is prosthatak. A chip tartalmazza a HD hangkodeket, tovbb ngy darab PCI Express csatornrl, valamint a SATA 3 Gbps, illetve a 2.0-s verzij USB portokat is

kezeli. Az integrlt grafikus mag csak az MPEG-2 kdols anyagokat kpes hardveresen gyorstani, azaz H.264 s VC-1 tovbbra sem lett tmogatott Az Intel az Atom processzornl ms stratgit vlasztott: minl kevesebb tranzisztor felhasznlsval alkotni mikroprocesszort gy, hogy annak kihasznltsga a lehet legnagyobb legyen. A teljestmny tern alacsony elvrst tmasztottak. Kihagytk az sszes soron kvli vgrehajtshoz szksges logikt a processzorbl, gy az az utastsokat a program sorrendnek megfelelen (in-order) hajtja vgre. Egyetlen futszalagot hoztak ltre a processzorban. Minden utasts vgigmegy minden lpcsn, kzben elvgezve a betltst, a szmtst s a trolst. Optimlis esetben minden lpcsfokon tartzkodik egy-egy utasts, s rajelenknt tovbblp a kvetkezre. A futszalag gy pl fel, hogy a lehet legtbbfle utastst ki tudja szolglni, soklpcss: az Atom futszalagja 16 llomsbl ll, ami hosszabb, mint pl. a Core 2-. Egy-egy hosszabb mvelet (pldul ha a beolvasand adat nincs az L1 cache-ben, akkor annak betltse az L2-bl vagy a memribl) hosszabb-rvidebb idre megllthatja a futszalagot, teht egyetlen utasts miatt nem tud tovbblpni a tbbi sem. Ezt a problmt tbbfle mdon kezeltk a tervezk: Kt pipelinet tettek egyms mell, ez - ugyan az utastsok nem elzhetik meg egymst, - lehetv teszi, hogy sok esetben 2 egymst kzvetlenl kvet utasts vgrehajtsa egyszerre trtnjen, ha azok fggetlenek egymstl. A hossz pipeline miatt, hatkony elgazsbecsl logikt is beptettek, hogy az utastsbetltsnek ne kelljen megvrnia az ugr utastsok kiszmtst. jra alkalmaztk a Hyper-Threading technolgit, gy a kt pipeline-t kt programszl etetheti: a kt szl utastsai biztosan fggetlenek egymstl, az esetek nagy rszben vgrehajthat mindkettbl 1-1 utasts prhuzamosan. Ha az egyik szl vgrehajtsa megll pldul egy L1-tveszts miatt, akkor a krt adat megrkezsig a msik szl teljesen kisajtthatja mindkt futszalagot. Ezrt Atomnl a ktszlas vgrehajtsnl akr 70-80%-os gyorsulst lehet tapasztalni az egyszlas futtatshoz kpest, mg a tbbi Hyper- Threadinggel elltott CPU-nl ez csak 20-25% krl tetzik. III. Htsi megoldsok Ventiltor Vzhts Heat-pipe (hcsves hts)

Heat-pipe A cs melegtett rszn a folyadk jelents (h)energit vesz fel ahhoz, hogy lgnemv vltozzon, majd a cs hidegebb vge fel libben. Ott arra a szintre hl, ahol ismt folyadkk alakul - s leadja az energit. A folyadk a gravitcinak vagy a cs bels kialaktsnak ksznheten ismt lejut a melegebb rszbe. A htfolyadk nagynyoms vz, vagy folykony fm. Folykony fm felhasznlsnl gallium tvzetet alkalmaznak, mely 8 C-tl folykony halmazllapot s 2000 Coon forr. Az elektromgneses pumpa alkalmazsa miatt nem tartalmaz mozg alkatrszt. Grafikus krtyk

ATI NVIDIA Ms?

A mai VGA krtyk felptse Egy modern grafikus krtya t f elembl pl fel: a rendszer interfszbl, a fedlzeti memribl, a grafikus videochipbl (GPU - Graphics Processing Unit), a frame bufferbl s a RAMDAC-bl (Random Access Memory Digital-Analog Converter). Az adatkapcsolatot a rendszerrel a rendszerbusz valstja meg, ami manapsg szinte kizrlag a legszlesebb, 16 vonalas PCI Express. Ezen rkeznek a videokrtya memrijba a textrk, a 3D-s objektumok alapadatai s az egyb informcik, amiket a fedlzeti memribl a GPU olvas ki s dolgoz fel. A videomemria mrete 256 s 1024 MB kztt van, ma a GDDR3 a legelterjedtebb tpus, s ltalban 256 bit szles buszon kapcsoldik a GPU-hoz. A grafikus processzor a nyers adatokbl pti fel a 3D-s modelleket, szmolja ki a mozgsokat, hatrozza meg, mi ltszik a kpen s mi nem, valamint itt troldnak az effektekhez szksges informcik is. A kp a framebufferbe mentdik el, amit a RAMDAC kzvetlenl olvas, gy innen rajzolja ki az elkszlt 3D-s kpet akr analgg alaktva D-SUB-on keresztl, akr digitlisan tovbbtva DVI, HDMI vagy DisplayPort kimenetek irnyba. A videokrtya elemei kzl a legfontosabb szerep a GPU-nak jut: ez felel azrt, hogy a gp fell rkez adathalmazbl hatalmas, msodpercenknt legalbb 25-30 3D-s kp jelenjen meg a monitoron. Az t, amit az adatoknak a fedlzeti memribl a framebufferig meg kell tennik, kisebb eltrsekkel minden videokrtyn azonos, s minden egyes kpkocka kiszmtsakor el kell vgezni. A msodpercenknti 25 kpkocka kiszmtsa a folyamatos mozgshoz szksges, m a tkletes, maximlisan realisztikus mozgshoz a 60 fps (frame per second) sebessg a kvetelmny, ezrt a grafikus futszalag optimalizlsa s hatkony mkdtetse kulcsfontossg tnyez. Az els lpcsfokon, miutn a GPU megkapta a szksges nyers adatokat, megkezddnek az elszmtsok s talaktsok egy kisebb processzor segtsgvel (Setup Engine vagy Input Assembler). Ez az egysg azonostja, hogy a kapott adat milyen tpus s jelzi, hogy hny streamprocesszor legyen vertex, pixel, geometriai vagy egyb szmtsra befogva. A 3D-s kpalkots ltalnos lpsei 1. A trbeli alakzatok a rasztenzaiasnaK nevezett kpmegjelentsnl rengeteg, apr poligonbl plnek fel. A poligonok hromszg alakzatak. Ezek cscspontjainak a koordintit a vertex shader kapja, ami elhelyezi a megfelel hromszget a trben. Az elhelyezs sok esetben torztst, mretezst, illesztst is jelent, a lnyeg, hogy a vgeredmnynl az objektumokon ne ltszdjon, hogy miniatr hromszgekbl plnek fel. Wrtex shaderekkel a sz-mokbl s vektorokbl ellltjk a trbeli kpet 2. Amint felplt a trbeli kp, a nz szemszgt figyelembe vve meghatrozzk, a kp mely rszei fognak ltszani, s melyek lesznek takarsban. Az eljrs eltnteti az objektumok kzl azokat, amik nem fognak ltszani, ezzel nagyban cskkentve a GPU terhelst. Az adott szemszgbl nem ltsz rszeket eltntetik

3. A vertex shader utols feladata a megvilgtshoz kapcsoldik. Ebben a lpsben kerlnek be a felhasznlt fnyforrsok, amik megvilgtjk a ltnivalt: ezek nlkl a kp teljesen stt lenne. A vertex rnyal csupn a mr meglv alakzatokat, pontokat, poligonokat kpes mdostani, torztani, transzformlni, jakat nem kpes ltrehozni. Erre a feladatra szletett a DirectX 10-nl a geometriai shader, amivel olyan feladatok is egyszerbb vlnak, mint pldul egy fa kinvse a fldbl 4. Amint elkszl a 3D-s kp minden objektummal s vilgtssal, egy ktdimenzis fot kszl a trbeli ltvnyrl, aminek a sk kpernyn tnylegesen meg kell majd jelennie. A 3D-s objektumok minden pontja, ami eddig vektorknt volt rtelmezve, pixelekk konvertldik, hogy kezdett vehesse a legnehezebb szmtsi feladat. A pixel rnyal felels az egyes kppontok tulajdonsgainak kiszmtsrt. A pixeleknek rengeteg attribtumt kell meghatrozni, gy pldul a sznt, tltszsgt, tkrzdst, valamint a pixel shaderek felelsek a klnbz effektek kiszmtsrt s kpbe helyezsrt is. 5. Az utols lpsek egyike a filterek alkalmazsa. Ebben a lpsben alkalmazzk az anizotrop szrst, ami lesti a 3D-ben torztott textrkat s eltnteti az illesztseket. A vgs filter, az lsimts a ROP (Raster Operations Processzor), az ATI esetben Element Render Back- Endnek nevezett egysgben kerl a kpre. Feladata, hogy a cakkos, ferde vonalak kisimuljanak, s a vonalak ne sok apr egyenesknt jelenjelek meg a kpen. Ez az eljrs rend kvl szmtsignyes, m mindenkppen megri az rt, hiszen vgeredmnyknt tkletesen sima leket kapunk. A 3D kp hromszgek halmazbl ll. A hromszgek cscsait hvjk vertexeknek, s a vertex shader ezekkel a cscspontokkal szmol. A Pixel shaderek funkcii hasonlak a vertex shaderhez, de itt az egyes kppontokkal manipull a rendszer. Z-puffer: A hrom dimenzis brk megjelentse sorn hasznlt pufferterlet, amely a grafikus pixelek szne mellett azok "mlysgt" (a Z tengelyen elfoglalt pozcijukat) is trolja, s gy teszi lehetv a primitvek lekpezse sorn minden kppontra a helyes fedsi sorrend megllaptst.

A DirectX 7-ben a vertexes rsz kikerlt a CPU-bl, s a grafikus processzor T&L (Transform & Lighting) egysge foglalkozott vele. A DirectX 8-ban a pixel egysgek programozhatsga jelenik meg, ami a DirectX 9 folyamn fokozatosan finomodott. A ROP rszen fejldtek a Z-buffer technikk s az lsimts, a memria pedig egyre gyorsabb s gyorsabb lett. Az eddigi GPU-k kzs jellemzje volt, hogy az egyes rszfeladatokat specializlt egysgek hajtottk vgre; kialakult a jl ismert vertex shader, pixel shader, ROP felpts.Az elz brn lthat a vertex shaderek, a pixel shaderek s a ROP egysgek rtege, valamint a sok irnyban csatolt memria. Az is ltszik, hogy a pixel shaderek ngyesekbe, gy nevezett quadokba rendezdnek. Ez a fellls azrt praktikus, mert a pixelek ltalban 2x2 pixel-negyedbl - szubpixelbl plnek fel. A GeForce 6-7 sorozat vertex rnyaliban ngykomponenses vektor s egy skli- szmol van, amiket ciklusvezrl egszt ki, radsul nem csak aritmetikai, hanem logikai mveletekre is kpesek. A vezrlre azrt van szksg, mert egyes mveletek vagy shaderkdok annyi szmtst ignyelhetnek, amit a szmolegysg egy krben nem tud vgrehajtani. A pixel shaderek mg sszetettebbek. Nem egy, hanem kt aritmetikai-logikai egysgk (ALU-juk) van, amit egy textrz

egszt ki (3D- objektum felletnek bevonsa). A GeForce 7 szria esetben ehhez jn mg kt miniALU s termszetesen a ciklusvezrl. Ami fontos, hogy a pixelszmols ngyes vektorokban zajlik. Videokrtyk prban Az ok: 2004 msodik felben az NVIDIA GeForce 6800 Ultrnl gyorsabb volt a Radeon X800 XT. A megolds: Az NVIDIA a 3dfx felvsrlsa rvn hozzjutott a korbbi, prban zemeltetett videokrtyk technolgijhoz s gy dnttt, hogy jra letre kelti ms technolgiai tartalommal, hogy jra a leggyorsabb grafikus rendszert tudja szlltani. Kt 6800-as sszekapcsolva gyorsabb volt, mint brmelyik Radeon. Az ATI hossz idn keresztl nem tudott lpst tartani, de idvel megjelent az ATI-fle SLI is, a CrossFire. A metdus keretein bell az egyes videokrtyk a kpernyn megjelen kpkocka egyes sorainak megjelentsrt felelsek, vagyis az els krtya a pratlan, mg a msodik krtya a pros sorokat szmolja ki. NVIDIA: SLI (Scalable Link Interface ) kt egyfonna GeForce 6600 GT, vagy 6800GT, 7900 GTX, stb. krtyval hasznlhat- a GPU-nak van egy terlete, amely lehetv teszi az egyik GPU szmra, hogy egy msikkal kommunikljon s megossza a feladatokat kettejk kztt sszekt-hd segtsgvel (10 GB/s). Akkor mkdik, ha a meghajtprogram tartalmazza az aktulis jtkhoz val optimalizcit. SLI zemmdok: Az els mdszer a split-frame rendering (SFR). Ez esetben mindkt krtya a kpkocka egy-egy rszt rendereli. Az els krtya, mely a vezrkrtya (az els PCI Express foglalatba kerlt) rendereli le a kperny fels terlett, mg a msodik a kperny als terlett. Ez a megolds terhelsfgg, teht a krtyk a munkn osztoznak meg 50-50 %-ban, a renderelnival kpkocka komplexitstl fggen. Teht elviekben elkpzelhet a folyamatos majdnem ktszeres sebessgnvekeds (csak azrt majdnem, mert szinkronizlsra s az adatok kt GPU kzti ide-oda pumplsra is idt kell szaktani), ugyanakkor mivel mindkt krtya folyamatosan s szinkronban dolgozik, nincs esetleges vrakozs kztk az egyes frame-ekre.

A msodik mdszer az alternate frame rendering (AFR). Itt nincs terhelsfgg megoszts. Az AFR esetben az egyes frame-eket a GPU-k felvltva szmoljk ki, teht pldul az els krtya felels a pratlan, a msodik pedig a pros frame-ek kiszmolsrt. Ez a md bizonyos szint ltencit (ksleltetst) eredmnyez, hiszen elfordulhat, hogy a processzor ltal a videokrtyk fel kldtt, egyms utni frame-eket az egyik GPU gyorsabban szmolja ki, mint a msik. Ez csak azokban az esetekben fordulhat el, amikor a megjelentend kpkockk sorozatban hirtelen komplexitsvltozs trtnik, ekkor elfordulhat bizonyos mrtk kslekeds a jtkos ltal elvgzett mozgs (billenty vagy egrkombinci) s a kpernyn megjelen frame kztt. Ez az AFRmdot az SFR-nl kevsb optimalizltt teszi. Quad-SLI

A GeForce 7950 GX2 ta vannak olyan videokrtyk, melyek kt GPU-t tartalmaznak, teht krtynknt kt GPU munkjt kell felgyelni. Egy SLI-s rendszer esetben ez ngy GPU-t jelent Ahhoz, hogy a ngy GPU megfelelen kommunikljon egymssal, a memrikkal s a rendszer tbbi rszvel, megfelel hardveres s szoftveres tmogatsra van szksg. Az NVIDIA a problma hardveres rszt gy oldotta meg, hogy az egyes 7950 GX2-es krtykra egy specilis PCI Express x48as sszekthidat integrlt, ami a krtyn tallhat kt GPU szmra egy teljes svszlessg PCI Express xl6-os buszt biztost oda-vissza, illetve egy ugyanilyen szles kapcsolatot biztost a kt GPU s a klvilg (a rendszer tbbi eleme) kztt. A Quad-SLI konfigurcik hrom klnbz mdon renderelhetik le a kpet. Az AFR of SFR mdszer az elz kett kombinlsrl jn ltre. Mivel egy-egy 7950 GX2-es VGA-n kt-kt GPU tallhat, gy azok kztt megoszthat gy is a munka, hogy az egyes krtyk felvltva szmoljk ki a kpkockkat (AFR), mg a krtykon tallhat GPU-k az egyes frame-ek bizonyos szzalkt szmoljk ki (SFR). ATI: CrossFire :Fnk (Master) krtya szksges, mely a specilis CrossFire Edition krtya pl. ATI Radeon X850XT, a msodhegeds (Slave) brmilyen Radeon X800 vagy X850 lehet. Radeon X8xx sorozat GPU-i nem kpesek egymssal kommuniklni, gy az ltaluk generlt kp sszeillesztst egy teljesen fggetlen elektronikra kellett bzni. Kls sszektkbel szksges. CrossFire zemmdok: Scissor (oll) md: nagyon hasonlt az NVIDIA SLI Split Frame Rendering mdjra. A kiszmoland terleten a krtyk vzszintesen osztoznak. Az NVIDIA-nl az oszts arnyt a kzponti processzor szmolja ki, ezzel plusz terhels jelentkezik, de a kt videokrtya kztt egyenletesen oszlik el a munka. Az ATI nem frasztja a CPU- t, de menet kzben nem llthat az osztsi arny. Lehetsg van viszont fggleges felosztsra, valamint klnbz arny (pl. 60-40%) bontsokra.

A msodik CrossFire md az Alternate Frame Rendering (AFR). Ilyenkor a pros kpeket az egyik, a pratlanokat a msik krtya szmolja ki. a Supertiling md: a kt krtya sakktblaszeren osztozik a kiszmoland kpen. Az egyes blokkok mrete 32x32 pixel, gy mindenfle processzorterhel becsls nlkl nagyon hatkony munkamegoszts alakul ki. A Radeon X1000-es szrival, az addig ltott tervezsi elvek tbbsge felborult. Az R5xx chipekben egy merben j architektrt ismertnk meg. A vertex shaderek maradtak a rgiek, de a pixelekkel foglalkoz rsz jelentsen talakult. Az elz kpen lthat, hogy egy j, kzponti egysg kr rengeteg pixel shader sszpontosul, melyek hatalmas, kzs regisztertmbn keresztl kommuniklnak. A regiszter egy, a memrinl s a cache- eknl is gyorsabb adattrol terlet, amit szmolshoz kzvetlenl el lehet rni. A textrz egysgek kikerltek az ALU-kbl. Erre azrt volt szksg, mert egy textramvelet (rs vagy olvass) nagysgrendekkel tbb idt vesz ignybe, mint egy aritmetikai vagy logikai mvelet. Ha

egy hagyomnyos shader textramveletbe kezdett, akkor a szmol addig resen vrakozott, mg a kvnt adat meg nem rkezett. A klnll textrzk ezt a ksleltetst eltntetik A pixel shaderek tovbbra is ngyelem vektorokkal dolgoznak, s ngyes csoportokba - quadokba rendezdnek. Mind a 48 egysgben megmaradt kt ALU - vektor s skalr rsszel -, valamint a cikluskezel. Az R520-ban az ATI egy forradalmi jtst vezetett be. A korbbi crossbar keresztezdst egy krforgalommal vltotta fel, melyet Ring Bsnak neveznek (az Intel processzorok j genercija hasonlt kezd el hasznlni (2011)). A chip kerletn kt 256 bites memriabusz fut krbe a memria rajeln. Irnyuk egymssal ellenttes, gy a leghosszabb adatt is legfeljebb fl krvnyi. A gyrn ngy f lloms van, mindegyikhez egy pr memriacsatorna kapcsoldik. Van egy tdik, kisebb svszlessg kapcsolat is, ez a PCI Express s a kimeneti kp szmra van fenntartva. A kzpen elhelyezked memriavezrl krl kevesebb vezetk tallhat, ez nagyobb rajelet tesz lehetv. Az egyes kliensek a vezrlnek jelentik be ignyket, az megkeresi, melyik memriamodulnl van a kvnt adat, s eldnti, melyik gyrn juttathat el leggyorsabban a klienshez. A vezrlnek sajt logikja van, figyeli a memriaaktivitst, s egyes kliensekhez prioritsokat rendel. Ha az egyik krvnyez ugyan magas priorits, de az aktulis helyzetben cskken miatta a gyrk hatkonysga, ideiglenesen alacsonyabb prioritst kaphat. Az j vezrl mellett a cache felptse is vltozott az R520-ban. Az eddigi kzvetlen cache helyett most teljesen asszociatvat hasznlnak. A korbbi mdszerrel minden memriarszhez egy cache-rsz tartozott, most a memria brmely terletrl elrhet az egsz s fordtva. DirectX 10 Az ATI Technologies felvzolta a DirectX 10 alkalmazsprogramozsi interfszben (API) rejl lehetsgeket, illetve ezzel kapcsolatban kitrtek az egysgestett shaderekbl (unified shader) ll mikroarchitektra jellemzire is. A DirectX 10 szorosan a Windows Vistval egytt rkezett. Els nagy elnye, hogy az API s a meghajt/grafikus krtya kztt sokkal kevesebb vezrlsi tevkenysg zajlik, gy tbb erforrs hasznlhat ki a tnyleges szmtsokra. Mg a DirectX 9-nl a vezrlssel kapcsolatos s a hasznos mveletekre fordtott id arnya nagyjbl 40/60 szzalk, addig a DirectX 10-ben ez 20/80 szzalkra javul. Igazbl ez nem is a DirectX 10-nek ksznhet, hanem a Vista jfajta API/driver- kezelsre vezethet vissza, vagyis az NVIDIA videokrtyinl is javul a hasznos mveletek idarnya. A DirectX 10 fontos jtsa, hogy a vertex shader (VS) s pixel shader (PS) szmolk kz bekeldik egy geometry shademek (GS) nevezett egysg, gy a VS-PS tvonal VS-GS-PS-re mdosul. A GS vertexcsoportokkal tud dolgozni, a testek animlsban vesz rszt. Korbban a CPU ptette fel az animcihoz szksges geometrit (csontvzat), kiszmolta a fizikai klcsnhatsokat, s ez alapjn kldte a grafikus processzornak a vertexeket, illetve egyszerbb kd vagy duplikcis adatokat (pldul egy jelenetben tbbszr hasznlt vertexcsoportokat, pldul fkat). A VS ebbl megptette a vzat, a PS pedig rnykolta, sznezte stb. Az eljrs most gy mdosul, hogy a CPU a geometriai modelleket s az animcis paramtereket (fizikt, pozcikat stb.) is elkldi a GPU-nak. A VS

sszerakja az objektumokat, majd tovbbtja a GS-nek, amely sszerendezi a jelenetet, eltolja, klcsnhatsba lltja, transzformlja az objektumokat a fizikai adatok alapjn, azutn visszaadja a VS-nek az eredmnyt. A VS ismt rendbeteszi a vertexeket, trli azokat, amelyek nem kellenek, nem ltszanak, s ha nincs szksg jabb ciklusokra, akkor elkldi a PS-nek, amely ugyangy szmol, mint eddig. Amint a fenti kpen lthat, hogy a dediklt VS s PS szmolegysgeket nem sikerl egyformn kihasznlni, gy az egyikben szabad kapacits hever parlagon, mg a msik ppen szknek bizonyul erforrsaival fkezi a munkt. A DirectX 10 modell lehetv teszi az egysgestett shaderes felptst egy nagyon jl szervezhet regisztertmbbel. A korbbi API-nl a textraolvass nem kedvelt mvelet volt, mert egy nagysgrenddel lassabb volt a szmolsnl, hiszen nem regiszterben, hanem a sokkal lassabb memriban voltak a textrk. Most sok textra(szersg) bekerl a nagy regisztertmbbe, s gy gyorsan el lehet rni ket. A VS-GS-PS kommunikcit is ez tmogatja; az egyik beleteszi, a msik kiolvassa a szksges adatokat. A G80 az NVIDIA vilg els olyan videochipje, amely unified shader architektrra pl (GeForce 8xxx), DirectX 10 kompatibilis. Nincsenek a chipben klnll pixel s vertex shader egysgek, hanem egysges stream processzorok vannak, amelyek pixel s vertex mveleteket is vgre tudnak hajtani. E megolds elnye, hogy az erforrsok mindig a lehet legjobban ki vannak hasznlva, nem fordul el, hogy a pixel egysgek vrnak a vertex-adatokra, vagy fordtva. Hagyomnyos felptsnl vagy a vertex, vagy a pixlel shaderel vannak tlterhelve. Az unified shader felpts mindkt esetet kikszbli.

Az j GeForce-oknak van egy teljesen j technikai rszlete is, mgpedig a videodekdolst gyorst VP2 (Video Processor 2), amely a modern, nagy szmts igny formtumok lejtszsnl tehermentesti a processzort. A VP2 egy programozhat SIMD mag, ez vgzi a dekdols oroszlnrszt. A BSP (Bitstream Processor) a H.264-es formtum entrpiakdolst, az AES128 pedig a nagy felbonts (HD-DVD s Blu-Ray korongokon megjelen) videk msolsvdelmnek (AACS) kezelst gyorstja Az AMD/ATI DirectX 10-es videokrtyja a RADEON HD 2900 XT melyet az R600-as GPU- val szerelik. Az R600 80 nm-es cskszlessggel kszlt, kb. 700 milli tranzisztorbl, szemben az NVIDIA G80-as GPU-jval, ami 681 milli kis kapuval 90 nm-en. Akrcsak a G80-nl, az R600-nl is az ltalnos stream processzor az alap ptelem, de vannak ms jtsok is. A kpalkots egyik shadereket megelz lpse a tesszelci. Az a folyamat, amikor a geometriai alapformkbl (primitvekbl), hengerekbl, hasbokbl, sokszgekbl s egyebekbl a GPU szmra is emszthet hromszg- vagy ngyzethlt hoznak ltre, melyet az objektumok animcijval egytt a CPU vgez. Rszletesebb animci megjelentshez finomabb rcsra van szksg, ami felemszti a processzor erforrsait, s jelentsen megnveli az adatramlst a CPU s GPU kztt.

Az R600-nl a tesszelcit is a GPU-ra bztk. A CPU-nak gy elg egy viszonylag durva 3D modellel szmolnia, melynek a finomtst a GPU vgzi. A DirectX 10-ben bemutatkoz geometriai shaderek ezutn nekillhatnak az animcinak. Az R600-ban 320 stream processzor van, a G80-nak csak 128. Ezt a sok, szmolt vezrelni kell: Legelszr a Setup Engine felmri, hogy milyen vertex shader, geometry shader s pixel shader feladatok rkeztek, majd tovbbtja ignyeit a Dispatch Processor fel, mely eldnti, hogy a rendelkezsre ll ltalnos shaderek kzl melyek s milyen sorrendben dolgozzanak vertexeken, geometrin s pixeleken. Emellett azt is irnytja, hogy a kln tmbben csoportosul textra-mintavtelezk elkldjk a shadereknek a munkjukhoz szksges textraadatokat. Az R600 stream processzorai ngy darab 80-as SIMD (single instruction multiple data - egy utasts vgrehajtsa tbb adaton) tmbbe csoportosulnak, melyeket kt-kt programszllal tud meghajtani a karmester (Arbiter). A szlak futsa felfggeszthet, ha egy magasabb priorits rkezik, majd folytathat, teht nem vesznek el a rszleges adatok. Ezt a felfggesztst hasznljk akkor is, ha egy hibs cache cmzs miatt az ppen fut szl nem kapja meg idejben a textra adatait, gy a szmolk soha nem ttlenkednek. A G80 esetben 128 darab teljesen fggetlen stream processzorrl volt sz, az R600-ban is kombinlt szmolk vannak. Egy tmbben t aritmetikai s egy ciklusvezrl egysg csoportosul. Az aritmetikai egysgek kzl ngy egyszer - csupn MAD (a=b*c+d) mveletre kpes egy pedig sszetett mveletekkel (pl. szgfggvnyek, logaritmus, hatvnyozs) is boldogul. Az NVIDIA G80 szmoliegyszerre el tudnak vgezni egy MAD s egy MUL (a=b*c) utastst, ami a GeForce 8800 GTX 1350 MHz-es rajelvel s 128 szmoljval 520 gigaFLOPS-os elvi maximlis teljestmnyt jelent. Az R600 sszesen 320 szmolja 740 MHz-en ketyeg, s minden temben egy MAD-ot tud csinlni, teht elvi vgsebessge 475 gigaFLOPS krnyke, amibl nem kell levenni a ciklusvezrlst, ugyanis azt kln egysgek vgzik. Mr az X1000-es csaldnl is klnvltak a textra-mintavtelez egysgek a szmolktl, ezt a gyakorlatot folytattk az R600-ban is. Az j processzornak ngy nagy textrakezel egysge van. Mindegyikben 8 textracmz dolgozik, sszesen teht 32 darab. Mind a ngy blokk fejenknt 20 mintavtelezt kapott (sszesen 80 darab). A legnagyobb tmogatott textramret 8192 * 8192 pixel.

A textrzkhoz 256 kB msodszint gyorsttr kapcsoldik, az elsszint pedig vertex cache-knt is mkdik. Elsimts ATI mindig szebb kpet produklt, mint az NVIDIA. Az korbbi anti-aliasing eljrsok csak az aktulis pixel terletre es mintavtelezsi pontokat hasznltk; ezt a mdszert Box Filter-nek hvja az ATI. Az lsimts hatkonysgnak nvelse rdekben az j Custom Filter Anti-aliasing (CFAA) a szomszdos pixelek mintavtelez pontjaibl is klcsnvesz nhnyat. A Narrow Tent Filter nvvel nevezett a megfelel Box Filter szmnak a felt (8 mell pldul mg 4et) toldja hozz. A Wide Tent Filter a Box szmot megduplzza (8 mell pldul mg 8-at). A Radeon X1000-es szria legklnlegesebb jtsa a Ring Bus memriavezrl volt. A 256 bit fltt mr csak nehezen bvthet crossbar architektrt ez a kt krbe

Documents

Számítógép architektúrák v2