Upload
yoshi-walls
View
59
Download
0
Embed Size (px)
DESCRIPTION
Többmagos/sokmagos pro cess z or ok. Sima Dezső. 2008. November. Áttekintés. 1. Többmagos processzorok megjelenésének szükségszerűsége. 2. Homog én többmagos processzorok. 2.1 Hagyományos többmagos processzorok. 2.2 Sokmagos processzorok. 3. Heterog én többmagos processzorok. - PowerPoint PPT Presentation
Citation preview
Sima Dezső
Többmagos/sokmagosprocesszorok
2008. November
Áttekintés
1. Többmagos processzorok megjelenésének szükségszerűsége•
2. Homogén többmagos processzorok •
3. Heterogén többmagos processzorok•
2.1 Hagyományos többmagos processzorok•
3.1 Mester/szolga elvű többmagos processzorok•
3.2 Csatolt többmagos processzorok•
4. Kitekintés•
2.2 Sokmagos processzorok•
1. Többmagos processzorok megjelenésének szükségszerűsége
1.1 ábra: Az integrált áramkörök gyártási technológiájának fejlődése
1. Többmagos processzorok megjelenésének szükségszerűsége (1)
Shrinking: ~ 0.7/2 Years
1. Többmagos processzorok megjelenésének szükségszerűsége (2)
IC gyártási technológia
Moore szabály
• azonos tranzisztorszám ½ Si területen
(Lineáris zsugorítás ~ 0.7x/2 év)
• azonos területen 2x annyi tranzisztor
Két évente
Kétévente kb. duplázódik az egy lapkán megvalósítható
ltranzisztorok száma
1.2 ábra: A lapkán integrált tranzisztorok számának növekedése – a Moore szabály
1. Többmagos processzorok megjelenésének szükségszerűsége (3)
Possible use of surplus transistors
Wider processor width Core enhancements Cache enhancements
superscalar
• branch prediction• speculative loads• ...
L2/L3enhancements
(size, associativity ...)
1. Gen. 2. Gen.
1 2 4
pipeline
A tranzisztorszámok duplázódása ~ két évente
Mire használhatók fel a többlet-tranzisztorok?
Moore szabály
1. Többmagos processzorok megjelenésének szükségszerűsége (4)
A többlet tranzisztorok felhasználása többmagos processzorként
A többmagos processzorok megjelenésének szükségszerűsége
Növekvő tranzisztorszámok Egyre csökkenő teljesítményhozam
1. Többmagos processzorok megjelenésének szükségszerűsége (5)
1.3 ábra: Intel többmagos processzorainak robbanásszerű elterjedése
1. Többmagos processzorok megjelenésének szükségszerűsége (6)
1. Többmagos processzorok megjelenésének szükségszerűsége (7)
1.4 ábra: Többmagos processzorok főbb osztályai
Desktops
Heterogenous multicores
Homogenous multicores
Multicore processors
Manycore processors
Servers
with >8 cores
ConventionalMC processors
Master/slavearchitectures
Add-onarchitectures
MPC
CPU GPU
2 ≤ n ≤ 8 cores
General purpose computing
Prototypes/ experimental systems
MM/3D/HPCproduction stage
HPCnear future
2. Homogén többmagos processzorok
2. Homogén többmagos procdesszorok (1)
2.1 ábra: Többmagos processzorok főbb osztályai
Desktops
Heterogenous multicores
Homogenous multicores
Multicore processors
Manycore processors
Servers
with >8 cores
ConventionalMC processors
Master/slavearchitectures
Add-onarchitectures
MPC
CPU GPU
2 ≤ n ≤ 8 cores
General purpose computing
Prototypes/ experimental systems
MM/3D/HPCproduction stage
HPCnear future
Többmagos MP szerver processzorok
2.1 Többmagos MP szerver processzorok (1)
AMD MP szerver processzorai•
Intel MP szerver processzorai•
2007: AMD: K10 (Barcelona)-alapú QC MP szerver (Opteron 8300 család)
Többmagos négyprocesszoros MP szerverek megjelenésének mérföldkövei
2006: Intel: Netburst-alapú DC MP szerver (8500 platform)
2007: Intel: Core 2-alapú QC MP szerver (7300 platform)
2005: AMD: K8-alapú DC MP szerver (Opteron 800 család)
2006: AMD: K8-alapú DC MP szerver (Opteron 8000 család)
2.1 - Többmagos MP szerver processzorok (2)
Intel többmagos MP szerver processzorai
2.1 Többmagos MP szerver processzorok (3)
Xeon 7000
11/2005
Cores Xeon 7200 Xeon 7300Xeon 7100
9/20079/20078/2006
MP Chipsets
3/2006 4/2006 9/2007
8500 8501 7300
(Paxville MP DC) (Tulsa DC) (Tigerton DC) (Tigerton QC)
7300
9/2007
(Clarksboro)(Twin Castle) (?)
2.2 ábra: Intel négyfoglalatos DC/QC MP platformjai (magok, lapkák)
2xFSB667 MT/s
4 x XMB(2 x DDR2)
32GB
2xFSB800 MT/s
4 x XMB(2 x DDR2)
32GB
4xFSB1066 MT/s
4 x FBDIMM(DDR2)512GB
(Caneland)
8500
(Truland)
DC QC
Intel’s DC/QC MP-servers3/2006
2.1 – Intel többmagos MP szerver processzorai (1)
2.3 ábra: Intel MP szerver lapka készleteinek fejlődése
Preceding NB
Potomac Potomac Potomac Potomac
Clarksboro
Tigerton Tigerton Tigerton Tigerton
(Twin Castle)
Paxville MPTulsa
XMB
XMB
XMB
XMB
Paxville MPTulsa
Paxville MPTulsa
Paxville MPTulsa
8500
DC/QC DC/QC DC/QC DC/QC
SC SC SC SC DC DC DC DC
2005: 2006:
2007:
DDR/DDR2
FBDIMM/DDR2
DDR/DDR2
2.1 – Intel többmagos MP szerver processzorai (2)
2.4 ábra: Intel négyfoglalatos 7300-as (Caneland) platformja (9/2007)
FB-DIMM
up to 512 GB
7200 (Tigerton DC, Core2), DC
Xeon
7300 (Tigerton QC, Core2), QC
2.1 – Intel többmagos MP szerver processzorai (3)
FB-DIMM DDR2
192 GB 7200 DC 7300 QC(Tigerton)
Xeon
2.5 ábra: Négyfoglalatos 7300 (Caneland) alaplap (Supermicro X7QC3)
SBE2 SB
7300 NB
2.1 – Intel többmagos MP szerver processzorai (4)
AMD többmagos MP szerver processzorai
UP: Opteron 100/1000 DP: Opteron 200/2000, MP: 800/8000
CPU0
1MB L2 Cache
CPU1
System Request Interface
Crossbar Switch
MemoryController HT
1MB L2 Cache
CPU0
1MB L2 Cache
CPU1
System Request Interface
Crossbar Switch
MemoryController 0 1 2
1MB L2 Cache
HyperTransport™
2 x 72 bit 2 x 72 bit 800/8000: 3 coherent links200/2000: 1 coherent link
2.6 ábra: Az Opteron család alapvető felépítése
2.1 – AMD többmagos MP szerver processzorai (1)
2.7 ábra: AMD 4P/8P Direct Connect szerver architektúrája
2.1 – AMD többmagos MP szerver processzorai (2)
2.8 ábra: Többmagos processzorok főbb osztályai
Desktops
Heterogenous multicores
Homogenous multicores
Multicore processors
Manycore processors
Servers
with >8 cores
ConventionalMC processors
Master/slavearchitectures
Add-onarchitectures
MPC
CPU GPU
2 ≤ n ≤ 8 cores
General purpose computing
Prototypes/ experimental systems
MM/3D/HPCproduction stage
HPCnear future
2.2 Sokmagos processzorok (1)
2.2 Sokmagos processzorok
2.2 Sokmagos processzorok•
(Intel Tiled processszora)•
Intel Larrabee processzora•
Intel Larrabee processzora
2.2 Sokmagos processzorok - Larrabee (1)
Larrabee
Intel’s Tera-Scale kezdeményezésének részeként.
Projekt kezdete ~ 2005Az első nem nyilvános prezentáció: 03/2006 (visszavonva) Az első nyilvános prezentáció: 08/2008 (SIGGRAPH)Várható megjelenés ~ 2009
• Teljesítmény (cél): 2 TFlops
• Előzmények:
• Célok:
Nem egyetlen termék, hanem több család alapjául szolgáló bázis architektúra.
Nagyteljesítményű grafikai processzor, HPC
2.2 Sokmagos processzorok - Larrabee (2)
2.9 ábra: A GPU-orientált Larrabe blokk diagramja (2008 aug. SIGGRAPH)
2.2 Sokmagos processzorok - Larrabee (3)
Basic architecture
16-byte széles SIMD feldolgozó egységek
2.10 ábra: GPU-orientált Larrabee alaplapja (2006, túlhaladott)
2.2 Sokmagos processzorok - Larrabee (4)
2.11 ábra: Négyfoglalatos MP szerver célú Larrabee rendszer architektúrája
2.2 Sokmagos processzorok - Larrabee (5)
CSI: Common Systems Interface (csomagalapú soros IF)
Intel Tiled processzora
2.2 Sokmagos processzorok – Tiled processzor (1)
• Intel Tera-Scale kezdeményezésének első megvalósítása
Bejelentése IDF 9/2006Várható megjelenése 2009/2010
• Cél: Tera-Scale kísérleti chip
(több, mint 100 projekt között)
• Előzmények:
Processzor
2.2 Sokmagos processzorok – Tiled processzor (2)
2.12 ábra: A Tiled processzor alapvető felépítése
2.2 Sokmagos processzorok – Tiled processzor (3)
3. Heterogén többmagos processzorok
3.1 Heterogén mester/szolga elvű többmagos processzorok (1)
3.1 ábra Többmagos processzorok főbb osztályai
Desktops
Heterogenous multicores
Homogenous multicores
Multicore processors
Manycore processors
Servers
with >8 cores
ConventionalMC processors
Master/slavearchitectures
Add-onarchitectures
MPC
CPU GPU
2 ≤ n ≤ 8 cores
General purpose computing
Prototypes/ experimental systems
MM/3D/HPCproduction stage
HPCnear future
3. Heterogén többmagos processzorok
3.1 Heterogén többmagos mester/szolga elvű TP-ok•
A Cell processzor
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (1)
Cell BE
• Előzmények:
2000 nyara: Az architektúra alapjainak meghatározása02/2006: Cell Blade QS2008/ 2007 Cell Blade QS2105/ 2008 Cell Blade QS22
• Sony, IBM és Toshiba közös terméke
• Cél: Játékok/multimédia, HPC alkalmazások
Playstation 3 (PS3) QS2x Blade Szerver család
(2 Cell BE/blade)
EIB: Element Interface Bus
3.2 ábra: A Cell BE blokk diagramja
SPE: Synergistic Procesing ElementSPU: Synergistic Processor UnitSXU: Synergistic Execution UnitLS: Local Store of 256 KBSMF: Synergistic Mem. Flow Unit
PPE: Power Processing ElementPPU: Power Processing UnitPXU: POWER Execution Unit
MIC: Memory Interface Contr.BIC: Bus Interface Contr.
XDR: Rambus DRAM
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (2)
3.3 ábra: A Cell BE lapka (221mm2, 234 mtrs)
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (3)
3.10 ábra: A Cell BE lapka - EIB
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (4)
3.11 ábra: Az EIB működési elve
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (5)
3.12 ábra: Konkurens átvitelek az EIB-en
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (6)
• Teljesítmény @ 3.2 GHz:
QS21 Csúcs SP FP: 409,6 GFlops (3.2 GHz x 2x8 SPE x 2x4 SP FP/cycle)
• Cell BE - NIK
2007: Faculty Award (Cell 3Đ app./Teaching)
2008: IBM – NIK Kutatási Együttműködési Szerződés: Teljesítményvizsgálatok• IBM Böblingen Lab• IBM Austin Lab
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (7)
The Roadrunner
6/2008 : International Supercomputing Conference, Dresden
A világ 500 leggyorsabb számítógépe
1. Roadrunner1. Roadrunner 1 Petaflops (1015) fenntartott teljesítmény (linpack)
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (8)
3.13 ábra:A világ leggyorsabb számítógépe: IBM Roadrunner (Los Alamos 2008)
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (9)
3.14 ábra: A Roadrunner főbb jellemzői
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (10)
3.15 ábra: Többmagos processzorok főbb jellemzői
Desktops
Heterogenous multicores
Homogenous multicores
Multicore processors
Manycore processors
Servers
with >8 cores
ConventionalMC processors
Master/slavearchitectures
Add-onarchitectures
MPC
CPU GPU
2 ≤ n ≤ 8 cores
General purpose computing
Prototypes/ experimental systems
MM/3D/HPCproduction stage
HPCnear future
3.2 Heterogén csatolt többmagos processzorok (1)
3. Heterogén többmagos processzorok
3.2 Heterogén csatolt többmagos processzorok•
Ötlet
A jelenlegi GPUk (Graphics Prtocessing Units) hatalmas számítási teljesítményűek, pl.
• NVIDIA GeForce GTX 260/280 (2008)
• AMD/ATI FireStream 9250 (6/2008)
3.2 Heterogén csatolt többmagos processzorok (2)
3.2 Heterogén csatolt többmagos processzorok (3)
3.16 ábra: CPU-k és GPU-k egyszeresen pontos LP csúcsteljesítménye
3.2 Heterogén csatolt többmagos processzorok (4)
3.17 ábra: CPUk és GPUk memória sávszélessége [GB/s]
Not cached
3.18 ábra: A lapkafelület hasznosítása CPU-kban ill. GPU-kban
3.2 Heterogén csatolt többmagos processzorok (5)
3.19 ábra: A GeForce GTX 280 és a Penryn lapkaméretének összehasonlítása
1400 mtrs
3.2 Heterogén csatolt többmagos processzorok (6)
3.2 Heterogén csatolt többmagos processzorok (7)
3.20 ábra: A Geforce GTX 280 rendszerarchitektúrája
240 SP
3.2 Heterogén csatolt többmagos processzorok (8)
3.21 ábra: Az SP-k felépítése
SP
3.2 Heterogén csatolt többmagos processzorok (9)
3.22 ábra: Az AMD/ATI 2950felépítése
LP csúcsteljesítmény
EP LP telj. > 1 TFlops
Egyetlen PCIe kártya
3.2 Heterogén csatolt többmagos processzorok (10)
3.23 ábra: Csatolt GPU architektúrák várható fejlődése
Integration to the chip
4. Kitekintés
4. Kitekintés (1)
Processor Technology Aim
Bloomfield (45 nm) desktopBeckton (45 nm) MP serverWestmare (32 nm) desktop DP server
Cores Memory channels
4 triple channel DDR3 8 quad channel FB_DIMM (2)
4/6 triple channel DDR3 4/6 quad channel DDR3
Intel Nehalem (i7) processzorcsaládja (várhatóan 2008 novemberében bejelentik)
• Integrált memóriavezérlő
• Megnövelt memória sávszélesség
• 4/6/8-magos
• Magonként kétszálas
• A hagyományos párhuzamos (64-bites) rendszerbusz leváltása nagysávszélességű soros buszra
Főbb jellemzők
4. Kitekintés (2)
4.1 ábra: Intel asztali gépeinek várható fejlódése (roadmap)
Core2 i7 (Nehalem)Pentium4
Q4/08
4. Kitekintés (3)
4.2 ábra: Intel processzor fejlesztési tervének részlete
Q2/09 Q3/09Q4/08 Q1/09
4. Kitekintés (4)
Kitekintés
Heterogenous multicores
Master/slavearchitectures
Add-onarchitectures
1(Ma):M(S) 2(Ma):M(S) M(Ma):M(S) 1(CPU):1(D) M(CPU):1(D) M(CPU):M(D)
Ma: MasterS: SlaveM: Many
D: Dedicated (like GPU)H: HomogenousM: Many
M(Ma) = M(CPU)
M(S) M(D)
?M(S) M(D)
4.3 ábra: Hetererogén többmagos processzorok várható fejlődése
Köszönöm a figyelmet!