60
Hochschule Bremen WS07/2008 Fachbereich Elektrotechnik und Informatik Flughafenallee 10 28199 Bremen Rechnerstrukturen - Labor PowerPC6 - NEC SX9 Mario Sauer Matrnr: 157419, [email protected] Hannes Bellmer Matrnr: 150824, [email protected] 01.10.2007 - 15.01.2008 betreut durch Prof. Dr. Risse

PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

Hochschule Bremen WS07/2008Fachbereich Elektrotechnik und InformatikFlughafenallee 1028199 Bremen

Rechnerstrukturen - Labor

PowerPC6 - NEC SX9

Mario SauerMatrnr: 157419, [email protected]

Hannes BellmerMatrnr: 150824, [email protected]

01.10.2007 - 15.01.2008

betreut durchProf. Dr. Risse

Page 2: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 I

Inhaltsverzeichnis

Abkürzungsverzeichnis II

1 Einleitung 1

2 POWERPC 22.1 Historie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.1 1. Generation . . . . . . . . . . . . . . . . . . . . . . . . 22.1.2 2. Generation . . . . . . . . . . . . . . . . . . . . . . . . 42.1.3 3. Generation . . . . . . . . . . . . . . . . . . . . . . . . 62.1.4 4. Generation . . . . . . . . . . . . . . . . . . . . . . . . 82.1.5 5. Generation . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 6. Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Pipelines . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.3 Caches . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.4 DFU - Dezimale Fließkommaeinheit . . . . . . . . . . . 232.2.5 VMX - Vektoreinheit . . . . . . . . . . . . . . . . . . . . 232.2.6 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 NEC SX9 263.1 Historie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1 NEC SX-1 und SX-2 . . . . . . . . . . . . . . . . . . . . 263.1.2 NEC SX-3 . . . . . . . . . . . . . . . . . . . . . . . . . . 283.1.3 NEC SX-4 . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.4 NEC SX-5 . . . . . . . . . . . . . . . . . . . . . . . . . . 303.1.5 NEC SX-6 . . . . . . . . . . . . . . . . . . . . . . . . . . 303.1.6 NEC SX-7 . . . . . . . . . . . . . . . . . . . . . . . . . . 323.1.7 NEC SX-8 . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Die neuste Generation - NEC SX-9 . . . . . . . . . . . . . . . . 343.2.1 überblick . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2 Technik und Leistung . . . . . . . . . . . . . . . . . . . 35

Inhaltsverzeichnis

Page 3: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 II

4 Vergleich & Fazit 394.1 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

A Quellen- und Literaturverzeichnis 42

B Tabellenverzeichnis 47

C Abbildungsverzeichnis 48

D Kennzahlen des NEC SX-9 49

E SX-Modelle im Direktvergleich 50

F Beispiele für den Einsatz 52

Abkürzungsverzeichnis

ADB Assignable Data Buffer

BCD Binary Coded Dezimal

BHT Branch History Table

CPU Central Crocessing Unit

CR Condition Register

DFU Decimal Floating Point Unit

FLOPS Floating Foint Operations per Second

FP Floating Point

FXU FX Unit

GPR General-Purpose Register

Abkürzungsverzeichnis

Page 4: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 III

IEEE Institute of Electrical and Electronics Engineers

LSI Large Scale Integration

LSU Load and Store Unit

MIMD Multiple Instruction Multiple Data

MMU Memory Management Unit

NUMA None-Uniform Memory Architecture

PM Permute Unit

POWERPC Performance optimization with enhanced RISC und PCfür Performance Chip

RISC Reduced Instruction Set Computing

SIMD Single Instruction Multiple Data

SMP Symmetric Multi Processing

SMT Simultaneous Multithreaded

TLB Translation Lookaside Buffer

VFU Vector Floatingpoint Unit

VMX Vector Multimedia eXtension

XC compleX Unit

XER FX Exeption Register

XS Simple Unit

Abkürzungsverzeichnis

Page 5: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 1

1 Einleitung

Diese Ausarbeitung wurde für das Fach Rechnerstrukturen - Labor, im Win-tersemester 2007/2008 an der Hochschule Bremen erstellt. Sie befasst sichmit den grundlegenden Konzepten der POWERPC-Rechner der 6. Generati-on und versucht einen Vergleich mit dem Vektorrechner NEX SX9.

Im ersten Kapitel wird die PowerPC Architektur anhand ihrer Historie einge-führt und die 6. Generation wird anhand ihrer Kenndaten und Besonderheitenerklärt. Im zweiten Kapitel wird die SX-Serie von NEC anhand der Historieeingeführt und anschließend der SX9 genauer beschreiben. Im dritten Kapitelwird dann ein Vergleich dieser beiden Architekturen angestrebt, ebenfalls istdas Fazit dieser Ausarbeitung dort zu finden.

1 Einleitung

Page 6: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 2

2 POWERPC

2.1 Historie

Da sich diese Arbeit hauptsächlich mit dem POWERPC6 beschäftigt, werdendie Generationen 1-5 nur kurz vorgestellt und nur prägnante Merkmale her-vorgehoben.

2.1.1 1. Generation

Die erste Generation des POWERPC wurde mit dem G1 1993 von der AIM-Allianz (Apple, IBM, Motorola) vorgestellt. Durch seine Dreistufige Pipelinekann der POWERPC1 oder auch G1 genannte Prozessor drei 32 Bit Instruk-tionen ausführen. Folgende Auflistung zeigt die Kerndaten des POWERPC601.

• Wortbreite 32 Bit

• SingleCore-CPU.

• Fixed-Poit-Unit1

• Floating-Point-Unit

• Sequencer-Unit

• Branch-Unit

• 32Kb L1 Cache

• 121 mm2 Die-Fläche

• 2,8 Millionen Transistoren

• 0,60µm Fertigung

1Bei anderen Herstellern Integer-Unit

2 POWERPC

Page 7: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 3

vgl. [3]

Der POWERPC1 wurde innerhalb von 12 Monate von einem Team aus Mit-arbeitern von IBM und Motorola entwickelt. Hierbei wurde IBMs RISC SingleChip (RSC) als Ausgangsplattform verwendet. Als Ausgangsmodell für dasBussystem diente der 88110 von Motorola.

Die Pipeline des POWERPC 601 besteht aus den vier folgenden Stufen:

1. Fetch

2. Decode/Dispatch

3. Execute

4. Writeback

Da alle Instruktionen die gleiche Länge haben siehe [11, Seite 8 - 10], kanndie Fetch- und Decodehardware einfach(er) als beim x86, siehe [12], gehaltenwerden.

Die Fixed-Point-Einheit

Die 32 Bit FPU ist für alle Integerberechnungen und die Adressberechnungzuständig. Die FPU war zum Zeitpunkt des Erscheinens des PC 601 einegroße Neuerung, da der direkte Konkurrent der Pentium zusätzliche Addierzum Berechnen der Adressen brauchte. Alle Adressberechnungen sorgtennatürlich für eine höhere Last in dem Kern, welches im Vergleich mit demPentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 abermit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der Pentium 1verfügte über 8Kb L1 Cache, siehe [10].

Die Floating-Point-Einheit

Die Floating-Point-Pipeline ist sechs Stufen lang, zu den vier bereits Genann-ten kommt je eine extra decode- und eine execution-stage. Da die meistender Single-Precision und fast alle der Double-Precision Operationen sich oh-ne Wartezyklen durch die Pipeline abarbeiten lassen, konnte der POWERPC1hier seine Stärken dem Pentium1 gegenüber voll ausspielen.

2 POWERPC

Page 8: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 4

Da bis auf die Floating-Point-Berechnungen alle Adressberechnungen von derFixed-Point-Unit (auch Integer-Unit) vorgenommen werden, kann in Phasen,in denen nur FP Daten verarbeitet werden, die Fixed-Point-Unit als eine dedi-zierte Load-Store-Unit für die Floating-Point-Einheit verwendet werden. DieseKombination war sehr performant, da Fixed-Point (Integer) und Floating-PointInstruktionen selten vermischt auftreten, ebenfalls behandelten Floating-PointOperationen meist größere Mengen an Operanden, welche mit vielen Load/-Store Anweisungen transferiert werden müssen. Hier spielt dann die FPU inder Funktion als Load-Store-Unit die Stärken des Designs aus.

2.1.2 2. Generation

Die zweite Generation des POWERPC wurde 1994 vorgestellt, folgende Auf-listung zeigt wieder die Kerndaten der CPU:

• Wortbreite 32 Bit

• SingleCore-CPU.

• Zwei Fixed-Point-Einheiten für simple Berechnungen (SIU)

• Eine Fixed-Point-Einheit für komplexe Berechnungen (CIU)

• Eine Floating-Point-Einheit

• Eine Einheit zur Sprungvorhersage

• Eine Load/Store Einheit

• 32Kb L1 Cache, je 16Kb für Instruktionen und Daten

• L2 Cache bis zu einem MB

• 196 mm2 Die-Fläche

• 3,6 Millionen Transistoren

• 0,5µm Fertigung

vgl. [3, PowerPC 604]

Die Pipeline verfügt über sechs Stufen

1. Fetch

2. Decode

3. Dispatch

2 POWERPC

Page 9: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 5

4. Execute

5. Complete

6. Write-back

Hier fällt auf, dass die klassische RISC-Pipeline um zwei Stufen erweitert wur-de, nämlich Dispatch und Complete. Diese zwei neuen Stufen sind ein Kenn-zeichen der sogenannten Out-Of-Order (OOO) Ausführung von Instruktionen.OOO-Ausführung bedeutet, dass Instruktionen außerhalb ihrer eigentlichenReihenfolge ausgeführt werden, um die funktionalen Einheiten der Pipelinebesser auszulasten. Das Gegenteil zu dieser Form der Ausführung wäre dieIn-Order Ausführung, welche nicht optimiert wäre.

Wie schon beschreiben hat der PPC604 zwei Fix-Point-Einheiten (Integer) fürsimple Berechnungen, diese sind im Vergleich zu der Einheit für die komple-xen Instruktionen schneller. Hier lässt sich schön zeigen, dass „Mache dasSimple schnell“ (vgl. Patterson & Hennessy) nicht nur eine theoretische Aus-sage ist, sondern auch in der Praxis Anwendung findet.

Folgende Abbildung zeigt das Blockschaltbild des PPC 604:

2 POWERPC

Page 10: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 6

Abbildung 2.1: POWERPC 604 Blockschaltbild [4, Seite 3]

Wie in obriger Abbildung zu sehen verfügt der 604 über zwei MMUs eben-falls über zwei 128 Einträge große und zweifach satzassoziative (64 Einträgepro Satz) TLB’s, welche per LRU die Einträge ersetzen, wobei je ein TLB fürInstruktionen und einer für Daten vorhanden ist.

2.1.3 3. Generation

Die dritte Generation des POWERPC wurde 1997 vorgestellt, folgende Auflis-tung zeigt wieder die Kerndaten der CPU:

• Eine Einheit zur Sprungvorhersage (BPU)

• Eine Dispatch Einheit

2 POWERPC

Page 11: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 7

• Eine Load/Store Einheit

• Eine Decode Einheit

• Zwei Fixed-Point-Einheiten für simple Berechnungen (SIU)

• Eine Fixed-Point-Einheit für komplexe Berechnungen (CIU)

• Eine Floating-Point-Einheit

• Eine System-Einheit (für z.B. spezielle Registertransfers)

• 32Kb L1 Cache, je 16Kb für Instruktionen und Daten

• Je einen 128 Einträge, zweifach Satzassoziativen Instruktion- und Daten-TLB.

• L2 Cache bis zu einem MB

• Wortbreite 32 Bit bei Adressen, bei Daten 64 Bit

• 67 mm2 Die-Fläche

• 15 Millionen Transistoren

• 0,25µm Fertigung

vgl. [5, Seite 4-6]

Foldende Abbildung zeigt das Blockschaltbild des PPC 750:

2 POWERPC

Page 12: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 8

Abbildung 2.2: POWERPC 750 Blockschaltbild [5, Seite 3]

2.1.4 4. Generation

Die vierte Generation des POWERPC wurde 2001 vorgestellt, folgende Auf-listung zeigt wieder die Kerndaten der CPU:

• AltiVec Unit (PowerPC Gegenstöck zu MMX) *neu*

• Eine Einheit zur Sprungvorhersage (BPU)

2 POWERPC

Page 13: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 9

• Eine Dispatch Einheit

• Eine Load/Store Einheit

• Eine Decode Einheit

• Zwei Fixed-Point-Einheiten für simple Berechnungen (SIU)

• Eine Fixed-Point-Einheit für komplexe Berechnungen (CIU)

• Eine Floating-Point-Einheit

• Eine System-Einheit (für z.B. spezielle Registertransfers)

• 64Kb L1 Cache, je 32Kb für Instruktionen und Daten

• Je einen 128 Einträge, zweifach Satzassoziativen Instruktion- und Daten-TLB

• L2 Cache bis zu zwei MB

• DualCore-CPU.

• 10.1 mm2 Die-Fläche

• 174 Millionen Transistoren

• 0,20µm Fertigung

vgl. [6, Seite 4-6]

Foldende Abbildung zeigt das Blockschaltbild des PPC 7400:

2 POWERPC

Page 14: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 10

Abbildung 2.3: POWERPC 7400 Blockschaltbild [6, Seite 3]

2 POWERPC

Page 15: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 11

Die vierte Generation verfügte über folgende Pipelinestufen:

• Branch Prediction

• Instruction Fetch

• Decode, Crack and Group Formation

• Group Dispatch and Instruction Issue

• Load/Store Unit Operation

– Load Hit Store– Store Hit Load– Load Hit Load

• Instruction Execution Pipeline

2.1.5 5. Generation

Die fünfte Generation wurde 2005 veröffentlicht, folgende Auflistung zeigt wie-der die Kerndaten (Anhand des PPC970):

• DualCore-CPU

• 130nm Fertigung

• Die-Fläche 389mm2

• 276 Millionen Transistoren

• 64 bit

• VMX (IBM-Äquivalent zu Motorola/FreeScale AltiVec)

• 1.875 MB L2 Cache shared

• 36MB L3 Cache shared

• 59 Millionen Transistoren

• 512 KByte (970FX) / 1MByte (970MP) L2-Cache

aus [7] und [8] Folgende Abbildung zeigt den Kern eines POWER5

2 POWERPC

Page 16: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 12

Abbildung 2.4: POWER5 Kern [8, Seite 2]

Entgegen der naheliegenden Vermutung ist der Power5 oder auch G5 keinNachfolger der G4 Prozessoren sondern die Weiterentwicklung von IBMs Power4+Prozessor. Durch seine zwei Fließkommaeinheiten ist der G5 besonders fürsogenanntes Number-Crunching (Hochleistungsrechnen mit vielen gleicharti-gen Zahlen und Rechenoperationen) mittels FMAC (Fused Multiply Add) In-struktionen geeignet. Der Power5 verfügt über die Altivec-Implementierungder ersten G4 Modelle, wobei die G4 Modelle von Apple ab der 745x-Seriebereits über eine bessere Implementierung verfügen. Dieses Manko wird mitdem Power6 ausgemerzt. vgl. [7]

2.2 6. Generation

2.2.1 Überblick

Folgende Auflistung zeigt die Kerndaten der neuen POWER6 CPU, [1, Seiten639, 643]

• DualCore-CPU.

• Je Zweifaches symmetrisches Multithreading (SMT) pro Kern

• 4 MB privaten L2-Cache pro Kern

• 32 MB L3-Cache ansteuerbar

2 POWERPC

Page 17: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 13

• 2 Speichercontroller für DDR800-Speicher

• neue Festkomma-Recheneinheit

• eine AltiVec-kompatible Vektoreinheit 2.

• Die-Fläche 340mm2

• 750 Millionen Transistoren

IBM verfolgte folgende Ziele bei der Entwicklung des POWER6

• Es soll ein hoher Datendurchsatz erreicht werden.

• Das Ganze soll bei weiterhin einigermassen moderaten Abwärmemen-gen erreicht werden.

• Daneben soll die CPU stärker auf spezielle Anwendungsgebiete (z.B.Finanzanwendungen) angepasst werden.

Jeder Kern des Power6 verfügt über verschiedene Einheiten. Die Instructi-on Fetch Unit (IFU) ist für das Holen der Instruktionen, das Pre-coding, dieSprungvorhersage und die Sprungausführung zuständig. Die Instruction Dis-patch Unit (IDU) ist für das Dispatching, Issuing und die Interruptbehand-lung zuständig. Die zwei FXU’s, die zwei binären FP-Einheiten (BFU’s), diedezimale FP-Einheit (DFU), die Vector Media Extension (VMX) Einheit sindfür die Abarbeitung der entsprechenden Instruktionen zuständig. Die zweiLoad/Store-Einheiten (LSU’s) sind für das Holen und Schreiben der Daten zu-ständig und die Recovery-Einheit (RU) hält die Daten, welche den aktuellenZustand des Prozessors beschreiben. Vgl. [1, Seite 646]

In der folgenden Abbildung ist das Blockschaltbild des POWER6 zu sehen.Folgendes Blockschaubild zeigt die Architektur des POWER6 Kerns:

2Für wissenschaftliches Rechnen und grafische Anwendungen

2 POWERPC

Page 18: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 14

Abbildung 2.5: POWER6 Blockschaltbild [1, Seite 640]

Durch eine Taktrate von 4,7 GHZ, einer entsprechend schnellen Datenanbin-dung und breitere Pipeline soll der hohe Datendurchsatz erreicht werden. DiePipeline des POWER6 ist in der Lage, 7 Befehle pro Takt auszuführen. Durchdiese Überlegungen treten zwei Probleme beim Entwurf des Prozessors auf:Zum einen werden die Latenzen innerhalb der CPU kritischer und zweitensdie Wärmeentwicklung des Prozessors.

Folgende Abbildung zeigt das sogenannte „Butterfly“-Layout der L2 Cachespei-cher, wobei je eine Hälfte des L2-Caches rechts und eine links des Kerns desProzessors angeordnet ist. Durch diese Anordnung der Caches werden dieLatenzzeiten verkürzt und die Bandbreite der Speicheranbindung wird ver-doppelt.

2 POWERPC

Page 19: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 15

Abbildung 2.6: POWER6 Chip [1, Seite 644]

Wie bereits erwähnt führt die Wärmeentwicklung zu Problemen im Prozessor-design. Diese lassen sich durch Herstellungsprozesse umgehen, aber „Brenn-punkte“ wie die L1-Caches in den Kernen stellte trotzdem weiterhin ein Pro-blem dar. IBM hat versucht, dies mit einer Anordnung der Kerne an den ge-genüberliegenden Seiten des Die etwas zu entschärfen. In den vorigen Ge-nerationen waren die Kerne noch nebeneinander angeordnet, wodurch eherkritische Temperaturen entstanden.

Folgende Abbildung zeigt die Übersicht der POWERPC-Generationen des 20.Jahrhunderts und zeigt die Weiterentwicklungen zum PowerPC6.

2 POWERPC

Page 20: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 16

Abbildung 2.7: POWER Historie im 20. Jahrhundert [9]

2.2.2 Pipelines

Folgende Grafik zeigt die Pipeline des POWERPC6:

2 POWERPC

Page 21: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 17

Abbildung 2.8: POWER6 Pipeline [1, Seite 645]AG: address generation; BHT: branch table access and predict; BR: branch; DC:

data-cache access; DISP: dispatch; ECC: error-correction code; EX: execute; FMT:formatting; IB: instruction buffer; IC0/IC1: instruction-cache access; IFA: instructionfetch address; ISS: issue; P1–P4: pre-decode; PD: post-decode; RF: register file

access.

Die Pipeline des POWERPC6 lässt sich in fünf Abschnitte unterteilen.

Das Precoding

Das Precoding ist die Neuerung beim POWERPC6, in dieser Stufe werdenInstruktionen, welche aus dem gleichen Thread stammen, in Gruppen vonfünf Instruktionen verpackt. Die Abarbeitung einer solchen Gruppe wird durcheinen Sprung beendet vgl. [Seite 9]pwr6ma. Dieses „Instruction-grouping“wird von der IFU durchgeführt. Instruktionen, welche sich im L2 Cache be-finden, sind bereits decodiert. Das Pre-coding ist in Abbildung 2.8 in den Zu-ständen P1 bis P4 zu sehen.

2 POWERPC

Page 22: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 18

Diese Gruppen werden nach folgenden Regeln erzeugt:

• Eine Gruppe kann nicht mehr Ressourcen als vorhanden belegen. Ver-fügbar sind zwei FXU, zwei LSU, zwei FP- oder VMX-Einheiten und eineSprungvorhersageeinheit.

• Eine darf keine Schreibabhängigkeiten in einem GPR, FP-Register, CR-Feld oder dem FX-Exception Register haben.

• Eine Gruppe darf keine Schreib-/Leseabhängigkeiten im XER haben.

• Eine Gruppe darf keine Schreib-/Leseabhängikeiten in einem GPR ha-ben, außer für FX-Instruktionen oder FX-Ladebefehle gefolgt von einemFX-Speicherbefehl auf das selbe Register.

• Eine Gruppe darf keine Schreib-/Leseabhängigkeiten in einem CR-Feldhaben, ausser wenn FX-Instruktionen das CR-Feld beschreiben gefolgtvon einem bedingten Sprung in Abhängigkeit von dem CR-Feld.

• Eine Gruppe darf keine FMA3 gefolgt von einer dieses Ergebnisse le-senden Operation haben.

• Eine Gruppe darf keinen FP-Ladezugriff gefolgt von einem FP-Speich-erzugriff auf das gleiche FP-Register haben.

aus [1, Seite 647]

Ein Vorteil dieser neuen Stufe ist, dass Sie vor dem eigentlichen Transfer derInstruktionen in den Cache (ID-Phase) stattfindet. Somit gelangen bereits op-timierte Instruktionen in den Cache.[1, Seite 640]

Instruktion-Fetch und Branch-Prediction

Jeder Power6 Kern hat einen 64KB vierfach satzassoziativen L1 I-Cache. DieAdressübersetzung wir mit einer 64 Einträge fassenden I-ERAT (effictive-to-real-adress-translation) Tabelle vorgenommen.

Die IFU holt die Instruktionen aus dem L2 Cache in den L1 I-Cache. Es kön-nen bis zu 32 Fetch-Anforderungen von einem Kern an den L2-Cache gestelltwerden. Diese Informationen werden an den Decoder (IDU) weitergereicht.

3FP Mulitply add

2 POWERPC

Page 23: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 19

Der Power6 Prozessor braucht vier Zyklen, bevor die Instruktionen in den I-Cache geschrieben werden; zusätzlich ist noch die L2 Zugriffszeit zu beach-ten.

Weiterhin führt die IFU das sogenannte „Instruction-recording“ aus. Das heißtals Teil der pre-decode Funktion werden Instruktionen ausgelesen und in denI-Cache geschrieben, bevor der eigentliche Decodiervorgang beginnt. Bei-spielsweise kann das Vertauschen von Registerfeldern in Instruktionen dafürsorgen, dass Instruktionen einheitlicher und weniger komplex verschachtelt inden kritischen Pfad gelangen. Vgl. [1, Seite 646] Weiterhin wird von der IFUdie Branchprediction und execution berechnet/ausgeführt. Der Power6 kannbis zu acht Sprünge in einem Zyklus abarbeiten. Die Vorhersage wird mit-tels eines 16Kb Eintrages ermittelt, wobei zwei Bit für die BHT, acht Bit füreinen Zählcache und sechs Bit für einen sogenannten link-stack verwendetwerden.

Der Power6 wurde so entworfen, um Sprünge so früh und so schnell wie mög-lich auszuführen. Die schon in der Pre-Decode Phase berechneten Sprung-ziele tragen zu diesem Verhalten entscheidend bei.

Decode und Dispach

Folgende Abbildung zeigt die Decode und dispatch Pipline.

Abbildung 2.9: Decode Pipeline [1, Seite 645]

IBM erklärt in [1] nicht, wie die Decode Phase funktioniert. Es ist aber in obigerAbbildung zu sehen, dass vier Stufen für das Decodieren der Befehle benötigtwerden. Dies scheint bei der RISC-Architektur eher verwunderlich.

2 POWERPC

Page 24: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 20

Das Verteilung (dispatching), Verfolgen (tracking) und das Ausstellen (issuing)der Instruktionen wird von der IDU vorgenommen. Dispatch und PD (dessenBedeutung nicht erklärt wird) Phasen sind in Abbildung 2.9 in den grünenFeldern zu sehen. In der Dispatchphase werden Instruktionen einer Gruppe,siehe Abschnitt 2.2.2, zusammen auf die weiterführenden Pipelines verteilt.Es ist möglich, bis zu fünf Instruktionen für jeden Thread oder bis zu 7 fürbeide Threads pro Zyklus auszuführen. vgl. [1, Seite 648]

Die Verarbeitung

Wie in Abbildung 2.8 zu sehen, sind die Pipelines der einzelnen Verarbei-tungseinheiten verschieden lang. Ebenfalls gibt es hier in allen außer derLoad- & Store-Pipeline sogenannte „buffer-stages“. Hiermit ist es laut IBMmöglich, Daten in einem Zyklus zu laden und dann zu verwenden. Wie diesmit vier Load Stufen, siehe Abbildung 2.10, erreicht werden soll, ist schleier-haft.

Abbildung 2.10: Load-Pipeline [1, Seite 645]AG: address generation; DC: data-cache access; FMT: formatting; RF: register file

access.

Wie in Abbildung 2.8 zu sehen, wird die FX-Pipline um zwei, die Branch-Pipeline um drei und die Floatingpoint-Pipeline um vier Zyklen verzögert.

IBM bezeichnet die Floating-Point-Pipeline als 7 Stufen lang, wie aber in Abbil-dung 2.8 zu sehen, ist sie mitsamt den Buffer-Stages und den in der Abbildunggrün dargestellten Dispatch- und Issuestages aber 14 Zyklen lang. Die Aus-sage von IBM lässt sich damit begründen, dass hier ein Bypass vorhandenist und somit von nachfolgenden Befehlen schon vor Ende der Pipelinestufeauf das Ergebnis zugegriffen werden kann. Wie durch den Bypass zu sehen,kann hier der erste Schritt auf Ergebnisse der siebten Berechnung zurückgrei-fen. Hier reduziert sich die Anzahl der voneinander unabhängigen Befehle aufsechs.

2 POWERPC

Page 25: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 21

Writeback

Wie in Abbildung 2.8 zu sehen enden alle Pipelines mit der Writeback Stufe,in der Abbildung rosa dargestellt.

2.2.3 Caches

Der Power6 verfügt über drei Cache Hierarchien, L1, L2 und L3 Cache. Fol-gende Abbildung zeigt eine Übersicht über die verschiedenen Caches.

Abbildung 2.11: Cacheübersicht [1, Seite 654]

L1 Cache

Der L1 Cache des Power6 ist 64KB groß, sowohl der Cache für die Daten alsauch der für die Instruktionen. Diese Caches sind, wie es der Name vermutenlässt auf dem Kern untergebracht. Zu beachten ist, dass der I-Cache die opti-mierten (siehe Abschnitt 2.2.2) Instruktionen enthält und so z. B. die Grup-penzugehörigkeit zu einer Instruktion gespeichert werden muss. Dies wirdvermutlich durch zusätzliche Bits pro Datenwort ermöglicht.

Der I-Cache ist 4-fach assoziativ, wobei der D-Cache 8-fach assoziativ ist.Somit haben sich die Assoziativitäten zu den vorhergehenden Modellen ver-doppelt.

2 POWERPC

Page 26: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 22

L2 Cache

Der private L2 Cache jedes Kerns der POWER6 CPU ist 4 MB groß, umfasst128 Cachelines und ist achtfach satzassoziativ. Im Gegensatz zum POWER5ist der Cache durch je einen Controller, siehe Abbildung 2.6. Jede Cachelineist 32 Byte groß, jede Fetch-Anweisung wird immer auf einen Block von vierSeiten ausgeführt. Lese- & Schreibanweisungen und Rückschreibeanweisun-gen werden nur für die benötigte Anzahl der Blöcke ausgeführt.

Die Seiten, welche mit den unteren 64 Byte adressiert werden, finden sichlinks des Kerns und die oberen 64 Byte finden sich rechts des Kerns(vgl. [1,Seite 654]). Durch die Verwendung von je einem eigenen Controller für denL2 Cache verkürzen sich die Latenzzeiten im Zugriff auf den Cache, machenaber Kohärenzprotokolle notwendig. IBM verwendet hier einen sogenanntenSemi-Shared-Cache, welcher es ermöglicht bei einem Miss im eigenen Cacheund einem Hit im Cache des anderen Kerns die Daten zu übertragen, obmittels diesem Verfahren auch die Kohärenz sichergestellt wird, lässt sich mit[1] nicht belegen. Es ist aber von einem „sliding-window“ die Rede, welchesKollisionen zwischen Snoopinganfragen und Cacheanfragen verhindert.

Als Verdrängungsstrategie wird ein pseudo-LRU 4 (siehe [1, Seite 654]) ver-wendet. Hier wird versucht, neue Blöcke im Speicher möglichst weit entferntvon oft verwendeten Blöcken abzulegen.

L3 Cache

Der 32 MB große L3 Cache wird von beiden Cores genutzt. Er ist 16 fach as-soziativ und besteht aus 128 Cachelines. Um ebenfalls Kollisionen zwischenSnooping und Cacheanfragen zu vermeiden, verfügt der L3 Cache ebenfallsüber das „sliding-window“. Auch der L3 verfügt über den schon aus dem L2Cache bekannten pseudo-LRU, um Daten zu verdrängen. Der L3 Cache ar-beitet wir bei den vorhergehenden POWER Modellen als sogenannter Victim-Cache, d.h., dieser Cache nimmt nur Daten auf, welche aus den höherenEbenen der Speicher-Hirarchie verdrängt werden.

4LRU = Least Recently Used

2 POWERPC

Page 27: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 23

2.2.4 DFU - Dezimale Fließkommaeinheit

Die DFU des POWER6 beschleunigt finanzielle Berechnungen und ist dieerste hardwareseitige Implementierung des IEEE 754R Standards. Dies istvor allem im Finanzwesen notwendig, da hier viele dezimale Multiplikationendurchgeführt werden, z.B. bei der Berechnung von Stundenlöhnen etc. [2,Seite 13]

IBM hat mit der DFU eine Erweiterung implementiert, welche implizit Floating-pointbasierte zu „decimal radix point“ (siehe [2, Seite 13]) Zahlen rundet.

Durch die mit dem IEEE754R eingeführten Datenformate decimal32, deci-mal64 und decimal128 wird in der Berechnung (mittels decimal64 und deci-mal128) eine Genauigkeit von 16 bzw. 24 Stellen erreicht, decimal 32 wirdnur bei Load-Operationen verwendet. Die DFU beherrscht die Grundrechen-arten, Runden, Überprüfen und Umwandeln von Operanden (vor allem Inte-ger und BCD ). Da diese Einheit laut IBM für den Finanzsektor vorgesehenist, scheinen diese Funktionen ausreichend. Sollten aufwändigere Funktionengewünscht sein, müssen sie von Software erledigt werden.

Als Beispiel wäre hier das Addieren von 5% zu einem Betrag von 0,70 C zunennen. Rechnet man mit dem Datentyp „Binary Double“, so wären 5% von0,70:

1.05 ∗ 0, 70 = 0.73499999999999998667732370449812151491641998291015625

Dies wären dann gerundet 0,73 C, wogegen es dezimal gerechnet 0,74 C wä-ren. [9, Seite 13].

2.2.5 VMX - Vektoreinheit

Die Vector Multimedia Extension (VMX), früher bekannt als AltiVec, ist dieSIMD-Erweiterung des POWER6. Sie wurde von IBM, Apple und FreescaleSemiconductor, Inc (früher Motorola) entwickelt.

Sie wurde entwickelt, da viele „gleichartige“ Operationen auf verschiedenenDaten ausgeführt werden sollen. Dies ist z. B. bei Berechnungen aus CAD-Programmen, wissenschaftlichen Berechnungen, Ver- & Entschlüsselung vonDaten, Videoverarbeitung, Wetterberechnungen, etc. der Fall.

2 POWERPC

Page 28: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 24

Aktuelle Prozessor-Implementierungen erlauben die Bearbeitung von sehrgroßen und sehr präzisen Operanden. Dies ist aber nicht immer notwendig.So wird zugunsten der Geschwindigkeit gerne auf etwas Genauigkeit verzich-tet. Hier setzt SIMD an, indem auf das sehr präzise Bearbeiten eines Operan-den zugunsten der parallelen „schnellen“ Bearbeitung vieler Daten zur glei-chezeitig verzichtet wird.

Die VMX ist in der Lage, Operanden in 128 Bit Vektoren zu 16× 8, 8× 16 oder4× 32 zu verarbeiten. Vgl. [2, Seite 19]

Die VMX besteht aus sieben Einheiten:

• zwei Load-Einheiten welche die Vektorregister füllen. Ein Ladevorgangbraucht zwei Taktzyklen, da die VMX mit 128Bit Operanden arbeitet, derKern aber nur mit 64Bit Operanden, vgl. [2, Seite 12].

• einer Store-Einheit zum Rückschreiben der Daten.

• einer 128Bit breiten Permutationseinheit (PM), die folgende Operationenausführt:Permutationen, Zusammenfassen, Schieben, Splat (repeat a part of theinput operand), Packen (modulo and saturate) und entpacken, vgl. [2,Seite 4].

• einer komplexen (Integer)Einheit (XC), welche multiply-add, multiply-sumund sum-accross Instruktionen ausführt, vgl. [2, Seite 8].

• einer einfachen (Integer)Einheit (XS), welche simple Berechnungen (kei-ne Multiplikationen und Divisionen) ausführt, vgl. [2, Seite 6].

• einer Vektor Fließkomma Einheit (VFU), welche folgende Instruktionenausführt:Addition und Subtraktion, vorzeichenbehaftete multiply-add Operationen,Konvertierungen zu und von Integer, Runden zu Integerwerten nach denvier in IEEE Standards beschriebenen Verfahren und Schätzoperationenfür 1/x, 1/√x, log x und 2x vgl. [2, Seite 9].

Die Einheiten verteilen sich auf vier Queues:

• Die Load-Einheiten auf je eine.

• XS, VMU und die Store-Einheit auf die Exection-Queue.

• XC und PE auf die zweite Exection-Queue.

2 POWERPC

Page 29: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 25

2.2.6 Fazit

IBM stellt mit dem PowerPC6 einige besondere Neuheiten wie die DFU vor, sokündigt SAP in [9, Folie 14] an diese ab Netweaver 7.1 zu unterstützen. Somitwird der PowerPC6 einen Vorteil gegenüber den anderen am Markt erhält-lichen Prozessoren haben. Es ist zu vermuten, dass die anderen Herstellerhier mit ähnlichen Recheneinheiten nachziehen werden.

IBMs Aussagen zum Energieverbrauch ( doppelte Taktrate bei gleichem Ver-brauch) beeindrucken und zeigen den Trend zur “GreenIT”, siehe http://

www.cebit.de/greenit_d (Stand 04.03.2008), lassen sich aber noch nichtHerstellerunabhängig verifizieren. Ebenso gibt es noch (Stand März 2008)keine unabängigen Bechmarks der POWERPC6 Architektur, jedoch lassendie von IBM maximalen Taktraten von 4.7 GHz einigies hoffen, wie in folgen-der Abbildung zu sehen.

Abbildung 2.12: POWER6 Bechmarks, [13]

Es ist aber zu beachten, dass hier die Ergebnisse durch speziell optimierteCompiler, siehe [13], erzielt wurden und dies nicht mit den täglichen Anforde-rungen an die getesteten Systeme zu vergleichen ist.

2 POWERPC

Page 30: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 26

3 NEC SX9

3.1 Historie

Die Entwicklungsgeschichte der NEC Super Computer begann im Jahr 1983,als das japanische Unternehmen ihren ersten Hochleistungsrechner der SX-Serie, den NEC SX-1 der Öffentlichkeit ankündigte. Über die Jahre wurde dieSerie fortgesetzt und immer weiter entwickelt, teilweise auch in Zusammenar-beit mit dem Unternehmen Cray, dessen Gründer Seymore Cray als Vater derSuper Computer gilt und der mit der Veröffentlichung des Cray-1 1976 denGrundstein für die Supercomputer legte.Die folgenden Kapitel sollen einen Überblick über die historische und techni-sche Entwicklung der SX-Serie geben. Es werden für den Vergleich techni-sche Details genannt, die im Kapitel 3.2.2 genauer beschrieben werden. Einetabellarische Gegenüberstellung der wichtigsten technischen Daten ist im An-hang E zu sehen. [33])

3.1.1 NEC SX-1 und SX-2

Der NEC SX-2 wurde als der erste Super Computer von NEC bekannt. Ob-wohl die Serie mit dem SX-1 begann wurde der SX-2 als der erste echte SuperComputer von NEC berühmt, da er die Ein-GigaFLOPS-Grenze überschrittenhatte. Der Designer Tadashi Watanabe war ab sofort ein wichtiger Name inSupercomputer-Kreisen in der ganzen Welt.Die ersten Modelle des SX-2 wurden 1985 an die Osaka Universität und andie ICFD (Institute for Computational Fluid Dynamics) geliefert. Das Systemwurde als Single Node (Einzelknoten) mit einer CPU angeboten. Die CPUbestand aus 16 arithmetischen Einheiten, die jeweils zu 4 Sets mit jeweils 4arithmetischen Einheiten (Addition/Shifting, Multiplikation, Division, logische

3 NEC SX9

Page 31: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 27

Operationen) aufgeteilt wurden. Jedes Set nutzte eine der vier Vektor Pipeli-nes. In der Literatur werden dafür auch Begriffe wie Vektor Pipeline Prozessoroder Vektorverarbeitungspipeline verwendet. Jede der vier Pipelines war nichtnur mit dem Vektorregister verbunden, sondern auch mit dem Vektor MaskenRegister und der Masken Pipeline zur Verarbeitung der Masken Operationen.Das Vektorregister war mit acht vector-load und vier vector-store-Leitungenmit dem Hauptspeicher verbunden. Dazu kam noch eine skalare Einheit (engl.scalar unit) mit ebenfalls vier arithmetischen Einheiten, einem Scalar Registerund einem eigenen Cache Speicher. Eine grafische Verdeutlichung soll dieAbbildung 3.1 geben.

Abbildung 3.1: CPU Schema des NEC SX-2

Die technischen Umsetzung erfolgte mittels der high-density LSI logic tech-nology, die es ermöglichte, sehr viele logische Gatter (engl. gates) auf einemChip platzsparend unterzubringen. Damit waren 1000 gates pro Chip möglich.

3 NEC SX9

Page 32: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 28

Dabei hatte jedes gate eine delay time (Zeitverzögerung zwischen Signal-eingang und Signalausgang eines logischen Elements) von 0,25ns, ein 1kb-bipolarer Speicher mit einer Zugriffszeit von 3,5ns als Vektorregister und einen64kb Cache Speicher. Der Hauptspeicher wurde in 512 Banken angeordnetund erlaubte in einer 6ns Clock Periode eine Verarbeitung von bis zu acht64-bit-words. Der gesamte Speicher hatte eine maximale Größe von 256MBund eine Speicherbandbreite von 11GB pro Sekunde. Es war eine theoreti-sche Spitzenleistung von 1,3 GFLOPS möglich, allerdings zeigten BenchmarkTests, dass diese Leistung real nicht erreicht werden konnte. Die Ergebnisselagen immer unterhalb der halben Spitzenleistung.Der NEC SX-1 hatte im Vergleich eine Taktzyklus von 7ns und nur die Hälfteder Vektor Pipelines. Dadurch erreicht der SX-1 nur eine Spitzenleistung von570 MFLOPS.Im Jahr 1987 verbesserte NEC den SX-2 und veröffentlichte ihn als SX-2A.Mit der A-Serie wurden die Speicherbandbreite und die Bandbreite für Ein-und Ausgabe erhöht, wodurch die Benchmark Werte wesentlich verbessertwurden und näher an der theoretischen Spitzenleistung des SX-2 lagen.(Quellen: [41], [42], [31], [32], [33])

3.1.2 NEC SX-3

Die weitere Entwicklung bei NEC brachte viele wichtige Verbesserungen, die1989 mit dem Model SX-3 auf den Markt kamen. Die wohl wichtigste Neuerun-gen waren die Erhöhung der Anzahl der verwendeten CPUs und die Erhöhungder Anzahl der Vektoreinheiten pro CPU. Damit hatte NEC die Kapazitaten fürMultiprozessor Systeme geschaffen. Die verschiedenen möglichen Konfigura-tionen konnten dem Namen entnommen werden. So bedeutet NEC SX-3/44ein SX-3 System mit vier CPUs und pro CPU vier Vektoreinheiten. Das wardie leistungsstärkste Konfiguration des SX-3, die NEC anbot. Das Prinzip derCPU des SX-2 wurde hier für die Multiprozessortechnologie übernommen, sodass der SX-3/44 über 4x4 Vektor Pipelines verfügte. Die theoretische Spit-zenleistung lag beim SX-3/44 bei 22 GFLOPS, das sind 5,5 GFLOPS proCPU. Der maximale Hauptspeicher hatte eine Größe von 2GB. Die Speicher-bandbreite betrug bei jeder der vier CPUs 22GB/s.Die technische Umsetzung hatte sich zum SX-2 ein wenig verändert. NECverwendete die neue LSI ultra high-density Technologie, die es ermöglichte20.000 gates auf einen Chip die verarbeiten. Die Laufzeitverzögerung betrug

3 NEC SX9

Page 33: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 29

70ps und die Zugriffszeit auf den Vektorregister-Speicher konnte auf 1.6nsveringert werden.Zu Anfang war NEC auch hier nicht in der Lage, von vornherein die theoreti-sche Spitzenleistung zu ermöglichen. Darum wurde auch der SX-3 verbessertund kam 1992 als SX-3R auf den Markt. Es wurde unter Anderem die Taktrateauf 2,5ns gesenkt, was die Spitzenleistung jeder CPU auf 6,4 GFLOPS an-steigen ließ.(Quellen: [30], [31], [33])

3.1.3 NEC SX-4

Im Juli 1996 wurde mit der SX-4 Vektor-Maschine eine der größten jemalsgebauten Shared-Memory-Maschinen installiert. Mit damals herausragenden8GB Hauptspeicher in SSRAM-Technik sowie 32 Prozessoren, die alle gleich-berechtigt auf den Speicher zugreifen konnten. Da der Speicher aber in derNUMA Architektur entworfen wurde, hieß das nicht, dass die Zugriffszeitenalle identisch waren. Je nach Ort des Speichers waren die Zugriffszeiten ent-sprechend kurz oder lang. Dennoch hatte das System einige Kennzahlen,die bis dato nicht übertroffen wurden. Die durchschnittliche Speicherband-breite von 16GB war im Verhaltnis zur Spitzenleistung der Recheneinheiten(2 GFLOPS pro CPU) so groß, dass der Wert von späteren Generationennicht mehr erreicht werden konnte. Bei 16GB/s pro CPU wurde 0,5 TB/s inder Maschine bewegt. Die Maschine bot viel Neues: NEC hatte von der SX-3zur SX-4 den Schritt von der Wasser- zur Luftkühlung gewagt und war zumCMOS-Fertigungsprozess übergegangen, was zur Folge hatte, dass die Pro-zessoren zwar weniger Strom brauchten, aber dafür auch wesentlich geringe-re Taktraten erreichten. Das wurde durch den Einsatz von 8 parallel arbeiten-den Vektorpipes wieder gut gemacht, die dann in der Summe für 2GFLOPStheoretischer Spitzenleistung pro CPU sorgten.Mit der SX-4 Serie realisierte NEC auch noch eine andere technologischeVariante zu dem klassischen Single-Node-Rechner, das neue Multi-Node-System. Es konnten somit mehrere Nodes in einem Gesamtrechnersystemverbaut werden. Somit war der SX-4 mit maximal 16 Nodes erhältlich. Je-de Node beinhaltete bis zu 32 CPUs, was eine maximale Ausstattung mit 512CPUs möglich machte. Jede Node hatte ihren eigenen Hauptspeicher, woraussich 256GB Gesamtspeicher ergab. Das Multi-Node-System konnte somit ei-ne theoretische Spitzenleistung von einem TFLOPS erreichen.

3 NEC SX9

Page 34: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 30

(Quellen: [40], [29], [33])

3.1.4 NEC SX-5

Die große Nachfrage nach Vektorleistung führte dazu, dass noch während derLaufzeit der SX-4 das Nachfolgemodell SX-5 im Jahr 1998 vorgestellt wurde.Die maximale Anzahl der CPUs betrug 16 mit einer theoretischen Spitzenleis-tung von 8 GFLOPS pro Prozessor. Daraus errechnet sich eine theoretischeGesamtsspitzenleistung von 128 GFLOPS. Der Hauptspeicher war ein 128GBgroßer shared-memory SDRAM. Damit wurde der Speicherengpass der SX-4 beseitigt. Nebenbei war die CPU der SX-5 doppelt so schnell wie die desSX-4, dabei aber weniger als halb so groß. Der Fortschritt in der Halbleiter-technologie und der Integration wurde hier an der CPU sichtbar, wenn auchdas System als Ganzes wegen der nötigen Volumen für die Luftkühlung ge-waltige Ausmaße hatte. Für die Speichertechnik kam nun Fibre-Channel zumEinsatz, dessen schnellerer Nachfolger auch heute noch aktuell ist.Auch der SX-5 war als Multi-Node-System verfügbar.(Quellen: [40], [39], [29], [33])

3.1.5 NEC SX-6

2001 konnte ein weiterer technologischer Meilenstein bei NEC verzeichnetwerden. Im SX-6 war es erstmals gelungen, eine Vektor-CPU auf einen ein-zelnen Chip unterzubringen. Aus den „backblechgroßen“ CPUs der SX-4 wur-de über die etwa DinA4-Blatt-große CPU der SX-5 - die immer noch aus 32Chips bestand - ein einzelner Chip von etwa 4qcm Größe.

Abbildung 3.2: Vergleich einer frühen CPU mit dem Vektor Prozessor auf ei-nem Chip

3 NEC SX9

Page 35: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 31

Für die Ingenieure bei NEC bot das Vorteile wie einen höheren Takt, aberauch Herausforderungen wie große Warmeentwicklung auf sehr kleiner Fla-che. Dazu kam das Problem, dass die großen Mengen an Daten - die Fa-higkeiten, wegen der die SX-4 und SX-5 geschatzt wurden - nun aus einemwinzigen Chip transportiert werden musste. Daher konnte von der SX-5 zurSX-6 die Datenbandbreite pro CPU nicht erhöht, sondern musste eher von64GB/s auf 32GB/s verringert werden. Auch die Anzahl der CPUs in einerNode wurde auf acht halbiert (siehe auch Abbildung 3.3). Damit konnten ma-ximal 64GFLOPS erreicht werden, halb soviel wie der SX-5 leisten konnte.Punkten konnte SX-6 dann wieder als Multi-Node System. In der größten Aus-führung konnten 128 Nodes arbeiten mit einem Gesamtspeicher von 8TB.1024 CPUs leisteten 9TFLOPS. Die Speicherbandbreite ermöglichte es, dasstheoretisch pro Sekunde 32TB an Daten transportiert werden konnten. Damitlag die Leistung über dem größten Multi-Node System des SX-5.(Quellen: [38], [25], [26], [27], [28], [33])

3 NEC SX9

Page 36: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 32

Abbildung 3.3: CPU Schema des NEC SX-6

3.1.6 NEC SX-7

Bereits im Dezember 2002 kam der nächste Schritt von NEC in Form desSX-7. Viele Verbesserungen des SX-6 sollten ihn an die Leistungsmerkmaledes SX-5 wieder heranführen, die durch die Umsetzung einer Vektor-CPU aufnur einen Chip vom SX-6 nicht mehr erreicht wurden. Der Leistungszuwachskam vor allem durch die Aufrüstung des Speicher auf 256GB, der sich, im Ver-gleich zum SX-6, damit vervierfachte. Die Anzahl der CPUs hat sich ebenfallsauf 32 vervierfacht. Jede CPU konnte eine Leistung von 8,83 GFLOPS errei-chen, wodurch die gesamte Node in der Lage war, 282,5GFLOPS zu leisten.Das erlaubte eine Bandbreite von 35,3GB/s pro CPU, wodurch sich für dasgesamten System mit maximaler CPU-Anzahl ein theoretischer Datentransfervon 1,13TB/s ergibt.

3 NEC SX9

Page 37: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 33

Das Multi-Node System des SX-7 verbesserte sich zum SX-6 ebenfalls. DieLeistung verdoppelte sich auf 18,1TFLOPS, die von den 2048 CPUs ermög-licht wurden. Durch das neue Design der Single-Nodes mit maximal 32 CPUs,konnte trotz Halbierung der maximalen Nodes die Anzahl der CPUs im Multi-Node System auf 2048 verdoppelt werden. Das ergibt einen Datentransfer imMulti-Node System von 72TB/s.(Quellen: [26], [25], [24], [23], [33])

3.1.7 NEC SX-8

Nach weiteren 2 Jahren Entwicklung präsentierte NEC 2004 den SX-8. Vieletechnische Neuerungen haben den Weg in dieses System gefunden. So wur-de erstmalig ein acht-Wege SMP System in einem Node-Modul verwendet. Indem Modul wurden acht Single-Chip Vektor Prozessoren in einer erweitertenVersion des mit dem SX-6 vorgestellten Models verwendet. Das Modul kannals ein Baustein gesehen werden, aus dem das System zusammengesetztwird (siehe Abbildung 3.4). Jede der 8 CPUs (Chips) wurde in der 90nm Cu(Kupfer) Technologie gefertigt und besitzt einen 16GB großen Hauptspeicher.Das macht einen Gesamtspeicher von 128GB pro Node. Jede CPU erreichteeine Datentransferrate von 64GB/s, was den Transport eines Datenvolumensvon 512GB/s in einer Node möglich machte. Eine Single-Node war somit inder Lage, eine Leistung von 128GFLOPS (16GFLOPS pro CPU) zu erbrin-gen.Das größtmögliche Multi-Node System des SX-8 konnte bis zu 512 dieserNode Module, also insgesammt 4096 CPUs beherbergen. Das ergab eineSpitzenleistung von 65TFLOPS und einen Gesamtspeicher von 64TB. Da je-de Node Daten mit einem Transfervolumen von 64GB/s transportieren konn-te, summierte sich das mögliche Transfervolumen im Multi-Node System auf262TB/s.Im Oktober 2006 wurde ein Upgrade des SX-8 veröffentlicht, der SX-8R. DieNeuerungen waren eine Verdoppelung des Hauptspeicher auf 256GB pro No-de und eine Steigerung der Operationen auf 281,6GFLOPS. Das Datentrans-fervolumen hatte sich hingegen nicht sonderlich erhöht. Das Multi-Node Sys-tem hatte sich ebenfalls nicht sonderlich verändert. Es konnten immer nochmaximal 512 Nodes verbaut werden, deren erhöhte Leistung den eigentlichenLeistungsgewinn ausmachen.Der SX-8R gilt als der direkte Vorgänger des SX-9 und wird in der Literatur

3 NEC SX9

Page 38: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 34

daher als Vergleichsmedium für die Verbesserungen des SX-9 herangezogen.Im Kapitel 3.2 wird der SX-9 genauer betrachtet und bei Bedarf ebenfalls mitdem SX-8R verglichen, um Änderungen aufzuzeigen.(Quellen: [36], [37], [20], [21], [22], [33])

Abbildung 3.4: Node Modul des SX-8

3.2 Die neuste Generation - NEC SX-9

3.2.1 überblick

Die neuste Generation der SX Serie stellte NEC 2007 vor, den NEC SX-9.Mit diesem System vespricht NEC einen gewaltigen Leistungszuwachs durchneue innovative Technik. Nach wie vor hält NEC an seinem „traditionellen“Vektorsystem fest, hat seit dem SX-8 jedoch nicht nur an der Verfeinerungder Technik gearbeitet, so wie es vor dem SX-8 Grundprinzip von NEC war,sondern erweiterte die CPU bzw. die Vektoreinheit selbst. Das Ergebnis istein äußerst leistungsstarkes System, das in vielen Forschungsbereichen zumEinsatz kommen soll. Das als Single-Node und als Multi-Node erhältliche Sys-tem ist für höchste Rechenleistungen ausgelegt und ist bestens für Simulationund Messung geeignet. Gerade in der Klimaforschung erhofft man sich vondem neuen System präzise Ergebnisse bei der Simulation eines erdumgrei-fenden Klimamodells mit noch genaueren Vorhersagen über die Entwicklungdes Klimas. Aber auch in der Auto- und Flugzeugindustrie sind die Einsatz-möglichkeiten z.B. in der Strömungsforschung, äußerst vielseitig. Berichtenzufolge hat NEC bereits Bestellungen für das neue System erhalten. Zu den

3 NEC SX9

Page 39: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 35

ersten Kunden in Europa zahlen der Deutsche Wetterdienst und sein franzö-sisches Pendant MÃ France. Bei einem Mietpreis pro Knoten ab 20.000 Europro Monat kostet ein minimal konfiguriertes System, über eine Laufzeit vondrei Jahren, somit etwa 700.000 Euro. NEC erwartet, die ersten Installationenab Sommer 2008 fertig zu stellen.

3.2.2 Technik und Leistung

Der Aufbau des SX-9 orientiert sich grundsätzlich an demselben Prinzip, dasNEC bereits bei seinen ersten Systemen angewandt hat. Die in der 65-nm-Technik gefertigte CPU besteht aus einer skalaren Einheit und acht Vektorein-heiten. Im Vergleich mit dem Vorgängermodell SX-8R verdoppelte sich damitdie Anzahl der Vektoreinheiten. Aber auch in einer Vektoreinheit hat sich eini-ges getan. Die arithmetischen Einheiten wurden von den „traditionellen“ vierauf sechs aufgestockt. Es gibt zwei Einheiten für die Multiplikation, zwei Ein-heiten für die Addition, eine Einheit für Division und Wurzelberechnung und ei-ne Einheit für logische Operationen. Damit optimierte NEC die Ressourcen fürdie am häufigsten anstehenden Operationen Addition und Multiplikation. Da-zu kommt, dass das Vektorregister nicht mehr direkt auf den Load/Store Pro-zessor zugreifen kann, sondern ein Assignable Data Buffer(kurz:ADB) dazwi-schengeschalten wird. Dieser Puffer kann als eine Art Hochgeschwindigkeits-Cache angesehen werden, der dazu dient, die Vektoreinheiten stabil und zu-verlässig arbeiten zu lassen und trotzdem die volle Geschwindigkeit beim Da-tentransfer zu garantieren. Der ADB kann per Software gesteuert werden.

3 NEC SX9

Page 40: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 36

Abbildung 3.5: CPU Schema des NEC SX-9

Die Taktung der CPU wurde von 2,2GHz beim SX-8R auf 3,2GHz erhöht.Das ergibt eine eine Verdreifachung der Leistung von 35,2GFLOPS auf 102,4GFLOPS. Die Speicherbandbreite der SX-9-Vektorsysteme erreicht dank ih-rer vielen parallelen Kanale 4TB/s, das ist siebenmal mehr als im Vorgän-gersystem SX-8R. Die I/O-Bandbreite ist viermal so hoch und die für die In-terconnects zwischen den Nodes wurde auf 2 x 128 GByte/s versechzehn-facht. Dank 65-nm-Technik soll die Energieaufnahme im Schnitt dennoch nurnoch bei 50 Prozent des Vorgängers liegen, so dass in einem Node bei etwagleicher thermischer Belastung doppelt so viele Prozessoren untergebrachtwerden können.

3 NEC SX9

Page 41: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 37

Abbildung 3.6: Schema eine Node mit 16 CPUs

Das Multi-Node System der SX-9 Generation kann bis zu 512 Knoten beinhal-ten. Das würde bei einem maximalen System mit 16CPUs pro Node eine Leis-tung von gigantischen 839TFLOPS bedeuten. Die zugrunde liegenden Leis-tung von 102,4GFLOPS sind zwar nur theoretisch berechnet worden, aberdie in voller doppelter Genauigkeit. Die typischen Applikationen für Wetter-und Klimamodelle erzielen nach Auskunft der entsprechenden Wetterinstituteauf Vektormaschinen etwa 25 bis 35 Prozent dieser theoretischen Spitzen-leistung, wogegen aber RISC-Systeme im Vergleich bei nur 6 bis 15 Prozentliegen.

Abbildung 3.7: Schema eines Multi-Node Systems mit 512 Knoten

3 NEC SX9

Page 42: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 38

Eine übersicht über die Spezifikationen, die von NEC veröffentlicht wurdenkann unter Anhang D eingesehen werden.(Quellen: [36], [35], [18], [17], [16], [15], [14] [19], [33])

3 NEC SX9

Page 43: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 39

4 Vergleich & Fazit

4.1 Vergleich

Wie in den vorangegangen Kapiteln gesehen, lassen sich die ArchitekturenPowerPC6 und SX9 nicht direkt vergleichen. Dies ist auch in den unterschied-lichen Designzielen der Architekturen ersichtlich geworden. Folgende Abbil-dungen zeigen die Designziele der Power Architektur und der SX-Serie vonNEC.

Abbildung 4.1: Designziele der POWERPC Architektur

4 Vergleich & Fazit

Page 44: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 40

Abbildung 4.2: Designziele der POWERPC Architektur

Aus diesen Abbildungen lässt sich gut erkennen, dass die PowerPC Archi-tektur für viel allgemeinere Ziele entworfen wurde, wogegen die SX-Serie fürspezielle SIMD/MIMD-Computing und somit für Wissenschaft und Forschungentwickelt wurde.

Der PowerPC verfügt in der Version 6 mit der VMX über eine Einheit, welchedie Schwächen im Bereich der SIMD-Bearbeitung ausgleichen soll. Er kannaber einem Vergleich mit dem SX9 in keinem Fall standhalten.

Folgende Tabelle zeigt eine einfache Gegenüberstellung der Kenndaten derPOWER6 und SX9 Architekturen.

Systembandbreite GFLOPS PreisPowerPC6 300 GB/s 15.53 pro Core 283500US$NEX SX 9 4096 GB/s 102.4 ab 20000 C/Monat

4 Vergleich & Fazit

Page 45: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 41

4.2 Fazit

Wie schon im vorigen Abschnitt beschrieben, lassen sich die beiden Architek-turen nicht einfach vergleichen. Als einzige Möglichkeit wäre hier ein Vergleichder VMX des PowerPC6 mit dem SX9 zu nennen, was aber in einem unfairenVergleich enden würde, da die anderen Funktionseinheiten des PowerPC6 janicht betrachtet werden.

Durch die verschiedenen Designziele (siehe Abbildungen 4.1 und 4.2) ist klarzu erkennen, dass ein Vergleich schon hier scheitern würde.

An den vorgestellten Architekturen lassen sich sehr schön verschiedene Desi-gnentscheidungen zeigen: So hat sich die Vektoreinheit der SX-Serie bis zurVersion 8 nicht groß (im Vergleich zu dem jeweiligen Vorgänger) verändert,während die AIM-Allianz (Apple, IBM, Motorola) beim PowerPC immer aufneue Anforderungen des Marktes reagierte und die Architektur stets überar-beitete. Zu nennen wäre hier die AltiVex/VMX Erweiterung, die DFU und auchdie Einführung der DualCore Architektur mit der 5. Generation.

Da der SX9 erst im Sommer 2008 ausgeliefert werden soll und der PowerPC6erst seit November erhältlich ist, sind noch keine herstellerunabhängigen Bench-marks vorhanden. Auch in den top500 (www.top500.org) sind noch keine Ver-treter der behandelten Architekturen zu finden. Bis zum jetzigen Zeitpunktwurden von den beiden herstellern NEC und IBM nur die theoretischen Leis-tungsdaten veröffentlicht. Daten aus einem praktischen Umfeld sind bishernicht verfügbar gemacht worden (Stand: März 2008).

4 Vergleich & Fazit

Page 46: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 42

Anhang A

Quellen- und Literaturverzeichnis

[1] H. Q. Le,W. J. Starke, et al., IBM POWER6 microarchitecture, 2007,http://www.research.ibm.com/journal/rd/516/le.html

(Stand: 22.11.2007 18:30)

[2] L. Eisen,J. W. Ward III, et al., IBM POWER6 accelerators: VMX andDFU, 2007,http://www.research.ibm.com/journal/rd/516/eisen.html

(Stand: 31.12.2007 16:00)

[3] Wikipedia (Englisch), PowerPC 600 - Designhttp://en.wikipedia.org/wiki/PowerPC_600#Design

(Stand: 02.01.2008 18:00)

[4] IBM & Motorola, PowerPC TM 604 RISC Microprocessor TechnicalSummary, 1994http://www.datasheetcatalog.com/datasheets_pdf/M/P/C/6/

MPC604.shtml

(Stand: 03.01.2008 12:00)

[5] IBM & Motorola, MPC750A RISC Microprocessor Hardware Specifica-tions, Rev. 2.3, 9/2001http://www.datasheetcatalog.com/datasheets_pdf/M/P/C/7/

MPC750EC.shtml

(Stand: 03.01.2008 13:00)

[6] IBM & Motorola, Advance Information MPC7400 RISC MicroprocessorHardware Specifications, Rev. 1.1, 11/2000http://www.datasheetcatalog.com/datasheets_pdf/M/P/C/7/

MPC7400EC.shtml

(Stand: 03.01.2008 13:45)

Anhang A Quellen- und Literaturverzeichnis

Page 47: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 43

[7] Wikipedia (Deutsch), PowerPC G5http://de.wikipedia.org/wiki/G5_%28Prozessor%29

(Stand: 03.01.2008 14:20)

[8] B. Sinharoy,R. N. Kalla et. al., POWER5 system microarchitecturehttp://www.research.ibm.com/journal/rd/494/sinharoy.html

(Stand: 03.01.2008 15:00)

[9] Martin Balaz, IBM Österreich GmbH, Vortrag beim IBM Symposium18.09.07 Wien,http://www-05.ibm.com/at/symposium/pdf/09_POWER-News_final.

pdf

(Stand 03.03.2008 17:26)

[10] Intel, Intel Microprocessor Quick Reference Guidehttp://www.intel.com/pressroom/kits/quickreffam.htm#pentium

(Stand 04.03.2008 13:00)

[11] Joe Wetzel, Ed Silha, PowerPC User Instruction Set Architecture,http://download.boulder.ibm.com/ibmdl/pub/software/dw/

library/es-ppcbook1.zip

(Stand 04.03.2008 13:00)

[12] Wikipedia (Deutsch), x86-Prozesorhttp://de.wikipedia.org/wiki/X86-Prozessor

(Stand 04.03.2008 13:07)

[13] Heise News, IBM tritt mit Power 6 in den Benchmark-Ringhttp://www.heise.de/newsticker/meldung/95459/from/rss09

(Stand 04.03.2008 22:07)

[14] Andreas Stiller: Bericht zum NEC SX-9http://www.heise.de/ct/07/23/019/default.shtml, c’t Seite 19,23/2007.

[15] Thomas Hübner: NEC SX-9 - Angriff auf die Top 500?http://www.computerbase.de/news/hardware/supercomputer/2007/

oktober/nec_sx-9_angriff_top_500/, computerbase.de, 27.10.2007.

[16] unbekannt(ck): NEC stellt neue Version des Vektor-Rechners SX-9 vorhttp://de.internet.com/index.php?id=2052652, de.internet.com,26.10.2007.

[17] unbekannt: NEC SX-9 is fastest vector computer in the worldhttp://www.geekzone.co.nz/content.asp?contentid=7458, geekzo-ne.co.nz, 26.10.2007.

Anhang A Quellen- und Literaturverzeichnis

Page 48: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 44

[18] HPC Marketing Promotion Division: NEC Launches World’s FastestVector Supercomputer (SX-9)http://www.fr.neceurope.com/news_and_events/news_archive_

2007/25_october_2007.html, fr.neceurope.com, 25.10.2007.

[19] unbekannt: NEC SX-9http://en.wikipedia.org/wiki/NEC_SX-9, wikipedia.org, 01/2008.

[20] Markus Henkel: Die neue Generation der Superrechner (SX-8R)http://www.handelsblatt.com/news/_pv/_p/203116/_t/ft/_b/

1338666/default.aspx/index.html, handelsblatt.com, 18.10.2007.

[21] unbekannt(ji): NEC stellt schnellsten Vektorsupercomputer der Welt vor(SX-8)http://www.golem.de/0410/34273.html, golem.de, 20.10.2004.

[22] unbekannt: NEC SX-8http://en.wikipedia.org/wiki/NEC_SX-8, wikipedia.org, 01/2008.

[23] unbekannt: NEC announces enhancement of supercomputer SXserieshttp://www.hpcwire.com/hpc-bin/artread.pl?direction=

Current&articlenumber=103671, hpcwire.com, 11.10.2002.

[24] unbekannt: SX-7: Neuer Superrechner von NEChttp://www.tecchannel.de/news/themen/business/412685/, tec-channel.de, 10.10.2002.

[25] unbekannt: NEC unveils SX-7 supercomputerhttp://www.computerweekly.com/Articles/2002/10/10/190231/

nec-unveils-sx-7-supercomputer.htm, computerweekly.com,10.10.2002.

[26] unbekannt(ciw): NEC baut noch schnellere Supercomputerhttp://www.heise.de/newsticker/meldung/31510, heise.de,15.10.2002.

[27] unbekannt(ad): NEC startet mit Vector Supercomputer SX-6 Seriesdurchhttp://www.golem.de/0110/16153.html, golem.de, 04.10.2001.

[28] unbekannt(uba): NEC SX-6http://en.wikipedia.org/wiki/NEC_SX-6, wikipedia.org, 01/2008.

[29] Ad Emmen: NEC introduces new generation of supercomputers (SX-4/SX-5)

Anhang A Quellen- und Literaturverzeichnis

Page 49: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 45

http://www.hoise.com/articles/AE-PR-07-98-10.html, hoise.com,04.06.98.

[30] unbekannt: SX-3 Series (NEC)http://www.ipsj.or.jp/katsudou/museum/computer/2080_e.html,ipsj.or.jp, 2003.

[31] unbekannt: NEC’s SX family (SX-1/SX-2/SX-3)http://www.netlib.org/benchmark/top500/reports/report93/

section2_12_5.html, netlib.org, 03.07.1994.

[32] unbekannt: SX-1 and SX-2 Series (NEC)http://www.ipsj.or.jp/katsudou/museum/computer/2050_e.html,ipsj.or.jp, 2003.

[33] unbekannt: NEC SX architecturehttp://en.wikipedia.org/wiki/NEC_SX_architecture, wikipe-dia.org, 01/2008.

[34] TOP500 Supercomputer Siteshttp://www.top500.org/, top500.org, 2007/2008.

[35] J. Sullivan: SX-9 Vector Supercomputer Specificationshttp://www.necam.com/SX/Collateral/SX_Specs.pdf, 10/2007.

[36] unbekannt: Imagine ... completely new dimensions of supercomputing.http://www.necam.com/SX/Collateral/nec_sx9_brochure.pdf,10/2007.

[37] A. Strey: Parallele Rechnerarchtiketuren - Kapitel 7: Vektorrechnerhttp://www.informatik.uni-ulm.de/neuro/uploads/media/PAvr4.

pdf, SS2006.

[38] Dr. Jörg Stadler: Vector Computing with NEC Systems - State of theart and perspectivehttp://www.hpcc.unical.it/hpc2004/talks/stadler.ppt, 2003.

[39] Masanobu Inouem, Toshiyuki Furui, Hiroshi Katayama, Koichi Naka-nishi: Development Concepts and Overview of the SX-5 Series Super-computershttp://www.nec.co.jp/hpc/sx-e/sx-world/no23/en4.pdf, SX WorldNo.23 Special Issue, Herbst 1998.

[40] Dr. Christian Lantwin: Die SX-Series: Eine Erfolgsstory mit Fortset-zung

Anhang A Quellen- und Literaturverzeichnis

Page 50: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 46

http://parallel.rz.uni-mannheim.de/sc/seminar98/papers/

lantwin/sc98lantwin.ppt, 06/1998.

[41] Prof. Dr. Hans-Jürgen Buhl: Neuere Entwicklungen in der Informati-onstechnologiehttp://www.math.uni-wuppertal.de/~buhl/teach/exercises/

WiInfII-SS00/skript.pdf, 1993-2000.

[42] Christopher Lazou: Historical Perspective of Supercomputinghttp://www.nec.de/typo3conf/ext/nf_downloads/pi1/

passdownload.php?downloaddata=6, 06/2002.

Anhang A Quellen- und Literaturverzeichnis

Page 51: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 47

Anhang B

Tabellenverzeichnis

E.1 Direktvergleich der Single-Node Modelle . . . . . . . . . . . . . 50E.2 Direktvergleich der Multi-Node Modelle . . . . . . . . . . . . . . 51

F.1 Praxisbeispiel des NEC SX-8 . . . . . . . . . . . . . . . . . . . 52F.2 Praxisbeispiel des NEC SX-7 . . . . . . . . . . . . . . . . . . . 53F.3 Praxisbeispiel des NEC SX-6 . . . . . . . . . . . . . . . . . . . 53F.4 Praxisbeispiel des NEC SX-5 . . . . . . . . . . . . . . . . . . . 54F.5 Praxisbeispiel des NEC SX-4 . . . . . . . . . . . . . . . . . . . 54F.6 Praxisbeispiel des NEC SX-3 . . . . . . . . . . . . . . . . . . . 55F.7 Praxisbeispiel des NEC SX-2 . . . . . . . . . . . . . . . . . . . 55F.8 Praxisbeispiel des NEC SX-1 . . . . . . . . . . . . . . . . . . . 56

Anhang B Tabellenverzeichnis

Page 52: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 48

Anhang C

Abbildungsverzeichnis

2.1 POWERPC 604 Blockschaltbild . . . . . . . . . . . . . . . . . . 62.2 POWERPC 750 Blockschaltbild . . . . . . . . . . . . . . . . . . 82.3 POWERPC 7400 Blockschaltbild . . . . . . . . . . . . . . . . . 102.4 POWER5 Kern . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.5 POWER6 Blockschaltbild . . . . . . . . . . . . . . . . . . . . . 142.6 POWER6 Chip . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7 POWER Historie im 20. Jahrhundert . . . . . . . . . . . . . . . 162.8 POWER6 Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . 172.9 POWER6 Decode Pipeline . . . . . . . . . . . . . . . . . . . . 192.10 POWER6 Load-Pipeline . . . . . . . . . . . . . . . . . . . . . . 202.11 POWER6 Cacheübersicht . . . . . . . . . . . . . . . . . . . . . 212.12 POWER6 Benchmarks . . . . . . . . . . . . . . . . . . . . . . . 25

3.1 CPU Schema des NEC SX-2 . . . . . . . . . . . . . . . . . . . . . 273.2 Vergleich einer frühen CPU mit dem Vektor Prozessor auf ei-

nem Chip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 CPU Schema des NEC SX-6 . . . . . . . . . . . . . . . . . . . 323.4 Node Modul des SX-8 . . . . . . . . . . . . . . . . . . . . . . . 343.5 CPU Schema des NEC SX-9 . . . . . . . . . . . . . . . . . . . 363.6 Schema eine Node mit 16 CPUs . . . . . . . . . . . . . . . . . 373.7 Schema eines Multi-Node Systems mit 512 Knoten . . . . . . . 37

4.1 Designziele der POWERPC Architektur . . . . . . . . . . . . . 394.2 Designziele der SX9 Architektur . . . . . . . . . . . . . . . . . 40

D.1 NEC Kennzahlen des SX-9 Systems . . . . . . . . . . . . . . . 49

Anhang C Abbildungsverzeichnis

Page 53: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 49

Anhang D

Kennzahlen des NEC SX-9

Abbildung D.1: NEC Kennzahlen des SX-9 Systems, [35], [36]

Anhang D Kennzahlen des NEC SX-9

Page 54: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 50

Anhang E

SX-Modelle im Direktvergleich

NEC SX-Serie Single-Node-SystemTyp CPUs GFLOPS GFLOPS MEM Bandbreite Bandbreite

(max.) pro CPU gesamt pro CPU SystemSX-2 1 1,3 1,3 256MB 11GB/s 11GB/sSX-3 4 5,5 22 2GB 22GB/s 88GB/sSX-4 32 2 64 16GB 16GB/s 512GB/sSX-5 16 8 128 128GB 64GB/s 1024GB/sSX-6 8 8 64 64GB 32GB/s 256GB/sSX-7 32 8,83 282,5 256GB 35,3GB/s 1,13TB/sSX-8 8 16 128 128GB 64GB/s 512GB/sSX-8R 8 35,2 281,6 256GB 70,4GB/s 563GB/sSX-9 16 102,4 1638,4 1TB 256GB/s 4TB/s

Tabelle E.1: Direktvergleich der Single-Node Modelle

Alle Werte in den Tabellen sind theoretische Höchstwerte und wurden durchBerechnung ermittelt. Benchmark Tests haben gezeigt, dass diese Werte nursehr selten in der Praxis erreicht werden. Quellen: es wurden alle unter An-hang A vermerkten Quellen zum Vergleich herangezogen.

Anhang E SX-Modelle im Direktvergleich

Page 55: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 51

NEC SX-Serie Multi-Node-SystemTyp Nodes CPUs TFLOPS MEM Bandbreite Bandbreite

(max.) (max.) pro Node SystemSX-4 16 512 1 256MB 512GB/s 8TB/sSX-5 32 512 4 4TB 1TB/s 32TB/sSX-6 128 1024 9 8TB 256GB/s 32TB/sSX-7 64 2048 18,1 16TB 1,13GB/s 72TB/sSX-8 512 4096 65 64TB 512GB/s 262TB/sSX-8R 512 4096 140,8 128TB 563GB/s 288,3TB/sSX-9 512 8192 838.9 512TB 4TB/s 2048TB/s

Tabelle E.2: Direktvergleich der Multi-Node Modelle

Anhang E SX-Modelle im Direktvergleich

Page 56: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 52

Anhang F

Beispiele für den Einsatz

Alle hier genannten Beispiel sind der Top500 Seite entnommen. Leider sinddie Systeme dort nur mit kurzen Fakten aufgeführt und enthalten keine ge-naueren Informationen.

NEC SX-8Site HWW/Universitaet StuttgartSystem Family NEC VectorSystem Model SX8Computer SX8/576M72Vendor NECApplication area Information ProcessingInstallation Year 2005Operating System Super-UXInterconnect Multi-stage crossbarProcessor NEC 2000 MHz (16 GFlops)

Tabelle F.1: Praxisbeispiel des NEC SX-8

Anhang F Beispiele für den Einsatz

Page 57: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 53

NEC SX-7Site National Institute for Fusion ScienceSystem Family NEC VectorSystem Model SX7Computer SX-7/160M5Vendor NECApplication area Not SpecifiedInstallation Year 2003Operating System Super-UXInterconnect Multi-stage crossbarProcessor NEC 552 MHz (8.84 GFlops)

Tabelle F.2: Praxisbeispiel des NEC SX-7

NEC SX-6 Earth SimulatorSite The Earth Simulator CenterSystem Family NEC VectorSystem Model SX6Computer Earth-SimulatorVendor NECApplication area EnvironmentInstallation Year 2002Operating System Super-UXInterconnect Multi-stage crossbarProcessor NEC 1000 MHz (8 GFlops)

Tabelle F.3: Praxisbeispiel des NEC SX-6

Anhang F Beispiele für den Einsatz

Page 58: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 54

NEC SX-5Site Osaka UniversitySystem Family NEC VectorSystem Model SX5Computer SX-5/128M8 3.2nsVendor NECApplication area Not SpecifiedInstallation Year 2001Operating System Super-UXInterconnect Multi-stage crossbarProcessor NEC 312 MHz (10 GFlops)

Tabelle F.4: Praxisbeispiel des NEC SX-5

NEC SX-4Site Tohoku UniversitySystem Family NEC VectorSystem Model SX4Computer SX-4/128H4Vendor NECApplication area Not SpecifiedInstallation Year 1997Operating System EWS-UX/VInterconnect Multi-stage crossbarProcessor NEC 250 MHz (2 GFlops)

Tabelle F.5: Praxisbeispiel des NEC SX-4

Anhang F Beispiele für den Einsatz

Page 59: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 55

NEC SX-3Site Atmospheric Environment Service (AES)System Family NEC VectorSystem Model SX3Computer SX-3/44Vendor NECApplication area Weather and Climate ResearchInstallation Year 1991Operating System Super-UXInterconnect Multi-stage crossbarProcessor NEC 343 MHz (5.5 GFlops)

Tabelle F.6: Praxisbeispiel des NEC SX-3

NEC SX-2Site Institute of Computational Fluid DynamicsSystem Family NEC VectorSystem Model SX2Computer SX-2Vendor NECApplication area Not SpecifiedInstallation Year 1987Operating System N/AInterconnect N/AProcessor NEC 166 MHz (1.333 GFlops)

Tabelle F.7: Praxisbeispiel des NEC SX-2

Anhang F Beispiele für den Einsatz

Page 60: PowerPC6 - NEC SX9 - weblearn.hs-bremen.de · Pentium natürlich zu Einbußen führte, hier konnte der POWERPC 601 aber mit seinem 32Kb großen L1 Cache trumpfen; zum Vergleich: Der

PowerPC6 - NEC SX9 56

NEC SX-1Site KumagaigumiSystem Family NEC VectorSystem Model SX1Computer SX-1Vendor NECApplication area Not SpecifiedInstallation Year 1989Operating System N/AInterconnect N/AProcessor NEC 166 MHz (0.666 GFlops)

Tabelle F.8: Praxisbeispiel des NEC SX-1

Quellen: [34]

Anhang F Beispiele für den Einsatz