Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
1
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
Informatik
jenseits des
von-Neumann-Paradigma
Reiner Hartenstein
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
© 2008, [email protected] http://hartenstein.de
TU Kaiserslauternwerbende Orientierungshilfe
… und wirbt um Ihre Mitwirkung dabei, dem „Reconfigurable Computing“ in der Lehre zu einem größeren Gewicht zu verhelfen.
2
Aus wichtigem Grund richtet sich dieser Beitrag an einen breiten Adressatenkreis -weit über die Informatik hinausgehend …
Dieser Beitrag ist eine
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Die Kluft zwischen
Software und Configware
3
Fortsetzung der traditionellen Kluft zwischen Software und Hardware.
Jetzt sind wir gezwungen,
diese Kluft zu überwinden
strukturell prozedural
Configware-Kenntnisse müssen zwar nicht versteckt werden,aber zum zertifizierten Kern-Kurrikulum gehören sie nicht
Warum jetzt und womit ?
Darüber spreche ich heute.
Praxis unserer Lehre
Wand im Kopf ?
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternWas ist Configware
4
prozeduraler
Kode
Software-Quelle
softwarecompiler
traditionelles
Computing :
Reconfigurable
Computing :
struktureller Kode
Configware-Quelle
configwarecompiler
(kommt später dran)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Überblick
3. Das aktuelle Problem: der bisher dramatischste Umbruch
4. Mehrfache Ursachen der nun eskalierenden Probleme
5
1. Was Reconfigurable Computing heute bedeutet
5. Didaktische Ansätze angesichts des Ausbildungs-Dilemma
2 Veranschaulichung der enormen Akzelerations-Effekte
1. Reconfigurable Computing2. Ursachen der Akzelerationsfaktoren3. Die Manycore-Krise4. Das von-Neumann-Syndrom5. Dichotomien des Zwillings-Paradigma6. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Unverzichtbare Qualifikation
Configware-
Kenntnisse sind 1 unverzichtbareQualifikation am IT-Arbeitsmarktgeworden.
6
Reconfigurable
Computing (RC)
ist seit Jahren “mainstream” bei Eingebetteten Systemen.
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
2
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
7
>> Gliederung <<
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Geschichte der Datenverarbeitung
• Prototyp: 1884 Herman Hollerith
8
•Datenstrom-basiert•Datenstrom-basiert
Der erste rekonfigurierbare Computer
DPUDPU
• Das erste Xilinx FPGA kam 100 Jahre später
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Configware-Programmierung
9
60 Jahre später: RAM verfügbar –z.B. Ferritkern
• manuell (Configuration)
• oder, durch Austausch vorprogrammierter Steckbretter (Reconfiguration)
Prototyp: 1884, Herman Hollerith
dann: Motivation für das von-Neumann-Machinen-Paradigma
J. v N, 1946
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
v. N. ist nicht mehr das allgemeine Modell
10
DPUCPU
von Neumann Befehlsstrom-
basierte Maschine
Programm-
Zähler
RAMmemory
Ko-Prozessoren
AkzeleratorCPU
Befehls-strom-basiert
Daten-strom-basiert
Har
dw
are
SoftwareMainframe-Zeitalter:
Mikroprozessor-Zeitalter:
VLSI Revolution: wieso?
steigender Bedarf an Akzeleratoren
(heterogenes Modell)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Eingebettete Software
1
2
0 10 12 18 Monate
Faktor
*) Department of Trade and Industry, London
99% aller Mikroprozessoren sitzen in eingebetteten Systemen:
11
Bis 2010 werden mehr als 10 mal mehr
Programmierer eingebettete Anwendungen schreiben, als
“normale” Computer Software. [Rammig„s Gesetz]
fast 25 Mrd.
typische Absolventen sind nicht qualifiziert für diesen Arbeitsmarkt
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
12
CLB CLB
CLB CLB
CLB CLB
FPGAField-Programmable Gate Array
CLB
C
CLB
ans
chlie
ßen
“Dra
ht”
form
en
B
A
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
3
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternRAM-basiert
Configware-Kode wirdvor der Laufzeit von außenin das “hidden RAM” geladen
FFTeil des “hidden RAM”
0 0
0
0
0 1
es gibt auch partiell rekonfigurierbare FPGAs
mit Flash “hidden RAM”kein wiederholtes “Booting”
13 © 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Plattform-FPGA (1)
14
256 – 1704 BGA
56 –
424
schnelle on-chip Block
RAMs: BRAMs
8 – 32schnelle
serielle I/O-Kanäle
DPUs
Configware-Kode-Eingang
[courtesy Lattice Semiconductor]
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
15
Plattform-FPGA (f. DSP)
500MHz Flexible
Soft Logic Architecture
200KLogic Cells
500MHz Programmable DSP Execution Units wie z.B. MAC
0.6-11.1Gbps
Serial Transceivers
500MHz PowerPC™ Processors
(680DMIPS)
with
Auxiliary Processor Unit
1Gbps Differential I/O
500MHz multi-port
Distributed 10 Mb SRAM
500MHz DCM Digital
Clock Management
[courtesy Xilinx Corp. (modifiziert)]
2004, 1.2V, 90nm
AkzeleratorCPUSoC möglich
Multiply and ACcumulate
Plattform-FPGAs sind viel leistungsfähiger, aber weniger universell als „einfache“ FPGAs
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Software-zu-Configware-Migration
16
molecular dynamics simulationmolecular dynamics simulation88
einige publizierte speed-up-Faktoren [2000– 2008]
100
103
106
real-time face detectionreal-time face detection60006000
video-rate stereo visionvideo-rate stereo vision
900pattern recognitionpattern recognition 730
SPIHT wavelet-based image compressionSPIHT wavelet-based image compression457
FFTFFT100
Reed-Solomon DecodingReed-Solomon Decoding2400
Viterbi DecodingViterbi Decoding400
1000
MACMAC
DSP and drahtlos
Bildverarbeitung,Pattern matching,
Multimedia
BLASTBLAST52
protein identificationprotein identification 40
Smith-Waterman pattern matchingSmith-Waterman pattern matching
288
Bioinformatik
GRAPEGRAPE2020AstrophysikAstrophysik
Spe
ed
up-F
akto
r
cryptocrypto1000
xputer
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Software-zu-Configware-Migration (2)
17
molecular dynamics simulationmolecular dynamics simulation88
Bisher höchste speed-up-Faktoren: 3000 – 28.500
100
103
106
real-time face detectionreal-time face detection60006000
video-rate stereo visionvideo-rate stereo vision
900pattern recognitionpattern recognition 730
SPIHT wavelet-based image compressionSPIHT wavelet-based image compression457
FFTFFT100
Reed-Solomon DecodingReed-Solomon Decoding2400
Viterbi DecodingViterbi Decoding400
1000
MACMAC
DSP and drahtlos
Bildverarbeitung,Pattern matching,
Multimedia
BLASTBLAST52
protein identificationprotein identification 40
Smith-Waterman pattern matchingSmith-Waterman pattern matching
288
Bioinformatik
GRAPEGRAPE2020AstrophysikAstrophysik
Spe
ed
up-F
akto
r
cryptocrypto1000
3000
28500
DES breaking
xputer
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Akzelerator-Karte von Bruchsal
18
• I/O Bandbreite: 50 GByte/s
• Hersteller: SIEMENS Bruchsal
16 FPGAs
Speed-up:
x 3 000
Tera means 1012 or 1 000 000 000 000
(1 trillion) deutsch: eine Billion
MAC means Multiply and ACcumulate
• 1.5 TeraMAC/s
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
4
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Demonstrating the intensive Impact
19
DES breaking [T. Elghazawi et al.: IEEE COMPUTER, Febr. 2008]
Platform (comparedto Beowulf cluster)
Speed-up factor
Power saving factor
SDC-6 6757 856
Cray XD-1 12162 608
SGI Altix 4700 with RC 100 RASC
28514 3439
Wird Verschlüsselung auf von Neumann unbezahlbar?
?
Wenn Hacker FPGAs verwenden …
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Reconfigurable Supercomputing
20
•Xilinx Virtex-II Pro•Bibliothek von Cray
Cray XD1
Silicon graphicsReconfigurable
Application-Specific
Computing (RASC™)
Supercomputing 2007, Reno, NV 9600 reg. Teiln. 440 Aussteller
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
21
>> Gliederung <<
2 Veranschaulichung der enormen Akzelerations-Effekte
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Datenstrom-basierte Lösung:
kein von Neumann-Engpaß
kein von Neumann-Engpaß
Befehlsstrom-basierte Lösung:
viele von Neumann Engpässe
viele von Neumann Engpässe
22
[Hartenstein’s
Gießkannen-Modell]
Welche Form der Parallelität?
(grobe Veranschaulichung)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Daten treffen den Prozessor (CPU)
23
mittels Software
ineffizienter
Transport über Off-Chip-Speicher durch Speicherzyklen-hungrige Befehlsströme
Dies ist nur eines von vielen von Neumann-Overhead-Phänomenen
Veranschaulichung der Migration (1)
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternDaten treffen die PU
24
mittelsConfigware
Plazierung des Ort*der Ausführung (PU)
im Pipe-Netzwerk generiert d. d. Configware-Compiler
Veranschaulichung der Akzeleration (2)
*) vor der Laufzeit (zur Compilezeit)
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
5
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Akzelerationsfaktoren: wodurch?
25
Software zu Configware Migration: loop turns
into pipeline
Schlüssel-Faustregel schrecklich einfach
Programmschleife wird zur Pipeline
eine Zeit
zu Raum
Abbildung
Damit
müssen
wir alle
vertraut
werden.
n Zeitschritte, 1 CPU
1 Zeitschritt, n DPUs
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Bus gegen Pipe-Netzwerk
26
Bus-basiert:
CPUCPU
SpeicherSpeicherSpeicher-Bus= von-Neumann-Engpaß
CPUCPU CPUCPU CPUCPU
SpeicherSpeicher
Speicher-Zyklen-
hungriger Bus
Pipeline:
DPUDPU
DPUDPU
DPUDPU
DPUDPU
Pipeline:
keine
Speicher-
Zyklen
Software zu Configware Migration:
loop turns
into pipeline
Grundregel: einfach!
von-
Neumann-
Syndrom !
G. Koch et al. 1975: The universal Bus considered harmful
Software-Domäne: Configware-Domäne:
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Zeit-iterativ nach Raum-iterativ
27
eine Zeit zu
Raum/Zeit-
Abbildung
Elemente einer nützlichen Methodik der Schleifentransformationen wurde seit den 70er-Jahren publiziert
n*k Zeitschritte, 1 CPU
n Zeitschritte, k DPUs
Die Raum-Dimension (k) hat oft Grenzen (z. B. wegen der Chipgröße)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Configware-Betriebssysteme
Marco Platzner, Universität Paderborn
insbesondere für dynamisch rekonfigurierbare Systemeauch unterstützt durch partiell rekonfigurierbare Plattformen
… und viele andere
Jürgen Becker
Experten in Ihrer Fakultät
Chuck Thacker … (sogar Microsoft arbeitet daran)
(u. a. Lab in Cambridge. UK).
28
grundlegend verschieden von Software-Betriebssystemen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
29
>> Gliederung <<
3. Das aktuelle Problem: der bisher dramatischste Umbruch
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Mehr Durchsatz durch Warten
*) auf die nächste Generation von Mikroprozessoren …
µP-Anwender**: mehr Durchsatz
durch Warten auf die nächste Generation*
… und die nächste Generation von Akzeleratoren …
**) i. W. Programmierer
30
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
6
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Strong chicken
31
intel‘s strong oxen unter Andy Grove und Craig Barret
chicken
relative Taktfrequenz
1980 1990 2000 2010100
103
8080
Pentium 4
Laptop mit Wasserkühlung?
3 G
röße
nord
nung
en
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Hier:
Stop!
32
intel‘s <1024 oxen unter neuem CEO
chicken
Relative clock speed
1980 1990 2000 2010100
103
8080
Pentium 4
2005: das GHz-Taktfrequenz-Wettrennen bendet
2005
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
33
Many-core: Break-through or Breakdown?
Die Industrie steht an einem Wendepunkt zu einem völlig neuen Entwurfs-Ökosystem
Multi-threading, transactional memory, register re-naming, spekulative Tricks, vielf. Superskalarität, out-of-order Befehlsausf…: keine Wunderwaffen.
intel’s vision:
MultiCore
Aus der Supercomputing-Szene sind nur wenige Spezialistenteuer verfügbar, nur für wenige spezielle Anwendungsgebiete.
intel und Sun keynotes [DAC‟08] räumen ein: Schwierigkeitender Manycore-Programmierung, das Fehlen geeigneterSoftware, und Drosselung durch Speicher-Latenzzeit.
“Parallelism running out of steam for >4 cores”[Gary Smith]
Multi-core-Mikroprozessoren sind angekündigt: mit bald 32 cores (AMD) oder 80 cores (intel).
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternKlima-Wandel
34Wawrzynek missing
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Dave Patterson staunt
35
Der Einsatz ist hoch. Wenn die Forschung keine effizienten Parallel-Techniken findet, wird die Programmierung so schwierig,
daß die Leute von der neuen Hardware keinen Vorteil haben.
Aus der Wachstums-Industrie würde eine Ersatzteil-Industrie
from growth industry to replacement industry
ein Jahr später :„I am still astonished about that"
„intel has thrown a Hail Mary pass and nobody is running yet“.
„Die gesamte IT Industry hat auf ihre Zukunft gewettet, daß das Problem der Parallel-Programmierung gelöst wird."
*) a Hail Mary pass in American football is a forward pass made in desperation, with a very small chance of success
Methods for supporting manycore could reset microprocessor hardware and software roadmaps for the next 30 years
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
36
Akzeleratoren unvermeidbar
Wir müssen zunehmend programmierbare Akzeleratoren als Ko-Prozessoren hinzunehmen
Wir brauchen eine Zwillings-Paradigmen-Strategie, die das von-Neumann-Paradigma mit dem Grundmodell der Akzeleratorenverflechtet
Solche Akzeleratoren können bewährte Technologien nutzen, um auch kleinere Märkte anzugehen, sogar Nischen-Märkte
Prozessoren zusammen mit Akzeleratoren können immer noch Standard-Software und deren Werkzeuge nutzen
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
7
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
37
>> Gliederung <<
4. Mehrfache Ursachen der nun eskalierenden Probleme
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Konsequenzen mehrfacher
Overhead-Phänomene:
38
2. Software-Kodegrößen mit
astronomischen Dimensionen
1. weniger Rechenleistung
durch mehr Transistoren
3. unbezahlbarer Energie-Verbrauch
Das von Neumann Syndrom
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Verfall der „Computational Density“
39
[BWRC, UC Berkeley, 2004]
1990 1995 2000 2005
200
100
0
50
150
75
25
125
175
SP
EC
fp2000/M
Hz/B
illio
n T
ransis
tors
HP
alph
a: d
own
by
10
0x
in
6
yrs
IBM
: dow
n by
20
x in
6
yrs
[Wawrzynek; Sep 8, 2005, GSRC Symposium (GSRC’05) ]
Architektur-Overhead
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Konsequenzen mehrfacher
Overhead-Phänomene:
40
2. Software-Kodegrößen mit
astronomischen Dimensionen
1. weniger Rechenleistung
durch mehr Transistoren
3. unbezahlbarer Energie-Verbrauch
Das von Neumann Syndrom
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Massive Overhead-Phänomene
overheadvon Neumann-
Maschine
instruction fetch Befehlsstrom
state address computation Befehlsstrom
data address computation Befehlsstrom
data meet PU + other overh. Befehlsstrom
i/o to/from off-chip RAM Befehlsstrom
41
CPUCPU einzelne CPU
Dijkstra 1968: The Goto considered harmful
G. Koch et al. 1975: The universal Bus considered harmful
Backus, 1978: Can programming be liberated from the von Neumann style?Arvind et al., 1983: A critique of Multiprocessing the von Neumann Style
wird akkumuliert zu Kode-Paket-Größen astronomischer Dimensionen
von Neumann-Syndrom[C.V. “RAM” Ramamoorthy]von Neumann-Syndrom[C.V. “RAM” Ramamoorthy]
von Neumann
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
The “Memory Wall”
42
schneller On-chip-Speicher ist viel zu klein für derartige Kode-Pakete mit astronomischen Dimensionen
langsame off-Chip-Speichererlauben keinerlei Umgehungder Memory Wall
[Win. Wulf, Sally McKee,1994]
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
8
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
von Neumann-Overhead: ein Beispiel
Overheadvon Neumann-
Maschine
instruction fetch Befehlsstrom
state address computation Befehlsstrom
data address computation Befehlsstrom
data meet PU + other overh. Befehlsstrom
i / o to / from off-chip RAM Befehlsstrom
43
CPUCPU single CPU
rekonfigurierbarer Address- Generator (GAG): ~20x speed-uprDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
PISA DRC Akzelerator [ICCAD 1984]
(Gesamtprojekt: 15.000x speed-up)
(BMFT-gefördert im E.I.S-Projekt)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Konsequenzen mehrfacher
Overhead-Phänomene:
44
2. Software-Kodegrößen mit
astronomischen Dimensionen
1. weniger Rechenleistung
durch mehr Transistoren
3. unbezahlbarer Energie-Verbrauch
Das von Neumann Syndrom
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Energie als Strategie-Thema
• Google„s jährliche Stromrechnung: > 50,000,000 $
• Amsterdam„s Stromverbrauch: 25% geht in Server-Farmen
• NY city Server-Farmen: 1/4 km2 Gebäude-Nutzfläche
• Google„s jährliche Stromrechnung: > 50,000,000 $
• Amsterdam„s Stromverbrauch: 25% geht in Server-Farmen
• NY city Server-Farmen: 1/4 km2 Gebäude-Nutzfläche
45
(2005 !)(2005 !)
45© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Grüne
Computer?
46
Brauchen wir
Kohle für das
Internet?
aktueller Wert26. 6. 2008
nur ~ Faktor 3
Akzeleratoren !
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
47
Software-zu-Configware-Migration (2)
molecular dynamics simulationmolecular dynamics simulation88
(speed-up- und) teils Energiespar-Faktoren
100
103
106
real-time face detectionreal-time face detection60006000
video-rate stereo visionvideo-rate stereo vision
900pattern recognitionpattern recognition 730
SPIHT wavelet-based image compressionSPIHT wavelet-based image compression457
FFTFFT100
Reed-Solomon DecodingReed-Solomon Decoding2400
Viterbi DecodingViterbi Decoding400
1000
MACMAC
DSP und drahtlos
Bildverarbeitung,Pattern matching,
Multimedia
BLASTBLAST52
protein identificationprotein identification 40
Smith-Waterman pattern matchingSmith-Waterman pattern matching
288
Bioinformatik
GRAPEGRAPE2020AstrophysikAstrophysik
Spe
ed
up-F
akto
r
cryptocrypto1000
3000
28500
DES breaking
xputer
@10
*) verbesserungsfähig
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Exorbitante Energie-Ersparnis
48
Bei überwiegend leerlaufenden PCs können Akzeleratoren kaum oder nur wenig zur Energieersparnis beitragen.
Bei großen Hochleistungs-Installationen mit Dauerbetrieb(z. B. Server-Farmen oder Supercomputer) kann durchAkzeleratoren der Hardware-Aufwand (etwa die Zahl der Gestelle) drastisch reduziert werden, und damit auch der Energieverbrauch – oft um eine Größenordnung und mehr.
U. u. kann hier durch Verzicht auf eine Klimaanlageder Verbrauch noch weiter reduziert werden
Ersparnisfaktoren bis zu 3 Größenordnungen ?
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
9
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Klimaschutz-Politik
49
Faktor 10 ?
50% -> 5% ?
Reconfigurable Computing: sehr
viel wirkungsvoller als andere
Klimaschutz-Anstrengungen ?
Wo bleiben die
Fördermittel ?
viel weniger Kraftwerke
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
50
>> Gliederung <<
5. Peinliche Offenbarungen des Ausbildungs-Dilemma
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Die Kollision der Paradigmen
51
“you can always teach programming to a hardware guy”
“you can always teach programming to a hardware guy”
”you can never teach hardware to a programmer”
”you can never teach hardware to a programmer”
Dies ist die Schuld unserer KurrikulaDies ist die Schuld unserer Kurrikula
[Luigi Dadda]
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Zwillingsparadigmen-Compiler
SoftwareCompiler
Software-Kode
Software / Configware Co-
Compiler
Software / Configware Co-
Compiler
Configware-Kode
mapper
ConfigwareCompiler
scheduler
Flowware-Kode
data
C Quelle
automatischer SW / CW-Partitionierer
52
(Befehls-prozedural) (Daten-prozedural)(strukturell: Raum-Domäne)
Software-Configware-Co-Compiler: [Akademische Implementierung 1996]
Placement & Routing
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
grobkörnig rekonfigurierbarer Array
53
Array-Größe: 10 x 16 rDPUs
SNN Filter auf supersystolischem Array (i. W. Pipeline-Netzwerk)
rDPU not used used for routing only operator and routing port location markerLegend: backbus connect
rout thru only
not usedbackbus connect
rekonfigurierbare Data Path Unit, 32 Bits breit
rekonfigurierbare Data Path Unit, 32 Bits breit
keine CPU
rDPUrDPU
Generiert mit Nageldinger„s KressArray Xplorer (Jürgen Becker„s CoDe-X inside)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Beton-Wand im Gehirn
54
Sofort* springt ein VIP hoch: „But you can„t implement decisions!“
Peinlich: top level F&E-Manager eines IT-Weltkonzern
*) RAW workshop, late 90ies at Orlando, Florida
Man sieht sofort die Beton-Wand im Gehirn:
nicht vertraut mit ganz einfachen Uralt-Weisheiten:
völlig fehlendes Gespür für Dichotomien
strukturell prozedural
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
10
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
„But you can„t implement decisions!“
55
S = R + (if C then A else B endif);
=1
+
ABR C
section of a very large pipe network:
C. G. Bell et al: IEEE Trans-C21/5, May 1972
W. A. Clark: 1967 SJCC, AFIPS Conf. Proc.
decision box turns
into a multiplexer**
Software zu
Configware*Migration:
“That’s so simple! why did it take 30
years to find out?”
im Jahr 1971***:
***) die HDL-Szene*) oder Hardware
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Lehre ohne “connected thinking”
zu vermeiden
56
strukturell prozedural
Befehlsstrom-basiert
dirigiert durch den
Programmzähler
CPUCPU
Programm-
Zähler
DPU
Tear down this wall !von Neumann MaschineAnti-Maschine
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
57
Lehre mit “connected thinking”
strukturell prozedural (nur)
Befehlsstrom-basiert
dirigiert durch den
Programmzähler
CPUCPU
Programm-
Zähler
DPU
Datenstrom-basiert
dirigiert durch by
Datenzähler
rDPUrDPU
DPUDPU(hardwired)(hardwired)
ASMASMdata
counter
prozedural und
von Neumann MaschineAnti-Maschine© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
58
>> Gliederung <<
6. Didaktische Ansätze angesichts des Ausbildungs-Dilemma
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Überwindung von Denk-Barrieren
Das Manycore-Programmierproblem meist nur lösbar durch inhomogene Architekturen – also nicht durch „CPUs-only“
Gleichzeitig müssen wir die Barriere überwinden zwischen Prozedur und Struktur - also zwischen Zeit und Raum:
Hierzu brauchen wir eine Lehre per Zwillings-Paradigma
Kohärente Lehre erfordert hier eine intuitive Dichotomie
59
Siehe Vorbild der VLSI-Entwurfs-Revolution: Überwindung der Barrieren zwischen mehreren Abstraktionsebenen
Fundamentale Denk-Barrieren sind das Ausbildungs-Dilemma:
Wir müssen die Programmier-Barriere überwinden zwischen Befehlsstrom und Datenströmen:
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Revolution der Lehre:
Mikroelektronik-Entwurfs-Revolution
Carver Mead Lynn Conway
60
(in Deutschland: das E.I.S.-Projekt)
tall t
hin m
an
Anwendung
Spezialisierungsbreitestark reduziert
Die neue M-&-C Arbeitsteilung:
Entrümpelung &intuitive Modelle
zur Behebung des Ausbildungs-
Dilemmas
Betonung auf “Systems”
Silicon Foundry (externeTechnologie)
Koh
ärenz
Logik-Ebene
Switching-Ebene
Schaltkreis-Ebene
RT-Ebene
Anwendung
Layout-Ebene
Technologieim Hause
Einreichung Rückweisung
Einreichung Rückweisung
Einreichung Rückweisung
Einreichung Rückweisung
Einreichung Rückweisung
traditionelle Arbeitsteilung:
Spezialisierungsbreite
Zer
splitt
erun
g
[1980]
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
11
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternWas ist Dichotomie ?
61
Dichotomie = wechselseitige Zuordnung zweier gegensätzlicher Domänen, wobei eine Dritte daneben ausgeschlossen ist.
Das Dichotomie-Modell wird vorgeschlagen als didaktische Orientierungshilfe zur Überwindung der Software-Configware-Kluft
Dichotomie der Paradigmen (von Neumann / Antimaschine): das „Zwillings-Paradigma“
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
62
(Materie und) Anti-Materie
Paul Dirac (1928, Nobelpreis 1933): “There are regions in the universe, which consist of antimatter .....
Aber in der Informatik gibt es die Antimaterieschon: die Antimaterie der Informatik
Paul Dirac: “Aber es gibt Asymmetrien”
Reconfigurable Computing beruht auf dieser Antimaterie
Nach “echter” Antimaterie wird noch heute gesucht*
Artefakte, in Beschleunigern synhetisiert (1955 – 1995)
(CERN 1995)
*) außer Positronen (Höhenstrahlung)
(Dichotomie-Beispiel)
Informatik: nur eine!
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Die Dichotomie: Materie und Antimaterie
von
Neum
ann
Para
digma
Programm-Ebene
Anwendung
Ant
imasc
hinen
Para
digma
Dichotomie
Programm-
Zähler
CPUCPU ASMASMDaten-
Zähler
+-
Materie
- +
Antimaterie
63
Befehlsstrom-basiert und Datenstrom-basiert
von Neumann und Antimaschine
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Aber es gibt eine Asymmetrie:
64
+
CPU
- 1936 1st instruction stream computer (Konrad Zuse)
1946 von Neumann machine paradigm defined
1971 1st microprocessor (Ted Hoff)
1979 „data streams“ def. (systolic array: Kung / Leiserson)1990 anti machine paradigm published1995 rDPA / DPSS (supersystolic array: Rainer Kress)
1884 1st data-stream-based computer (Hollerith)
-ASM
+
+
rDPArDPArDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
rDPUrDPU
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternDoppelte Dichotomie
Paradigmen-Dichotomie*
Relativitäts-Dichotomie
ProzedurZeit
(Software-Domäne)
StrukturRaum
(Configware-Domäne**)
Befehlsstromvon-Neumann
(Software-Domäne)
DatenströmeAnti-Maschine
(Flowware-Domäne)
65
*) prozedurale Dichotomie: Befehls-prozedural gegen Daten-prozedural
**) und Hardware-Domäne © 2008, [email protected] http://hartenstein.de
TU KaiserslauternDoppelte Dichotomie
66
Befehlsstrom-Domäne
1.) Prozedurale Dichotomie
imperative Software-Sprache
(Befehls-prozedural)
Programm-
Zähler
CPUCPU
systolische Flowware-Sprache
(Daten-prozedural)
Datenstrom-Domäne
ASMASMDaten-
Zähler
(= Paradigmen-Dichotomie)
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
12
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Reconfigurable Computing Revolution
Programm-Ebene
Anwendung
Ant
imasc
hinen
Para
digma
Reconfigurable Computing
Christophe Bobda
von
Neum
ann
M
odell
von
Neum
ann
Pa
radigma
67Zwillings-
Paradigma
The new Mead &
Conway ?
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Revolution der Lehre:
Reconfigurable Computing Revolution
Programm-Ebene
Anwendung
68
the tall t
hin m
an*
> D
ichotom
ie <
Christophe Bobda
The new Mead &
Conway ?
Entrümpelung
von-Neumann-Paradigma
(Befehlsstrom-basiert)
Entrümpelung
Antimaschinen-Paradigma (Datenstrom-basiert)
Zwillings-
Paradigma
*) oder” tall thin woman”
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Wer erzeugt die Datenströme?
69
xxx
xxx
xxx
|
||
x x
x
x
x
x
x x
x
- -
-
xx
x
x
x
x
xx
x
--
-
-
-
-
-
-
-
-
-
-
xxx
xxx
xxx
|
|
|
|
|
|
|
|
|
|
|
|
Ohne
Sequenzierer
ist es keine
Maschine !
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Die Anti-Maschine
70
Daten-zähler
GAG RAM
mehrere Datenzähler statt
eines Programmzählers
Der Datenzähler: plaziert im Speicher**
(nicht beim Datenpfad***)
ASM
ASM
ASM
ASM
ASM
ASM
ASM
ASM
ASM
ASM
ASM
ASM
xxx
xxx
xxx
|
||
x x
x
x
x
x
x x
x
- -
-
xx
x
x
x
x
xx
x
--
-
-
-
-
-
-
-
-
-
-
xxx
xxx
xxx
|
|
|
|
|
|
|
|
|
|
|
|
**) normalerweise on-chip
(r)DPA*(r)DPA*
***) nicht wie bei der CPU
*) vorzugsweise grobkörnig: wie z. B. mittels Plattform-FPGA
*) vorzugsweise grobkörnig: wie z. B. mittels Plattform-FPGA
Auto-Sequencing Memory
ASM: Datenströme[Kung et al. 1979]
programmiert durch Flowware
Super-
systolischer
Array
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Dualität prozeduraler Sprachen
systolische Flowware- Sprachen
read next data item
goto (data address)
jump to (data address)
data loop
data loop nesting
data loop escape
data stream branching
yes: internally parallel loops
71
imperative Software-Sprachen
read next instruction
goto (instruction address)
jump to (instruction address)
instruction loop
instruction loop nesting
instruction loop escape
instruction stream branching
no: internally parallel loops
Aber es gibt eine Asymmetrie
© 2008, [email protected] http://hartenstein.de
TU KaiserslauternDoppelte Dichotomie
Paradigmen-Dichotomie
Relativitäts-Dichotomie
ProzedurZeit
(Software-Domäne)
StrukturRaum
(Configware-Domäne)
Befehlsstromvon-Neumann
(Software-Domäne)
DatenstromAnti-Maschine
(Flowware-Domäne)
72
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
13
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Configware resources: variable
Nick Tredennick‟s Perspektive
2 Programm Quellen nötigFlowware algorithm: variable
Configware EngineeringConfigware Engineering
Software EngineeringSoftware Engineering
1 Programm Quelle nötig
algorithm: variable
resources: fixed
SoftwareCPU
(Befehlsströme)
(Struktur)
(Datenströme)
73
von Neumann Maschine:
Anti-Maschine:
Anti-Maschine: gibt es auch fest verdrahtet
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Configware resources: variable
Nick Tredennick‟s Perspektive
und die Relativitäts-Dichotomie
Raum-Domäne
Flowware algorithm: variable
74
Anti-Maschine:
Anti-Maschine: gibt es auch fest verdrahtet
Zeit-Domäne
(Struktur)
(Datenströme)
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Relativitäts-Dichotomie
Zeit-Domäne: Raum-Domäne:
Prozedur-Domäne Struktur-Domäne
2 Phasen: 1) Programmierung
v. Befehlsströmen2) Laufzeit
3 Phasen: 1) Rekonfiguration
von Strukturen
Zeit Raum
2) Programmierung von Datenströmen
3) Laufzeit
75
(Maschinen-Dichotomie)
von Neumann Maschine Anti-Maschine© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Zeit zu Raum Abbildung
Zeit-Domäne: Raum-Domäne:
Prozedur-Domäne Struktur-Domäne
76
Programmschleifen Zeitschritte, 1 CPU
Pipeline1 Taktschritt, n DPUs
Bubble Sortn x k Zeitschritte,
1 „conditional swap“ unit
Shuffle Sortk Taktschritte, n „conditional swap“ units
Zeit-Algorithmus Raum-Algorithmus
conditionalswap
x
y
conditionalswap
conditionalswap
conditionalswap
conditionalswap
Zeit-Algorithmus Raum- /Zeit-Algorithmus
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Architektur statt Synchro
77
„Shuffle Sort“
conditionalswap
conditionalswap
conditionalswap
conditionalswap
Modifikation:
mit Shuffle-
Funktion
conditionalswap
conditionalswap
conditionalswap
conditionalswap
conditionalswap
conditionalswap
swap
conditionalswap
conditional
Direkte Zeit-
Raum-Abbildung
Zugriffs-Konflikte
Bessere Architekturstatt aufwendigerSynchronisation: Halbierung der Anzahl Blöcke + Auf und Ab der Daten (Shuffle Funktion) – keinvon-Neumann-Syndrom !
Beispiel
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
Transformationen seit den 70ern
Zeit-Domäne: Raum-Domäne:
Prozedur-Domäne Struktur-Domäne
78
Programmschleifen x k Zeitschritte,
1 CPU
Pipelinek Taktschritte, n DPUs
Zeit-Algorithmus Raum- /Zeit-Algorithmus
Strip Mining
Transformation
Schleifentransformationen: reichhaltige Methodik publiziert Hier ein Beispiel: [Übersicht: Diss.
Karin Schmidt, 1994, Shaker Verlag]
6 July 2008
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
14
Reiner Hartenstein, TU Kaiserslautern, Germanyhttp://hartenstein.de
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
79
>> Gliederung <<
1. Reconfigurable Computing
2. Ursachen der Akzelerationsfaktoren
3. Die Manycore-Krise
4. Das von-Neumann-Syndrom
5. Barrieren: das Ausbildungs-Dilemma
6. Dichotomien des Zwillings-Paradigma
7. Schlußfolgerungen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
80
Schlußfolgerungen
Kurrikulum-Task Forces haben die Wichtigkeit Eingebetteter Systemevernachlässigt und die Bedeutung der FPGAs völlig ignoriert.
Ein kohärentes didaktisches Konzept wurde vorgeschlagen
Zuhörer und Leser werden hierzu dringend aufgefordert, bei allen Gelegenheiten als Lobbyist aktiv zu werden
Für dieses Ausbildungs-Dilemma brauchen wir durchschlagende duale Lösungen …
Wir befürchten, daß auch die in Folge der Manycore-Krise gegebeneUnabdingbarkeit programmierbarer Akzeleratoren ignoriert wird.
Die Ausarbeitung und Durchführung solche Probleme lösender neuartiger Kurse und Studienpläne ist dringend erforderlich
… die solche Betonwände durchschlagen
© 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
END
81 © 2008, [email protected] http://hartenstein.de
TU Kaiserslautern
vielen Dank für Ihre Geduld
82