Rechneraufbau & Rechnerstrukturen, Folie 13.1 © 2006 W. Oberschelp, G. Vossen

Rechneraufbau & Rechnerstrukturen, Folie 13.1 © 2006 W. Oberschelp, G. Vossen


Kapitel 13: Grund-Konzepte und -Modelle für die Parallelverarbeitung


Übersicht

• VLSI-Algorithmen. Systolische Netze• SIMD-Rechner. Das Speicherproblem. Die PRAM• Kommunikation bei verteiltem Speicher:

Superkonzentratoren• Spezielle Permutationsnetze• Beispiel: Matrix-Multiplikation auf dem Hypercube• Routing in programmierbaren Permutationsnetzen• Universalität von Permutationsnetzen


13.1 VLSI-„Prozessor“.


13.2 Prozessor-Pipeline.


13.3 (Quadratisches) Prozessor-Feld.


13.4 Hexagonales Prozessor-Feld.


aaaa

a11aaaa

aaaa

aaaaa

aaa

a

aa

a aa

a

213141

1222324252

2333435363

3444546474

4555657585

566676

67

...

.....

q

p

O

OA =

...

......

...

Differenz der Indizes:

-10

12

3

Indizes haben gleiche Summen:

23

45

67

13.5 (2,4)-Bandmatrix.


Matrix-Vektor-Produkt


13.6 Fünfelementige Prozessor-Pipeline.


Drehen der Bandmatrix












aa

a

a

a

a

a

a

aa

a

a

a

P P P P Px x xy

1231 0=-1 31 20

34

23

12

11

22

33

43

32

21

42

31

52

41

...

. . .

13.7 Organisation der (syst.) Matrix-Vektor-Multiplikation.


P P P P P-1 31 20

Matrix-Vektor-Multiplikation: Takt 1

a11

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

y1=0y1


a11

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

P P P P P-1 31 20 y1y1



a11

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

P P P P P-1 31 20 y1

x1

x1

y2=0y2y1



P P P P P-1 31 20

a11

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

x1

y1a11

y2 y2y1

x1



P P P P P-1 31 20

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

y1= a11 * x1 + y1

a44 a53

y2

x1



P P P P P-1 31 20

a12 a21

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

a44 a53

y1

y1

x2

x2

a12 x1 x1

a21

y2 y2

y3=0y3



P P P P P-1 31 20

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

a44 a53

y1= a12 * x2 + y1

a45 a54 a63

y2= a21 * x1 + y2

y3

x2 x1



P P P P P-1 31 20x2 x2

a22 a31

a23 a32 a41

a33 a42

a34 a43 a52

a44 a53

a45 a54 a63

y2y2a22 x1

y3y3

x1

a31

Ausgabe: y1



P P P P P-1 31 20

a23 a32 a41

a33 a42

a34 a43 a52

a44 a53

a45 a54 a63

x1

y3 =a31* x1 + y3

y2 =a22* x2 + y2

x2

a55 a64



P P P P P-1 31 20

a23 a32 a41

a33 a42

a34 a43 a52

a44 a53

a45 a54 a63

a55 a64

x1x2

y2 y3

y2 y3

x2 x1x3

x3

a23 a32 a41

y4=0y4



P P P P P-1 31 20

a33 a42

a34 a43 a52

a44 a53

a45 a54 a63

a55 a64

y2 = a23*x3+y2 x2 x1x3

y3 = a32*x2+y3 y4 = a41*x1+y4

a56 a65 a74



P P P P P-1 31 20

a33 a42

a34 a43 a52

a44 a53

a45 a54 a63

a55 a64

a56 a65 a74

Ausgabe: y2

x3 x2x3 x2

y3 y4a33 a42y3 y4y2

u.s.w.



Teilweiser Ablauf der Matrix-Vektor-Multiplikation


13.8 Hexagonales Prozessor-Feld für die Matrix-Multiplikation.


13.9 Prinzip der Vernetzung von Prozessoren.


13.10 Vernetzte Prozessoren mit globalem Speicher.


13.11 4 x 4-Crossbar Switch G1.


13.12 Graph G2 zu Beispiel 13.2 ((3,2)-Konzentrator).


13.13 Graph G3 zu Beispiel 13.3 (4-Superkonzentrator).


13.14 Nicht-universelles Permutationsnetz (4-Superkonzentrator).


13.15 (Offene) Prozessor-Pipeline.


13.16 (Geschlossene) Prozessor-Pipeline (Ring).


13.17 (Geschlossene) Prozessor-Speicher-Pipeline.


13.18 Perfect-Shuffle-Netzwerk.


13.19 Perfect-Shuffle-Netzwerk mit separaten Ziel-Prozessoren.


13.20 Shuffle-Exchange-Netzwerk.


13.21 Array-Netzwerk.


13.22 Hypercube der Dimension m = 3.


13.23 Hypercube der Dimension m = 4.


13.24 Cube-Connected Cycles.


13.25 Anordnung der 64 Hypercube-Prozessorenzur Multiplikation von (4 x 4)-Matrizen

(dezimale Indizierung).


13.26 Anordnung der 64 Hypercube-Prozessorenzur Multiplikation von (4 x 4)-Matrizen

(duale Indizierung).


Beispiel zur Matrix-Multiplikation

2 0 4 22 4 0 2

0 2 2 44 2 2 0

A

1 1 5 31 1 3 5

5 3 1 13 5 1 1

B

?AB


Initialisierung


13.27 Beispiel: Initialisierung der Hypercube-Prozessoren zur Multiplikation von (4 x 4)-Matrizen.


13.28 Beispiel: Speicherbelegung der Prozessorennach Beendigung der Phase 2.


nach Phase 2


13.29 Beispiel: Speicherbelegung der Prozessoren nach Durchführung des Schrittes 3.


nach Schritt 3


13.30 Beispiel: Speicherbelegung derProzessoren am Ende der Rechnung.


Ergebnis


Ergebnis


13.31 Prinzip der programmierbaren Vernetzung.


13.32 Kreuzschienenschalter (Crossbar Switch).


13.33 „Exchange-Modul“.


13.34 Programmierbares Shuffle-Exchange-Netzwerk.


13.35 (Dreistufiges) Ω-Netzwerk.


13.36 Das Butterfly-Netzwerk.

Inputs Outputs


13.37 Das Beneš-Netz als universelles Permutationsnetz.

Inputs Outputs


13.38 Clos-Netz als dynamisches Permutations-Netz.

Inputs Outputs

Documents

Rechneraufbau & Rechnerstrukturen, Folie 13.1 © 2006 W. Oberschelp, G. Vossen