Parallelising Molecular Dynamics for Message Passing Systems Martin Gerber 26.11.99

Preview:

Citation preview

Parallelising Molecular Dynamics for Message

Passing Systems

Martin Gerber26.11.99

Molekulardynamik-Simulation Vielteilchenwechselwirkung Summation der Teilkräfte Periodische Randbedingungen

Koordinaten

Wechselwirkung

Integration

t+∆t

Grössenordnungen Molekulare Systeme:

» 36‘000 Atome, cutoff 1.4nm, pro Atom ca. 500 Nachbarn

Simulation 1 Zeitschritt: » real: 0.5-2 · 10-15 s» SunUltra30: 30s

1ns simulieren: 1/2 bis 2 Jahre

Motivation & Ziele Methodik und neue Verfahren für den

Entwurf dedizierter paralleler Systeme Spezialhardware? SMP? WS-Cluster? Softwarentwicklung?

Inhalt

MD-Algorithmen

Exploration

Codegenerierung

Validierung

Entwurf

Spezifikation

Parallele MD Algorithmen Anwendbarkeit verschiedener Verfahren

auf Gromos:» Particle Decomposition» Interaction Decomposition» Spatial Decomposition:

Domain Decomposition Replicated Data Systolic Loops

Implementation eines Prototypen mit MPI

kubische Randbedingungen

Domain Decomposition für rechtwinklige Simulationsbox

Oktaedrische Randbedingungen

Replicated Data

Inhalt

MD-Algorithmen

Exploration

Codegenerierung

Validierung

Entwurf

Spezifikation

Spezifikationsmodell Kontroll-/Datenflussgraph für datenparallele

Algorithmen(replicated data)

Generische Modelle algorithmischer Funktionen:» Komplexität» I/O Bandbreite» Speicherbedarf Ausschnitt aus der Gromos96P

Spezifikation (Pairlist Aufbau)

Gro

mos96P

K

on

trollfl

uss-

Sp

ezifi

kati

on

(k

om

ple

tt)

Punkt-zu-Punkt Kommunikation Punkt-zu-Punkt Kommunikation

Architekturmodell

Overhead

Latenz

Bandbreite

Performanzmodell für Rechenknoten» Rechenleistung» elementare

Operationen

blocking

non-blocking

Inhalt

MD-Algorithmen

Exploration

Codegenerierung

Validierung

Entwurf

Spezifikation

Analytische ModelleParallele

ArchitekturenParallele

ArchitekturenGenerische

FunktionsmodelleGenerische

FunktionsmodelleBindung:Bindung:

Quantitative Schätzung der PerformanzQuantitative Schätzung der Performanz

Parallelisierungs-strategie

Parallelisierungs-strategie

Funktionen

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Rechenknoten

AblaufplanSimulations-parameter

Simulations-parameter

Un

ters

uch

te

para

llele

A

rch

itektu

ren

Quantitative Speed-up Schätzung

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers

ASICRISCNetSharc

30/7050/70100/70100/25

bandwidth [MByte/s]/Latency [us]ASICRISCNetSharc

123

number of ASIC boards:

Inhalt

MD-Algorithmen

Exploration

Codegenerierung

Validierung

Entwurf

Spezifikation

Softwarestruktur viele Versionen derselben SW allgemeine SW:

spezialisiert zur Laufzeit Trennung von Algorithmus und

Zielarchi- tektur: Konfiguration zur Compile-Zeit

Neue Programmierumgebung

Funktionen Interface

CDFGArchitektur

Schedule

Extraktion

ausführbare Programmesequentiell & parallel

Inhalt

MD-Algorithmen

Exploration

Codegenerierung

Validierung

Entwurf

Spezifikation

Validierung Gromos96P

Getestete Versionen:

Datenkommunikation

BarrierSynchronisation

synchron asynchron

ein aus

IBM SP-21-44 Knoten

Architekturen

Workstation Cluster1-5 Knoten

MyrinetFast

Ethernet

0

500

1000

1500

2000

2500

3000

3500

ps1 ps2 ps3 ps4

deviationsyncrestintegrationpairlistsolventsolute

0

500

1000

1500

2000

2500

3000

3500

pa1 pa2 pa3 pa4

deviationsyncrestintegrationpairlistsolventsolute

kubische Box auf IBM SP-2

Daten asynchron, mit Barrier Daten asynchron, ohne Barrier

WorkstationCluster

0

200

400

600

800

1000

1200

1400

1600

pa1 pa2 pa3 pa4 pa5

deviationsyncrestintegrationpairlistsolventsolute

Skalierbarkeit par. Funktionen

Daten asynchron, ohne Barrier10

14

18

22

26

30

34

38

42

16 20 24 28 32 36 40 44

nodes

solventpairlist