Upload
frideric-hemming
View
108
Download
0
Tags:
Embed Size (px)
Citation preview
Parallelising Molecular Dynamics for Message
Passing Systems
Martin Gerber26.11.99
Molekulardynamik-Simulation Vielteilchenwechselwirkung Summation der Teilkräfte Periodische Randbedingungen
Koordinaten
Wechselwirkung
Integration
t+∆t
Grössenordnungen Molekulare Systeme:
» 36‘000 Atome, cutoff 1.4nm, pro Atom ca. 500 Nachbarn
Simulation 1 Zeitschritt: » real: 0.5-2 · 10-15 s» SunUltra30: 30s
1ns simulieren: 1/2 bis 2 Jahre
Motivation & Ziele Methodik und neue Verfahren für den
Entwurf dedizierter paralleler Systeme Spezialhardware? SMP? WS-Cluster? Softwarentwicklung?
Inhalt
MD-Algorithmen
Exploration
Codegenerierung
Validierung
Entwurf
Spezifikation
Parallele MD Algorithmen Anwendbarkeit verschiedener Verfahren
auf Gromos:» Particle Decomposition» Interaction Decomposition» Spatial Decomposition:
Domain Decomposition Replicated Data Systolic Loops
Implementation eines Prototypen mit MPI
kubische Randbedingungen
Domain Decomposition für rechtwinklige Simulationsbox
Oktaedrische Randbedingungen
Replicated Data
Inhalt
MD-Algorithmen
Exploration
Codegenerierung
Validierung
Entwurf
Spezifikation
Spezifikationsmodell Kontroll-/Datenflussgraph für datenparallele
Algorithmen(replicated data)
Generische Modelle algorithmischer Funktionen:» Komplexität» I/O Bandbreite» Speicherbedarf Ausschnitt aus der Gromos96P
Spezifikation (Pairlist Aufbau)
Gro
mos96P
K
on
trollfl
uss-
Sp
ezifi
kati
on
(k
om
ple
tt)
Punkt-zu-Punkt Kommunikation Punkt-zu-Punkt Kommunikation
Architekturmodell
Overhead
Latenz
Bandbreite
Performanzmodell für Rechenknoten» Rechenleistung» elementare
Operationen
blocking
non-blocking
Inhalt
MD-Algorithmen
Exploration
Codegenerierung
Validierung
Entwurf
Spezifikation
Analytische ModelleParallele
ArchitekturenParallele
ArchitekturenGenerische
FunktionsmodelleGenerische
FunktionsmodelleBindung:Bindung:
Quantitative Schätzung der PerformanzQuantitative Schätzung der Performanz
Parallelisierungs-strategie
Parallelisierungs-strategie
Funktionen
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Rechenknoten
AblaufplanSimulations-parameter
Simulations-parameter
Un
ters
uch
te
para
llele
A
rch
itektu
ren
Quantitative Speed-up Schätzung
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
Title: ClipboardCreator: (Mathematica X 3.0)Preview: This EPS picture was not saved with a preview (TIFF or PICT) included in itComment: This EPS picture will print to a postscript printer but not to other types of printers
ASICRISCNetSharc
30/7050/70100/70100/25
bandwidth [MByte/s]/Latency [us]ASICRISCNetSharc
123
number of ASIC boards:
Inhalt
MD-Algorithmen
Exploration
Codegenerierung
Validierung
Entwurf
Spezifikation
Softwarestruktur viele Versionen derselben SW allgemeine SW:
spezialisiert zur Laufzeit Trennung von Algorithmus und
Zielarchi- tektur: Konfiguration zur Compile-Zeit
Neue Programmierumgebung
Funktionen Interface
CDFGArchitektur
Schedule
Extraktion
ausführbare Programmesequentiell & parallel
Inhalt
MD-Algorithmen
Exploration
Codegenerierung
Validierung
Entwurf
Spezifikation
Validierung Gromos96P
Getestete Versionen:
Datenkommunikation
BarrierSynchronisation
synchron asynchron
ein aus
IBM SP-21-44 Knoten
Architekturen
Workstation Cluster1-5 Knoten
MyrinetFast
Ethernet
0
500
1000
1500
2000
2500
3000
3500
ps1 ps2 ps3 ps4
deviationsyncrestintegrationpairlistsolventsolute
0
500
1000
1500
2000
2500
3000
3500
pa1 pa2 pa3 pa4
deviationsyncrestintegrationpairlistsolventsolute
kubische Box auf IBM SP-2
Daten asynchron, mit Barrier Daten asynchron, ohne Barrier
WorkstationCluster
0
200
400
600
800
1000
1200
1400
1600
pa1 pa2 pa3 pa4 pa5
deviationsyncrestintegrationpairlistsolventsolute
Skalierbarkeit par. Funktionen
Daten asynchron, ohne Barrier10
14
18
22
26
30
34
38
42
16 20 24 28 32 36 40 44
nodes
solventpairlist