Calculs intensifs en mise en forme des matériaux … · Calculs intensifs en mise en forme des matériaux - Journée CSMA , 11 mai 2010, Université de Technologie de Compiègne

Calculs intensifs en mise en forme des matériaux

- Journée CSMA , 11 mai 2010, Université de Technologie de Compiègne -


– Hardware, grilles de calcul et

algorithmes parallèles

H. Digonnet, T. Coupez, Ch-A. Gandin, H-C. Nguyen et T. Carozzani

Mines ParisTech (ENSMP) Centre de Mise en Forme des Matériaux (CEMEF) Groupe : Calcul Intensif en Mise en Forme (CIM)

Web site : http://www.cemef.mines-paristech.fr



Contexte : dans le groupe CIM au CEMEF

!! Développement de méthodes numériques performantes !!Résolution de grands systèmes linéaires creux !!Méthodes itératives, multi-grille, calcul parallèle !!Génération et adaptation automatique de maillage

!! Une boite à outils logiciel !!CimLib : une bibliothèque et un parseur d’objets (écrits en C++) !!Un mailleur, un partitionneur de domaine

!! Calcul scientifique !!Optimisation de forme et de procédés !!Calcul multi-échelle et multi-physique !!Marqueur de surface libre ou d’interface

Génération anisotropique de maillage

Techniques VOF et LevelSet



Contexte : quelques exemples d’applications

" ! REM3D

" ! Forge 3++

" ! fluide complexe (micro scale)

" ! XimeX

" ! THOST

" ! Agrégats

CIMLIB: Une bibliothèque parallèle et orientée objets (C++) de simulation par éléments finis



Plan de la présentation :

!! Contexte de programmation

!! Évolution hardware vers du massivement parallèle

!! Un repartitionneur parallèle de maillage

!! Stratégie de parallélisation du mailleur

!! Performances et résultats parallèles obtenues

!! Deux applications à la mise en forme des matériaux



Intérêt du calcul parallèle ?

!! La fin des processeurs séquentielles !! la puissance des CPU augmente plus par

l’addition de nouveaux coeurs de calcul que par la classique loi de Moore.

!!aujourd’hui 2,4 et même 6 cœurs par CPU. !!prochaine génération : 8, 12 cœurs par CPU !!utilisation de GPU à plusieurs centaines

d’unités de calcul.

!! Cluster à plusieurs centaines de milliers de cœurs

!!en novembre 2009 dans la liste top500 : le nombre de cœurs allait de128 à 294 912.

!! Pour le calcul scientifique : !!nous devons utiliser le calcul parallèle ! !!nous devons penser au massivement

parallèle (plus de 100 cœurs)



Intérêt du calcul parallèle ? Calculateur le plus puissant au monde :

• 224 162 coeurs • construit en 2009 • puissance 1 759 TFlops soit 1,759*1015 Flops



Repartitionneur parallèle : load-balancing

Disques de freins

Vilebrequin

Hétérogénéité logiciel S=1

S=8

S=4

S=2

P(e)=1 P(e)=1

P(e)=1000

Hétérogénéité matériel



Repartitionneur parallèle : load-balancing

Partition du maillage d’un cube à 1 500 000 nœuds sur 4096 processeurs.

sous maillage hébergé par le processeur 0 (environ 400 nœuds)



Remaillage : le contexte et la stratégie de parallélisation

Le moteur du remaillage :

!! il existe un mailleur séquentiel « mtc » qui reste en cours de développement

!! mailleur tétraédrique non structuré et non hiérarchique

!! taille de maille isotrope ou anisotrope

Parallélisation :

!! une parallélisation directe est très intrusive

!! nous avons développé un repartitionneur parallèle

!! le repartitionneur et le remailleur utilisent tous les deux une stratégie d’amélioration itérative

Stratégie : Pas de parallélisation direct du mailleur mais utilisation de ce dernier dans un contexte parallèle.



Remaillage : ajout d’une contrainte aux interfaces

1) Remaillage indépendant des sous domaines

Sans contrainte : nous n’obtenons pas un maillage globale conforme !

Avec la contrainte de bloquer les interfaces : nous obtenons un maillage globale conforme mais de mauvaise qualité.

2) Repartitionnement et itération



Partition initiale du domaine sur 7 processeurs

Illustration dans un cas 2d :



1er remaillage avec interfaces bloquées Illustration dans un cas 2d :



1er repartitionnement pour déplacer les interfaces à l’intérieur Illustration dans un cas 2d :



2ème remaillage Illustration dans un cas 2d :



2ème repartitionnement Illustration dans un cas 2d :



3ème remaillage Illustration dans un cas 2d :



Dernier repartitionnement pour équilibrer la charge de travail pour les calculs EFs Illustration dans un cas 2d :



Commentaires :

L’étape de remaillage est de moins en moins coûteuse :

!! en 2d, le premier remaillage est proportionnel à une surface, le second à une ligne et le dernier à un point.

!! en 3d, il y a une étape de plus : on part d’un remaillage volumique jusqu’au ponctuel.

Lien entre la dimension spatiale et le nombre d’itérations : !! 2d -> 3 itérations !! 3d -> 4 itérations !! Nd -> n+1 itérations “également vrai en 4d ;-)”

En théorie, le coût CPU de chaque itération diminue très rapidement et le coût total reste le même (aux étapes de repartitionnement près). Numériquement, ceci reste vrai après avoir implémenté l’optimisation par “permutation - couper - coller”.



…

…

…

Définition de la zone à remailler

Permutation de la zone en bout de tableau

Extraction de la zone a remailler

Remaillage de la zone extraite

Recollement du nouveau maillage en bout de tableau

(n – m) data m data Optimisation : Rq: m << n



1p 2p 4p 8p 16p 32p

Durée Old 3071 1599 798 414 203 96

Accélération Old/réf

1.0/0.7 1.9/1.3 3.8/2.5 7.4/4.9 15.1/10.0 32.0/21.0

Durée New 2199 1077 487 285 135 63

Accélération New/réf

1.0/0.9 2.0/1.9 4.5/4.2 7.7/7.1 16.3/15.0 34.9/32.1

Durée Réf 2020 - - - - -

!! cas 2d avec un raffinement uniforme d’un facteur 2

!! maillage initial de 800 000 noeuds et final de 3 200 000 noeuds

!! Calcul exécuté de 1 à 32 processeurs sur notre cluster (512 coeurs AMD Opteron avec un réseau à faible latence infiniband)

Performances parallèle :



1p 2p 4p 8p 16p 32p

Durée New

3079 1443 753.5 384.5 196.2 112

Speed-Up 1.0 2.1 4.1 8 15.7 27.5


!! maillage initial de 100 000 noeuds et final 800 000 noeuds

!! calcul exécuté de 1 à 32 processeurs sur notre cluster (512 coeurs AMD Opteron avec un réseau à faible latence infiniband)




Nb cœurs Maillage initial Nombre de noeuds

Maillage final Nombre de nœuds

Durée (en secondes)

Efficacité Wall clock

16 1 017 618 14 279 607 6058 1 128 14 279 607 115 320 878 8432 0.72 1024 115 320 878 921 458 916 8724 0.69


!! charge constante par cœur (environ 1 million de nœuds)

!! calcul exécuté de 16 à 1024 coeurs sur le cluster Jade (12288 coeurs Intel Quad-Core avec un réseau à faible latence Infiniband – 14ème de la liste top 500 des calculateurs les plus puissants en Novembre 2008)

Résultats : l’utilisation de 1024 coeurs a permis de générer un maillage 3d de presque un milliard de nœuds et 5 milliards d’éléments.




Cas 2d sous la contrainte d’un maillage de 100 000 nœuds

Calcul réalisé sur 8 processeurs avec 110 itérations en 1675s

Résultats : Adaptation statique de maillage anisotrope

x1 : maillage et fonction

x50

x500

x1 : l’erreur

[ T. COUPEZ. Metric construction by length distribution tensor and edge based error for anisotropic adaptive meshing. Preprinted, 2009 ]



Cas 3d sous la contrainte d’un maillage de 1 200 000 nœuds

Calcul réalisé sur 64 processeurs avec 89 itérations en 108 042s




Cas 3d : la partition, 3 coupes et un zoom




Particularités :

!! fluides visqueux (faible nombre de Reynolds 0.1 to 1)

!! rapport important entre la taille de l’entrée et celle de la cavité

!!utilisation d’un solveur de Navier-Stokes multi phasique couplé a une représentation LevelSet de l’interface

!! filament très étroit pour le fluide mais couvrant l’ensemble de la cavité au cours du temps (besoin d’un maillage fin sur l’ensemble de la cavité).

Méthodologie : utilisation d’une adaptation dynamique de maillage anisotrope durant la simulation pour accélérer la simulation

Application 2 : « fluid buckling « (Doctorant H-C Nguyen)



Un exemple 3d avec adaptation de maillage anisotrope Application 1 : fluid buckling



Un exemple 3d avec adaptation de maillage anisotrope

4 injecteurs et maillage à 150 000 nœuds durée 3 jours sur 24 processeurs

Application 1 : fluid buckling



Application 2 : cristallisation (Doctorant T. Carozzani)

Particularités :

!! simulation à 2 échelles CAFE : Automates Cellulaires (mésoscopique) et Éléments Finis (macroscopique)

!! taille des cellules le l’ordre de 100 micromètres et application à des pièces 3d de grande taille, 1m x 15 cm x 15 cm => plusieurs milliards de cellules.

!! Création et destruction dynamique des cellules et coût de calcul hétérogène => repartitionnement dynamique.

!! taille des fichiers résultats générés (quelques To) : exploitation parallèle nécessaire

[Gan09] [Rap96]




Simulation 2d :

!!taille cellule 500 micromètre

!!5h 30 sur 1 processeurs

Parallélisation de l’exploitation des résultats :

!!création d’un rendu par incrément distribué sur les processeurs

!!recollement des images pour obtenir la microstructure complète.




Simulation 3d :

!! taille cellule : 1 mm

!! 480 incréments

!! 6496 micro pas de temps

!! équivalent 25,5 millions de cellules

!! calcul sur 3 processeurs

repartitionnement dynamique

temps par incréments

évolution cellulaires



Conclusion & Perspectives

!! Nous avons parallélisé le mailleur en couplant itérativement des étapes de repartitionnement et de remaillage à interfaces bloquées. Cette stratégie repose sur le fait que les deux utilisent un processus d’amélioration itératif.

!! L’efficacité parallèle globale est bonne. Ceci grâce à l’optimisation par “permutation-couper-coller” qui réduit de façon importante les coûts de remaillage sur de petites zones.

!! Nous avons été capable de générer un maillage avec presque un milliard de nœuds en utilisant un millier de coeurs.

!! faire plus attention au déséquilibre (en mémoire) lors de la génération de très gros maillages proches des limites mémoire de la machine.

!! Appliquer l’optimisation par “permutation-couper-coller” à la simulation de fluid buckling 3d avec maillage anisotrope et l’exécuter sur plus de 100 processeurs.

!! Réaliser une simulation de cristallisation 3d avec un pas de cellule de 100micromètre soit globalement équivalent à 22,5 milliards de cellules sur plus de 100 processeurs.



Remerciements :

!! mon premier remerciement va au CINES pour l’accès au calculateur massivement parallèle Jade.

!! je remercie également le doctorant G. François qui a réalisé le calcul suivant :

Expérience Calcul : CimLib + VisIt + Blender

Python





Architecture du code :

Interface Maillage

Séquentiel Distribué

Applications

Système linéaire/non linéaire (résolution globale)

Solveur Simplex/Item (résolution local)

Rem3D Forge3++ XimeX THOST Micro-scale

Interface Champ (P0,P1,…)

Séquentiel Distribué

Structure de donnée

Partitionnement

Données Distribués

Remaillage

Transport des Champs



Illustration : numérotation des éléments



Particularités :

!! déformation très locale à un instant « t » mais globale au cours du temps (plusieurs centaines de coups : 500)

!! nécessite un maillage fin pour stocker les champs avec histoire (la déformation) et le calcul thermique mais pas pour le solveur mécanique.

Application 1 : martelage, laminage circulaire (doctorant M. Ramadan)



Méthodologie : utilisation de deux maillages, nous déraffinons le maillage initial pour le solveur mécanique tout en conservant le maillage identique aux endroits ou la déformation est importante.

-! maillage fin

- Calcul thermique

- Stockage des données

Maillage thermique : TM

-! déraffinement emboîté par nœuds

-! Calcul mécanique

Maillage mécanique : MM

Transfert de donnée

MM

TM

La stratégie bi-maillages

Application 1 : martelage, laminage circulaire



Résultats :

sur 4 processeurs Nombre de nœuds MT / MM N/Nderaf

Bi-maillage Speed-up

cas test 1 23 500 / 6 300 3,7 5,5

cas test 2 53 500 / 13 800 3,9 10,5

Points importants:

!! calcul thermique « exact »

!! Les champs avec histoire sont conservés sur le maillage fin

!! transport de champs exactes entre les deux maillages dans les zones a fortes déformations

Application 1 : martelage, laminage circulaire



Application 1 : fluid buckling Un exemple 3d



Injection of a wrist door



Example : calculation of the free surface evolution over 88 processors using a 25 millions nodes mesh ( solving one 100 millions DOFs system for Stokes and 1250 time a 25 millions DOFs system for LevelSet) in 28 hours.

Documents

Calculs intensifs en mise en forme des matériaux … · Calculs intensifs en mise en forme des matériaux - Journée CSMA , 11 mai 2010, Université de Technologie de Compiègne