Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Agenda
1. Conceptos básicos y estadísticas
2. Tendencias: uso de aceleradores, IA y computación
cuántica
3. Soporte para la ciencia
4. Infraestructuras de CAR en México
5. Supercómputo en la UNISON: el ACARUS
• Servicios/Funciones
• Usuarios
• Actividades académicas
• Vinculación y colaboración
• Proyectos
• Infraestructura: instalaciones, hardware y software
Qué es el Supercómputo?
• El supercómputo es la tecnología
informática más avanzada de cálculo
numérico.
• Permite al investigador llevar a
cabo, con certeza y velocidad, miles de
billones de operaciones de punto
flotante por segundo para estudiar
problemas de gran magnitud.
FLOPS= FLoating point Operations Per Second
Nombre Flops
megaflops 106
gigaflops 109
teraflops 1012
petaflops 1015
exaflops 1018
zettaflops 1021
yottaflops 1024
• Facilita el estudio de fenómenos y condiciones que tan sólo
hace menos 30 años eran imposible.
• Sus aplicaciones abrieron en todo el mundo, nuevas líneas de
investigación científica en áreas como ingeniería, medicina,
geofísica, geografía, astronomía, química, ciencias de la
atmósfera, ciencias nucleares, entre otras.
Qué es el Supercómputo?
Agenda
1. Conceptos básicos y estadísticas
2. Tendencias: uso de aceleradores, IA y computación
cuántica
3. Soporte para la ciencia
4. Infraestructuras de CAR en México
5. Supercómputo en la UNISON: el ACARUS
• Servicios/Funciones
• Usuarios
• Actividades académicas
• Vinculación y colaboración
• Proyectos
• Infraestructura: instalaciones, hardware y software
Tendencias: uso de aceleradores, IA y computación cuántica
Aceleradores: •Aumentan la capacidad de cálculo
•Mayor densidad en el hardware
•Menor consumo de energía
•Menor costo
•GPGPU de acelerador a procesador
Tendencias: uso de aceleradores, IA y computación cuántica
Inteligencia Artificial: •Desarrollo de Big Data
•Reconocimiento de patrones
•Seguridad nacional
•Robótica - autómatas
•Sistemas expertos
Tendencias: uso de aceleradores, IA y computación cuántica
Computación cuántica: •Paradigma de computación no clásica
•Qubits, no bits
•Nuevas puertas lógicas = Nuevos algortimos
Agenda
1. Conceptos básicos y estadísticas
2. Tendencias: uso de aceleradores, IA y computación
cuántica
3. Soporte para la ciencia
4. Infraestructuras de CAR en México
5. Supercómputo en la UNISON: el ACARUS
• Servicios/Funciones
• Usuarios
• Actividades académicas
• Vinculación y colaboración
• Proyectos
• Infraestructura: instalaciones, hardware y software
CODE DESCRIPTION Example science problem
Programming model for acceleration Libraries Performance information
POINT OF CONTACT
LAMMPS is a molecular dynamics general statistical mechanics based code applicable to bioenergy problems . http://lammps.sandia.gov/
Course-grained molecular dynamics simulation of bulk heterojunction polymer blend films used, e.g., within organic photovoltaic devices.
OpenCL or CUDA
Speedup is 1X to 7.4X on 900 nodes, comparing XK7 to XE6. The performance variation is strongly dependent upon the number of atoms per node. This algorithm is mixed precision on GPU, double precision on CPU.
Mike Brown, ORNL
WL-LSMS. Wang-Landau (WL) - Linear Scaling Multiple Scattering (LSMS). A first principles density functional theory code (local density approximation) used to study magnetic materials
Simulation of the magnetic phase transition in nickel.
CUDA or CUDA and Libraries
GPU: CULA, LibSciACC, cuBLAS CPU: BLAS, LAPACK
XK7 vs XE6 speedup is 3.5X. Benchmark runs from 321 (321 WL walkers, 1024 atoms.)
Markus Eisenbach, ORNL
S3D. Direct numerical simulation of compressible, reacting flows for combustion science
Temporal jet simulation of dimethyl-ether combustion
OpenACC XK7 vs XE6 speedup is 2X. Ramanan Sankaran, ORNL
CAM-SE. Community Atmosphere Model - Spectral Elements. http://earthsystemcog.org/projects/dcmip-2012/cam-se
High-resolution atmospheric climate simulation using CAM5 physics and the MOZART chemistry package.
CUDA Fortran Matt Norman, ORNL
DENOVO is a three-dimensional, massively parallel, deterministic radiation transport code. It is capable of solving both shielding and criticality problems on high-performance computing platforms.
Reactor eigenvalue problem
CUDA
XK7 CPU-only vs. XK7 (CPU+GPU) for the Denovo Sweep part only, on nearly 18K nodes.
Tom Evans (ORNL), Wayne Joubert (ORNL)
Soporte para la ciencia: Titan / ORNL
High-Fidelity Simulations for Clean and Efficient Combustion of Alternative Fuels.
Jacqueline Chen, Sandia National Laboratories: 30,000,000 hours (1,250,000 días = 3,424.66
años)
Clean and Efficient Coal Gasifier Designs using Large-Scale Simulations. Madhava
Syamlal, National Energy Technology Laboratory: 13,000,000 hours
Landmark Direct Numerical Simulations of Separation and Transition for Aerospace-
Relevant Wall-Bounded Shear Flows. Hermann Fasel, University of Arizona: 500,000
hours
Petascale Simulation of Nan-Electronic Devices. Gerhard Klimeck, Purdue University:
5,000,000 hours.
Propulsor Analyses for a Greener, High Bypass Ratio, Aircraft Gas Turbine Engine.
Robert Maleki, Pratt & Whitney: 1,500,000 hours.
Soporte para la ciencia: Titan / ORNL
En el caso particular de la astrofísica
un grupo de investigadores del
ORNL dirigidos por Anthony
Mezzacappa desarrollan el primer
modelo tridimensional (3D) para
estudiar con detalle la explosión de
supernova producida por el colapso
del núcleo de una estrella masiva
poniendo énfasis en el caso
particular de la Supernova 1987.
Soporte para la ciencia: Titan / ORNL
Proyecto Chimera: código
hidrodinámico
(MVH3/VH1); Código de
transporte de neutrinos
(MGFLDTRANS);
Código cinético nuclear
(XNET)
Soporte para la ciencia: Titan / ORNL
El proyecto Chimera solicitó 60 millones de horas
de procesador, es decir, más de 6 mil 800 años de
tiempo de CPU. En otras palabras, una
computadora con un procesador de un núcleo
necesitaría casi 7 mil años para consumir este
tiempo de procesamiento.
1,000 núcleos: 7 años
10,000 núcleos: 9 meses
Cómputo Paralelo:
Soporte para la ciencia: Titan / ORNL
High Performance Computing at Los
Alamos National Laboratory - Cray
Nombre Flops
megaflops 106
gigaflops 109
teraflops 1012
petaflops 1015
exaflops 1018
zettaflops 1021
yottaflops 1024
#10 TOP500 11/2016
ExaScale
Agenda
1. Conceptos básicos y estadísticas
2. Tendencias: uso de aceleradores, IA y computación
cuántica
3. Soporte para la ciencia
4. Infraestructuras de CAR en México
5. Supercómputo en la UNISON: el ACARUS
• Servicios/Funciones
• Usuarios
• Actividades académicas
• Vinculación y colaboración
• Proyectos
• Infraestructura: instalaciones, hardware y software
Infraestructuras de CAR en México
#500 = 206:11/2015, 286:06/2016, 349:11/2016, 432:06/2017 y 548:11/2017
Posición Institución Equipo TFLOPS
1 CINVESTAV Abacus-SGI 429/277.5
2 BUAP-LNS Cuetlaxcoapan-Fujitsu 208
3 UAM-Iztapalapa - LSV Yoltla-DELL 152
4 UNAM-DGTIC Miztli - HP 118
5 IPICYT-CNS Thubat-Kaal - IBM 107
6 UNAM-DGTIC Bakliz-HP 80
7 UNISON-ACARUS Ocotillo - Dell 39.3/31
8 CICESE Knik2-Supermicro/Lufac 37
9 CINVESTAV Xiucoatl-Supermicro/Lufac 25
10 UAM-Iztapalapa - LSV Aitzaloa-Dell 18
Agenda
1. Conceptos básicos y estadísticas
2. Tendencias: uso de aceleradores e IA
3. Soporte para la ciencia
4. Infraestructuras de CAR en México
5. Supercómputo en la UNISON: el ACARUS
• Servicios/Funciones
• Usuarios
• Actividades académicas
• Vinculación y colaboración
• Proyectos
• Infraestructura: instalaciones, hardware y software
El Area de Cómputo de Alto Rendimiento de la Universidad de
Sonora, se creó en el 2001 con la finalidad de apoyar las actividades
de los cuerpos académicos. La importancia de esta área ha radicado
sobre dos ejes:
1. Contar con equipamiento que permita realizar investigación de
frontera.
1. Contar con los programas de cómputo científico que son
considerado en el medio como estándares.
ACARUS
• Proporcionar una infraestructura de supercómputo a los
usuarios que los requieran
• Impulsar el desarrollo tecnológicos de alto rendimiento
– ProDeTAR
• Actualización de Infraestructura
• Licenciamiento de Software Científico
• Promover la utilización del ACARUS
• Administrar el hardware y software
• Brindar servicio de información y asesoría a los usuarios
Servicios/Funciones
Servicios/Funciones
• Realizar la planeación y organización de cursos de capacitación
– ProCCAR
• Programa de capacitación continua
• Diplomado en Supercómputo
• Proyectos de servicio social
• Ofrecer soporte técnico especializado
• Atender a visitas técnicas y académicas
• Diseñar y mantener la página del ACARUS
• Mantener lazos de colaboración interinstitucional
“Usuarios permanentes que
requieren resolver problemas
complejos con el apoyo de
equipo de Cómputo de Alto
rendimiento”.
Usuarios
Proyecto: Ocotillo
Proyecto:
Actualización de la infraestructura de
cómputo de alto rendimiento de la
Universidad de Sonora
Programa:
Apoyo al Fortalecimiento y Desarrollo
de la Infraestructura Científica y
Tecnológica del CONACYT
Proyecto: Ocotillo
• 1 Nodo maestro
• 8 Nodos de cálculo CPU de 64 cores
• 18 Nodos de cálculo CPU de 40 cores
• 2 Nodos de visualización científica
• 1 Nodo GP/GPU 8 tarjetas Tesla M2070Q 3584 cores
• 1 Sistema de almacenamiento 50tb
• Red infiniband QDR
• Red de administración ethernet gigabit
• 1 Sistema de monitoreo KVM
• UPS
• Rack
Solución integral:
Proyecto: Ocotillo
Nodos: maestro y de cálculo CPU:
4 X
• 8 AMD OPTERON 6282SE, 2.6 GHZ
= 128 CORES
• 256 GB RAM
• 8 TB 7.2K RPM
• SAS 6GBPS
• 64 cores x 8 servidores x 4 flops x 2.6 GHz = 5,324.8 GFlops
• 2 INTEL XEON E5680, 3.3 GHZ
= 12 CORES
• 24 GB RAM
• 1.5 TB 15K RPM
• SCSI 6GBPS
SWITCH INFINIBAND 40 GBPS
SWITCH ETHERNET 10 GBPS
Nodo Maestro
Nodos de procesamiento CPU
Proyecto: Ocotillo
Nodos de visualización científica:
• 2 INTEL XEON E5680, 3.3 GHZ
= 12 CORES
• 24 GB RAM
• 1.5 TB 15K RPM
• SCSI 6GBPS
SWITCH ETHERNET 10 GBPS
2 X
• 1 XEON E5620, 2.4 GHZ
= 4 CORES
• 128 GB RAM
• NVIDIA QUADRO 5000, 2.5 GB RAM
= 352 CORES
• 600 GB 10K RPM
• SCSI 6GBPS
• 718 GFLOPS / GPU
Nodo Maestro Nodo de Visualización
Proyecto: Ocotillo
Nodo GP/GPU:
• 8 NVIDIA TESLA M2070Q, 1.55 GHZ, 448 CORES
= 3584 CORES
• 6 GB RAM DEDICADA / GPU
• 8 GPGPUs x 1,024 GFLOPS = 8,192 GFLOPS
Nodos de procesamiento CPU Nodos de procesamiento GPU
Proyecto: Ocotillo
Almacenamiento paralelo:
2 X
• 2 XEON E5620, 2.4 GHZ
= 8 CORES
• 48 GB RAM
• 600 GB 15K RPM
• SCSI 6GBPS
2 X
• 24 TB 7.2K RPM
• SAS 6GBPS
• 24 TB 7.2K RPM
• SAS 6GBPS
Nodos de control
Arreglos de discos
Proyecto: Ocotillo
UPS, cableado y rack:
• 18 KVA
• BANCO DE BATERIAS 2X
• 42 U
• 16 PUERTOS
• CONSOLA
Proyecto: Ocotillo
Equipo de apoyo: laboratorio de supercomputo y
visualización de la UAM-I, GRACIAS!!!
Proyecto: Ocotillo
Equipo de administración ideal:
• 1 ADMINISTRADOR DE PROYECTO
• 1 ADMINISTRADOR TECNICO
• 2 ADMINISTRADOR DE SOLUCIONES
• SOPORTE TECNICO:
• 1 CALCULO CPU
• 1 CALCULO GPU
• 1 VISUALIZACION CIENTIFICA
• 1 LUSTRE
• 1 RED INFINIBAND/ETHERNET
• Clúster Científico Ocotillo de 29 nodos
• Clúster Experimental de 16 nodos
• Equipo de Video-Conferencia
• Equipo de Proyección
• Unidades de Almacenamiento Externo
• Equipos Perifericos
Hardware