30
1 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos UPM Lustre: A High Performance Open Source File System Gregorio Chillón Technical Specialist Sun Microsystems 1

2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

Embed Size (px)

Citation preview

Page 1: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

1

2º Jornada de Supercomputación E.T.S.I. Aeronaúticos UPM

Lustre: A High Performance Open Source File System

Gregorio ChillónTechnical SpecialistSun Microsystems

1

Page 2: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

2

Agenda

• Introducción• Arquitectura y funcionalidades• Hardware recomendado• Una solución completa con SAM­QFS• ¿Quién lo utiliza?

Page 3: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

3

Introducción

Page 4: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

4

¿Qué es lustre?• Es un sistema de ficheros distribuido en red de alto 

rendimiento• ¿Qué quiere decir esto?

> Que es un sistema de ficheros compartido. Los datos se comparten entre varios clientes (tipo NFS)

> Que es un sistema de ficheros en red. No se accede a través de una SAN

> Los clientes ven un solo sistema de ficheros> Varios clientes pueden acceder de forma simultanea al 

sistema de ficheros y lustre gestina los bloqueos

Page 5: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

5

¿Qué es lustre?• Es una solución software• Es Open Source, licencia GNU GPL• Soporte para todo tipo de tecnologías de red 

(LNET)• Proporciona alta disponibilidad (sin puntos únicos 

de fallo)• Proporciona una gran escalabilidad y rendimiento

Page 6: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

6

Retos del almacenamiento para HPCQue necesitan nuestros clientes

Rendimiento Escalabilidad Facilidad instalación Reducir costes

Page 7: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

7

Respondiendo a estos retosRendimiento y escalabilidad

• Rendimiento escalando desde 1 a más de 240GB/s

• Escalabilidad casi lineal> Escalabilidad de ~90%  del máximo teórico 

• Crecimiento online de forma sencilla> Se puede aumentar facilmente capacidad y rendimiento

• Escalabilidad masiva cuando es necesaria> Sistema de ficheros escalable hasta 2000 millones de 

ficheros y 32 petabytes para crecimientos de datos grandes

> Desde unos pocos hasta miles de clientes – escalabilidad real de pequeño a grande

Page 8: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

8

Respondiendo a estos retosFacilidad de instalación y configuración

• Servidores Sun Fire y almacenamiento de Sun probado y certificado para obtener los mejores resultados en el despliegue y funcionamiento de lustre

• Aproximación modular permite una configuración y despliegue más rápido 

• Sun HPC Software Linux Edition: una pila de software para HPC que ha sido probado/certificado (incluye lustre)

• Servicios de instalación y configuración

Page 9: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

9

Respondiendo a estos retosRedución de costes

• Se beneficia del uso de componentes hardware estandar que permite el software open source> Sistemas estandar vs sistemas de 

almacenamiento propietario

• Facilidad de instalación ahorra tiempo y dinero

Page 10: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

10

Arquitectura

Page 11: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

11

Arquitectura• Lustre es una arquitectura de almacenamiento

– Lustre separa metadatos (MDS) de datos (OSS)

– Escalabilidad horizontal de E/S entre todos los servidores – Paraleliza E/S gestionando bloqueos

– Aumentar la capacidad añadiendo almacenamiento

– Aumentar el rendimiento añadiendo servidores

– Puede usar cualquier tipo de almacenamiento (dispositivos tipo bloque)

Page 12: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

12

Arquitectura

OSS 7

Servidores de metadatos (HA)

Clientes Lustre

1 ­ 100,000

MDS disk storage containing Metadata Targets (MDT)

= failover   

MDS 1

(activo)

MDS 2

(standby)

OSS 1

OSS 2

OSS 3

OSS 4

OSS 5

OSS 6

Servidores de datos (OSS)

1­1000’s

Commodity Storage

Almacenamiento de gama alta

Soporte simultaneo para distintos tipos de red

Router

GigE

Elan

Myrinet

InfiniBand

Almacenamiento compartido para permitir alta disponibilidad

OSS storage with Object Storage Targets (OST)

Page 13: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

13

Arquitectura

• Clientes– Acceden al sistema de ficheros

• Servidor de gestión (MGS)– Proporciona información de configuración a los clientes

– Notifica a otros nodos de cambios en la configuración

– Por defecto almacena su información en un MDT

– 1 servidor MGS (o dos en configuración ­ Active/Standby) por site

Page 14: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

14

Arquitectura

• Servidor de metadatos (MDS)– Proporciona información de metadatos 

– Almacena su información en MDT (Metadata Targets)

– 1 MDT por sistema de ficheros

– Cada MDT pertenece a un único sistema de ficheros

– Se puede configurar el alta disponibilidad 

Page 15: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

15

Arquitectura

• Servidor de datos (OSS)– Proporciona E/S para los datos en el sistema de ficheros 

(striping data)

– Almacena la información en OST (Object Storage Targets)

– Cada OST pertenece a un solo sistema de ficheros

– Tamaño máximo de OST: 8TB

– Máximo #OST/sistema de fichetos: 1020

– Se puede configurar un par de servidores de datos en cluster “Active/Active”, pero cada OST puede ser exportado únicamente por un servidor de datos

Page 16: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

16

Como funciona– El cliente obtiene información del sistema de ficheros del 

servidor de gestión (MGS) (<mgsnid> is passed on mount.lustre) 

– El cliente envía/recibe todos los metadatos del servidor de metadatos MDS (open/close ficheros y directorios)

– El cliente (LOV) escribes los datos (stripes) entre todos los OST exportados por los servidores OSS

Page 17: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

17

Alta disponibilidad• Sin punto único de fallo• Las modificaciones de metadatos son asíncronas

– El cliente salva una copia de sus escrituras

– Si el servidor falla, el cliente repite su petición

– El cliente solo descarta sus peticiones, cuando el MDS le informa que se han realizado los cambios en el MDT

• MDT y OST soportan configuración en HA– Configurar un par de servidores con almacenamiento compartido

– Linux­HA (Heartbeat) failover MDT/OST

– El cliente bloquea E/S e intenta reconectarse al servidor de respaldo, para repitir. La aplicación en el cliente se bloquea.

Page 18: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

18

Alta disponibilidad• MDT/OST Failover

– Failover se configura en modo activo/pasivo– Cada disco solo se puede montar en un servidor.– NUNCA se puede montar el mismos MDT/OST en dos servidores 

(PERDIDA DE DATOS)

• Un par de servidores se puede configurar en activo/activo

– Cada servidor exporta uno o mas OST/MDT

Page 19: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

19

¿Qué nos proporciona lustre?

Quota, Failover, POSIX, POSIX ACL, secure portsFuncionalidades

TrainingFormación

Número de ficheros: 2000 millonesTamaño de un sistema de ficheros: 32PB, Tamaño max fichero 1.2PB

Capacidad

Soporte nativo para distintas tecnologías de redRedes

Servidores de metadatos (MDS): 1 + failoverServidores de datos (OSS): hasta 450

# servidores

Un solo cliente o servidor: 2 GB/s +BlueGene/L – primera semana: 74M ficheros, 175TB escritosE/S agregada (One FS): ~130GB/s (PNNL) Operaciones de metadatos: ~15,000 ops/second

Rendimiento

Software reliability on par with hardware reliabilityIncreased failover resiliency

Estabilidad

Clientes: 25,000 – Red StormProcesos: 130,000 – BlueGene/L

# clientes

Page 20: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

20

Hardware recomendado

Page 21: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

21

Hardware recomendado

Page 22: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

22

Una solución completa (SAMQFS)

Page 23: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

23

Solución completa de almacenamiento

Red IBSAN

Archive

Lustre – datos online SAM-QFS – datos archivados

Nodos de cómputo

Servidores de datos

Data Movers

Recuperar

Near Line Archive

Tier 1 Archive

Servidores demetadatos

Page 24: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

24

¿Quién lo utiliza?

Page 25: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

25

¿Quién lo utiliza?

• Lustre es el sistema de ficheros lider en entornos HPC

– Siete de los sistemas del TOP 10

– 50% de los treinta primeros sistemas del TOP 500

Page 26: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

26

Sandia Red Storm340 TB Storage; 50GB/s I/O throughput

12.960 multi­core compute sockets

Livermore Blue Gene/LSCF3.5 PB storage; 52 GB/s I/O throughput

131.072 processor cores

TACC Ranger1.73 PB storage; 40GB/s I/O throughput

62.976 processor coresres

ORNL Jaguar10.5PB storage; 240 GB/s I/O throughput goal

265.708 processor cores

Page 27: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

27

FRAMESTORE CFC ­ MediaNecesidades del cliente>Eliminar los cuellos de botella en el almacenamiento derivados de la falta de escalabilidad de NFS

>Aumentar el rendimiento y la estabilidad del almacenamiento

Propuesta de valor de lustre>Duplicó su almacenamiento con un coste tres veces menor al de otras soluciones

>Posilibilidad de proporcionar un sistema de ficheros único a sus artistas de producción

>Software open source con gran flexibilidad en el hardware que puede utilizar

 “ While we were working on The Golden Compass, we faced the most intensive I/O requirements on any project to date. Lustre played a vital role in helping us to deliver this project. ”— Daire Byrne, senior systems integrator, Framestore 

Page 28: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

28

Level3  ­ Telecomunicaciones

Necesidades del cliente>Asegurar la disponibilidad permanente

>Porporcionar un servicio escalable

>Controlar los costes

Propuesta de valor de lustre>Posibilidad de escalar de forma sencilla

>Funciona con cualquier tipo de almacenamiento

>Alto rendimiento y fiabilidad

NBC broadcast 2008 Summer Olympics live online over Level 3 network using Lustre

“With Lustre, we can achieve that balancing act of maintaining a reliable network with less­costly equipment. It allows us to replace servers and expand the network quickly and easily”   ­ Kenneth Brookman, Level 3 Communications

Page 29: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

29

Chebron ­ EnergíaNecesidades del cliente>Procesar grandes cantidades de datos

>Mantener el coste del hardware dentro de lo razonable

>Escalar el cluster existente con facilidad

Propuesta de valor de lustre>Capacidad de dar respuesta al crecimiento exponencial de los datos

>Capacidad para que los clusters de computación escalen

>Reducir los costes hardware

>Reducir los costes de mantenimiento

More   Success  

Page 30: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •

30

GraciasGregorio Chilló[email protected]

30