Departamento de Arquitectura y Tecnología de Computadores

Departamento de Arquitectura y Tecnología de Computadores

E.T.S. Ingeniería

Informática

Presentación

Julio Ortega Lopera. Curso 2004/2005

REDES DE ALTAS PRESTACIONES Y SUS

APLICACIONES

Curso de Doctorado RAPyA (2004/05)

Arquitectura

Tecnología

Mercado

Aplicaciones

Posibilidades

Restricciones Económicas

Selección

Demanda

Nuevas Restricciones

Posibilidades

Posibilidades

Capacidades Prestaciones

Promueve

Generación

Fundamental

Fuerte

VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)

Arquitecturas con varios procesadores

Tendencia hacia arquitecturas con varios procesadores resultado de la interacción Tecnología-Mercados-Aplicaciones


Tecnología:

• Procesadores y redes de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.

• Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)

Aplicaciones y Mercados:

• Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador (Grand Challenge)

• Demanda elevada de disponibilidad (Internet: mantenimiento y amplicación sin tiempos muertos)


Arquitectura

Tecnología

Mercado

Aplicaciones

Posibilidades

Restricciones Económicas

Selección

Demanda

Nuevas Restricciones

Posibilidades

Posibilidades

Capacidades Prestaciones

Promueve

Generación

Fundamental

Fuerte

VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)


Tecnología:

• Procesadores y redes de altas prestaciones

• Limitaciones previsibles en la tecnología (retardos relativos crecientes y limitaciones en el consumo de potencia)

• Aplicaciones que demandan velocidad y memoria (Grand Challenge)

• Demanda elevada de disponibilidad


Mercado


Tecnología

Aplicaciones

Mercado para aplicaciones que requieren alta disponibilidad

• Procesamiento de transacciones

• Sistemas de control en entornos médicos, medios de transporte, ambientes seguros

• Aplicaciones de internet- Mercados financieros continuos

- Acceso a bases de datos e información

- Computación móvil

- No hay tiempos muertos (para mantenimiento, ampliación,...)Curso de Doctorado RAPyA (2004/05)

Mercado


Tecnología

Aplicaciones

Alta Disponibilidad (High Availability)

Grandes desafíos (Grand challenges)

Tiempo 48-horas

Modelado Plasma 3D

Tiempo 72 horas

Biología Estructural

Diseño Farmacéutico

Dinámica química

Memoria (Gbytes)

0.1 1 10

0.01

0.1

1

10

100

1000

Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos

1980 1988 1991 1993 1995

10000

100000

1

2

3

Tiempo 48-horas

Modelado Plasma 3D

Tiempo 72 horas



Dinámica química

Memoria (Gbytes)

0.1 1 10 102 103 104 105 106

0.01

0.1

1

10

100

1000


1980 1988 1991 1993 1995

10000

100000

1

2

3

TOP500 (Nov2001)

Gigaflops

TOP500 (Nov2002)

Teraflops Petaflops

2002

Tiempo 48-horas

Modelado Plasma 3D

Tiempo 72 horas



Dinámica química

Memoria (Gbytes)

0.1 1 10

0.01

0.1

Tiempo 48-horas

Modelado Plasma 3D

Tiempo 72 horas



Dinámica química

Memoria (Gbytes)

0.1 1 10

0.01

0.1

1

10

100

1000


1980 1988 1991 1993 1995

10000

100000

1

2

3

1

10

100

1000


1980 1988 1991 1993 1995

10000

100000

1

2

3

Tiempo 48-horas

Modelado Plasma 3D

Tiempo 72 horas



Dinámica química

Memoria (Gbytes)

0.1 1 10 102 103 104 105 106

0.01

0.1

1

10

100

1000


1980 1988 1991 1993 1995

10000

100000

1

2

3

TOP500 (Nov2001)

Gigaflops

TOP500 (Nov2002)

Teraflops Petaflops

2002


Mercado


Tecnología

Aplicaciones

Ritmo de mejora de los microprocesadores

TecnologíaTecnología + ArquitecturaTecnologíaTecnología + Arquitectura

Aproximadamente la Ley de Moore (el doble cada 18 meses)

Ritmo de Mejora de los Microprocesadores

1. Si prosigue:

Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible

Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)

2. Si no prosigue:

Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.


Mejora de la Tecnología de Fabricación de CI basada en el Silicio Reducción del tamaño de los transistores + Aumento del tamaño del dado

Más transistores por circuito integrado Microarquitecturas más complejas en un solo CI: Paralelismo entre Instrucciones (Procesadores Superescalares)

Se reduce la longitud de puerta del transistor y con ello el tiempo de conmutación Mayores frecuencias de funcionamiento

TCPU = NI x CPI x Tciclo

Influencia de la Tecnología


IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 1

Inst. 2

Inst. 3

Inst. 4

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 3

Inst. 4

5T

No segmentado

Segmentado

Superescalar o VLIW

CPI=5

T

CPI=1

T

CPI=0.5

Reducción en CPI (Ciclos/Instrucción)


Procesadores Superescalares

Aumentar la complejidad del procesador para incluir más recursos para poder ejecutar más instrucciones por ciclo

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros


Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros


Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros


Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes


Cada vez se puede acceder a menos superficie (relativa) del CI en un ciclo de reloj:

Incrementar IPC (a costa de más complejidad) y reducir el tiempo de ciclo se hacen mutuamente dependientes.

Los límites en la potencia que puede consumir un CI restringen la frecuencia a la que puede funcionar

leakageshort2 VIAVIfACVPot

V)VV(

Bf2

thresholdmax

KTeV

expHI thersholdleakage

Limites de la Tecnología

Rwire=/(WxH)

W

H

Retardo~RwireCwire

Rwire Cwire~


Límites en las Mejoras de los Superescalares

1. ILP en una hebra con microarquitecturas sencillas: VLIW

2. Procesamiento paralelo de varias hebras: SMT y CMP

Las mejoras tecnológicas no permitirán más de un factor de mejora anual del 12% anual en las prestaciones de los procesadores hasta el 2014. Esto supone incrementar las prestaciones en 7.4 veces

(El factor de mejora actual del 55% anual llevaría a prestaciones 1700 veces las actuales)

1720


Procesadores VLIW: Itanium 2 (IA-64)

El aprovechamiento del paralelismo es responsabilidad del compilador

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o


- Superescalares

- VLIW

Técnicas agresivas de especulación (procesadores superespeculativos)

- SMT (Multihebra Simultánea)

- CMP (Multiprocesador Uni-chip)

Varias Hebras

Una Hebra

SMT Superespeculativos

Alternativas (I): Una vs. Varias Hebras

¿?


Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10

Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12

I1 I3

I2 I5 I6

I4 I7

I9

I8 I10

I2 I3

I1 I4 I5

I7 I8

I1 I3

I2 I5 I6

I2 I3

I1 I4 I5

I7 I8

I4 I7

I9

I8 I10

I6

I1 I3 I2

I2 I5 I6

I3

I4 I7 I1

I9 I4 I5

I8 I7 I8

10 I6

I9 I10

I11

I1 I3 X

I2 X I5

I6 X X

X I7 I4

X X I9

I8 X X

X I10 X

X I2 I3

I1 I4 I5

Tiempo

Superescalar Multihebra Multihebra Simultánea

VLIW

Instrucciones emitidas por ciclo

Alternativas (II): Superescalar, VLIW, y Multihebra


Ejemplo de Arquitectura Multihebra: Pentium 4 Hyper-Threading

Intel ha desarrollado el Pentium 4 a 3.06 GHz con características de un procesador SMT (Simultaneous Multi-threading).

La denominación de Intel para esta arquitectura es Hyper-Threading (HT).

El procesador puede ejecutar simultáneamente dos hebras que pueden corresponder a una misma tarea (programada en varias hebras) o a tareas diferentes.

SPECint_base2000= 1099; SPECfp_base2000=1077

Adobe Photoshop se ejecuta un 21% más rápido cuando se ejecuta al mismo tiempo en antivirus de McAfee.


Ejemplo de Multiprocesador en un Chip (CMP): Power4 de IBM

Incluye dos procesadores superescalares a 1 GHz (o más)

Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria o a otros chips Power4

Otros ejemplos

UltraSPARC IV (2 UltraSPARC III)

Intel Montecito (2006):

2 Itanium, 24 MB Cache L3

1700 Millones de transistores


Multiprocesador en un Multi-Chip: Power5 de IBM

Power5 (1.4-2 GHz, 275 M Trans): 2 CPUs SMT (4 proc. lógicos)


Cache L3 (4x36MB=144 MB)

Multiprocesador con 64 proc. SMT

Ejemplo de Arquitectura Superescalar: AMD Hammer x86-64

Integra el puerto norte con el controlador de memoria (reduce la latencia DRAM, permite PC1600, PC2100, PC2700) SRQ = System Request Queue

Tecnología de Comunicación HyperTransport: permite configurar sistemas con varios multiprocesadores (glueless MP), aumentando el ancho de banda y proporciona enlaces punto-a-punto (full duplex y de transacciones partidas)


Clusters de Computadores (I)

Conjunto de Computadores (completos) conectados y utilizados como un único recurso de cómputo:

• No es una plataforma con procesadores con acceso uniforme a memoria y a las E/S (SMP)

• Computadores y conexión constituidos por hardware comercial

• Aprovechamiento rápido de las mejoras en la tecnología del hardware (microprocesadores y redes).

• Relación prestaciones/coste elevada

• Mejorar la imagen del cluster como sistema único (SSI): costo de mantenimiento y administración elevado

• Como plataforma para procesamiento paralelo: mejorar las prestaciones de comunicación


Ley de Moore (1979): El número de transistores por Circuito Integrado se dobla cada 18-24 meses (asumiendo precio constante del CI)

Entre un 40% y un 57% de mejora anual en los microprocesadores:Tres órdenes de magnitud (x103) en 15 años

¿Se puede mantener este ritmo de mejora?

Analizar el origen de las mejoras que se han conseguido y ver las tendencias previsibles0

10

20

30

40

50

60

70

0 1,5 3 4.5 6 7.5 9

32


Clusters de Computadores (II)

Clusters de Computadores (III)

#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores) Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS

0%

20%

40%

60%

80%

100%

1993

(1)

1994

(2)

1996

(1)

1997

(2)

1999

(1)

2000

(2)

2002

(1)

Clusters

Constelac

SIMD

UniProc.

MPP

SMP

TOP500


Bibliografía


Cormer, D. E.:”Network Systems Design using Network Processors”. Prentice Hall, 2004.

Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison Wesley, 2002.

Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded Systems”. Charles River Media, 2004

Documents

Departamento de Arquitectura y Tecnología de Computadores