Upload
johannes-jesse
View
43
Download
0
Embed Size (px)
DESCRIPTION
REDES DE ALTAS PRESTACIONES Y SUS APLICACIONES. Presentación. Departamento de Arquitectura y Tecnología de Computadores. E.T.S. Ingeniería Informática. Julio Ortega Lopera. Curso 2004/2005. Posibilidades. Capacidades Prestaciones. Promueve. Aplicaciones. Tecnología. Arquitectura. - PowerPoint PPT Presentation
Citation preview
Departamento de Arquitectura y Tecnología de Computadores
E.T.S. Ingeniería
Informática
Presentación
Julio Ortega Lopera. Curso 2004/2005
REDES DE ALTAS PRESTACIONES Y SUS
APLICACIONES
Curso de Doctorado RAPyA (2004/05)
Arquitectura
Tecnología
Mercado
Aplicaciones
Posibilidades
Restricciones Económicas
Selección
Demanda
Nuevas Restricciones
Posibilidades
Posibilidades
Capacidades Prestaciones
Promueve
Generación
Fundamental
Fuerte
VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)
Arquitecturas con varios procesadores
Tendencia hacia arquitecturas con varios procesadores resultado de la interacción Tecnología-Mercados-Aplicaciones
Arquitecturas con varios procesadores
Tecnología:
• Procesadores y redes de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.
• Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)
Aplicaciones y Mercados:
• Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador (Grand Challenge)
• Demanda elevada de disponibilidad (Internet: mantenimiento y amplicación sin tiempos muertos)
Curso de Doctorado RAPyA (2004/05)
Arquitectura
Tecnología
Mercado
Aplicaciones
Posibilidades
Restricciones Económicas
Selección
Demanda
Nuevas Restricciones
Posibilidades
Posibilidades
Capacidades Prestaciones
Promueve
Generación
Fundamental
Fuerte
VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)
Arquitecturas con varios procesadores
Tecnología:
• Procesadores y redes de altas prestaciones
• Limitaciones previsibles en la tecnología (retardos relativos crecientes y limitaciones en el consumo de potencia)
• Aplicaciones que demandan velocidad y memoria (Grand Challenge)
• Demanda elevada de disponibilidad
Curso de Doctorado RAPyA (2004/05)
Mercado
Arquitecturas con varios procesadores
Tecnología
Aplicaciones
Mercado para aplicaciones que requieren alta disponibilidad
• Procesamiento de transacciones
• Sistemas de control en entornos médicos, medios de transporte, ambientes seguros
• Aplicaciones de internet- Mercados financieros continuos
- Acceso a bases de datos e información
- Computación móvil
- No hay tiempos muertos (para mantenimiento, ampliación,...)Curso de Doctorado RAPyA (2004/05)
Mercado
Arquitecturas con varios procesadores
Tecnología
Aplicaciones
Alta Disponibilidad (High Availability)
Grandes desafíos (Grand challenges)
Tiempo 48-horas
Modelado Plasma 3D
Tiempo 72 horas
Biología Estructural
Diseño Farmacéutico
Dinámica química
Memoria (Gbytes)
0.1 1 10
0.01
0.1
1
10
100
1000
Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos
1980 1988 1991 1993 1995
10000
100000
1
2
3
Tiempo 48-horas
Modelado Plasma 3D
Tiempo 72 horas
Biología Estructural
Diseño Farmacéutico
Dinámica química
Memoria (Gbytes)
0.1 1 10 102 103 104 105 106
0.01
0.1
1
10
100
1000
Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos
1980 1988 1991 1993 1995
10000
100000
1
2
3
TOP500 (Nov2001)
Gigaflops
TOP500 (Nov2002)
Teraflops Petaflops
2002
Tiempo 48-horas
Modelado Plasma 3D
Tiempo 72 horas
Biología Estructural
Diseño Farmacéutico
Dinámica química
Memoria (Gbytes)
0.1 1 10
0.01
0.1
Tiempo 48-horas
Modelado Plasma 3D
Tiempo 72 horas
Biología Estructural
Diseño Farmacéutico
Dinámica química
Memoria (Gbytes)
0.1 1 10
0.01
0.1
1
10
100
1000
Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos
1980 1988 1991 1993 1995
10000
100000
1
2
3
1
10
100
1000
Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos
1980 1988 1991 1993 1995
10000
100000
1
2
3
Tiempo 48-horas
Modelado Plasma 3D
Tiempo 72 horas
Biología Estructural
Diseño Farmacéutico
Dinámica química
Memoria (Gbytes)
0.1 1 10 102 103 104 105 106
0.01
0.1
1
10
100
1000
Genoma Humano Cambio Climático Dinámica de Fluidos Viscosos Modelado de Semiconductores Modelado de Superconductores Cromodinámica cuántica Circulación de Océanos
1980 1988 1991 1993 1995
10000
100000
1
2
3
TOP500 (Nov2001)
Gigaflops
TOP500 (Nov2002)
Teraflops Petaflops
2002
Curso de Doctorado RAPyA (2004/05)
Mercado
Arquitecturas con varios procesadores
Tecnología
Aplicaciones
Ritmo de mejora de los microprocesadores
TecnologíaTecnología + ArquitecturaTecnologíaTecnología + Arquitectura
Aproximadamente la Ley de Moore (el doble cada 18 meses)
Ritmo de Mejora de los Microprocesadores
1. Si prosigue:
Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible
Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)
2. Si no prosigue:
Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.
Curso de Doctorado RAPyA (2004/05)
Mejora de la Tecnología de Fabricación de CI basada en el Silicio Reducción del tamaño de los transistores + Aumento del tamaño del dado
Más transistores por circuito integrado Microarquitecturas más complejas en un solo CI: Paralelismo entre Instrucciones (Procesadores Superescalares)
Se reduce la longitud de puerta del transistor y con ello el tiempo de conmutación Mayores frecuencias de funcionamiento
TCPU = NI x CPI x Tciclo
Influencia de la Tecnología
Curso de Doctorado RAPyA (2004/05)
IF ID EX MEM WB
IF ID EX MEM
WB
IF ID EX MEM WB
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
Inst. 1
Inst. 2
Inst. 1
Inst. 2
Inst. 3
Inst. 4
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
Inst. 1
Inst. 2
Inst. 3
Inst. 4
5T
No segmentado
Segmentado
Superescalar o VLIW
CPI=5
T
CPI=1
T
CPI=0.5
Reducción en CPI (Ciclos/Instrucción)
Curso de Doctorado RAPyA (2004/05)
Procesadores Superescalares
Aumentar la complejidad del procesador para incluir más recursos para poder ejecutar más instrucciones por ciclo
Captador
BTB
Cola deInstrucciones
Decodificador
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Saltos Desplz.ALU Comp. Direcc.
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Suma Mult.Conv. Div. Direcc. Saltos
Buffer deAlmacen.
Buffer deCarga
Unidad de Enteros
Unidad de Flotantes
Captador
BTB
Cola deInstrucciones
Decodificador
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Saltos Desplz.ALU Comp. Direcc.
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Suma Mult.Conv. Div. Direcc. Saltos
Buffer deAlmacen.
Buffer deCarga
Unidad de Enteros
Unidad de Flotantes
Curso de Doctorado RAPyA (2004/05)
Cada vez se puede acceder a menos superficie (relativa) del CI en un ciclo de reloj:
Incrementar IPC (a costa de más complejidad) y reducir el tiempo de ciclo se hacen mutuamente dependientes.
Los límites en la potencia que puede consumir un CI restringen la frecuencia a la que puede funcionar
leakageshort2 VIAVIfACVPot
V)VV(
Bf2
thresholdmax
KTeV
expHI thersholdleakage
Limites de la Tecnología
Rwire=/(WxH)
W
H
Retardo~RwireCwire
Rwire Cwire~
Curso de Doctorado RAPyA (2004/05)
Límites en las Mejoras de los Superescalares
1. ILP en una hebra con microarquitecturas sencillas: VLIW
2. Procesamiento paralelo de varias hebras: SMT y CMP
Las mejoras tecnológicas no permitirán más de un factor de mejora anual del 12% anual en las prestaciones de los procesadores hasta el 2014. Esto supone incrementar las prestaciones en 7.4 veces
(El factor de mejora actual del 55% anual llevaría a prestaciones 1700 veces las actuales)
1720
Curso de Doctorado RAPyA (2004/05)
Procesadores VLIW: Itanium 2 (IA-64)
El aprovechamiento del paralelismo es responsabilidad del compilador
Cache L1 ITLB L1I
Predicción de Saltos
Patrones de Historia
Buffer Direcciones relativas a IP
+32
Buffer de Instrucciones (8 haces = 24 instr.)
Decodificación y distribución de instrucciones
M M M M I I F F B B B
TLB L2D
ALATCache
L1DALU
enteros Multim.enteros
Saltos
Coma Flotante
RSE
Detección de Riesgos
Renomb.
FPRenombramiento Enteros
Registros para EnterosRegistros
FP
Marcas L2
CacheL2
CacheL3
Interfaz Sistema
IPG
ROT
EXP
REN
REG
EXE FP1
DETFP2WRBFP3
FP4
Antesala
Núcle
o
Cache L1 ITLB L1I
Predicción de Saltos
Patrones de Historia
Buffer Direcciones relativas a IP
+32
Buffer de Instrucciones (8 haces = 24 instr.)
Decodificación y distribución de instrucciones
M M M M I I F F B B B
TLB L2D
ALATCache
L1DALU
enteros Multim.enteros
Saltos
Coma Flotante
RSE
Detección de Riesgos
Renomb.
FPRenombramiento Enteros
Registros para EnterosRegistros
FP
Marcas L2
CacheL2
CacheL3
Interfaz Sistema
IPG
ROT
EXP
REN
REG
EXE FP1
DETFP2WRBFP3
FP4
Antesala
Núcle
o
Curso de Doctorado RAPyA (2004/05)
- Superescalares
- VLIW
Técnicas agresivas de especulación (procesadores superespeculativos)
- SMT (Multihebra Simultánea)
- CMP (Multiprocesador Uni-chip)
Varias Hebras
Una Hebra
SMT Superespeculativos
Alternativas (I): Una vs. Varias Hebras
¿?
Curso de Doctorado RAPyA (2004/05)
Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10
Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12
I1 I3
I2 I5 I6
I4 I7
I9
I8 I10
I2 I3
I1 I4 I5
I7 I8
I1 I3
I2 I5 I6
I2 I3
I1 I4 I5
I7 I8
I4 I7
I9
I8 I10
I6
I1 I3 I2
I2 I5 I6
I3
I4 I7 I1
I9 I4 I5
I8 I7 I8
10 I6
I9 I10
I11
I1 I3 X
I2 X I5
I6 X X
X I7 I4
X X I9
I8 X X
X I10 X
X I2 I3
I1 I4 I5
Tiempo
Superescalar Multihebra Multihebra Simultánea
VLIW
Instrucciones emitidas por ciclo
Alternativas (II): Superescalar, VLIW, y Multihebra
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Multihebra: Pentium 4 Hyper-Threading
Intel ha desarrollado el Pentium 4 a 3.06 GHz con características de un procesador SMT (Simultaneous Multi-threading).
La denominación de Intel para esta arquitectura es Hyper-Threading (HT).
El procesador puede ejecutar simultáneamente dos hebras que pueden corresponder a una misma tarea (programada en varias hebras) o a tareas diferentes.
SPECint_base2000= 1099; SPECfp_base2000=1077
Adobe Photoshop se ejecuta un 21% más rápido cuando se ejecuta al mismo tiempo en antivirus de McAfee.
Curso de Doctorado RAPyA (2004/05)
Ejemplo de Multiprocesador en un Chip (CMP): Power4 de IBM
Incluye dos procesadores superescalares a 1 GHz (o más)
Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria o a otros chips Power4
Otros ejemplos
UltraSPARC IV (2 UltraSPARC III)
Intel Montecito (2006):
2 Itanium, 24 MB Cache L3
1700 Millones de transistores
Curso de Doctorado RAPyA (2004/05)
Multiprocesador en un Multi-Chip: Power5 de IBM
Power5 (1.4-2 GHz, 275 M Trans): 2 CPUs SMT (4 proc. lógicos)
Curso de Doctorado RAPyA (2004/05)
Cache L3 (4x36MB=144 MB)
Multiprocesador con 64 proc. SMT
Ejemplo de Arquitectura Superescalar: AMD Hammer x86-64
Integra el puerto norte con el controlador de memoria (reduce la latencia DRAM, permite PC1600, PC2100, PC2700) SRQ = System Request Queue
Tecnología de Comunicación HyperTransport: permite configurar sistemas con varios multiprocesadores (glueless MP), aumentando el ancho de banda y proporciona enlaces punto-a-punto (full duplex y de transacciones partidas)
Curso de Doctorado RAPyA (2004/05)
Clusters de Computadores (I)
Conjunto de Computadores (completos) conectados y utilizados como un único recurso de cómputo:
• No es una plataforma con procesadores con acceso uniforme a memoria y a las E/S (SMP)
• Computadores y conexión constituidos por hardware comercial
• Aprovechamiento rápido de las mejoras en la tecnología del hardware (microprocesadores y redes).
• Relación prestaciones/coste elevada
• Mejorar la imagen del cluster como sistema único (SSI): costo de mantenimiento y administración elevado
• Como plataforma para procesamiento paralelo: mejorar las prestaciones de comunicación
Curso de Doctorado RAPyA (2004/05)
Ley de Moore (1979): El número de transistores por Circuito Integrado se dobla cada 18-24 meses (asumiendo precio constante del CI)
Entre un 40% y un 57% de mejora anual en los microprocesadores:Tres órdenes de magnitud (x103) en 15 años
¿Se puede mantener este ritmo de mejora?
Analizar el origen de las mejoras que se han conseguido y ver las tendencias previsibles0
10
20
30
40
50
60
70
0 1,5 3 4.5 6 7.5 9
32
Curso de Doctorado RAPyA (2004/05)
Clusters de Computadores (II)
Clusters de Computadores (III)
#5 (TOP500): Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores) Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS
0%
20%
40%
60%
80%
100%
1993
(1)
1994
(2)
1996
(1)
1997
(2)
1999
(1)
2000
(2)
2002
(1)
Clusters
Constelac
SIMD
UniProc.
MPP
SMP
TOP500
Curso de Doctorado RAPyA (2004/05)
Bibliografía
Curso de Doctorado RAPyA (2004/05)
Cormer, D. E.:”Network Systems Design using Network Processors”. Prentice Hall, 2004.
Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison Wesley, 2002.
Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded Systems”. Charles River Media, 2004