Upload
salvador-moreno-espinoza
View
219
Download
0
Embed Size (px)
Citation preview
UNIVERSIDAD CARLOS III DE MADRIDÁrea de Arquitectura y Tecnología de Computadores
Sistemas Operativos Avanzados
Nuevas tendencias en procesadores
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 2 –
Arquitecturas con varios procesadores
Arquitectura
Tecnología
Mercado
Aplicaciones
Posibilidades
Restricciones Económicas
Selección
Demanda
Nuevas Restricciones
Posibilidades
Posibilidades
Capacidades PrestacionesPromueve
Generación
Fundamental
Fuerte
VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 3 –
Tecnología
Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.
Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 4 –
Aplicaciones y Mercados
Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.
Demanda elevada de disponibilidad: Procesamiento de transacciones. Sistemas de control con restricciones de alta
seguridad (medicina, transportes, ...). Aplicaciones sobre internet (mercados financieros
contínuos, acceso a información, computación móvil) necesidad de disponibilidad 24x7.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 5 –
La falsa ley de Moore
El rendimiento se multiplica por dos cada dos años. El progreso en rendimiento de los dos próximos años
igualará el progreso de todo el pasado.
No tiene en cuenta que: La latencia de la memoria no progresa al mismo
ritmo.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 6 –
CPU / Memoria
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 7 –
La verdadera ley de Moore
El número de transistores en un chip se dobla cada 18-24 meses.
Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 8 –
Ritmo de mejora
SI PROSIGUE
Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible
Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)
SI NO PROSIGUE
Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 9 –
Mejoras en la tecnología
Mejoras: Reducción del tamaño de los transistores. Aumento de la superficie.
Efectos: Más transistores por circuito integrado.
Microarquitecturas más complejas en un solo circuito integrado.
Paralelismo entre instrucciones Procesadores superescalares.
Reducción de la longitudo de puerta y tiempo de conmutación.
Mayores frecuencias de funcionamiento.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 10 –
Reducción de ciclos por instrucción
IF ID EX MEM WB
IF ID EX MEM
WB
IF ID EX MEM WB
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
Inst. 1
Inst. 2
Inst. 1
Inst. 2
Inst. 3
Inst. 4
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
IF ID EX MEM
WB
Inst. 1
Inst. 2
Inst. 3
Inst. 4
5T
No segmentado
Segmentado
Superescalar o VLIW
CPI=5
T
CPI=1
T
CPI=0.5
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 11 –
Procesadores superescalares
Procesador más complejo.
Más recursos para ejecutar más instrucciones por ciclo.
Captador
BTB
Cola deInstrucciones
Decodificador
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Saltos Desplz.ALU Comp. Direcc.
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Suma Mult.Conv. Div. Direcc. Saltos
Buffer deAlmacen.
Buffer deCarga
Unidad de Enteros
Unidad de Flotantes
Captador
BTB
Cola deInstrucciones
Decodificador
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Saltos Desplz.ALU Comp. Direcc.
Buffer de Reorden
Banco de Registros
Ventana deInstrucciones
Suma Mult.Conv. Div. Direcc. Saltos
Buffer deAlmacen.
Buffer deCarga
Unidad de Enteros
Unidad de Flotantes
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 12 –
Límites de la mejora
La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 Factor de incremento de prestaciones de 7.4.
Factor de mejora anual anterior = 55% Factor acumularo de 1700.
Alternativas: Procesamiento de un único hilo: VLIW Procesamiento praralelo de varios hilos SMT y CMP
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 13 –
VLIW: Itanium 2 (IA-64)
Paralelismo responsabilidad del compilador
Cache L1 ITLB L1I
Predicción de Saltos
Patrones de Historia
Buffer Direcciones relativas a IP
+32
Buffer de Instrucciones (8 haces = 24 instr.)
Decodificación y distribución de instrucciones
M M M M I I F F B B B
TLB L2D
ALATCache
L1DALU
enteros Multim.enteros
Saltos
Coma Flotante
RSE
Detección de Riesgos
Renomb.
FPRenombramiento Enteros
Registros para EnterosRegistros
FP
Marcas L2
CacheL2
CacheL3
Interfaz Sistema
IPG
ROT
EXP
REN
REG
EXE FP1
DETFP2WRBFP3
FP4
Antesala
Núcle
o
Cache L1 ITLB L1I
Predicción de Saltos
Patrones de Historia
Buffer Direcciones relativas a IP
+32
Buffer de Instrucciones (8 haces = 24 instr.)
Decodificación y distribución de instrucciones
M M M M I I F F B B B
TLB L2D
ALATCache
L1DALU
enteros Multim.enteros
Saltos
Coma Flotante
RSE
Detección de Riesgos
Renomb.
FPRenombramiento Enteros
Registros para EnterosRegistros
FP
Marcas L2
CacheL2
CacheL3
Interfaz Sistema
IPG
ROT
EXP
REN
REG
EXE FP1
DETFP2WRBFP3
FP4
Antesala
Núcle
o
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 14 –
SMT: Pentium 4 HT
Procesador ejecuta dos hilos simultaneamente. Hilos pueden pertenecer
al mismo proceso o a procesos diferentes.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 15 –
CMP: IBM Power 4
Dos procesadores superescalares en un único chip.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 16 –
Otra arquitectura novedosa: Cell
Originalmente concebido por Sony para la PlayStation 3.
Trabajo conjunto de Sony, IBM y Toshiba.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 17 –
Razones
Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.
La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).
IBM ha anunciado servidores basados en Cell.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 18 –
Especificaciones
Formado por: 1 procesador principal (PPE). 8 procesadores auxiliares (SPE’s). Bus de interconexión (EIB). Controlador DMA (DMAC). 2 controladores de memoria Rambus XDR. Interfaz de entrada salida Rambus.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 19 –
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 20 –
PPE
Núcleo de procesador convencional. Ejecuta el SO y parte de las aplicaciones,
descargando partes a los SPE’s. Es un procesador de 64 bits con arquitectura
“Power”. Caché 512 KB.
IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada. Los ciclos por instrucción no son comparables a
igualdad de frecuencia de reloj.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 21 –
PPE
Es un procesador de dos hilos (SMT).
Diseño muy simple al no implementar ejecución de instrucciones fuera de orden ahorro de mucho silicio. ahorro de consumo.
Contrapartida: Más trabajo para el compilador Necesidad de
buenos compiladores.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 22 –
SPE’s
Procesador vectorial. Cada SPE contiene:
128 registros de 128 bits. 4 unidades de coma flotante. 4 unidades artiméticas enteras. Memoria local de 256 KB. No tienen cachés.
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 23 –
Cell como procesador de flujo
Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006
Página – 24 –
Algunos retos
Integración en la planificación del consumo de los hilos.
Sistemas de memoria: Nuevas jerarquías de memoria.
Compiladores que generen código que evite necesidades hardware.
Paralelización automática de aplicaciones secuenciales.
Optimización dinámica del código.