UNIVERSIDAD CARLOS III DE MADRID Área de Arquitectura y Tecnología de Computadores Sistemas Operativos Avanzados Nuevas tendencias en procesadores

UNIVERSIDAD CARLOS III DE MADRIDÁrea de Arquitectura y Tecnología de Computadores

Sistemas Operativos Avanzados

Nuevas tendencias en procesadores

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 2 –

Arquitecturas con varios procesadores

Arquitectura

Tecnología

Mercado

Aplicaciones

Posibilidades

Restricciones Económicas

Selección

Demanda

Nuevas Restricciones

Posibilidades

Posibilidades

Capacidades PrestacionesPromueve

Generación

Fundamental

Fuerte

VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)


Página – 3 –

Tecnología

Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.

Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)


Página – 4 –

Aplicaciones y Mercados

Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.

Demanda elevada de disponibilidad: Procesamiento de transacciones. Sistemas de control con restricciones de alta

seguridad (medicina, transportes, ...). Aplicaciones sobre internet (mercados financieros

contínuos, acceso a información, computación móvil) necesidad de disponibilidad 24x7.


Página – 5 –

La falsa ley de Moore

El rendimiento se multiplica por dos cada dos años. El progreso en rendimiento de los dos próximos años

igualará el progreso de todo el pasado.

No tiene en cuenta que: La latencia de la memoria no progresa al mismo

ritmo.


Página – 6 –

CPU / Memoria


Página – 7 –

La verdadera ley de Moore

El número de transistores en un chip se dobla cada 18-24 meses.

Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.


Página – 8 –

Ritmo de mejora

SI PROSIGUE

Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible

Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)

SI NO PROSIGUE

Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.


Página – 9 –

Mejoras en la tecnología

Mejoras: Reducción del tamaño de los transistores. Aumento de la superficie.

Efectos: Más transistores por circuito integrado.

Microarquitecturas más complejas en un solo circuito integrado.

Paralelismo entre instrucciones Procesadores superescalares.

Reducción de la longitudo de puerta y tiempo de conmutación.

Mayores frecuencias de funcionamiento.


Página – 10 –

Reducción de ciclos por instrucción

IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 1

Inst. 2

Inst. 3

Inst. 4

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 3

Inst. 4

5T

No segmentado

Segmentado

Superescalar o VLIW

CPI=5

T

CPI=1

T

CPI=0.5


Página – 11 –

Procesadores superescalares

Procesador más complejo.

Más recursos para ejecutar más instrucciones por ciclo.

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros


Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros


Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros


Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes


Página – 12 –

Límites de la mejora

La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 Factor de incremento de prestaciones de 7.4.

Factor de mejora anual anterior = 55% Factor acumularo de 1700.

Alternativas: Procesamiento de un único hilo: VLIW Procesamiento praralelo de varios hilos SMT y CMP


Página – 13 –

VLIW: Itanium 2 (IA-64)

Paralelismo responsabilidad del compilador

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o


Página – 14 –

SMT: Pentium 4 HT

Procesador ejecuta dos hilos simultaneamente. Hilos pueden pertenecer

al mismo proceso o a procesos diferentes.


Página – 15 –

CMP: IBM Power 4

Dos procesadores superescalares en un único chip.


Página – 16 –

Otra arquitectura novedosa: Cell

Originalmente concebido por Sony para la PlayStation 3.

Trabajo conjunto de Sony, IBM y Toshiba.


Página – 17 –

Razones

Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.

La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).

IBM ha anunciado servidores basados en Cell.


Página – 18 –

Especificaciones

Formado por: 1 procesador principal (PPE). 8 procesadores auxiliares (SPE’s). Bus de interconexión (EIB). Controlador DMA (DMAC). 2 controladores de memoria Rambus XDR. Interfaz de entrada salida Rambus.


Página – 19 –


Página – 20 –

PPE

Núcleo de procesador convencional. Ejecuta el SO y parte de las aplicaciones,

descargando partes a los SPE’s. Es un procesador de 64 bits con arquitectura

“Power”. Caché 512 KB.

IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada. Los ciclos por instrucción no son comparables a

igualdad de frecuencia de reloj.


Página – 21 –

PPE

Es un procesador de dos hilos (SMT).

Diseño muy simple al no implementar ejecución de instrucciones fuera de orden ahorro de mucho silicio. ahorro de consumo.

Contrapartida: Más trabajo para el compilador Necesidad de

buenos compiladores.


Página – 22 –

SPE’s

Procesador vectorial. Cada SPE contiene:

128 registros de 128 bits. 4 unidades de coma flotante. 4 unidades artiméticas enteras. Memoria local de 256 KB. No tienen cachés.


Página – 23 –

Cell como procesador de flujo


Página – 24 –

Algunos retos

Integración en la planificación del consumo de los hilos.

Sistemas de memoria: Nuevas jerarquías de memoria.

Compiladores que generen código que evite necesidades hardware.

Paralelización automática de aplicaciones secuenciales.

Optimización dinámica del código.

Documents

UNIVERSIDAD CARLOS III DE MADRID Área de Arquitectura y Tecnología de Computadores Sistemas Operativos Avanzados Nuevas tendencias en procesadores