Download pdf - Resumen Teoría de Null - Orga 1

8/18/2019 Resumen Teoría de Null - Orga 1

1/57

THE VON NEUMANN MODEL

En las primeras computadoras electrónicas, programar era sinónimo de conectar

cables. No existía la arquitectura en capas (layered architecture), por lo que

programar una computadora era más una hazaña de ingeniería eléctrica que un

ejercicio de diseño de algoritmos. Antes de que su trabajo en la ENIAC estuviera

completo, John W. Mauchly and J. Presper Eckert concibieron una manera más fácil

de cambiar el comportamiento de su máquina calculadora.

Ellos estimaron que los dispositivos de memoria, en la forma de líneas de

retardo de mercurio, podían proveer una manera de almacenar instrucciones de

programa. Esto terminaría por siempre con el tedio de recablear el sistema cada

vez que hubiera un nuevo problema por resolver, o uno viejo por depurar.

Mauchly y Eckert documentaron su idea proponiéndola como el fundamento de su

próxima computadora, la EDVAC. Desafortunadamente, mientras estaban envueltos en

el proyecto altamente secreto de ENIAC durante la segunda guerra mundial,

Mauchly y Eckert no podían publicar inmediatamente su revelación.

Tales prohibiciones, no se aplicaban a un número de personas trabajando en la

periferia del proyecto ENIAC. Una de estas personas era un famoso matemático

llamado John von Neumann. Después de leer la propuesta de Mauchly y Eckert para

el EDVAC, von Neumann publicó y publicitó la idea. Expresó el concepto de maneratan efectiva que la historia le ha acreditado su invención. Todas las

computadoras de programas almacenados han llegado a conocerse como sistemas von

Neumann usando la arquitectura von Neumann.

La versión actual de la arquitectura de las computadoras de programas

almacenados (stored-program), satisface al menos las siguientes características:

· Consiste de tres sistemas de hardware: una unidad central de proceso (CPU) con

una unidad de control, una unidad aritmético lógica (ALU), registros (pequeñas

áreas de almacenamiento), un program counter, un sistema de memoria principal,

que almacena programas que controlan las operaciones de la computadora, y un

sistema de entrada y salida I/O).

· Capacidad para llevar a cabo procesamiento secuencial de instrucciones.· Contiene un solo camino (path), ya sea físico o lógico, entre la memoria

principal del sistema y la unidad de control del CPU, forzando la alternación de

ciclos de instrucción y ejecución. Este camino es referido a menudo como el

cuello de botella von Neumann.


2/57

La figura muestra como estas características trabajan juntas en los sistemas de

computadoras modernos. El sistema pasa todas sus I/O a través de la ALU (en

realidad a través del acumulador, que es parte de la ALU). Esta arquitectura

corre programas en lo que se conoce como el ciclo de ejecución von Neumann(también llamado fetch-decode-execute cycle), el cual describe cómo trabaja lamáquina.

Una iteración de este ciclo es la siguiente:

1. La unidad de control hace un fetch de la siguiente instrucción del programa dela memoria, usando el PC para determinar la ubicación de la misma.

2. La instrucción se decodifica en un lenguaje que la ALU puede comprender.3. Cualquier dato (operando) requerido para ejecutar la instrucción es traído dela memoria y ubicado en registros dentro de la CPU.

4. La ALU ejecuta la instrucción y ubica los resultados en registros o en lamemoria.

Las ideas presentes en la arquitectura de von Neumann han sido extendidas de

modo que los programas almacenados en medios de almaceniamento de acceso lento,


3/57

como discos duros, puedan ser copiados a medios de rápido acceso, volátiles,

como RAM, previo a la ejecución. Esta arquitectura también se ha simplificado en

lo que actualmente se llama el modelo de sistema de bus system bus model) que

se muestra en la figura 1.5. El bus de datos mueve datos de la memoria principal

a los registros del CPU y viceversa. El bus de direcciones contiene la dirección

del dato a la que el bus de datos está accediendo actualmente. El bus de control

lleva las señales de control necesarias que especifican cómo debe llevarse a

cabo la transferencia de la información.

Otras mejoras a la arquitectura de von Neumann incluyen utilizar registros

indexados para direccional, agregar datos de punto flotante, usar interruciones

y I/O asíncronos, agregar memoria virtual y registros generales.

1.8 NON–VON NEUMANN MODELSHasta recientemente, casi todas las computadoras de propósito general utilizaban

el dieño de von Neumann. Sin embargo, el cuello de botella de von Neumann

continúa frustrando a los ingenieros que buscan maneras de construir sistemasmás rápidos que sean económicos y compatibles con el basto cuerpo de software

comercial disponible. Los ingenieros que no están obligados a mantener

compatibilidad con los sistemas de von Neumann son libres de usar muchos modelos

distintis de computar. Un número de subáreas cae en la categoría no-von Neumann,

incluyendo redes neurales (usando ideas de modelos del cerebro como paradigma de

computación), algoritmos genéticos (explotando ideas de la biología y la

evolución del ADN), computación cuántica y computadoras paralelas. Hoy, el

procesamiento paralelo resuelve algunos de los problemas más grandes casi en el

mismo modo que los colonos del viejo oeste resolvían sus problemas usando bueyes

paralelos. Si estaban usando a un buey para mover un árbol y el buey no era lo

suficientemente grande o fuerte, ciertamente no necesitaban tratar de criar un

buey más grande, usaban dos bueyes. Si una computadora no es lo suficientementerápida o poderosa, en lugar de tratar de desarrollar una computadora más rápida


4/57

y poderosa, por qué no usar simplemente múltiples computadoras. Esto es

precisamente lo que hace la computación paralela. Los primeros sistemas de

procesamiento paralelo se construyeron en los 60 y solo tenían dos procesadores.

Los 70s vieron la introducción de las supercomputadoras con 32 procesadores y

los 80s trajeron los primeros sistemas con más de 1000 procesadores. Finalmente

en 1999, IBM anunció la construcción de una super computadora llamada Blue Gene.

Este masivo computador paralelo contiene más de un millón de procesadores, cada

uno con su memoria dedicada. Su primera tarea es analizar el comportamiento de

moléculas de proteínas.

Sin embargo, incluso la computación paralela tiene sus límites. A medida que

aumenta el número de procesadores, también lo hace la sobrecarga de manejar cómo

las tareas se distribuyen a esos procesadores. Algunos sistemas de procesamiento

paralelo requieren procesadores extra sólo para manejar el resto de los

procesadores y los recursos que se les asignan.

Sin importar cuantos procesadores se pongan en un sistema, o cuantos recursos se

les asignen, de alguna manera, en algun lugar, un cuello de botella es propenso

a desarrollarse. Lo mejor que se puede hacer para remediar esto es asegurarse de

que las partes más lentas del sistema sean las menos utilizadas. Esta es la idea

detrás de laley de Amdahl,

que asegura que la mejora obtenida en el rendimiento

de un sistema debido a la alteración de uno de sus componentes está limitada porla fracción de tiempo que se utiliza dicho componente. La premisa subyacente es

que cada algoritmo tiene una parte secuencial que en última instancia limita el

aumento de velocidad que puede ser alcanzado por la implementación del

multiprocesador.


5/57

CAPITULO 6 – MEMORIA

La mayoría de las computadoras se constuyen utilizando el modelo de Von Neumann,

el cual está centrado en la memoria. Los programas que desempeñan el

procesamiento están almacenados en memoria.

Examinamos una pequeña memoria de 4x3 bits en el capítulo 3 y aprendimos a

direccional memoria en los capítulos 4 y 5. Sabemos que la memoria está

lógicamente estructurada como un arreglo lineal de locaciones, que se

direccionan desde 0 hasta la máxima dirección de memoria que el procesador pueda

direccionar.

ETC…

6.2 TIPOS DE MEMORIAContinuamente se introducen nuevas tecnologías de memoria que tratan de igualar

las mejoras en el diseño de la CPU – la velocidad de la memoria tiene que, de

alguna forma, mantener el ritmo de la CPU, o la memoria se convierte en un

cuello de botella.

Las mejoras en la memoria principal para mantener el ritmo de la CPU no son tan

críticas debido a la memoria caché. La memoria caché es un tipo de memoria

pequeña, de alta velocidad (y por lo tanto alto costo), que sirve como buffer

para datos frecuentemente accedidos. El costo extra de usar tecnologías muyrápidas para la memoria, no siempre puede ser justificado porque memorias más

lentas pueden “esconderse” detrás de sistemas de caché de alta performance.

Sin embargo, antes de discutir la memoria caché vamos a ver las diversas

tecnologías de memoria.

Aunque existe un largo número de tecnologías de memoria, solo hay dos tipos

básicos: RAM (random access memory) y ROM (read-only

memory). RAM es un nombre poco apropiado, más apropiado sería llamarla de

lectura-escritura. RAM es la memoria a la que se refieren las especificaciones

de las computadoras. Es también la “memoria principal” a la que continuamente

hacemos referencia. Frecuentemente llamada memoria primaria, la RAM se utiliza

para almacenar programas y datos que la computadora necesita al ejecutar

programas, pero es volátil, y pierde su información una vez que se apaga. Haydos tipos generales de chips que se usan para construir el cuerpo de la memoria

RAM en las computadoras de hoy: SRAM y DRAM (static y dynamic RAM)

La RAM dinámica está construida de pequeños capacitores que pierden electricidad.

La DRAM requiere una recarga cada tantos milisegundos para mantener sus datos.

En contraste, la tecnología estática, mantiene su contenido mientras haya

electricidad. La SRAM consiste en circuitos similares a los flip-flops D, es más

rápida y mucho más cara que la DRAM, sin embargo, los diseñadores usan DRAM

porque tiene mayor densidad (puede almacenar más bits por chip), usa menos

energía, y genera menos calor que la SRAM. Por estas razones, ambas tecnologías

usualmente se combinan: DRAM para memoria principal y SRAM para caché. La

operación básica de todas las memorias DRAM es básicamente la misma, pero hay“muchos sabores” incluyendo:


6/57

Multibank DRAM (MDRAM), Fast-Page Mode (FPM) DRAM, Extended

Data Out (EDO) DRAM, Burst EDO DRAM (BEDO DRAM), Synchronous

Dynamic Random Access Memory (SDRAM), Synchronous-Link (SL) DRAM,

Double Data Rate (DDR) SDRAM, and Direct Rambus (DR) DRAM.

Los diferentes tipos de SRAm incluyen SRAM sincrónica, asincrónica y pipeline

Bursa SRAM.

Además de la RAM, la mayoría de las computadoras contienen una pequeña cantidad

de ROM que almacena información crítica necesaria para operar el sistema como la

lo necesario para arrancar la computadora. ROM no es volátil y siempre mantiene

los datos. Este tipo de memoria es utilizada también en sistemas embebidos o

cualquier sistema donde la programación no necesita cambiar. Muchos

electrodomésticos, juguetes y la mayoría de los automóviles utilizan chips de

ROM para mantener la información cuando no hay energía. Las ROM se utilizan

también en calculadoras y periféricos, como impresoras laser que almacenan sus

fuentes en ROMs. Hay cinco tipos básicos diferentes de ROM:

ROM, PROM, EPROM, EEPROM y memoria flash.

PROM (programmable read-only memory) es una variante de la ROM. PROMs pueden

ser programadas por el usuario con el equipo apropiado, mientras que las ROMS

son hardwired, las PROMs tienen fusibles que pueden fundirse para programar elchip. Una vez programado, los datos e instrucciones en los PROM no pueden

cambiarse.

EPROM (erasable PROM) es programable, con la ventaja de que es reprogramable

(borrar una EPROM requiere una herramienta especial que emite luz ultravioleta).

Para reprogramar la EPROM, todo el chip tiene que ser borrado primero.

EEPROM (electrically erasable PROM) elimina muchas de las desventajas de la

EPROM: no se requieren erramientas especiales para borrarla (esto se realiza

aplicando un campo eléctrico) y se pueden borrar solo porciones del chip, un

byte por vez.

Flash memory es escencialmente EEPROM con el beneficio agregado de que lainformación puede ser escrita o borrada en bloques, eliminando la limitación de

“un byte por vez”. Esto hace que la memoria flash sea más rápida que la EEPROM.

6.3 JERARQUIA DE LA MEMORIAUna de las consideraciones más importantes para comprender las capacidades de

performance de un procesador moderno es la jerarquía de la memoria.

Desafortunadamente, como hemos visto, no toda la memoria se crea de la misma

manera, y algunos tipos son mucho menos eficientes y por lo tanto más baratos

que otros. Para manejar esta disparidad, los sistemas de las computadoras

actuales usan una combinación de tipos de memoria para proveer la mejor

performance al mejor costo. Este enfoque se llama memoria jerárquica

Como regla, cuando más rápida es la memoria, más caro es su costo por bit dealmacenamieto. Utilizando una jerarquía de memorias, cada una con distintas


7/57

velocidades de acceso y capacidades de almacenamiento, un sistema de computadora

puede exhibir performance por sobre lo que sería posible sin una combinación de

los varios tipos. Los tipos básicos que normalmente constituyen la memoria

jerárcica incluyen registros, caché, memoria principal y memoria secundaria. En

cada una de las computadoras actuales hay una pequeña porción de memoria de muy

alta velocidad llamada caché, donde los datos de locaciones de memoria

frecuentemente utilizados pueden estar temporalmente almacenados. Esta caché es

conectada a una mucho más grande memoria principal, la cual es típicamente de

mediana velocidad. Esta memoria es complementada por una más grande aún memoria

secundaria, compuesta de un disco rígido y varios medios removibles. Utilizando

un sistema jerárquico, uno puede mejorar la velocidad de acceso efectiva de la

memoria, usando solo un pequeño número de chips rápidos (y caros). Esto permite

a los diseñadores crear una computadora con performance aceptable a un costo

razonable.

Clasificamos la memoria de acuerdo a su “distancia” del procesador, con la

distancia medida por el número de ciclos de máquina requeridos para el acceso.

Cuando más cerca está la memoria del procesador, más rápido debería ser. A

medida que la memoria se aleja del procesador principal, podemos afrontar

tiempos de acceso más largos.

De este modo, las tecnologías más lentas se utilizan para estas memorias, y lasmás rápidas se utilizan para memorias más cerca de la CPU. Cuanto mejor es la

tecnología, más rápida y más cara se vuelve la memoria. Así, las memorias más

ràpidas tienden a ser más pequeñas que las más lentas, debido al costo.

La siguiente terminología se utiliza para referirse a esta jerarquía de memoria:

• Hit—El dato requerido reside en un nivel de memoria dado (típicamente, nos

importa el hit-rate solo en niveles más altos de memoria)

• Miss—El dato requerido no se encuentra en el nivel dado de memoria.

• Hit rate—El porcentaje de accesos a memoria encontrados en un nivel de memoria

dado.

• Miss rate—El porcentaje de accesos a memoria no encontrados en un nivel de

memoria dado. Miss Rate = 1 - Hit Rate.

• Hit time—El tiempo requerido para acceder a la información en un nivel dado dememoria.

• Miss penalty—El tiempo requerido para procesar un miss, el cual incluye

remplazar un bloque en un nivel de memoria superior, más el tiempo adicional

para entregar los datos solicitados al procesador. (El tiempo para procesar un

miss es típicamente significantmente más largo que el tiempo para procesar un

hit.)


8/57

Este dibujo en forma de pirámide nos ayuda a indicad los tamaños relativos de

estas varias memorias. Las memorias más cercanas al tope tienden a ser menores

en tamaño, sin embargo, estas memorias más pequeñas tienen mayor performance y

por lo tanto mayor costo (por bit) que las memorias que se encuentran más abajo

en la pirámide.

Los números a la izquierda indican tiempos de acceso típicos. Para cualquier

dato dado, el procesador envía su pedido a la partición más rápida y pequeña de

memoria (típicamente caché, porque los registros tienden a ser de propósito más

especial). Si el dato se encuentra en caché, puede ser cargado rápidamente en la

CPU. Si no, el pedido es reenviado al siguiente nivel más abajo en la jerarquía

y el proceso de búsqueda comienza nuevamente. Si el dato se encuentra en este

nivel, todo el bloque en el que reside el dato es transferido a caché. Si no, el

pedido se reenvía al siguiente nivel más abajo, y así sucesivamente.

La idea clave es que cuando el más bajo (lento, grande, y barato) de los niveles

de jerarquía responde a un pedido de más altos niveles por el contenido de la

locación X, también envíe, al mismo tiempo, los datos localizados en las

direcciónes X+1, X+2… devolviendo de este modo un bloque completo de datos al

nivel mayor de memoria. La esperanza es que estos datos extras sean

referenciados en el futuro cercano, lo cual, en la mayoría de los casos, sucede

así.

La jerarquía de la memoria es funcional porque los programas tienden a presentar

una propiedad conocida comolocalidad

la cual frecuentemente permite al


9/57

procesador acceder a los datos devueltos por las direcciones X+1, X+2 y así

sucesivamente. De este modo, aunque haya un miss para el, digamos caché, para X,

puede que haya varios hits en caché con el recientemente devuelto bloque, debido

a la localidad.

6.3.1 Localidad de las referenciasEn la práctica, los procesadores tienden a acceder a la memoria en siguiendo unpatrón. Por ejemplo, en ausencia de bifurcaciones, el PC en MARIE es

incrementado en uno después de cada fetch. De este modo, si se accede a la

posición de memoria X en un tiempo t, hay una alta probabilidad que la posición

de memoria X+1 sea accedida en un futuro cercano. Esta agrupación de referencias

a memoria es un ejemplo de localidad de referencias. Esta localidad puede ser

explotada implementando la memoria como jerarquía; cuando se procesa un miss, en

lugar de simplemente transferir el dato solicitado a un nivel más alto, el

bloque completo que contiene el dato es transferido. Debido a la localidad de

referencia, es probable que los datos adicionales en el bloque se necesiten en

un futuro cercano, y de ser así, estos datos pueden ser cargados rápidamente de

la memoria más rápida.

Hay tres formas básicas de localidad:

• Temporal locality—Localidad temporal: Datos accedidos recientemente tienden aser accedidos nuevamente en el futuro cercano.

• Spatial locality—Localidad espacial: Los accesos tienden a estar agrupados en elespacio de direcciones (por ejemplo en arreglos o loops)

• Sequential locality—Localidad secuencial: las instrucciones tienden a seraccedidas secuencialmente.

El principio de localidad provee la oportunidad para un sistema de usar una

pequeña cantidad de memoria muy rápida para efectivamente acelerar la mayoría de

los accesos a memoria.

Típicamente, solo una pequeña cantidad del espacio completo de memoria está

siendo accedido en un tiempo dado, y los valores en ese espacio se accedenrepetidamente. De esta forma, podemos copiar esos valores de una memoria más

lenta a una más pequeña pero más rápida que se encuentra más alta en la

jerarquía. Esto resulta en un sistema de memoria que puede almacenar una larga

cantidad de información en una gran memoria de bajo costo, y aún provee casi las

mismas velocidades de acceso que resultarían de usar una memoria muy rápida pero

muy cara.

6.4 MEMORIA CACHÉEl procesador de una computadora es muy rápido y está constantemente leyendo

información de la memoria, lo que significa que frecuentemente tiene que esperar

a que llegue la información, porque los tiempos de acceso de la memoria son máslentos que la velocidad del procesador. Una memoria caché es una pequeña,


10/57

temporaria, pero rápida memoria que el procesador usa para información que es

probable que necesite en un futuro muy cercano.

Existen muchísimos ejemplos de caching fuera de las computadoras. Mantenerlos en

mente ayuda a entender el caching de la memoria de la computadora.

Pensemos en el dueño de una casa con un baúl muy grande de herramientas en el

garage. Supongamos que tenemos que hacer un arreglo en el sótano. Sabemos que

este arreglo va a requerir taladros, llaves inglesas, martillos, cinta métrica,

varios tipos de sierras y varios tipos y tamaños de destornilladores. Lo primero

que hay que hacer es medir y cortar madera. Vamos a la cochera, tomamos la cinta

métrica del baúl de herramientas, volvemos corriendo al sótano, medimos la

madera, volvemos al garage, dejamos la cinta, agarramos la sierra, volvemos al

sótano, cortamos la madera. Ahora decidimos atornillar las maderas. Vamos al

garage, agarramos el taladro, volvemos al sótano, agujereamos la madera,

volvemos al garage, dejamos el taladro agarramos una llave, volvemos al sótano,

vemos que la llave es del tamaño equivocado, volvemos al garage, agarramos otra,

volvemos a bajar…. ¿Trabajarías de este modo? No!

Siendo una persona razonable pensas “si necesito una llave, es posible que

necesite una de otro tamaño muy pronto, así que agarramos todo el set de llaves”,

mejor aún “una vez que haya terminado con cierta herramienta seguramentenecesitaré otra, así que juntamos una pequeña caja de herramientas y la llevamos

al sótano”. De este modo, mantenemos las herramientas que necesitamos más cercas,

para tenerlas rápido. Hemos agarrado algunas de las herramientas para fácil y

rápido acceso. Las herramientas que es menos probable que usemos, permanecen

almacenadas en el lugar que está más lejos y requiere más tiempo de acceso.

Esto es lo que hace la memoria caché: almacena datos que han sido accedidos y

datos que es posible que sean accedidos por el CPU en una memoria más rápida y

más cercana.

Otra analogía del caché está en la compra de comestibles: Rara vez vamos a

comprar un solo item, compramos los que vamos a requerir de inmediato y los que

posiblemente necesitemos en el futuro. La tienda es similar a la memoria

principal, tu casa es el caché.Más ejemplos: guía telefónica y agenda; cuando los estudiantes hacen

investigaciones, van a la librería (memoria principal) y traen a su casa

(memoria caché) todos los libros que podrían llegar a necesitar; oficina cajones

(memoria principal) escritorio desorganizado (memoria caché)

La memoria caché trabaja con los mismos principios básicos que los ejemplos

anteriores, copiando datos utilizados frecuentemente en el caché, más que

requiriendo accesos a memoria para obtener los datos. La caché puede ser tan

desorganizada como un escritorio y organizada como una agenda. De cualquier

forma, los datos deben ser accesibles (locatable). La memoria caché en unacomputadora difiere de los ejemplos cotidianos en un modo muy importante: La


11/57

computadora realmente no tiene forma de saber, a priori, cuales son los datos

más probables de ser accedido, así que usa los principios de localidad y

transfiere bloques enteros de la memoria principal al caché siempre que tiene

que hacer accesos a memoria. Si la probabilidad de usar algo más en ese bloque

es alta, entonces, tranferir el bloque completo ahorra tiempos de acceso. La

ubicación de este bloque en memoria caché depende de dos cosas: La política de

mapeo del caché, y el tamaño (que afecta al espacio que hay para el nuevo

bloque).

El tamaño de la memoria caché varía enormemente. En una computadora personal

típica, el caché de nivel 2 (L2) es de 256K o 512K. La caché de nivel 1 (L1) es

más pequeña, típicamente 8K o 16K. L1 se encuentra en el procesador, mientras

que la L2 reside entre el CPU y la memoria principal. L1, por lo tanto, es más

rápida que L2. La relación entre estas dos puede ilustrarse usando el ejemplo

del almacén, si el almacén es la memoria principal, la heladera es la caché L2 y

la mesa la caché L1.

El propósito de la caché es acelerar los accesos a memoria almacenando data

recientemente utilizada más cerca al CPU, en lugar de almacenarlo en memoria

principal. Aunque la caché no sea tan larga como la memoria principal es

considerablemente más rápida. Mientras que la memoria principal está compuesta

típicamente de DRAM con, digamos, 60ns de tiempo de acceso, la caché está típicamente compuesta de SRAM, proveyendo más rápido acceso con un ciclo mucho

más corto de tiempo que la DRAM (un típico tiempo de acceso a caché es de 10ns).

La caché no nececesita ser muy grande para desempeñarse bien. La regla de oro

general es hacer la caché lo suficientemente pequeña para que el costo por bit

se acerque a la memoria principal, pero lo suficientemente grande para ser

beneficiosa. Como esta memoria más rápida es más cara, no es viable usar la

tecnología encontrada en la memoria caché para construir toda la memoria

principal.

¿Qué hace “especial” a la caché? La caché no se accede por direcciones si no por

su contenido. Por esta razón a veces se la llama “memoria de contenido

direccionable” (content addressable memory o CAM). Bajo la mayoría de los

esquemas de mapeo de la caché, las entradas deben ser chequeadas o buscadas paraver si el valor que se requiere está almacenado en la caché. Para simplificar

este proceso de encontrar el dato deseado, se utilizan muchos algoritmos de

mapeo.

6.4.1 Esquemas de mapeo de la cachéPara que la caché sea funcional, debe almacenar datos útiles. Sin embargo, estos

datos se vuelven inútiles si el CPU no puede encontrarlos. Cuando accede a datos

o instrucciones, el CPU primero genera una dirección de memoria principal. Si el

dato se ha copiado en el caché, la dirección del dato en el caché no es la misma

que en la memoria principal. Por ejemplo, el dato que se encuentra en la

dirección de memoria principal 2E3 podría estar ubicado en la primer ubicación

del caché. ¿Cómo encuentra entonces el CPU los datos cuando han sido copiados


12/57

al caché? El CPU utiliza un esquema de mapeo específico que “convierte” las

direcciones de memoria principal en una ubicación de caché.

Esta conversión se hace dando especial significado a los bits en la dirección de

memoria principal. Primero dividimos los bits en distintos grupos que llamamos

campos. Dependiendo del esquema de mapeo puede haber dos o tres campos. Cómo los

utilizamos depende de el esquema de mapeo particular que estemos usando. El

esquema de mapeo determina donde se ubica el dato cuando es copiado

originalmente al caché y también provee un método para que la CPU encuentre

datos previamente copiados cuando busca en el caché. La memoria principal y el

caché están ambos divididos en el mismo tamaño de bloques (el tamaño de estos

bloques varía). Cuando se genera una dirección de memoria principal, primero se

busca en el caché para ver si la palabra solicitada está ahí. Cuando la palabra

no es encontrada en caché, todo el bloque de memoria en el que reside la palabra

es cargado en el caché. Como se mencionó anteriormente, este esquema es existoso

por el principio de localidad – si una palabra ha sido referenciada, hay una

alta probabilidad de que las palabras en la misma vecindad general sean

referenciadas también. De esta forma, una palabra perdida usualmente resulta en

muchas palabras encontradas.

Por ejemplo, cuando estás en el sótano y necesitás herramientas por primera vez,tenés un “miss” y tenes que ir al garage. Si juntás un grupo de herramientas que

podrías necesitar y volvés al sótano, esperas tener varios “hits” mientras

trabajás en tu proyecto, y no tener que hacer muchos viajes más al garage.

Como acceder a una palabra en caché es más rápido que acceder a una palabra en

memoria principal, la memoria caché acelera el tiempo total de acceso.

Así que ¿cómo utilizamos los campos en la dirección de memoria principal? Uno de

los campos apunta a la ubicación en caché en donde reside el dato si es que está

en caché (caché hit), o donde tiene que ser ubicado si no está (caché miss).

Esto es un poco diferente para el mapeo asociativo.

El bloque de caché referenciado se chequea para ver si es válido. Esto se hace

asociando un valid bit a cada bloque de caché. Si el bit es 0 significa que esebloque no es válido (tenemos un miss) y debemos acceder a la memoria. Si es 1

significa que es válido (podríamos tener un hit pero falta un paso más para

estar seguros). Entonces, comparamos el tag en el bloque de caché a el campo tag

de nuestra dirección. (El tag es un grupo especial de bits que se deriva de la

dirección de memoria principal y es almacenado con su correspondiente bloque en

caché). Si los tags son iguales entonces encontramos el bloque deseado (tenemos

un hit). En este punto, tenemos que encontrar la palabra deseada en el bloque.

Esto puede hacerse utilizando una porción diferente de la dirección de memoria

principal llamadacampo de palabra.

Todos los mapeos de caché requieren un campo

de palabra; sin embargo, los campos restantes son determinados por el esquema de

mapeo. Veremos tres de estos posibles esquemas:

Caché de mapeo directo


13/57

La caché de mapeo directo asigna “caché mappings” utilizando un enfoque modular.

Como hay más bloques en memoria principal que en Caché, debería quedar claro que

los bloques de memoria principal compiten por ubicaciones de caché. El mapeo

directo mapea el bloque X de memoria principal al bloque Y de caché, mod N donde

N es el número total de bloques en caché. Por ejemplo, si el caché tiene 10

bloques entonces el bloque 0 de memori principal mapea al bloque 0 de caché, el

1 al 1,…, el 9 al 9, y el 10 al 0. Esto se ilustra en la figura 6.2 De este

modo, los bloques 0 y 10 (y 20, 30, etc) todos compiten por el bloque 0. ¿Cómo

sabe la caché que bloque se encuentra residiendo en el bloque de caché 0 en un

tiempo dado? La respuesta es que cada bloque se copia a la caché y se identifica

con el tag previamente descripto. Si miramos más de cerca la caché, almacena más

que solo los datos copiados por la memoria. Como se indica en la figura 6.3. En

esta figura hay dos bloques válidos, el bloque 0 contiene multiples palabras de

la memoria principal identificadas usando el tag “00000000”. El bloque 1 tiene

las palabras identificadas con el tag“11110101”. Los otros dos bloques de

caché no son válidos.

Comentario:Buscar trad


14/57

Para realizar el mapeo directo, la dirección de memoria principal en binario es

particionada en los campos que muestra la figura 6.4.

El tamaño de cada campo depende de las características físicas de la memoria

principal y del caché. El campopalabra

(a veces llamado el campooffset

)

identifica unívocamente una palabra de un bloque específico; de este modo, debe

contener el número de bits apropiado para hacer esto. Esto también es cierto

para el campobloque

– debe seleccionar un bloque único en la caché. El campo

tag son los bits restantes. Cuando un bloque de memoria principal se copia al

caché, este tag es almacenado con el bloque y unívocamente identifica a estebloque. El total de los tres campos debe por supuesto sumar el número de bits en

una dirección de memoria principal.

Ejemplo: supongamos que la memoria tiene 214 palabras, el caché 16 bloques y cada

bloque 8 palabras. De esto determinamos que la memoria tiene 211 bloques. Sabemos

que cada dirección de memoria requiere 14 bits. De estos 14 bits los 3 que están

más a la derecha reflejan el campo de la palabra (necesitamos 3 bits para

identificar unívocamente a las 8 palabras del bloque). Necesitamos 4 bits para

seleccionar un bloque específico en la caché, por lo que el campo del bloque

consiste en los 4 bits del medio. Los restantes 7 son el campo tag.

Como se mencionó anteriormente, el tag para cada bloque se almacena con ese

bloque en caché. En este ejemplo, como los bloques de memoria principal 0 y 16

ambos mapean al bloque 0 del cache, el campo tag le permite al sistema

diferenciar entre los bloques 0 y 16. Las direcciones binarias del bloque cero


15/57

difieren de las del blque 16 en los 7 bits más a la izquierda, por loque los

tags son diferentes y únicos.

Para ver como difieren estas direcciones, miremos un ejemplo más pequeño.

Supongamos que tenemos un sistema que usa mapeo directo con 16 palabras en

memoria principal dividido en 8 bloques (2 palabras por bloque). Asmiendo que la

caché es de 4 bloques en tamaño (total 8 palabras), sabemos:

- Una dirección de memoria tiene 4 bits

- Los cuatro bits se dividen en tres campos. El de la palabra es de un bit (solo

necesitamos un bit para diferenciar las dos palabras del bloque); el campo del

bloque es de 2 bits (para diferencias 4 bloques en memoria principal); el tag es

de 1 bit (el restante).

Supongamos que generamos la dirección de memoria principal 9. Podemos ver por el

mapeo que está en el bloque 4 de memoria principal y debería mapear al bloque 0

(lo cual significa que los contenidos en el bloque de memoria principal 4

deberían copiarse al bloque de caché 0). La computadora, sin embargo, utiliza la

dirección actual de memoria para determinar el bloque de mapeo del cache. Este

dirección en binario es: 1001. Cuando el CPU genera esta dirección primero toma

los bits del campo de bloque 00 y los usa para dirigirlo al bloque apropiado en

caché. 00 indica bloque 0. Si el tag del caché es 1, entonces el bloque 4 ya se

encuentra actualmente en el bloque de caché. Si el tag es 0 entonces el bloque 0

de memoria principal se encuentra en el bloque 0 de caché. Asumiendo que lostags son iguales, lo cual significa que el bloque 4 de memoria principal con las


16/57

direcciones 8 y 9 reside en el bloque de caché 0, el campo de la palabra, 1, se

usa para seleccionar una de las dos palabras del bloque. Como el bit es uno

seleccionamos la palabra con offset 1 lo cual resulta en la devolución de los

datos copiados de la dirección de memoria principal 9.

Si tenemos un sistema con direcciones de memoria de 15 bits y 64 bloques de

caché cada uno de 8 palabras. Tenemos un campo de palabra de 3 bits, un campo de

bloque de 6 bits y un campo de tag de 6 bits.

2

15

direcciones, direccionamiento a palabra, 2

6

bloques/lineas en caché cada uno

con 2

3

palabras => 2

9

palabras en cach

é => 2

15

/2

9

= 2

6

bloques de memoria

principal ¿? Tag 6)

Fully Assoc iative CacheLa caché de mapeo directo no es tan cara como otras porque el esquema de mapeo

no requiere de ninguna búsqueda. Cada bloque de memoria principal tiene una

ubicación específica a la que se mapea en caché; cuando una dirección de memoria

principal se convierte en una dirección de caché, el CPU sabe exactamente donde

buscar en el caché ese bloque de memoria, simplemente examinando el campo del

bloque. Esto es similar a las agendas, donde las páginas tienen un índicealfabético.

En lugar de especificar una dirección única para cada bloque de memoria, podemos

ver el extremo opuesto: permitir que un bloque de memoria principal de aloje en

cualquier parte del caché. El único modo de encontrar un bloque mapeado de este

modo, es buscar en toda la caché. Esto requiere que toda la caché sea construida

de memoria asociativa así puede buscarse en paralelo. Esto es, una simple

búsqueda debe comparar el tag solicitado con todos los tags en caché para

determinar si el bloque deseado está en caché. La memoria asociativa requiere

hardware especial para permitir la búsqueda asociativa y, por lo tanto, es

bastante cara. Usando mapeo asociativo, la dirección de memoria principal se

particiona en dos, el tag y la palabra.

Por ejemplo con una memoria principal de 214 palabras, una caché con 16 bloquesde 8 palabras cada uno, el campo de palabra es 3, pero ahora el campo tag es de

11 bits.

Este tag debe ser almacenado con cada bloque en caché. Cuando se busca en caché

por un bloque especifico de memoria principal, el campo tag de la dirección se

compara con todos los tags válidos en caché; si se encuentra una coincidencia el

bloque ha sido encontrado (el tag identifica unívocamente a un bloque de memoria

principal). Si no hay coincidencias, entonces tenemos un miss y el bloque debe

ser transferido de memoria principal.

Con el mapeo directo, si un bloque ya esta ocupando la posición de caché en la

que un nuevo bloque debería ser ubicado, el bloque que está en caché debe

eliminarse (escribirse devuelta a memoria principal si fue modificado, o

sobrescribirlo si no fue modificado). Con el mapeo totalmente asociativo, cuandose llena la caché, necesitamos un algoritmo de reemplazo para decidir qué bloque


17/57

vamos a sacar del caché (lo llamamos elvictim block

). Un sencillo algoritmo

FIFO podría funcionar, como también LRU. Existen muchos algoritmos de reemplazo

que pueden utilizarse.

Set Associative CacheDevido a su velocidad y complejidad, la caché asociativa es muy cara. Aunque el

mapeo directo no es caro es muy restrictivo. Para ver como el mapeo directo

limita el uso de la caché, supongamos que estamos corriendo un programa en laarquitectura descripta en ejemplos anteriores. Supongamos que el programa está

usando el bloque 0, después el 16, después el 0 después el 16 y así sucesivamente

cuando ejecuta instrucciones. Como ambos bloques mapean a la misma dirección,

significa que el programa repetidamente va a tirar el 0 para traer el 16 y

viceversa, aunque el resto de los bloques de la caché no estén siendo utilizados.

La caché totalmente asociativa soluciona este problema permitiendo que el bloque

de memoria se ubique en cualquier lado. Sin embargo, requiere que un tag más

largo se almacene con el bloque (lo cual resulta en una caché más grande) además

de requerir hardware especial para buscar simultáneamente en todos los bloques

de la caché (lo que implica una caché mucho más cara). Necesitamos un esquema

intermedio.

El tercer esquema de mapeo que introducimos es el de mapeo de caché asociativopor conjuntos de n vias

(N-way set associative cache mapping), una combinación de

los dos anteriores. Este esquema es similar al mapeo directo ya que usa la

dirección para mapear el bloque a una cierta ubicación de caché.

La diferencia importante es que en lugar de mapear a un único bloque de caché,

las direcciones mapean a un conjunto de varios bloques de caché. Por ejemplo, en

el caché asociativo por conjuntos de dos vías, hay dos bloques de caché por set.

La caché de mapeo directo es un caso especial de asociatia por conjuntos de N-

vías donde el tamaño del set es 1.

En el mapeo asociativo por conjuntos la memoria principal se particiona en tres:

el campo tag, el campo set y el campo palabra. El tag y la palabra tienen el

mismo rol que en los ejemplos anteriores. El campo set indica a que set de la

caché mapea el bloque de memoria principal. Supongamos que estamos usando mapeo

asociativo por conjuntos de dos vias. Con una memoria principal de 214 palabras,

una caché de 16 bloques cada bloque con 8 palabras. Si cada set tiene dos

bloques entonces hay 8 sets en caché, por lo tanto, el campo set es de 3 bits,el campo palabra es de 3 bits y el tag de 8 bits.


18/57

6.4.2 Políticas de reemplazoEn la caché de mapeo directo, si hay disputa por un bloque en caché hay una

única acción posible: eliminar el bloque existente para hacer espacio para el

nuevo. Este proceso se llama reemplazo. Con el mapeo directo, no se necesitan

políticas de reemplazo porque la ubicación para cada nuevo bloque está

predeterminada.

Sin embargo, para la caché totalmente asociativa y la asociativa por conjuntos,

necesitamos políticas de reemplazo para determinar el bloque “víctima” que será removido de la caché. Cuando usamos caché totalmente asociativa hay K posibles

locaciones (donde K es el número de bloques en caché) para los cuales una

dirección de memoria principal dada podría mapear. Con el caché de mapeo

asociativo por conjuntos de N-vías, un bloque puede mapear a cualquiera de los N

bloques diferentes en un set dado.

El algoritmo que determina el reemplazo se llama “política de reemplazo”.

Hay varias politicas de reemplazo populares. Una que no es práctica que puede

usarse como punto de referencia (benchmark) para medir a todas las demás es el

algoritmo óptimo

Queremos mantener valores en caché que van a necesitarse

pronto nuevamente y deshacernos de aquellos bloques que no volveremos a

necesitar o que no necesitaremos por algún tiempo. Un algoritmo que pudiera

mirar a futuro para precisar cuales bloques mantener o eliminar en base a estosdos criterios sería el mejor. Esto es lo que hace el algoritmo óptimo. Queremos

reemplazar el bloque que no va a ser usado por mayor tiempo a futuro.

Desde un punto de vista práctico no podemos mirar en el futuro, pero podemos

correr un programa y volver a correrlo para, efectivamente, conocer el futuro.

Luego podríamos aplicar el algoritmo óptimo en la segunda corrida. El algoritmo

óptimo garantiza la taza más baja posible de miss. Como no podemos ver el futuro

en cada programa que corremos, el algoritmo óptimo solo se usa como medida para

determinar cuan bueno o malo es otro algoritmo. Cuanto más se acerca el

desempeño al algoritmo óptimo, mejor.

Necesitamos algoritmos que se aproximen lo mejor posible al algoritmo óptimo.

Tenemos varias opciones. Por ejemplo, podríamos considerar la localidad temporal.

Podemos adivinar que cualquier valor que no ha sido usado recientemente es pocoprobable que se vuelva a necesitar pronto. Podemos mantener un registro de la

última vez a la que cada bloque fue accedido (asignarle un timestamp al bloque),

y elegir como víctima el bloque que ha sido menos utilizado recientemente. Este

es el algoritmo LRU. Desafortunadamente LRU requiere que el sistema mantenga la

historia de accesos por cada bloque de caché lo cual requiere un espacio

significante y disminuye la velocidad de operación del caché. De todas formas,

hay maneras de aproximarse al LRU.

FIFO es otro enfoque popular. Con este algoritmo, el bloque que ha estado en

caché por mas tiempo (sin importar cuan recientemente haya sido usado) se

selecciona como víctima para remover del caché.

Otro enfoque es RANDOM El problema con LRU y FIFO es que hay situaciones de

referenciacion degeneradas que pueden hacer que constantemente estemos tirandoun bloque y volviendolo a traer a memoria repetidamente.


19/57

Alguna personas dicen que el reemplazo aleatorio, aunque a veces tira datos que

serán necesitados pronto, nunca “colapsa”

Desafortunadamente, es dificil tener un verdadero algoritmo de reemplazo

aleatorio, porque puede disminuir el desempeño promedio.

El algoritmo elegido por lo general depende de cómo será usado el sistema. No

hay un único algoritmo (práctico) que sea el mejor para todos los escenarios.

Por esa razón los diseñadoras usan algoritmos que se desempeñan bien en una

amplia variedad de circunstancias.

6.4.3 Tiempo de acceso efectivo y tasa de hitLa performance de la memoria jerárquica se mide por su tiempo de acceso efectivo

(EAT), o por el tiempo promedio por acceso. EAT es una medida ponderada promedio

que usa el hit ratio y los tiempos relativos de acceso de los sucesivos niveles

de la jerarquía.

Por ejemplo, supongamos que cada tiempo de acceso a caché es de 10ns, el tiempo

de acceso a memoria principal es de 200ns y el hit rate es de 99%. El tiempo

promedio que le toma al procesador acceder a un item en su memoria de segundo

nivel sería entonces:

Si miramos a los tiempos de acceso durante un largo período de tiempo, este

sistema se desempeña como si tuviera una única gran memoria con un tiempo de

acceso de 11ns.

Una caché con hit rate de 99% permite al sistema desempeñarse muy bien, incluso

si la mayoría de la memoria está construida utilizando tecnología más lenta con

un tiempo de acceso de 200ns.

La fórmula para calcular el tiempo de acceso efectivo de una memoria de nivel

dos está dada por:

Donde H es el hit rate del caché, Accesscc es el tiempo de aceso del caché y

AccessMM es el tiempo de acceso a memoria.

Esta fórumula puede extenderse par aplicarse a memorias de tercer o incluso

cuarto nivel.

6.4.4 When Does Caching Break Down?Cuando los programas muestran localidad el caché trabaja bastante bien. Sin

embargo, si los programas tienen mala localidad, la memoria caché se “rompe” y

la performance de la memoria jerárquica es pobre. En particular, la programación

orientada a objetos puede causar que los programas muestren localidad menor a la

óptima. Otro ejemplo de mala localidad puede verse en los accesos a arreglos de

Comentario:Buscar en itermino más amigable paratrashes


20/57

dos dimensiones. Los arreglos se almacenan tipicamente por filas (en row-major

order

Supongamos que una fila ocupa exactamente un bloque de caché y que la cacllé

puede contener todas excepto una de las filas del arreglo. Si el programa accede

al arreglo a una fila por vez, el primer acceso produce un miss, pero una vez

que el bloque está transferido al caché los accesos subsecuentes son hits. Por

lo que un arreglo de 5x4 produciría 5 misses y 15 hits en 20 accesos (asumiendo

que estamos accediendo a todos los elementos del arreglo). Si el programa accede

al arreglo en por columnas, el primer acceso resulta en un mis después del cual

toda la fila se transfiere a la caché. Sin embargo, el segundo acceso resulta en

otro miss, los datos que se están transfiriendo de cada fila no estan siendo

usados porque se está accediendo al arreglo por columnas. Como la caché no es lo

suficientemente grande esto produciría 20 miss en 20 accesos. Un tercer ejemplo

podría ser un programa que loopea sobre un arreglo lineal que no entra en caché.

Habría una significante reducción en la localidad cuando la memoria se utiliza

de este modo.

6.4.5 Políticas de escr itura en Caché

Además de determinar qué víctima elegir para el reemplazo, los diseñadores debendecidir también que hacer con los llamados dirty blocks de la caché, o bloques que

han sido modificados. Cuando el procesador escribe a memoria principal, los

datos pueden ser escritos en la caché en su lugar, bajo la asunción de que el

procesador probablemente vuelva a leerlos pronto. Si el bloque de caché es

modificado, la política de escritura de la caché determina cuando será

actualizado el bloque de memoria principal para coincidir con el bloque de caché.

Hay dos políticas básicas:

• Write-through—Actualiza tanto el caché como la memoria principal

simultaneamente en cada escritura. Es más lenta que la política write-back, pero

asegura que el caché es consistente con el sistema de memoria principal. La

desventaja obvia es que cada escritura ahora requiere un acceso a memoria. Usar

esta política signficia que cada escritura en caché necesita una escritura enmemoria principal, por lo tanto disminuye la velocidad del sistema (si todos los

accesos son escrituras, esto esencialmente disminuye la velocidad del sistema a

la velocidad de la memoria principal). Sin embargo, es las aplicaciones reales,

la mayoría de los accesos son lecturas por lo que esta disminución de la

velocidad es despreciable.

• Write-back— Esta política, también llamada copyback solo actualiza los bloques

en memoria principal cuando el bloque de caché es seleccionado como víctima y

debe ser removido de la caché. Este metodo es normalmente más rápido que el

anterior porque no se pierde tiempo en escribir información a la memoria con

cada escritura en caché. También se reduce el tráfico a la memoria. La

desventaja es que la memoria principal y el caché pueden no contener el mismo

Comentario:Chequear otraducciones de este términ


21/57

valor en un instante dado, y si un proceso termina (crashes) antes de que se

haya escrito a la memoria principal, los datos en el caché pueden perderse

Para mejorar la performance del caché, uno debe incrementar el hit ratio usando

un mejor algoritmo de mapeo (aproximadamente un 20%), mejores estrategias para

operaciones de escritura (hasta un 10%) y mejores prácticas de código, como

vimos en el ejemplo anterior accesos por filas vs. accesos por columnas (hasta

el 30%). Solo aumentar el tamaño de la caché puede mejorar el hit ratio entre un

1 y un 4% pero no está garantizado.

6.6 UN EJEMPLO DE MANEJO DE MEMORIA REAL

El Pentium tiene dos cachés, L1 y L2, ambas utilizando un tamaño de bloque de 32

bytes. L1 es la más cercana al procesador mientras que la L2 está entre el

procesador y la memoria. El L1 son en realidad dos cachés; el Pentium (como

muchas otras máquinas) separa la caché entre la utilizada para instrucciones y

la utilizada para datos. Ambas L1 utilizan un bit LRU para el reemplazo de

bloques. Ambas utilizan mapeo asociativo por conjuntos de dos vías.

La L2 es de 512KB hasta 1MB, también usa mapeo asociativo por conjuntos de dos

vías.

La memoria de intrucciones y la L2 utilizan el protocolo de coherencia MESI.

Cada línea tiene dos bits que almacenan los siguientes estados MESI:

(1) M: modified (cache is different than main memory);

(2) E: exclusive (cache has not been modified and is the same as memory);

(3) S: shared (this line/block may be shared with another cache line/block); and

(4) I: invalid (the line/block is not in cache).


22/57

REVIEW OF ESSENTIAL TERMS AND CONCEPTS1. Which is faster, SRAM or DRAM?2. What are the advantages of using DRAM for main memory?3. Name three different applications where ROMs are often used.4. Explain the concept of a memory hierarchy. Why did your authors choose to representit as a pyramid?

5. Explain the concept of locality of reference and state its importance to memory

systems.6. What are the three forms of locality?7. Give two noncomputer examples of the concept of cache.8. Which of L1 or L2 cache is faster? Which is smaller? Why is it smaller?9. Cache is accessed by its ________, whereas main memory is accessed by its_______.

Exercises 267

10. What are the three fields in a direct mapped cache address? How are they used toaccess a word located in cache?

11. How does associative memory differ from regular memory? Which is more expensiveand why?

12. Explain how fully associative cache is different from direct mapped cache.13. Explain how set associative cache combines the ideas of direct and fully associativecache.

14. Direct mapped cache is a special case of set associative cache where the set size is1.

So fully associative cache is a special case of set associative cache where the set size

is ___.

15. What are the three fields in a set associative cache address and how are they used toaccess a location in cache?

16. Explain the four cache replacement policies presented in this chapter.17. Why is the optimal cache replacement policy important?18. What is the worst-case cache behavior that can develop using LRU and FIFO cachereplacement policies?

19. What, exactly, is effective access time (EAT)?20. Explain how to derive an effective access time formula.21. When does caching behave badly?

22. What is a dirty block?23. Describe the advantages and disadvantages of the two cache write policies.24. What is the difference between a virtual memory address and a physical memoryaddress? Which is larger? Why?

25. What is the objective of paging?26. Discuss the pros and cons of paging.27. What is a page fault?28. What causes internal fragmentation?29. What are the components (fields) of a virtual address?30. What is a TLB and how does it improve EAT?31. What are the advantages and disadvantages of virtual memory?32. When would a system ever need to page its page table?33. What causes external fragmentation and how can it be fixed?


23/57

INPUT – OUTPUT AND STORAGE SYSTEMS

AcUna computadora no tiene mucho uso sin medios para ingresar y sacar información

de ella. Cuando el tiempo de procesamiento excede el tiempo de “pensar” del

usuario, los usuarios se quejan de que es lenta. Esta lentitud puede tener un

impacto sustancial en la productividad. Es más frecuente que la causa de este

problema no se encuentre en el procesador o en la memoria, si no en cómo elVeremos como los I/O y la capacidad de almacenamiento pueden ser optimizados

permitiendo tomar la decisión correcta de almacenamiento.

7.2 AMDAHL’S LAWAumentar el 40% la velocidad de un componente ciertamente no va a aumentar el

40% de la velocidad del sistema.

En 1967 George Amdahl reconoció la interrelación de todos los componentes con la

eficiencia total de un sistema de computación. Cuantificó sus observaciones en

una fórmula que hoy se conoce como ley de Amdahl. En esencia, establece que la

velocidad (speedup) total de un sistema de computación depende tanto de la

aceleración en un componente particular como de cuanto es utilizado ese

componente por el sistema. En símbolos:

Donde:

S es la velocidad;

f es la fracción de trabajo que realiza el componente más rápido; y

k es la velocidad de un nuevo componente.

Digamos que la mayoría de tus procesos diarios pasan el 70% del tiempo corriendo

en la CPU y el 30% esperando servicios del disco.

Nos ofrecen un nuevo procesador que es 50% más rápido del que tenemos por $10000

o un conjunto de discos que son 2,5 veces más rápidos que tu disco actual por

$7000.

Entonces para el procesador tenemos:

y para el disco:

El aumento de performance es relativamente igual, aunque el costo por cada 1% de

mejora es menor en los discos.

7.3 ARQUITECTURAS I/O


24/57

Definimos input/output como un subsistema de componentes que mueve datos entre

componentes externos y un servidor (host system), consistente de una CPU y una

memoria principal.

Los subsistemas I/O incluyen, pero no están limitados a:

· Bloques de memoria principal que están dedicados a funciones I/O

· Buses que proveen los medios para mover los datos dentro y fuera del sistema

· Módulos de control en el servidor y en los periféricos.

· Interfaces a componentes externos como teclados y discos

· Cableado o links de comunicación entre el servidor y sus periféricos.

Los módulos I/O se ocupan de mover datos entre la memoria principal y la

interfaz de un dispositivo en particular. Las interfaces están diseñadas

específicamente para comunicarse con un cierto tipo de dispositivos como

teclados, discos y impresoras. Las interfaces manejan los detalles para

asegurarse de que los dispositivos están listos para la próxima tanda de datos,

o que el servidor está listo para recibir la próxima tanda de datos que proviene

de un periférico. La forma y significado exacto de las señales que se

intercambian entre emisor y receptor se llama protocolo Los Protocolos constan de

señales de control como “Printer reset”; señales de estado como “tape ready”; oseñales para el paso de datos. En la mayoría de los protocolos de intercambio de


25/57

datos el receptor debe reconocer (acknowledge) los comandos y datos que se le

envían, o indicar que está listo para recibir datos. Este tipo de protocolo de

intercambio se denomina handshake.

Los dispositivos externos que manejan largos bloques de datos (como impresoras,

discos, y cintas) están usualmente equipados con memoria buffer. Los Buffers

permiten al servidor enviar largas cantidades de datos a los periféricos de la

manera más rápida posible, sin tener que esperar a que los dispositivos

mecánicos más lentos hayan escrito los datos. La memoria dedicada en los discos

es usualmente del tipo de la caché más rápida, mientras que las impresoras

usualmente tienen una RAM más lenta.

Los circuitos de control de los dispositivos toman los datos de para o desde

buffers incorporados y se aseguran de que llegue a donde debe ir. En caso de

escribir en discos, esto incluye asegurarse de que el disco está posicionado de

la manera adecuada para que la información sea escrita en un lugar particular.

Para las impresoras, estos circuitos mueven el cabezal de impresión a la

posición del siguiente carácter, activan el cabezal, eyectan el papel, etc.

Los discos y las sintas son formas de almacenamiento durable llamados así porque

los datos que son grabados en ellos duran más de lo que durarían en memoria

principal volátil. Sin embargo, ningún método de almacenamiento es permanente.

La vida esperada de los datos en estos medios es de aproximadamente 5 años paralos medios magnéticos y tanto como 100 años para los medios ópticos.

7.3.1 Métodos de Contro l I/OLos sistemas de computación emplean cualquiera de los cuatro metodos de control

generales de I/O, estos son: I/O programado, I/O por manejo de interrupciones,

acceso directo a memoria y channel-attached I/O. Aunque ningún método es

necesariamente mejor que el otro, la manera en que la computadora ontrola sus

I/O influencia enormemente el diseño y performance general del sistema. El

objetivo es saber cuando el método I/O empleado por una arquitectura particular

es apropiado y cómo será utilizado el sistema.

Programmed I/O (E/S por polling o programada)Los sistemas que usan programmed I/O dedican por lo menos un registro para uso

exclusivo de cada dispositivo I/O. El CPU continuamente monitorea cada registro,

esperando que lleguen los datos, esto se llama polling. Por lo tanto se refiere

usualmente a la programmed I/O como polled I/O. Una vez que la CPU detecta la

condición de “dato listo”, actúa de acuerdo a las instrucciones programadas para

ese registro particular. El beneficio de usar este enfoque es que tenemos

control programático sobre el comportamiento de cada dispositivo. Los cambios en

el programa pueden consistir en ajustes para el número y tipo de dispositivos en

el sistema, tanto como para sus prioridades e intervalos de polling.

Estar constantemente haciendo polling, sin embargo, es un problema. La CPU se

encuentra constantemente en un loop de “busy wait” hasta que empieza a atenderuna solicitud de I/O. No realiza ningún trabajo útil hasta que haya I/O para

Comentario:Ver qué ser


26/57

procesar. Debido a estas limitaciones, este método es apropiado para sistemas de

propósito especial como cajeros automáticos, o sistemas que controlan o

monitorean eventos ambientales.

Interrupt-Driven I/O (E/S por interrupc ioneS)Interrupt-driven I/O puede ser pensada como l contrario de programmed I/O.

En lugar de que la CPU este continuamente preguntando a sus dispositivos

conectados si tienen algún input, los dispositivos le dicen a la CPU cuandotienen datos para enviar. La CPU continua con otras tareas hasta que la

interrumpe el pedido de un dispositivo. Las interrupciones son usualmente

señaladas con un bit en el registro de flags del CPU llamado interrupt flag.

Una vez que se setea el flag de interrupción, el sistema operativo interrumpe el

programa que estaba ejecutando guardando el estado y la información variable. El

sistema luego hace un fetch del vector de interrupciones que apunta a la

dirección de la rutina del I/O. Luego de que la CPU haya terminado con la rutina,

restaura la información que había guardado del programa que estaba corriendo

cuando ocurrió la interrupción, y continúa la ejecución del programa.

Este método es similar al anterior en el sentido en que las rutinas de atención

pueden ser modificadas para acomodarse a cambios de hardware. Como los vectores

de los distintos tipos de hardware usualmente se mantienen en las mismasubicaciones en sistemas que corren el mismo tipo y nivel de sistema operativo,

estos vectores pueden ser fácilmente cambiados para apuntar a código especifico

del comerciante. Por ejemplo, si a alguien se ocurre un nuevo tipo de disco que

todavía no es soportado por un SO popular, el fabricante de ese disco puede

actualizar el vector de I/O del disco para apuntar a un código particular para

ese disco. Desafortunadamente, algunos algunos de los primeros escritores de

virus basados en DOS también tuvieron esa idea. Reemplazaban los vectores de I/O

para que apuntaran a su código, erradicando muchos sistemas en el proceso. La

mayoria de los SO actuales emplean manejo de interrupciones. Afortunadamente,

estos tienen mecanismos para salvaguardarse contra este tipo de manipulación del

vector.

Direct Memory Access (E/S por acceso d irecto a memoria)Tanto con I/O como con interrupt-driven I/O, la CPU muvede datos desde y hacia

el dispositivo I/O. Durante el I/O, la CPU corre instrucciones similares al

siguiente pseudocódigo:WHILE More-input AND NOT Error ADD 1 TO Byte-countIF Byte-count > Total-bytes-to-be-transferred THENEXITENDIFPlace byte in destination bufferRaise byt e-ready signalInitialize timerREPEATWAIT

UNTIL Byte-acknowledged, Timeout, OR ErrorENDWHILE


27/57

Claramente estas instrucciones son lo suficientemente simples como para ser

programadas en un chip dedicado. Esta es la idea detrás de direct memory access

(DMA). Cuando un sistema usa DMA, la CPU se livera de la ejecución de las

tediosas instrucciones de I/O. Para efectuar la transferencia, la CPU le provee

al control de DMA la locación de los bytes a ser transferidos, el número de

bytes y el dispositivo de destino o la dirección de memoria. Esta comunicación

usualmente tiene lugar a través de registros de I/O especiales en la CPU.

Una vez que los valores apropiados se ubican en memoria, la CPU envía una señal

al subsistema de DMA y procede con su siguiente tarea, mientras el DMA se ocupa

de los detalles del I/O. Luego de que el I/O se completa (o termina en error),

el DMA envía una nueva interrupción al CPU. El controlador del DMA y la CPU

comparten el bus de memoria. Solo uno de ellos a la vez puede tener control del

bus, esto es, ser el bus master . Generalmente, I/O tiene prioridad sobre los

fetches de memoria del CPU para instrucciones y datos, porque muchos

dispositivos de I/O operan con parámetros de tiempo ajustados. Si no detectan

actividad dentro de un período de tiempo especificado se produce un timeout y

abortan el proceso de I/O. Para evitarlos, el DMA usa ciclos de memoria que de

otra forma serían utilizados por el CPU. Esto se llama cycle stealing.

Afortunadamente I/O tiende a crear tráfico en ráfagas bursty en el bus: los datosse envían en bloques o clusters.


28/57

La CPU debería tener el acceso permitido al bus entre ráfagas, aunque este

acceso puede no ser de la duración necesaria para ahorrarle al sistema la

acusación de ir muy lento durante los I/O (“crawling during I/O”).

Channel I/O (Canal de E/S)La I/O programada transfiere datos un byte por vez. La I/O por interrupciones

puede manejar datos de un byte por vez en pequeños bloques, dependiendo del tipo

de dispositivo que participa en el I/O. Los dispositivos más lentos como losteclados, generan más interrupciones por numero de byte transferido que los

discos o las impresoras. Los métodos DMA son todos orientados a bloques,

interrumpiendo la CPU solo después de terminar (o fallar) la transferencia de un

grupo de bytes. Luego de que el DMA avisa el final del I/O, la CPU puede darle

la dirección para el siguiente bloque de memoria a ser leido o escrito.

En caso de que el evento falle, la CPU solo es responsable por tomar la acción

apropiada. Así la DMA requiere solo un poco menos de participación de la CPU de

lo que las interrupciones. Tal costo está bien para sistemas pequeños de un solo

usuario; sin embargo, no se comporta bien en sistemas grandes de múltiples

usuarios como computadoras mainframe (centrales). La mayoría de las mainframes

utilizan un tipo inteligente de interfaz DMA conocida como I/O channel.

Con channel I/O, uno o más procesadores de I/O controlan varios caminos de I/Ollamados channel paths. Los Channel paths para dispositivos lentos como

terminales e impresoras pueden ser combinados (multiplexados) permitiendo el

manejo de varios de estos dispositivos a través de un solo controlador. En los

mainframes de IBM, un canal multiplexado es llamado un multiplexor channel. Los

canales para discos y otros dispositivos más rápidos se llaman selector channels.

Los canales de I/O son manejado por pequeñas CPUs llamadas I/O processors (IOPs),

las cuales están optimizadas para I/O. A diferencia de los circuitos DMA, los

IOPs tienen la habilidad de ejecutar programas que incluyen lógica aritmética y

bifurcación de instrucciones. Estos ejecutan programas que son ubicados en la

memoria principal del sistema por el procesador servidor. Estos programas

consisten en una serie de channel command words

(CCWs), que incluyen no solo las instrucciones de la transferencia actual,sino también comandos que controlan los dispositivos de I/O. Estos comandos

incluyen cosas como varios tipos de inicialización de dispositivos, eyección de

páginas de la impresora, y comandos para rebobinar cintas, para nombrar algunos.

Una vez que el programa de I/O se ha ubicado en memoria el servidor expide un

comando de start subchannel (SSCH), informando al IOP de la ubicación en memoria

donde puede ser encontrado el programa. Después de que el IPO haya completado su

trabajo, ubica la información de terminación en la memoria y envía una

interrupción a la CPU. La CPU obtiene la informción de termiación y realiza las

acciones apropiadas para los códigos devueltos.

La principal diferencia entre el DMA y el channel I/O reside en la inteligencia

del IOP. El IOP negocia protocolos, expide los comandos de los dispositivo,

traduce código de almacenamiento en código de memoria, y puede transferirarchivos completos o grupos de archivos independiente al CPU servidor. El


29/57

servidor solo tiene que crear las instrucciones de programa para la operación

I/O y decirle al IOP donde encontrarlas.

Como la DMA, un IOP debe robar ciclos de memoria del CPU. A diferencia de la DMA

los sistemas de channel I/O están equipados con buses de I/O separados lo cual

ayuda a aislar al servidor de la operación de I/O. Cuando se copia un archivo de

disco a cinta, por ejemplo, el IOP usa el bus de memoria del sistema solo para

hacer el fetch de instrucciones de la memoria principal. El resto de la

transferencia se efectúa utilizando solo el bus de I/O. Debido a su inteligencia

y el aislamiento del bus, channel I/O es utilizado en ambientes de procesamiento

de transacciones de alto rendimiento, donde su costo y complejidad puede ser

justificado.

7.3.2 I/O Bus Operation


30/57

De este diagrama podemos desprender las siguientes ideas:

· Un bus de sistema es un recurso compartido entre muchos componentes de un

sistema de computación.

• El acceso a este recurso compartido debe ser controlado. Por esto se requiere

un bus de control

El bus de memoria y el de I/O pueden ser entidades separadas, de hecho, a menudo

es una buena idea separarlas. Una buena razón para que la memoria tenga su

propio bus es que las transferencias de memoria pueden ser sincrónicas,

utilizando muchos ciclos del CPU para recuperar datos de la memoria principal.

En un sistema que funciona correctamente, nunca es un problema de la memoria

encontrarse offline o mantener el mismo tipo de errores que afectan a los

periféricos, como que le falte papel a una impresora en uso.

Por otro lado, los buses de I/O no pueden operar sincrónicamente. Deben tener en

cuenta el hecho de que los dispositivos de I/O no siempre pueden estar listos

para procesar la transferencia I/O. Los circuitos de control ubicados en el bus

de I/O y en los dispositivos de I/O negocian entre ellos para determinar el

momento en el que cada dispositivo puede usar el bus. Como estos handshakes

tienen lugar cada vez que se accede al bus, los buses de I/O se denominan

asíncronos. Solemos distinguir transferencias sincrónicas de asincrónicas

diciendo que una transferencia sincrónica requiere que tanto el emisor como el

receptor compartan el mismo clock. Pero los protocolos asincrónicos también

requieren un clock para bit timing (temporización de bit?) y para delinear las

transiciones de las señales.

Consideremos, una vez más, la configuración de la figura 7.2. No separamos las

lineas de datos, direcciones y control. La conexión entre el circuito DMA y los


31/57

circuitos de interfaz de los dispositivos puede verse más claramente en la

siguiente figura que muestra los buses individuales de los componentes.

Esta figura detalla como la interfaz del disco se conecta a los tres buses. La

dirección en el bus de datos consiste de un número de conductores individuales

cada uno de los cuales lleva un bit de información. El número de líneas de datos

determina el ancho del bus. Un bus de datos con ocho lineas de datos lleva un

byte por vez. El bus de direcciones tiene suficientes conductores para

identificar unívocamente cada dispositivo en el bus. El grupo de lineas de

control que se muestran es el mínimo que necesitamos para un prop

ósito

ilustrativo. Los buses I/O reales tienen tipicamente más de una docena de líneas


32/57

de control (la PC original de IBM tenía más de 20). Las líneas de control

coordinan las actividades del bus y sus dispositivos asociados. Para escribir

datos en el disco el bus ejecuta la siguiente secuencia de operaciones.

1. El circuito DMA ubica la dirección del controlador de disco en las líneas dedirecciones y levanta las señales de Request y Write.

2. Con la línea de Request levantada, los circuitos decodificadores en elcontrolador leen las líneas de dirección.

3. Al leer su propia dirección, el decodificador habilita los circuitos decontrol del disco. Si el disco está disponible para escribir datos, el

controlador sube la señal en la linea de Ready En este punto, el handshake entre

el controlador y el DMA está completo. Con la señal de Ready levantada, ningún

otro dispositivo puede usar el bus.

4. Los circuitos del DMA ubican los datos en las lineas y bajan la señal deRequest.

5. Cuando el controlador del disco ve la señal baja en Request transfiere elbyte de las lineas de datos al buffer del disco y luego baja la señal de Ready.

Para describir esto de manera más precista, los ingenieros describen la

operación del bus a través de diagramas de tiempo. Las líneas t0 a t10

especifican la duración de las varias señales. En un diagrama de tiempo real se


33/57

asigna una duración exacta a los intervalos de tiempo, usualmente cerca de los

50 ns.

Las señales del bus pueden cambiar solo durante el ciclo de transición de un

clock. Las señales no suben y bajan instantáneamente, esot refleja la realidad

física del bus. Una pequela cantidad de tiempo debe permitirse para que la señal

se estabilice. Este settle time, aunque pequelo, contribuye a los largos restrasos

durante largas transferencias I/O.

Muchos buses I/O reales, no tienen lineas separadas de datos y direcciones.

Debido a la naturaleza asíncrona de los buses de I/O, las líneas de datos pueden

ser usadas para llevar la dirección del dispoisitivo. Todo lo que necesitamos es

agregar otra línea de control que indique si las señales en las líneas de datos

representan direcciones o datos. Este enfoque contrasta con el bus de memoria

donde las direcciones y los datos deben estar disponibles simultáneamente.

7.3.3 Another Look at Interrupt-Driven I/OHasta este punto, hemos asumido que el equipamiento perfiderico se encuentra

inactivo en el bus hasta que un comando para hacer lo contrario aparece en la

línea. En pequeños sistemas de computadoras este enfoque de “habla solo cuando te

hablen” no es muy útil. Implica que toda la actividad del sistema se origina en

el CPU cuando, en realidad, la actividad se origina con el usuario. Para podercomunicarse con la CPU, el usuario tiene que tener una forma de llamar su

atención. Para este fin, los sistemas pequeños emplean I/O por interrupciones.

Todo es lo mismo que en los ejemplos anteriores, excepto que ahora los

periféricos tienen una forma de comunicarse con la CPU. Todo dispositivo

periférico en el sistema tiene acceso a una línea de pedido de interrupción. El

chip de control de la interrupción tiene un input por cada línea de interrupción.

Cuando se detecta una línea de interrupción, el controlador la decodifica y

levanta la entrada Interrupt (INT) del CPU. Cuando el CPU está listo para procesar

la interrupción levanta la señal Interrupt Acknowledge(INTA). Una vez que el

controlador de interrupciones tiene este recocnocimiento, puede bajar su señal

INT.

Los diseñadores de sistemas deben decidir que dispositivos debieran tenerprecedencia sobre otros cuando más de un dispositivo levanta las interrupciones

simultáneamente. Este desición de diseño está cableada en el controlador (hard-

wirerd). Cada sistema que utiliza el mismo SO y controlador de interrupción,

conectará los dispositivos de alta prioridad (como el teclado) a la misma línea

de interrupción. El número de lineas de interrupción es limitado en cada sistema,

y en algunos casos la interrupción puede ser compartida. Las interrupciones

compartidas no causan problemas cuando es claro que ninguno de los dos

dispositivos necesitará la misma interrupción al mismo tiempo. Por ejemplo, un

scanner y una impresora usualmente pueden coexistir perfectamente usando la

misma interrupción. Este no es siempre el caso con un mouse serial y los modems,

donde sin el conocimiento del instalador, podrían usar la misma interrupción

causando comportamientos extraños en ambos.


34/57


35/57

4.1 MARIEAMachine Architecture that is Really Intuitive and Easy

4.1.1 CPU Basics and OrganizationLa computadora manipula datos en código binario. La memoria se usa tanto para

almacenar datos como instrucciones (Von Neumann). La unidad central de proceso

CPU es la responsable de hacer el fetch de las instrucciones, decodificarlas y

realizar la secuencia indicada de operaciones en los datos correctos.Todas las computadoras tienen un procesador central. Esta unidad puede estar

dividida en dos partes. La primera es el datapath, el cual es una red de

unidades de almacenamiento (registros), y unidades aritmético lógicas (para

realizar varias operaciones en los datos) conectados por buses (capaces de mover

data de un lugar a otro) donde el tiempo está controlado por clocks. El segundo

componente de la CPU es la unidad de control control unit, un módulo responsable

por ordenar las operaciones y asegurarse de que los datos correctos están donde

se necesitan en el momento correcto. Juntos, estos componentes realizan las

tareas del CPU: hacer el fetch de las instrucciones, decodificarlas y finalmente

realizar la secuencia indicada de operaciones. El desempeño de una máquina está

directamente relacionado con el diseño del datapath y la unidad de control.

Componentes:

The RegistersLos restistros se utilizan en los sistemas de computación para almacenar una

variedad de datos, como direcciones, program counters, o datos necesarios para

le ejecución del programa. Un registro es un dispositivo de hardware que

almacena datos binarios. Están ubicados en el procesador para que la información

pueda ser accedida muy rápido.

Se pueden utilizar flip-flops D para implementar registros (uno por bit,

conectados juntos al mismo clock).

El procesamiento de datos de la computadora se hace por lo general con un tamaño

fijo de palabra binaria que se encuentra almacenada en los registros. Por lo

tanto la mayoría de las computadoras tienen registros de un cierto tamaño:16,32,64 bits (tipicamente una potencia de 2). Los registros contienen datos,

direcciones o información de control. Algunos registros tienen un propósito

especial y solo pueden contener datos, o solo pueden tener direcciónes o solo

información de control. Otros registros son más genéricos y pueden contener

cualquiera de estas cosas en distintos momentos. La información se escribe en

los registros, se lee de ellos y puede transferirse de uno a otro. Los registros

no se direccionan de la misma manera que la memoria (cada palabra de memoria

tiene una dirección binaria única que comienza con la ubicación 0). Los

registros son direccionados y manipulados por la misma unidad de control. En los

sistemas de computación modernos, hay muchos tipos especializados de registros:

registros para almacenar información, registros para desplazar (shift) datos,

registros para comparar valores y registros que cuentan. Hay registros

“anotadores” que almacenan valores temporarios, registros índice que controla los


36/57

loops de los programas, registros stack pointer que manejan pilas de información

para procesos, registros de status que mantienen el status o modo de operación

(como condiciones overflow, carry o zero), y registros de propósito general que

están disponibles para el programador. La mayoría de las computadoras tiene sets

de registros y cada set se usa de una manera específica. Por ejemplo, la

arquitectura Pentium tiene un conjunto de registros de datos y un conjunto de

registros de direcciones. Algunas arquitecturas tienen conjuntos muy largos de

registros que pueden usarse en formas bastante innovadoras para acelerar la

ejecución de instrucciones.

The ALULa unidad aritmético lógica lleva a cabo las operaciones lógicas como

comparaciones y aritméticas como suma y multiplicación, requeridas durante la

ejecución del programa. Generalmente la ALU tiene dos entradas de datos y una

salida. Las operaciones que se realizan en la ALU usualmente afectan a los bits

en el registro de status (los bits se setean para indicar si ha ocurrido un

overflow por ejemplo). La ALU sabe qué operación realizar porque está controlada

por las señales de la unidad de control.

The Control UnitLa unidad de control es el “policía” o “agente de tráfico” de la CPU. Monitorea

la ejecución de todas las instrucciones y la transferencia de toda la

información. Extrae instrucciones de la memoria, las decodifica y se asegura de

que los datos están en el lugar correcto en el momento correcto, le dice a la

ALU que registros usar, sirve a las interrupciones y enciende la circuitería

correcta en la ALU para la ejecución de la operación deseada. La unidad de

control usa un registro program counter para encontrar la próxima instrucción a

ser ejecutada y un registro de status para llevar la cuenta de los overflows,

carries, borrows y el igual.

4.1.2 The BusEl CPU se comunica con otros componentes a trav

és de un bus. Un

buses un

conjunto de cables que actúan como caminos de datos compartidos para conectar

múltiples subsistemas dentro del sistema. Consiste en múltiples lineas que

permiten el movimiento paralelo de bits. Los buses son de bajo costo pero muy

versátiles y hacen facil conectar nuevos dispositivos entre ellos y al sistema.

En un momento dado, solo un dispositivo (sea un registro, la ALU, la memoria o

algún otro componente) puede usar el bus. Sin embargo, este uso compartido

usualmente resulta en cuellos de botella en las comunicaciones. La velocidad del

bus está relacionada con su longitud, tanto como el número de dispositivos que

lo comparten. Frecuentemente los dispositivos están divididos en las categorías

master y slave, donde el dispositivo master es el que inicia las acciones y el

slave es el que responde a los requerimientos del master.

Un bus puede ser point-to-point, conectando dos componentes espefícos, o un commonpathway que conecta un número de dispositivos, teniendo estos dispositivos que

compartir el bus (conocido como un bus multipoint).


37/57


38/57

Debido a que se comparte, el protocolo del bus (reglas de uso) es muy importante.

Usualmente las lineas del bus que son dedicadas para mover los datos se llaman

el data bus. Estas lineas de datos contienen la información actual que debe ser

transferida de una locación hacia otra. Las líneas de control indican qué

dispositivo tiene permiso para usar elbus y con qué propósito (leer o escribir

desde memoria, o de un dispositivo I/O por ejemplo). También transfieren “acuse

de recibo” de los pedidos del bus, interrupciones y las señales de

sincronización del clock. Las líneas de direcciones indican la ubicación (en

memoria, por ejemplo) de los datos que tienen que ser leidos o escritos. Las

power lines proveen la energía eléctrica necesaria. Típicamente las transacciones

del bus incluyen enviar direcciones (para leer o escribir), transferir data de

memoria a un registro (una lectura en memoria), transferir data de un regis