Hierarquia de memória

5/11/2018 Hierarquia de memória - slidepdf.com

http://slidepdf.com/reader/full/hierarquia-de-memoria-55a0c8ef333c3 1/61

Microarquiteturas de Alto Desempenho

Microarquiteturas de AltoDesempenho

DCC-IM/NCE UFRJPós-Graduação em Informática

Hierarquia de Memória

Gabriel P. Silva




Introdução

• Os programadores sempre ambicionaramter quantidades ilimitadas de memóriarápida.

• Contudo, as memórias rápidas são de altocusto e, normalmente, de pequenacapacidade também.

• Uma solução é a organização do sistema dememória em uma hierarquia, com diversosníveis, onde memórias cada vez maisrápidas, menores e com um custo por bytemaior, são colocadas nos níveis mais altos.




Introdução

• O objetivo é fornecer um sistema dememória com um custo próximo daqueledo nível mais baixo da hierarquia, evelocidade próxima daquela do nível mais

alto.• Os níveis de hierarquia mais altos

normalmente são um subconjunto dosníveis mais baixos.

• À medida que a informação vai sendoutilizada, ela vai sendo copiada para osníveis mais altos da hierarquia dememória.





REGISTRADORES

MEMÓRIACACHE

MEMÓRIAPRINCIPAL

MEMÓRIASECUNDÁRIA

CUSTO

TEMPO DE ACESSO/CAPACIDADE

+

+





REG.

CACHE

MEMÓRIAPRINCIPAL

MEMÓRIASECUNDÁRIA

GB

MB

KB

B

PÁGINAS – S.O

LINHAS - HW

REG.- COMPILADOR

0,3 ns

3 ns

30 ns

3 ms





• Note que a cada nível que se sobe nahierarquia, endereços de uma memóriamaior são mapeados para uma memóriamenor.

• Junto com esse mapeamento estáassociadoa uma função de proteção,evitando que dados de um usuário sejammodificados por outro.

• A importância da hierarquia de memóriaaumentou nos últimos anos devido aoaumento no desempenho dosprocessadores.




Velocidade dos Processadores xMemórias

0

20

40

60

80

100

120

140

1985 1990 2000 2005

Processadores

Memórias




Conceitos de Localidade

• O funcionamento da hierarquia de memóriaestá fundamentado em duas característicasencontradas nos programas.

• Existe uma grande probabilidade de oprocessador executar os mesmos trechos decódigo e utilizar repetidamente dadospróximos

• A essa qualidade dos programas

denominamos:– Localidade Temporal– Localidade Espacial




Conceitos de Localidade

• Localidade temporal: posições de memória,uma vez referenciadas (lidas ou escritas) ,tendem a ser referenciadas novamentedentro de um curto espaço de tempo.

– Usualmente encontrada em laços de instruções eacessos a pilhas de dados e variáveis• Localidade espacial: se uma posição de

memória é referenciada, posições dememória cujos endereços sejam próximos da

primeira tendem a ser logo referenciados. – A informação é manipulada em blocos no sistema dehierarquia de memória para fazer uso da localidadeespacial.





• No início dos tempos o único nível quepossui informação válida é o mais inferiorde toda a hierarquia, composto dedispositivos de armazenamento não

voláteis.• Na medida em que a informação vai sendoutilizada, ela é copiada para os níveis maisaltos da hierarquia.

• Quando fazemos um acesso a um nível dahierarquia e encontramos a informaçãodesejada, dizemos que houve um acerto,em caso contrário dizemos que houve uma

falha.





• Acessos que resultam em acertos nosníveis mais altos da hierarquia podem serprocessados mais rapidamente.

• Os acessos que geram falhas, obrigando a

buscar a informação nos níveis mais baixosda hierarquia, levam mais tempo paraserem atendidos.

•Para um dado nível da hierarquia possa

ser considerado eficiente é desejável que onúmero de acertos seja bem maior do que onúmero de falhas.





• Define-se como taxa de acertos (h) arelação entre o número de acertos e onúmero total de acessos para um dado nívelda hierarquia de memória.

h = número acertos / total de acessos

• O total de acessos inclui tanto os acessosde leitura como os de escrita.





•O tempo de acesso com acerto é o temponecessário para buscar a informação em umdado nível de hierarquia, que inclui o temponecessário para determinar se o acesso à

informação vai gerar um acerto ou umafalha.

• A penalidade por falha ou tempo acessocom falha é o tempo necessário para buscar

a informação nos níveis inferiores dahierarquia, armazená-la no nível atual eenviá-la para o nível superior.




Taxa de Acerto

• Taxa de Acerto h: probabilidade de que umaposição referenciada seja encontrada em dado nívelda hieraquia de memória.

Ta = tempo de acesso com acerto

Tf = tempo de acesso com falhaTma = tempo médio de acesso

Tma = h*Ta +(1 – h)*Tf

Se Ta = 10 ns

Tf = 80 nsh = 0,85 então Tma = 20,5 ns

Se h = 1 então Tma = Ta




Componentes da Hierarquia

• Os elementos mais importantes da umahierarquia de memória são:

– Registradores– Memória Cache

– Memória Principal

– Memória Secundária




Registradores

• Os registradores estão localizados nonúcleo do processador. São caracterizadospor um tempo de acesso menor que umciclo de relógio e sua capacidade é da

ordem de centenas de bytes.• O controle de qual informação deve estarnos registradores é feita explicitamentepelo compilador, que determina quaisvariáveis serão colocadas no registrador.

• É o único nível da hierarquia que permitemovimentações iguais apenas ao tamanhoda informação desejada.




Memória Cache

Processador

Cache

Memória Principal

Memória Cache: Elemento de memória intermediárioentre o Processador e a Memória Principal




Funcionamento da Cache

• O processador inicia a busca a instruçãoou dados na memória cache.

• Se os dados ou a instrução estiverem na

cache (denomina-se acerto), a informaçãoé transferida para o processador.• Se os dados ou a instrução não estiverem

na memória cache (chama-se falha), entãoo processador aguarda, enquanto ainstrução/dados desejados sãotransferidos da memória principal para acache e também para o processador.





• Durante a busca da palavra que estáfaltando na cache, é trazido um bloco (oulinha) inteiro da memória principal, aoinvés de apenas uma palavra.

• O objetivo é minimizar a taxa de falhasnos próximos acessos, seguindo oprincípio da localidade espacial.

• O tamanho de um bloco é um parâmetrode projeto na memórias caches, tamanhosusuais são 32, 64 e 128 bytes.





• É necessário guardar o endereço do bloco,ou parte dele, para permitir a identificaçãodos blocos que estão armazenados nacache.

• No momento em que for feita uma leiturade dados ou instrução pelo processador,os endereços armazenados na cache sãocomparados com o endereço fornecidopelo processador, para saber se houve um

acerto ou falha.• Caso haja acerto, a informaçãoarmazenada na memória cache é fornecidapara o processador, evitando a ida àmemória principal.




Memória Cache

• As células de memória da cache sãoelaboradas com tecnologia que permiteum tempo de acesso menor que o memóriaprincipal.

• Normalmente são células de memóriaestática (SRAM), com menor capacidade,porém maior custo e maior velocidade.

• Associado a essas memórias está umcontrolador, normalmente uma máquina deestados, que faz o controle datransferência dos blocos de/para amemória principal.




Memória Principal

• A memória principal é constituída porcélulas de memória dinâmica (DRAM).

• As memórias DRAM tem grandecapacidade de armazenamento, mas sãomais lentas que as memórias estáticas.

• As memórias DRAM possuem tambémtempos de acesso distintos para leitura eescrita, e necessitam de uma lógica de

restauração (“refresh”), quer embutida oufora da pastilha, que afetam o tempomédio de acesso.




Memória Secundária

• A memória secundária é o último nível dahierarquia de memória. É composta pelosdispositivos de armazenamento de massa,normalmente discos rígidos, de grande

capacidade e menor custo por bytearmazenado.

• Os programas e arquivos sãoarmazenados integralmente na memória

secundária, que são dispositivos dememória não volátil.




Memória Virtual

• O controle de qual informação devepermanecer na memória principal ou namemória secundária é feito pela MemóriaVirtual.

• A memória virtual é um conjunto de“hardware” e de rotinas do sistemaoperacional. Além do controle dahierarquia entre a memória principal e amemória secundária, ela realiza a

proteção, evitando que um programamodifique informações que pertençam aalgum outro.




Memória Virtual

• Finalmente, a memória virtual também faza translação de endereços virtuais emendereços reais, já que os programasnormalmente enxergam um espaço de

endereçamento maior que a memóriafísica.• As translações mais freqüentes ficam

armazenadas em uma pequena memóriaassociativa chamada TLB.

• O método mais usual utilizado pelamemória virtual é a divisão do espaço deendereçamento em páginas de tamanhofixo, que são a unidade de transferênciaentre o disco e a memória principal.




Aspectos Operacionais Comuns

• Apesar de muitos aspectos doscomponentes da hierarquia de memóriadiferirem quantitativamente, muitas daspolíticas e das características são

semelhantes em termos qualitativos:– Onde se colocar uma linha ou página?

– Qual o tamanho de uma linha ou página?

– Como encontrar uma linha ou página?

– Qual das linhas/páginas deve ser substituídaquando ocorrer uma falha e não houver espaço?

– O que acontece em uma escrita?




Onde Colocar um Bloco?

• Esta questão afeta apenas a memória cache, já queo método utilizado pela memória virtual é omapeamento totalmente associativo.

• Ou seja, no caso da memória virtual uma página doprograma pode ser colocada em qualquer posição

da memória física.• Em nosso estudos, consideramos que a capacidade

da memória cache será sempre dada em múltiplointeiro de linhas / blocos.

• Existem três maneira possíveis de tratar este

problema, chamadas de mapeamentos:– Mapeamento Totalmente Associativo– Mapeamento Direto– Mapeamento Associativo por Conjunto





• Mapeamento completamente associativo – Um bloco da memória principal pode ser armazenado em

qualquer linha da memória cache.

•

Mapeamento direto – Cada bloco da memória principal só pode ser mapeado em

uma única linha da memória cache. Normalmente utilizam-seos bits menos significativos do endereço do bloco para definirqual será esta linha.

• Mapeamento associativo por conjunto – Cada bloco da memória principal pode ser armazenado apenas

em um determinado conjunto de linhas da cache.




Mapeamento

Direto

Hennessy & Patterson





• Mapeamento Totalmente Associativo– Todos os blocos da memória principal podem ser

armazenados em qualquer linha na cache;– Existe 1 único conjunto na memória cache;

– O número de linhas por conjunto é igual acapacidade total de linhas da cache.

• Características– Demorado para descobrir se um bloco reside ou

não na cache;

– A substituição de uma linha só é necessáriaquando a cache está totalmente cheia;

– O endereço do bloco deve ser totalmentearmazenado junto com a linha;





• Mapeamento Direto– Cada bloco só pode ocupar uma determinada linha nacache, definida pelo seu índice, que são os bits maisbaixos do endereço de memória do bloco;

– Existem tantos conjuntos quantos forem as linhas dacache;

– Existe apenas 1 linha em cada conjunto.• Características

– Rápido para descobrir se um bloco está presente nacache;

– Pode ocorrer que dois blocos freqüentementereferenciados estejam mapeados na mesma linha dacache;

– Apenas parte do endereço precisa ser armazenadaprecisa ser armazenada junto com o bloco na cache.




Mapeamento Direto

Hennessy & Patterson





• Mapeamento Associativo por Conjunto– Cada bloco pode ser armazenado em um

determinado conjunto de linhas da cache.– O número de linhas que existem em cada

conjunto é definido como a associatividade(normalmente de 2 a 8) da cache.

– O número de conjuntos é dado pela fórmula:• Número de linhas na cache / associatividade

• Características– Reduz as chances de conflito.– É rápido para descobrir se um bloco está

armazenado na cache.





• A vantagem de se aumentar o grau deassociatividade é a conseqüente queda nataxa de falhas.

• Isso se deve a uma menor competição

pela mesma posição na memória cache.• Essa melhora é tão mais significativa

quanto menor for a capacidade damemória cache.

• As desvantagens de se aumentar aassociatividade são um ligeiro aumento nocusto e no tempo de acesso.




Qual o Tamanho um Bloco?

• Tamanhos de bloco/páginas maiorestendem a fazer uso melhor da localidadeespacial, aumentando a taxa de acerto.

• Contudo, o uso de bloco maiores nasmemórias caches tende a aumentar apenalidade por falha.

• Tamanhos típicos de blocos situam-seentre 16 e 128 bytes.

• Uso de páginas maiores tende a diminuir o

tamanho da tabela de páginas,melhorando a penalidade por falha dasTLBs.

• Tamanhos típicos de páginas situam-seentre 1K a 16 Kbytes.




Como Encontrar um Bloco?

• A forma de localização de um blocodepende do esquema de mapeamentoutilizado.

• No caso do mapeamento direto énecesário apenas uma comparação.

• No caso do mapeamento associativo, sãonecessárias tantas comparações quantoforem os blocos/linhas em cada conjunto.

• No caso das memórias totalmente

associativas, é necessário que todas asposições da memória cache sejamcomparadas.

• Normalmente essas comparações sãorealizadas em paralelo por várioscircuitos.





• Nos sistemas de memória virtual,mantém-se uma tabela de mapeamento,chamada de tabela de páginas, paraindexar a memória principal.

• Esta tabela contém todas as translaçõesde endereços virtuais para endereçosfísicos de todas as páginas em uso.

• Caso a página não esteja carregada na

memória, a posição correspondente namemória principal é marcada comoinválida.





• Para cada acesso seria necessário umacesso extra à memória para consulta àtabela de páginas.

• Para solucionar este problema, utiliza-seuma pequena memória totalmenteassociativa (TLB), localizada junto aoprocessador, que guarda as translaçõesrealizadas mais freqüentemente.

• Uma vez feito o primeiro acesso, a

translação é armazenada e todos osdemais acessos a essa página podem serfeitos sem atrasos adicionais relativos àtranslação.




Esquema de Memória VirtualPaginada

Endereço Virtual

Endereço daPágina está no

TLB ?

Busca Endereço na Tabela dePáginas na Memória

A página estápresente namemória?

Busca Página no Disco

Atualiza a Tabela dePáginas

Atualiza a TLB

Faz Acesso à Memória

SIM

NÂO

SIM

NÃO

Page Miss

Page Fault

Forma o Endereço Real




Qual Bloco deve ser Substituído?

• Em uma cache de mapeamento direto háapenas 1 bloco por conjunto. Quandoocorre uma falha é este o bloco que vai sersubstituído.

• Nas caches associativas, caso todas asposições do conjunto estejam ocupadas, énecessário escolher qual dos blocos doconjunto vai ser substituído, segundo umadas políticas:– Aleatória– LRU– FIFO




Algoritmos de Substituição

Algoritmo de Substituição Aleatório (randômico)– Um bloco é escolhido aleatoriamente para ser

substituído. É uma política de fácil implementação, masgera problemas de desempenho em esquemastotalmente associativos.

Substituição por Fila FIFO (first-in first-out)– O bloco que está há mais tempo na cache é removido.Menos simples de implementar e pode diminuir a taxade acerto quando o bloco mais antigo ainda estiversendo muito utilizado.

Substituição LRU (Least Recently Used)– O bloco a ser substituído é aquele que não é

referenciado há mais tempo. É o esquema de melhordesempenho, mas cuja implementação é a maiscomplexa.




Qual Página deve serSubstituída?

• No sistema de memória virtual, utilizam-se osmesmos algoritmos para decidir qual a página quedeve ser removida da memória.

• Um bit de modificado na tabela de páginas indica sea página removida deve ser atualizada em disco.

• Nos modernos sistemas operacionais, para cadaprocesso, apenas um subconjunto de suas páginas émantido em memória. Ele é denominado de“conjunto de trabalho”.

• O universo das páginas candidatas à substituição

pode ser local (do mesmo conjunto de trabalho) ouglobal (todas as páginas de todos os processos namemória são analisadas).




O que Acontece na Escrita?

• Ao ser escrever em um bloco, temos duaspolíticas básicas em caso de acerto:

– Write-through (Cache)

• Escreve-se o dado no nível da hierarquia atuale no inferior

– Write-back (Memória Virtual e Cache)• Escreve-se o dado apenas no nível de

hierarquia atual e, quando o bloco ou páginafor substituído, ele é atualizado no nívelinferior.




Write-through

– As falhas são mais simples de tratar,pois nunca há necessidade de escrever-se todo o bloco no nível mais inferior dahierarquia, apenas a palavra sendo

atualizada.– Essa técnica é mais simples de seimplementar.

– Quando existe mais de uma cache no

mesmo barramento, permite aimplementação fácil de técnicas de“snooping” para a manutenção dacoerência entre as caches.




Write-back

– As palavras podem ser escritas navelocidade da cache, ao invés damemória principal;

– Várias escritas para o mesmo bloco sãoatualizadas em uma única operação nonível mais inferior da hierarquia;

– Uso de transferências em rajada paraatualização do bloco no nível dehierarquia inferior;

– Quando houver mais de uma cache nobarramento, há a necessidade de seadotar protocolos mais complexos paraa manutenção da coerência das caches.




Write-back

– Esses protocolos visam forçar acolocação no barramento deinformações sobre operações de escritasempre que necessário, pois a memóriaprincipal nem sempre possui uma cópia

válida do bloco que está sendosolicitado.– Esses protocolos definem a

responsabilidade sobre quem devefornecer um bloco de dados quando umaoperação de leitura com falhas ocorre.

– No caso de memória virtual, o algoritmoutilizado para atualização das páginasem disco é sempre o “write-back”.




O que Acontece na Escrita?

• Se houver uma falha, duas estratégias sãopossíveis de se utilizadas:– Write Allocate

• O bloco onde vai ser feita a operação deescrita é trazido primeiramente para a

memória cache e a operação de escrita éentão realizada.– No Write Allocate

• O bloco a ser escrito não é trazido para amemória cache e, portanto, a operação deescrita sempre se realiza apenas na memóriaprincipal.

– Usualmente a política write allocate é adotadacom o modo write back e a política no writeallocate com o modo write through.




Cache Virtual

• Endereços virtuais dos blocos de memóriasão armazenados na cache.• A leitura do bloco na cache pode ser feita

em paralelo com a conversão do endereçovirtual em físico pela gerência dememória.

• Existe a possibilidade de ocorrência de“aliasing”: dois ou mais endereços virtuaisidênticos gerados por processos

diferentes, que se referem a endereçosfísicos distintos precisa ser realizadoum flush a cada troca de processo.

• De uso difícil em ambientes com múltiplosprocessadores.




Cache Físico

• Os endereços físicos dos blocos dememória são armazenados na cache.• O tempo de acesso é mais lento porque o

acesso à cache deve ocorrer após a

conversão do endereço virtual em físico.• Mais simples de implementar e usar emambientes com múltiplos processadores.




Caches de Dados e Instruções

Memória Principal

Cache deInstruções

Cache deDados

Unidade de Buscade Instruções

Unidade de Acessoà Memória

Instruções Dados

PROCESSADOR




Caches de Dados e Instruções

• Dados e instruções: cache unificada x cachesseparadas.

• Vantagens das caches separadas:– política de escrita só precisa ser aplicada à cache

de dados;– caminhos separados entre memória principal ecada cache, permitindo transferênciassimultâneas (p.ex. quando o processador possuium pipeline);

– Estratégias diferentes para cada cache: tamanhototal, tamanho de linha, organização.• Caches separadas são usadas, p.ex., no Pentium e

no 68040.




Processador

Cache Multinível

Memória Principal

Cache deInstruções Cache deDados CACHENÍVEL 1

Cache UnificadaCACHE

NÍVEL 2




Processador

Cache Multinível

Cache Unificada

Memória Principal

CACHENÍVEL 1


NÍVEL 2




Processador

Cache Multicore

Memória Principal



NÍVEL

2

Processador


Cache deDados

Cache Unificada




Processador

Cache Multicore

Memória Principal


CACHE

NÍVEL

2

Processador


Cache deDados

Cache Unificada




Cache Multinível

• Manter a cache de nível 1 pequena e muitorápida, acompanhando o relógio da CPU.• Utilizar um cache de nível 2 grande, mas

não tão rápida, mas capaz de reduzir a

penalidade das falhas.

• Normalmente utiliza-se a cache de nível 1separada para dados e instruções e acache de nível 2 unificada.

)T )h( +h(T )h( +hT =T misshit hit

m 222211111 ×−××−×




Os Três Cs

• Falhas Compulsórias: São faltas no acessoà cache, causadas pelo primeiro acessoque nunca esteve na cache.

• Falhas devido à Capacidade: São faltas que

ocorrem porque a cache não podearmazenar todos os blocos necessários àexecução de um programa.

• Falhas por Conflitos ou Colisão: São faltas

que ocorrem no acesso à cache quandodiversos blocos competem pelo mesmoconjunto. Não ocorrem em cachestotalmente associativas.




Comparação de Caches

L1 – (64 KB + 64 KB) (int.)

L2 – 512 KB (int.)

AMD ATHLON

L1 – (64 KB + 64 KB) (int.)L2 – 64 KB (int.) (excl.)

AMD DURON

L1 – (12 K µ op + 8KB) (int.)L2 – 512 KB (int.)

Intel PENTIUM IV HT

L1 – (16 KB + 16KB)

L2 – 256 KB (int.) ou

512 KB (ext.)

Intel PENTIUM III

L1 – (12 K µop + 16KB) (int.)

L2 – 256 KB (int.)

Intel CELERON

TAMANHO DA CACHEPROCESSADOR




Comparação entre os Diversos Níveis

WBWT ou WBWT ou WBFlushPol. Escrita

LRUAleatória-AleatóriaSubst. Blocos

TotalmenteAssoc.Direto/Assoc. Conj.

DiretoTot. Assoc./Assoc. Conj.Colocação dosBlocos

16M – 64G256K – 16M1 – 128 K32 – 8KTamanho

(bytes)

700K – 6M30 – 2008 – 6610 – 30PenalidadeMiss (Ciclos)

10 –1006 – 151—21Tempo de Hit

(Ciclos)

4K – 16K32 – 2564 – 324 – 8Tam. Bloco

(bytes)

Mem.

Virtual

Cache L2Cache L1TLB




Exercícios

• Utilize o simulador “sim-cache”, da versão3.0 do SimpleScalar. Escolha um programainteiro e outro de ponto flutuante da suíteSPEC95. Faça uma variação da

associatividade entre 1 e 8, e calcule a taxade acerto para caches com capacidades de16, 32, 64 e 128 Kbytes. Considere umtamanho de bloco com 16 bytes. Apresenteum gráfico e comentários sobre os dados

obtidos.



Referências

2. “Organização e Projeto de Computadores – AInterface Hardware/Software “ David A. Patterson eJohn L. Henessy, Editora LTC, 2ed.

3. “Cache Memories” Alan Jay Smith, ACM Computing

Surveys, Volume 14 Issue 3, September 1982

Documents

Hierarquia de memória