Projektowanie energooszczędnych systemów wbudowanych · Jan M. Rabaey Low Power Design Essentials ©2008 Preface Low Power Design Essentials ©2008 4 Goals of this Book Provide

2019-10-28

1

Projektowanie energooszczędnych systemów wbudowanych

dr inż. Ireneusz Brzozowski

C-3, p. 512

WIET KATEDRA ELEKTRONIKI

Elektronika i Telekomunikacja

www.agh.edu.pl

Redukcja strat energii w układach cyfrowych CMOS

• Wstęp: moc i energia – podstawy

• Redukcja dynamicznych strat energii

• Redukcja statycznych strat energii

EiT 2017/18 PESW: Redukcja strat mocy w cyfrowych układach VLSI 2

http://www.agh.edu.pl/

2019-10-28

2

Jan M. Rabaey

Low Power Design Essentials ©2008

Preface

Low Power Design Essentials ©2008 4

Goals of this Book

Provide an educational perspective on

low-power design for digital integrated

circuits

Promote a structured design methodology

for low-power/energy design

Traverse the levels of the design hierarchy

Explore bounds and roadblocks

Provide future perspectives

2019-10-28

3


An Innovative Format

Pioneered in W. Sansen’s “Analog Design

Essentials” book (Springer)

PowerPoint slides present a quick outline

of essential points and issues, and provide

a graphical perspective

Side notes provide depth, explain

reasonings, link topics

Supplemented with web-site: http://bwrc.eecs.berkeley.edu/LowPowerEssentials

An ideal tool for focused-topic course

Książka na stronie wydawcy: https://link.springer.com/book/10.1007/97

8-0-387-71713-5

Jan M. Rabaey

Low Power Design Essentials ©2008

Moc i Energia – podstawy

tłumaczenie: I. Brzozowski

http://bwrc.eecs.berkeley.edu/LowPowerEssentials/index.html

http://bwrc.eecs.berkeley.edu/LowPowerEssentials/index.html

https://link.springer.com/book/10.1007/978-0-387-71713-5

2019-10-28

4


Miary

Czas opóźnienia (sekunda [s]): – Miara wydajności

Energia (dżul [J]) – Miara efektywności:

wysiłek potrzebny do wykonania zadania

Moc (wat [W]) – Energia konsumowana na jednostkę czasu

Moc*opóźnienie (dżul [J]) – Parametr technologiczny – mierzy efektywność wykonania jakiejś

operacji w danej technologii

Energia*opóźnienie = moc*opóźnienie2 (dżul-sekunda2 [Js])

– Łączy miary wydajności i energii – współczynnik dobroci (figure of merit) stylu projektowania

Inne: Energia*opóźnienie n (dżul-sek.n [Jsn]) – Zwiększona waga wydajności nad energią

Miary

podstawowe

P=E/t


Gdzie moc jest tracona w CMOS?

Aktywne (dynamiczne) straty mocy

– (Roz)ładowanie pojemności

– Straty quasi-zwarciowe

Układy pull-up i pull-down są włączone podczas

przełączenia

Statyczne (upływność) straty mocy

– Tranzystory nie są idealnymi przełącznikami

Statyczne prądy

– Prądy polaryzacji (bias)

2019-10-28

5


Aktywne (lub dynamiczne) straty mocy

Źródła:

Ładowanie i rozładowanie pojemności

Chwilowe szpilki (hazardy dynamiczne)

Prądy quasi-zwarciowe

Kluczowa własność mocy czynnej :

fPdyn

gdzie f to częstotliwość przełączeń


Dynamiczne straty mocy

Moc = Energia/przełączenie • Współczynnik przełączeń = CLVDD

2 • f01 = CLVDD

2 • f • P01

= CswitchedVDD2 • f

pojemność efektywna: CLeff = CL to: średnia wartość pojemności

w układzie, która jest ładowana w każdym cyklu zegara

Straty mocy są zależne od danych - zależą od

prawdopodobieństwa przełączania

Pojemność przełączeniowa Cswitched = P01CL= CL

( jest nazywany aktywnością przełączeniową)

2019-10-28

6


Wpływ funkcji logicznej

A B Out

0 0 1

0 1 0

1 0 0

1 1 0

Przykład: statyczna 2-wej, bramka NOR

Załóżmy prawdopodobieństwo sygnału

pA=1 = 1/2

pB=1 = 1/2

Wtedy prawdopodobieństwo przejścia

p01 = pOut=0 * pOut=1 =

= 3/4 * 1/4 = 3/16

NOR = 3/16

Jeśli wejście przełącza się w każdym cyklu

Bramka NAND ma podobny wynik


Wpływ funkcji logicznej

A B Out

0 0 0

0 1 1

1 0 1

1 1 0

Przykład: statyczna 2-wej, bramka XOR

Załóżmy prawdopodobieństwo sygnału

pA=1 = 1/2

pB=1 = 1/2

Wtedy prawdopodobieństwo przejścia

p01 = pOut=0 * pOut=1 =

= 1/2 * 1/2 = 1/4

P01 = 1/4

Jeśli wejście przełącza się w każdym cyklu

2019-10-28

7


Prawdopodobieństwo przejść dla bramek

p01

AND (1 - pApB)pApB

OR (1 - pA)(1 - pB)(1 - (1 - pA)(1 - pB))

XOR (1 - (pA +pB – 2pApB))(pA + pB – 2pApB)

Aktywność dla statycznych bramek CMOS

= p0 p1

Jako funkcja prawdopodobieństwa sygnałów wejściowych

nie ma „2” jak w

innych książkach


Aktywność jako funkcja topologii

NOR,NAND = (2N-1)/22N XOR = 1/4

XOR

NAND/NOR

Pra

wd. p

rze

jścia

0

1

Liczba wejść do bramki

XOR versus NAND/NOR

Aktywność:

2019-10-28

8


Obliczanie aktywności i problemy

Omówione na 1-szym wykładzie

Metody obliczania

Problemy: korelacje przestrzenne i czasowe,

hazardy i szpilki



(zwane także prądami zwarciowymi [ang. crowbar currents])

V in Vout

CL

VDD

Isc

vin

VDD -VT

ishort

VT

t

t

I peak

Tranzystory PMOS i NMOS przewodzą jednocześnie

podczas przełączania bramki

Psc ~ f

2019-10-28

9



Wyrównanie czasów narastania/opadania sygnałów wejściowego i wyjściowego może ograniczyć Psc do 10-15% dynamicznych strat mocy

duże obciążenie (duże CL)

małe obciążenie (małe CL)

V in

V out

C L

V DD

I sc ~ 0

V in V out

C L

V DD

I sc = I MAX

time (s) 0 20

- 0.5

0

0.5

1

1.5

2

2.5

40 60

x 10 - 4

C L = 20 fF

C L = 100 fF

C L = 500 fF

[Ref: H. Veendrick, JSSC’84]


Modelowanie quasi-zwarciowych strat mocy

Mogą być modelowane jako pojemność

)( bakCout

inSC =

a, b: parametry technologiczne

k: funkcja napięć: zasilania i progowego oraz wymiarów tranzystora

2DDSCSC VCE =

Może być łatwo włączony do modelu czasowego i poboru mocy

fVCP DDSCSC

2=

2019-10-28

10


Upływność tranzystorów – straty statyczne

Upływność drenu

– Prądy dyfuzyjne

– Obniżenie bariery indukowane drenem (DIBL)

Upływności złączowe

– Upływność drenu indukowana bramką (GIDL)

Upływność bramki

– Tunelowanie prądu przez cienki tlenek


Więcej szczegółów na ten temat można znaleźć w książce.

Składniki strat statycznych - szczegółowo

Upływność podprogowa drenu a napięcie

progowe

Upływność jest silnie zależne od napięcia drenu

(głównie z powodu DIBL)

„Efekt stosu” – szeregowe połączenie

tranzystorów

Tunelowanie podbramkowe

Inne składniki

2019-10-28

11


– aktywność przełączeniowa

CL – pojemność obciążająca

CCS – pojemność quasi-zwarciowa

Vswing – amplituda napięcia

f – częstotliwość

DDLeakDCDDswingCSL VIIfVVCCP ~

IDC – prąd statyczny

Ileak – prąd upływu

statycznamoctempooperaja

energiaP =

Źródła rozpraszania mocy – podsumowanie


Tradycyjna filozofia projektowania

Główny cel to maksymalna wydajność

– Minimalne opóźnienie na poziomie układu.

Architektura realizuje wymaganą funkcjonalność

z żądaną wydajnością (opóźnieniem).

Wydajność jest osiągnięta dzięki optymalnemu

doborowi wymiarów, mapowaniu logicznemu

(technologicznemu) i przekształceniom

architektury.

Wybór napięć zasilania i progowych, tak aby

osiągnąć maksymalną wydajność z zastrzeżeniem

ograniczeń niezawodności.

2019-10-28

12


Optymalizacja wydajności w CMOS

Rozszerzalne do ogólnej logiki przez ‘logical effort’

Równe efektywne obciążenie (giCi+1/Ci) na stopień

Przykład: dekoder pamięci

CL

CL

predecoder

3 15

CW

word driver

addrinput

wordline

[Ref: I. Sutherland, Morgan-Kaufman‘98]

Skalowanie (wymiarowanie): optymalna wydajność z równomiernym obciążeniem stopni


Model już niewłaściwy

Tradycyjny model skalowania

CVDDf2

3.1)7.0

1()7.0()14.1

7.0

1(Power 22 ===

1),

7.0(Freqand,7.0VDDIf ==

CVDD 8.1)2()7.0()14.17.0

1(fPower

,2Freqand,7.0VDDIf

222 ===

==

CVDD 7.2)2()85.0()14.17.0

1(fPower

,2Freqand,85.0VDDIf

222 ===

==

Model utrzymujący skalowanie częstotliwości

Ograniczone skalowanie napięcia (w dół)

2019-10-28

13


Nowa filozofia projektowania

Maksymalna wydajność (w odniesieniu do

opóźnienia) jest zbyt energochłonna i/lub

nawet praktycznie nieosiągalna.

Dużo (jeśli nie wszystkie) aplikacje albo mogą

akceptować dłuższy czas wykonania albo

mogą pracować z mniejszą szybkością zegara

niż maksymalna.

Nadwyżka wydajności (oferowana przez

technologię) będzie wykorzystana do redukcji

energii/mocy.

Wymiana szybkości za moc


1 2

3 4

-0. 4 0

0.4 0.8

0

0.2

0.4

0.6

0.8

1 x 10

-4

Po

wer

(W

)

A

B

1 2

3 4

-0.4 0 0.4

0.8

0

1

2

3

4

5 x 10

-10

Del

ay

(s)

A B

Dla danego poziomu aktywności moc jest zmniejszana, a opóźnienie

pozostaje niezmienione, jeśli oba VDD i VTH są zmniejszane,

np. przesuwając się z A do B.

Zależność pomiędzy mocą i opóźnieniem

[Ref: T. Sakurai and T. Kuroda, numerous references]

2019-10-28

14


Przestrzeń energia-opóźnienie

VTH

VD

D

Krzywa równej wydajności

Minimum energii

Krzywa

równej

energii


Iloczyn energia-opóźnienie jako miara

opóźnienie

energia

energia-opóźnienie

technologia 90 nm

VTH około 0,35 V

Parametr energia-opóźnienie osiąga minimum przy około 2 VTH

(typowo, jeśli nie dominuje upływność)

0.6 0.7 0.8 0.9 1 1.1 1.2 0

0.5

1

1.5

2

2.5

3

3.5

VDD

2019-10-28

15


W przestrzeni ograniczonej energii projektowanie jest

procesem poszukiwania kompromisu

♦ Minimalizacja energii dla danych wymagań wydajności

♦ Maksymalizacja wydajności dla danego budżetu energetycznego

opóźnienie

Projekt

nieoptymalny

Dmax Dmin

energia

Emin

Emax Pareto-optymalny

projekt

[Ref: D. Markovic, JSSC’04]

Odkrywając przestrzeń energia-opóźnienie


Podsumowanie

Moc i energia są teraz głównymi ograniczeniami

projektowymi

Moc czynna nadal dominuje w większości

układów (aplikacji)

– Napięcie zasilania, aktywność układu i pojemność są

kluczowymi parametrami

Upływność staje się główny czynnikiem w

technologiach poniżej 100 nm

– Napięcie zasilania i progowe mają największy wpływ

Projektowanie stało się problemem znalezienia

kompromisu energia-opóźnienie!

2019-10-28

16


References

D. Markovic, V. Stojanovic, B. Nikolic, M.A. Horowitz, R.W.

Brodersen, “Methods for True Energy-Performance Optimization,”

IEEE Journal of Solid-State Circuits, vol. 39, no. 8, pp. 1282-1293,

Aug. 2004.

J. Rabaey, A. Chandrakasan, B. Nikolic, “Digital Integrated Circuits:

A Design Perspective,” 2nd ed, Prentice Hall 2003.

Takayasu Sakurai, ”Perspectives on power-aware

electronics,” Digest of Technical Papers ISSCC, pp. 26-29, Febr.

03.

I. Sutherland, B. Sproull, and D. Harris, “Logical Effort”, Morgan

Kaufmann, 1999.

H. Veendrick, “Short-Circuit Dissipation of Static CMOS Circuitry

and its Impact on the Design of Buffer Circuits,” IEEE Journal of

Solid-State Circuits, Vol. SC-19, no. 4, pp.468–473, 1984.

Jan M. Rabaey

Low Power Design Essentials ©2008 Chapter 4

Optimizing Power @ Design Time

Circuits

Dejan Marković

Borivoje Nikolić tłumaczenie: I. Brzozowski

2019-10-28

17


Plan

Przestrzeń optymalizacyjna

wymiany (kompromisu) energia-opóźnienie

Optymalizacja dynamicznych strat mocy

– Wiele napięć zasilania

– Wymiarowanie tranzystorów (dobór)

– Mapowanie technologiczne

Optymalizacja statycznych strat mocy

– Wiele napięć progowych

– „Stos” tranzystorów (łączenie szeregowe)


Strategia optymalizacji energia/moc

Dla danej funkcji i aktywności można znaleźć optymalny

punkt pracy w przestrzeni energia-wydajność.

Czas optymalizacji zależy od profilu aktywności

Różne metody optymalizacyjne należy zastosować

w przypadku strat dynamicznych i statycznych

Ustalona

aktywność

Zmienna

aktywność

Brak

aktywności -

Standby

Dynamiczne Projektowanie

(Design time)

Praca (Run time)

Uśpienie (Sleep)

Statyczne

2019-10-28

18


Minimalizacja wydajności dla danej energii

Minimalizacja energii dla danej wydajności

opóźnienie

Projekt

niezoptymalizowany

Emax

Dmax Dmin

energia/oper.

Emin

Optymalizacyjna energia-opóźnienie i wymiana

Przestrzeń wymiany

Inne ważne metryki: powierzchnia, niezawodność, używalność

lub


Stos abstrakcji projektu

Logika/RT

(Micro-)architektura

Oprogramowanie

Układ

Elementy

System/Aplikacja

Ten r

ozdzia

ł

Bardzo bogaty zestaw parametrów projektowych

do rozważenia!

Pomaga rozważyć opcje w odniesieniu do ich

warstwy abstrakcji.

Wymiarowanie, napięcie

zasilania i progowe

logika standardowa versus

dedykowana

Szeregowy versus równoległy.

Ogólnego przeznaczenia vs.

specjalny dla aplikacji

Techn. standardowa versus SOI

Wybór algorytmu

Ilość współbieżności

2019-10-28

19


Architektura

Micro-architektura

Układ (logika, przerzutniki)

Optymalizacja może/musi obejmować wiele poziomów

Optymalizacja projektu łączy techniki top-down i bottom-up:

“meet-in-the-middle”


Globalnie optymalna krzywa energia-opóźnienie

dla danej funkcji

Optymalizacja energia-opóźnienie

topologia A

topologia B

opóźnienie

en

erg

ia/o

pe

r.

opóźnienie

en

erg

ia/o

pe

r.

topologia A

topologia B

2019-10-28

20


Pewne obserwacje optymalizacyjne

∂E / ∂A ∂D / ∂A A=A0

SA=

SB

SA

f (A0,B)

f (A,B0)

opóźnienie

en

erg

ia

D0

(A0,B0)

Wrażliwości przestrzeni energia-opóźnieni

[Ref: V. Stojanovic, ESSCIRC’02]


∆E = SA∙(-∆D) + SB∙∆D

Na optymalnej krzywej wszystkie wrażliwości

muszą być równe

Znalezienie optymalnej krzywej energia-opóźnienie

f (A0,B)

f (A,B0)

D0

(A0,B0)

∆D

f (A1,B)

Pareto-optymalny:

najlepsze, co można osiągnąć bez uszczerbku dla przynajmniej

jednej metryki

opóźnienie

en

erg

ia

(A1,B0)

2019-10-28

21


Redukcja napięć – Zmniejszenie napięcia zasilania (VDD) kosztem szybkości zegara

– Zmniejszenie amplitudy sygnału logicznego (Vswing)

Redukcja wymiarów tranzystorów (CL) – Spowolnienie logiki

Redukcja aktywności () – Zmniejszenie aktywności przełączeniowej przez transformacje

układu

– Zmniejszenie ilości szpilek (i hazardów) przez zbalansowanie logiki (wyrównanie opóźnień)

fVVCP DDswingLactive ~DDswingLactive VVCE ~

Redukcja energii dynamicznej na etapie projektu


Zmniejszenie wymiarów i/lub napięcia zasilania na ścieżce

krytycznej w układzie zmniejsza częstotliwość pracy.

Zmniejszenie wymiarów na niekrytycznej ścieżce redukuje

pobór energii za darmo, ale:

– Zawężenie rozkładu opóźnień w ścieżkach,

– Zwiększenie wpływu zmienności i odporności

tp (ścieżki)

liczba ś

cie

żek

docelowe

opóźnienie

Obserwacja

tp (ścieżki)

liczba ś

cie

żek

docelowe

opóźnienie

2019-10-28

22


Minimalizacji Energia (VDD, VTH, W)

podlega: Opóźnienie (VDD, VTH, W) ≤ Dcon

Punkt odniesienia

– Dmin sizing @ VDDmax, VTH

ref

Ograniczenia:

VDDmin < VDD < VDDmax

VTHmin < VTH < VTHmax

Wmin < W

Przestrzeń optymalizacyjna układu

[Ref: V. Stojanovic, ESSCIRC’02]

opóźnienie

en

erg

ia/o

pe

r.

topologia A

topologia B


i i+1

Cw gCi Ci Ci+1

Przestrzeń optymalizacyjna: sieć ogólna

VDD,i+1 VDD,i

Bramka w stopniu i obciążona przez (stopień i+1)

2019-10-28

23


Dopasowanie parametrów: Von, d, Kd, g

Model opóźnień bazujący na par. α (Alpha-power)

VDDref = 1,2 V, technologia 90 nm

)1

1()()(

11

i

inom

i

iwi

onDD

DDdp

C

C

C

CCC

VV

VKt

d

=

-=

g

g

g

(90nm technology)

0 2 4 6 8 10 0

10

20

30

40

50

60

Fanout (Ci+1/Ci)

Dela

y (

ps)

t p

0,5 0,6 0,7 0,8 0,9 1 0

0,5

1

1,5

2

2,5

3

3,5

4

V DD

/ V DD

ref

FO

4 d

ela

y (

norm

.)

V on

= 0.37 V

d = 1.53

simulation

model

nom = 6 ps

g = 1.35

simulation

model


Pasożytnicze opóźnienie pi – zależy od topologii bramki

Wysiłek elektryczny fi ≈ Si+1/Si

Wysiłek logiczny gi – zależy od topologii bramki

Efektywne obciążenie hi = figi

Dla bramek złożonych

[Ref: I. Sutherland, Morgan-Kaufman’99]

Model połączony z formułą „wysiłku logicznego”

)(g

iiinomp

gfpt =

2019-10-28

24


= energia konsumowana przez i-tą bramkę logiczną

Energia dynamiczna

i i+1

Cw gCi Ci Ci+1

VDD,i+1 VDD,i

iiiiwiiei

iDDiiiDDiwidyn

SSCCCfSKC

VfCVCCCE

//)(

)()(

11

2

,

2

,1

===

== gg

)(2

,

2

1, iDDiDDiei VVSKE g= -


dla równych h

(Dmin)

max dla VDD_max

(Dmin)

Zależności wrażliwości (E/D)

Optymalizacyjny zwrot z inwestycji (ROI)

Rozmiar bramki

Napięcie zasilania

)( 1---=

iinom

i

i

i

hh

E

SD

SE

DD

ond

DD

on

DD

DD

V

V

V

V

D

E

VD

VE

-

-

-=

1

)1(2

ROI – Optimizating Return

on Investment

2019-10-28

25


Własności łańcucha inwerterów

– Topologia pojedynczej ścieżki

– Pobór energii rośnie geometrycznie od wejścia do wyjścia

Przykład: łańcuch inwerterów

CL

1

S1 = 1 S2 … SN S3

Cel

– Znaleźć optymalne rozmiary S = [S1, S2, …, SN], napięcie

zasilania i strategię buforowania, aby osiągnąć najlepszą

wymianę energia-opóźnienie.


Zmienny wsp. dopasowania rozmiaru pozwala

osiągnąć minimalną energię

[Ref: Ma, JSSC’94]

Łańcuch inwerterów: wymiarowanie bramek

1 2 3 4 5 6 7 0

5

10

15

20

25

stopień

efe

kty

wne o

bcią

żenie

, h

0%

1%

10%

30%

d inc

= 50% nom

opt

1

21

112

2

1

-

-

-

-

-=

=

ii

iS

Snom

DDe

i

iii

hh

EF

F

VK

S

SSS

ang.: Gate sizing

2019-10-28

26


VDD głównie redukuje straty energii w obciążeniu końcowym,

Zmienny wsp. rozmiaru przez przez skalowanie napięcia

Łańcuch inwerterów: optymalizacja VDD

1 2 3 4 5 6 7 0

0,2

0,4

0,6

0,8

1,0

stopień

V D

D /

V

DD

nom

0%

1%

10%

30%

d inc

= 50%

nom

opt


Parametr o największej wrażliwości ma największy

potencjał do redukcji strat energii

Dwa dyskretne napięcia zasilania dobrze naśladują

indywidualne VDD dla stopni

Łańcuch inwerterów: wyniki optymalizacji

50

inc

0 10 20 30 40 0

20

40

60

80

100

d (%)

redu

kcja

ene

rgii

(%)

0 10 20 30 40 50 0

0,2

0,4

0,6

0,8

1,0

d inc (%)

wra

żliw

ość (

un

orm

ow

an

a)

cVDD

S gVDD

2VDD

2019-10-28

27


Sumator drzewiasty

– Długie połączenia

– Re-zbieżne ścieżki

– Wiele aktywnych wyjść

S0

S15

(A0, B

0)

(A15

, B15

)

Cin

Przykład: sumator drzewiasty Kogge-Stone

[Ref: P. Kogge, Trans. Comp’73]


wymiarowanie: E (-54%)

dinc=10%

referencja

D=Dmin

dwa-Vdd: E (-27%)

dinc=10%

Sumator drzewiasty: wymiarowanie vs. dwa-VDD

Projekt referencyjny: wszystkie ścieżki są krytyczne

Energia wewnętrzna S bardziej efektywne niż VDD

– S: E (-54%), 2-Vdd: E (-27%) przy wzroście opóźnienia: dinc = 10%

en

erg

ia

en

erg

ia

en

erg

ia

[Ref: Kogge'93, Rabaey'03]

2019-10-28

28


Opóźnienie / Dmin

0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 0

0,2

0,4

0,6

0,8

1 odniesienie

S, VDD

VDD, VTH

S, VTH

S, VDD, VTH

Sumator drzewiasty: poszukiwanie wielowymiarowe

Można zbliżyć się całkiem blisko do optimum tylko z 2 zmiennymi

Uzyskanie min. opóźnienia jest bardzo kosztowne energetycznie


Napięcia zasilania na poziomie bloków – W blokach o wymaganej większej wydajności

zastosować wyższe napięcie VDD

– W blokach pracujących wolniej zastosowań niższe VDD

– To prowadzi do tzw. „wysp napięciowych” z odseparowanymi sieciami zasilającymi

– Konwersja poziomów napięć jest wykonywana na granicach bloków

Wiele napięć zasilania wewnątrz bloku – Ścieżki niekrytyczne podłączyć do niższego napięcia

– Konwersja poziomów wewnątrz bloku

– Projekt fizyczny jest wyzwaniem

Wiele napięć zasilania

2019-10-28

29


V1 = 1.5V, VTH = 0.3V

Użycie trzech napięć zasilania VDD

0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

V1 (V)

V2 (V

)

+

V2 (V) V

3 (

V)

0.4 0.6 0.8 1 1.2 1.4

0.4

0.6

0.8

1

1.2

1.4

Po

wer

Red

ucti

on

Rati

o

0 0.5

1 1.5

0

0.5

1

1.5 0.4

0.5

0.6

0.7

0.8

0.9

1

[Ref: T. Kuroda, ICCAD’02]

© IEEE 2002


1.0

0.5 sto

su

nek V

DD

1.0

0.4

0.5 1.0 1.5

V1 (V)

sto

su

nek m

oc

y

V2/V1

P2/P1

{ V1, V2 }

V2/V1

V3/V1

{ V1, V2, V3 }

0.5 1.0 1.5

V1 (V)

P3/P1

V2/V1

V3/V1

V4/V1

0.5 1.0 1.5

V1 (V)

P4/P1

{ V1, V2, V3, V4 }

[Ref: M. Hamada, CICC’01]

Optymalna liczba napięć zasilaniaVDD

Więcej napięć VDD zmniejsza pobór mocy, ale efekt się nasyca,

Efekt redukcji mocy zmniejsza się wraz ze skalowaniem napięcia VDD

Optymalny stosunek V2/V1 wynosi ok. 0,7

© IEEE 2001

2019-10-28

30


Dwa napięcia na blok to optymalna ilość.

Optymalny współczynnik wartości napięć wynosi ok. 0,7.

Konwersja napięć jest zrealizowana na granicach bloków

używając przerzutników konwertujących (LCFF).

Opcją jest zastosowanie asynchronicznych konwerterów

– Bardziej wrażliwych na sprzężenia i szum zasilania

Wiele napięć zasilania - wnioski


i1 o1

VDDH VDDL

VSS

Konwencjonalna

Układ VDDH Układ VDDL

i2 o2 i1 o1

VDDH

VDDL

VSS

Współdzielona studnia N

i2 o2

Dystrybucja wielu napięć zasilania


2019-10-28

31


Układ VDDH

VDDH VDDL

VSS

Izolacja studni N-well

Układ VDDL

(a) Dedykowany wiersz

(b) Dedykowany obszar

VDDH Row

VDDH Row

VDDH

Region

VDDL

Region

Rozwiązanie konwencjonalne

VDDL Row

VDDL Row


VDDH

VDDL

VSS

Współdzielona studnia N

(a) Plan topografii

Współdzielona N-Well

[Shimazaki et al, ISSCC’03]


Układ VDDL

Układ VDDH

2019-10-28

32


Niższe napięcie VDD jest dzielone

[Ref: M. Takahashi, ISSCC’98]

Skalowanie napięcia grup: “CVS – Clustered Voltage Scaling”

Przykład: wiele napięć zasilających w bloku

FF

FF

FF

FF FF

FF

FF

FF

FF

FF

Struktura CVS Projekt konwencjonalny

Ścieżka krytyczna

Przerzutnik przesuwający poziom

Ścieżka krytyczna

FF

FF

FF

FF

FF

FF FF

FF

FF

FF

FF

© IEEE 1998


Impulsowy pół-zatrzask kontra przerzutnik Master-Slave

Mniejsza liczba tranzystorów, mniejsze obciążenie zegara

Szybsza konwersja poziomów z układzie pół-zatrzasku

Krótsza ścieżka od wej. D do wyj. Q w ukł. impulsowym

[Ref: F. Ishihara, ISLPED’03]

Przerzutniki konwertujące poziom napięcia

q

ck

ckb ck

clk

level conversion

ckb

ckd q (inv.)

ck

ckclk

level conversion

d

mo

mf

sf

so dbsf

so

MN1 MN2

Master-Slave Impulsowy pół-zatrzask

© IEEE 2003

ang. Level Converting Flip-Flops (LCFFs)

ang. Pulsed Half-Latch

2019-10-28

33


Impulsowy wstępnie

ładowany LCFF (PPR)

– Szybsza konwersja

poziomów dzięki

wstępnemu ładowaniu

– Stłumione przełączanie

ładowania/rozładowania

przez warunkowy

przechwyt

– Krótka ścieżka wej. D do

wyj. Q

clk

ckd1

qb

clk level conversion

x

db

qb

ckd1

VDDH

VDDH

VDDH

d

xb

IV1

q (inv.)

ck

MN1

MN2

MP1

[Ref: F. Ishihara, ISLPED’03]

Dynamiczna wersja impulsowego przerzutnika

Impulsowy wstępnie ładowany zatrzask

© IEEE 2003

konwersji poziomów LCFF

ang. Pulsed Precharge Latch (PPR Latch)


carry

gen.

partial

sum

gp

gen.

5:1

MUX

ain

bin

carry

s0/s1

sum

sumb (long loop-back bus)

clk

clock gen.

: VDDH circuit

: VDDL circuit

INV1 INV2

0.5 pF

sum

sel.

2:1

MUX

9:1

MUX

logical

unit

9:1

MUX

ain0

Przykład: jednostka ALU 64-bitowego Procesora

[Ref: Y. Shimazaki, ISSCC’03]

© IEEE 2003

2019-10-28

34


sum

keeper pc

sumb

VDDH

VDDL

INV1 INV2

domino level converter (9:1 MUX)

ain0 sel

(VDDH)

VDDH

VDDL

INV2 znajduje się blisko multipleksera 9:1 żeby zwiększyć odporność

na zakłócenia

Konwersja poziomów jest realizowana w multiplekserze domino 9:1

Nisko-amplitudowa magistrala i konwerter poziomu


© IEEE 2003


pojedyncze

zasilanie

dzielona studnia (VDDH=1,8V)

En

erg

ia [

pJ]

TCYCLE [ns]

Temperatura pokojowa

200

300

400

500

600

700

800

0,6 0,8 1,0 1,2 1,4 1,6

1,16GHz

VDDL=1,4V

Energia: -25,3%

Opóźnienie: +2,8%

VDDL=1,2V

Energia: -33,3%

Opóźnienie: +8,3%

Wyniki pomiarów: energia i opóźnienie


© IEEE 2003

2019-10-28

35


Praktyczne wymiarowanie tranzystorów

Ciągłe wymiarowanie tranzystorów jest tylko

opcją w projektach specjalizowanych (custom)

W ścieżce projektowania ASIC opcje są

ustawione przez dostępną bibliotekę

Opcje wymiarowania dyskretnego są możliwe w projektowaniu opartym na komórkach standardowych przez zapewnienie wielu wersji tej samej komórki – Efektem są duże biblioteki (powyżej 800 komórek)

– Łatwa integracja z mapowaniem technologicznym


a

b

c

zapas=1

d

f

Stosowanie bramek o większej liczbie wejść

redukuje pojemność, ale są one wolniejsze

Mapowanie technologiczne

2019-10-28

36


(a) Zrealizowana jako 4-wej. NAND + INV

(b) Zrealizowana jako 2-wej. NAND + 2-wej. NOR

Biblioteka 1:

High-Speed

Mapowanie technologiczne – przykład

Przykład: 4-wejściowa bramka AND

Typ bramki

Powierzchnia (jedn. komórki)

Pojemność wej. (fF)

Opóźnienie średnie (ps)

Opóźnienie średnie (ps)

INV 3 1,8 7,0 + 3,8 CL 12,0 + 6,0 CL

NAND2 4 2,0 10,3 + 5,3 CL 16,3 + 8,8 CL

NAND4 5 2,0 13,6 + 5,8 CL 22,7 + 10,2 CL

NOR2 3 2,2 10,7 + 5,4 CL 16,7 + 8,9 CL

Biblioteka 2:

Low-Power

(w opóźnieniu: CL w fF)

(wartości dla technologii 90 nm)

Biblioteki:


Mapowanie technologiczne – przykład

4-wej. AND (a) NAND4 +

INV

(b) NAND2 +

NOR2

Powierzchnia 8 11

HS: opóźnienie (ps) 31,0 + 3,8 CL 32,7 + 5,4 CL

LP: opóźnienie (ps) 53,1 + 6,0 CL 52,4 + 8,9 CL

Energia dynamiczna (fF) 0,1 + 0,06 CL 0,83 + 0,06 CL

Powierzchnia – 4-wejściowa bardziej kompaktowa niż 3-wej. (2 bramki zamiast 3)

Czasy – obie realizacje to układy dwupoziomowe

– INV w 2-gim stopniu (a) jest lepszym driverem niż NOR2 (b)

– w przypadku bloków bardziej złożonych prostsze bramki będą szybsze

Pobór energii – przełączenia między bramkami 2-we. zwiększają pobór energii dyn.

– biblioteka „Low-power” – większe opóźnienie, ale mniejsza upływność

Realizacje:

2019-10-28

37


Mapowanie technologiczne

Dobór bramek

Wymiarowanie

Dobór kolejności wejść (do bramek)

Optymalizacje logiczne

Faktoryzacja

Przekształcenia

Wstawianie/usuwanie buforów

Optymalizacja nieokreśloności funkcji

Kompromisy energetyczne na poziomie bramek


Przekształcenia logiczne w celu minimalizacji

zbędnych przełączeń

Wstawianie buforów w celu zbalansowania ścieżek

Przekształcenia logiczne

0 1

1

1

0

1

1

1

0

1 1

1

1

1

1

1 1

1 2

3

przed po

2019-10-28

38


Pomysł: tak zmodyfikować układ, aby zmniejszyć pojemność

Uwaga: to może zwiększyć aktywność!

pa = 0,1; pb = 0,5; pc = 0,5

Przekształcenia algebraiczne – faktoryzacja

a

b

c

f f

a

a

b

c

p1=0,05

p2=0,05

p3=0,075

p4=0,75

p5=0,075


Możliwa jest wspólna optymalizacja wielu parametrów

projektowych wykorzystując przestrzeń optymalizacyjną

opartą na czułości – Równe koszty brzegowe ⇔ projekt wydajny energetycznie

Maksymalna wydajność jest BARDZO nieefektywna

energetycznie – Około 70% redukcji energii przy 20% stracie na opóźnieniu

– Dodatkowe zmienne dla wyższej efektywności energetycznej

Dwa napięcia zasilania są w ogólności wystarczające;

3 lub więcej dają tylko małą korzyść

Wybór między wymiarowaniem a parametrami napięcia

zasilania zależy od topologii obwodu

Lecz … upływność nie była jeszcze rozważana

Wnioski z optymalizacji układowych

2019-10-28

39

EiT 2017/18 77

Redukcja strat energii

na etapie syntezy logicznej

Synteza logiczna dwupoziomowych układów o

obniżonym poborze mocy z wykorzystaniem

rozszerzonego (nowego) modelu

Problem redukcji strat mocy może być podany następująco:

mając daną funkcję boolowską f, wraz ze zbiorem wejść v

oraz prawdopodobieństwo zmian wektorów wejściowych pV i

bibliotekę bramek z wyznaczonymi wartościami pojemności

ekwiwalentnych należy znaleźć dwupoziomową realizację

funkcji o najmniejszym poborze mocy określonym za pomocą

nowego modelu.

EiT 2017/18 78

Synteza logiczna dwupoziomowych układów o obniżonym

poborze mocy z wykorzystaniem nowego modelu

Procedura

obliczenie pojemności ekw.

dla bramek realizujących

implikanty

generacja wszystkich pokryć

funkcji

estymacja pojemności

ekwiwalentnej bramek

wyjściowych OR

obliczenie całkowitej

pojemności ekw. dla

wszystkich realizacji

wybór najlepszej realizacji

funkcji

dwupoziomowa realizacja

funkcji o minimalnym

poborze mocy

rozkład

prawdopodobieństwa

zmian wektorów wej.

opis funkcji

plik typu „pla” lub

zbiory wektorów (F, R, D)

generacja wszystkich

implikantów funkcji

2019-10-28

40

EiT 2017/18 79



Praktyczny algorytm syntezy – analiza

bramka liczba we. k wsp. 2-2k

CLall [fF] całk. poj.ekw. Ck

br_t [fF]

not 1 41 10,022 2,505

nand2 2 161 45,712 2,857

nand3 3 641 207,125 3,236

nand4 4 2561 883,647 3,452

nor2 2 161 74,344 4,646

nor3 3 641 537,434 9,241

nor4 4 2561 3228,536 12,611

Całkowita pojemność ekwiwalentna dla podstawowych bramek CMOS

na pierwszym poziomie układu w przypadku równomiernego rozkładu zmian wektorów

Wniosek:

dla syntezy układów dwupoziomowych o obniżonym poborze mocy

należy stosować bramki o jak najmniejszej liczbie wejść, czyli bramki

realizujące kostki o jak największym wymiarze – implikanty proste.

EiT 2017/18 80



Praktyczny algorytm syntezy – przykład

00 01 11 10

00 0 0 0 0

01 1 1 1 1

11 0 1 1 0

10 0 0 0 0

#1 (01--)

#2 (-1-1)

#3 (11-1)

2019-10-28

41

EiT 2017/18 81



Praktyczny algorytm syntezy – przykład (c.d.)

kostka pojemność ekwiwalentna [fF]

#1 (01--) 2,894

#2 (-1-1) 3,002

#3 (11-1) 2,828

pokrycie*

pojemność ekwiwalentna [fF]

1) #1 i #2 5,897

2) #1 i #3 5,722 (*) – bez bramki wyjściowej

EiT 2017/18 82



Praktyczny algorytm syntezy – przykład – wyjaśnienie

Iloczyn dwóch liczb o wartościach 01 i od 010 jako ilustracja

iloczynu pojemności ekwiwalentnej i prawdopodobieństwa

2019-10-28

42

EiT 2017/18 83




#2 (-1-1) #3 (11-1)

bramka: 2-wej. 3-wej.

liczba sposobów sterowania: 16 64

wymiar tabel z poj. ekw. 4x4 8x8

Nie można bezpośrednio porównać bramek

Opracowano inny sposób zapisu tabel

z pojemnością ekwiwalentną bramek

EiT 2017/18 84




2019-10-28

43

EiT 2017/18 85



Praktyczny algorytm syntezy – przykład – bramka wyjściowa

Unormowana pojemność ekwiwalentna dla bramek: not, nand2, nand3

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

U D

0U

U0

D0

0D

DU

UD

1U

D1

U1

1D

UU

DD

0U1

U01

0U0

U00

U10

0D0

00U

10U

1D0

1U0

00D

10D

D01

D00

D10

0D1

0UU

01U

01D

U0U

D0U

UU0

UD0

U0D

0DU

0DD

DD0

UD1

DU0

0UD

D0D

DU1

1UD

U1D

11D

1DU

D1U

1D1

DUU

D11

UDD

UUD

UDU

DUD

DDU

1DD

11U

D1D

DD1

1U1

U11

U1U

1UU

DDD

UU1

UUU

sposób sterowania

po

jem

no

ść

ekw

. C L

all [

fF]

• unikać jednoczesnych zmian na kilku wejściach bramki

• stosować pokrycia rozłączne

EiT 2017/18 86



Praktyczny algorytm syntezy – przykład – podsumowanie

Stosując rozłączne pokrycie zredukowano pobór mocy

bramki wyjściowej o niemal 18%.

Pojemność ekwiwalentna całego układu realizującego

pierwsze rozwiązanie wynosi 8,81fF a drugie – 8,11fF.

Redukcja całkowitej średniej mocy strat wynosi 8%

w stosunku do realizacji o minimalnej powierzchni.

2019-10-28

44

EiT 2017/18 87



Praktyczny algorytm syntezy – wnioski

• minimalne ważone pokrycie funkcji

• pokrycie rozłączne

Powyższe cele syntezy mogą być sprzeczne,

zatem należy znaleźć kompromis.

EiT 2017/18 88



Praktyczny algorytm syntezy:

1) Dla danej funkcji f wygenerować zbiór wszystkich implikantów K,

2) Dla danego pwe obliczyć pojemność ekwiwalentną implikantów

ze zbioru K,

3) Znaleźć pokrycia funkcji: minimalne ważone Pmin i minimalne

ważone, rozłączne PRmin,

4) Obliczyć poj. ekwiwalentną dla bramki wyjściowej realizującej

pokrycia Pmin i PRmin,

5) Z pośród PRmin i Pmin wybrać lepsze pokrycie funkcji.

2019-10-28

45


Considering leakage as well as dynamic

power is essential in sub-100 nm

technologies

Leakage is not essentially a bad thing

– Increased leakage leads to improved

performance, allowing for lower supply voltages

– Again a trade-off issue …

Considering Leakage @ Design Time


Must adapt to process and activity variations

2

ln

Lk Sw opt

d

avg

E EL

K

=

-

Topology Inv Add Dec

(ELk/ESw)opt 0.8 0.5 0.2

Leakage – Not Necessarily a Bad Thing

Optimal designs have high leakage (ELk/ESw ≈ 0.5)

10 -2

10 -1

10 0

10 1

0

0.2

0.4

0.6

0.8

1

E static

/E dynamic

E n

orm

V th ref -180mV

0.81V DD max

V th ref -140mV

0.52V DD max

Version 1

Version 2

[Ref: D. Markovic, JSSC’04]

© IEEE 2004

2019-10-28

46


Switching energy

Leakage energy

with:

I0(Y): normalized leakage current with inputs in state Y

Refining the Optimization Model

2

10 )( DDedyn VfSKE = g

cycleDD

qkT

VV

stat TVeSIEDDdTH

/

0 )(

-

Y=


Using longer transistors

– Limited benefit

– Increase in active current

Using higher thresholds

– Channel doping

– Stacked devices

– Body biasing (body effect)

Reducing the voltage!!

Reducing Leakage @ Design Time

2019-10-28

47


10% longer gates

reduce leakage by

50%

Increases switching

power by 18% with

W/L = const.

Doubling L reduces leakage by 5x

Impacts performance – Attractive when don’t have to increase W (e.g. memory)

Longer Channels

100 110 120 130 140 150 160 170 180 190 200 0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Transistor length (nm)

1

2

3

4

5

6

7

8

9

10

90 nm CMOS

Switching energy

Leakage power

Norm

aliz

ed s

witchin

g e

nerg

y

Norm

aliz

ed leakage p

ow

er


There is no need for level conversion

Dual thresholds can be added to standard design flows

– High-VTh and Low-VTh libraries are a standard in sub-0.18m

processes

– For example: can synthesize using only high-VTh and then only

in-place swap in low-VTh cells to improve timing.

– Second VTh insertion can be combined with resizing

Only two thresholds are needed per block

– Using more than two yields small improvements

Using Multiple Thresholds

2019-10-28

48


VDD = 1.5V, VTH.1 = 0.3V

Three VTH’s

0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

Vth2 (V)

Vth1 (

V)

+

VTH.3 (V)

VT

H.2 (

V)

0.4 0.6 0.8 1 1.2 1.4

0.4

0.6

0.8

1

1.2

1.4

Le

ak

ag

e R

ed

uc

tio

n R

ati

o

0 0.5

1 1.5

0

0.5

1 1.5

0

0.2

0.4

0.6

0.8

1

Impact of third threshold very limited

[Ref: T. Kuroda, ICCAD’02]

© IEEE 2002


Using Multiple Thresholds

FF

FF

FF

FF

FF

Cell-by-cell VTH assignment (not at block level)

Achieves all-low-VTH performance with substantial

leakage reduction in leakage

Low VTH High VTH

[Ref: S. Date, SLPE’94]

2019-10-28

49


Shaded transistors are

low threshold

Low-threshold transistors used only in critical paths

Dual-VT Domino

P1

Inv1

Inv2 Inv3

Dn+1

Clkn

Clkn+1

Dn …


Easily introduced in standard cell design

methodology by extending cell libraries with cells

with different thresholds

– Selection of cells during technology mapping

– No impact on dynamic power

– No interface issues (as was the case with multiple

VDD’s)

Impact: Can reduce leakage power substantially

Multiple Thresholds and Design Methodology

2019-10-28

50


High-VTH

Only

Low-VTH

Only Dual VTH

Total Slack -53 psec 0 psec 0 psec

Dynamic

Power 3.2 mW 3.3 mW 3.2 mW

Static

Power 914 nW 3873 nW 1519 nW

All designs synthesized automatically using Synopsys Flows

[Courtesy: Synopsys, Toshiba, 2004]

Dual-VTH Design for High-Performance Design


Example: High- vs. Low-Threshold Libraries

0

1000

2000

3000

4000

5000

6000

7000

8000

i10 des C7552 seq pair AVER

LVth

LVth+HVth

HVth

HVth+LVth

Leakage P

ow

er

(nW

)

Selected combinational tests

130 nm CMOS

[Courtesy: Synopsys 2004]

2019-10-28

51


Complex Gates Increase Ion/Ioff Ratio

Ion and Ioff of single NMOS versus stack of 10 NMOS

transistors

Transistors in stack are sized up to give similar drive

No stack

Stack

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.5

1

1.5

2

2.5

3

VDD (V)

I off (

nA

)

No stack

Stack

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

20

40

60

80

100

120

140

I on (

A

)

VDD (V)

(90nm technology) (90nm technology)



Stacking transistors suppresses submicron effects

Reduced velocity saturation

Reduced DIBL effect

Allows for operation at lower thresholds

Stack

No stack

Factor 10!

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.5

1

1.5

2

2.5

3

3.5 x 105

VDD (V)

I on/I

off r

ati

o

(90nm technology)

2019-10-28

52


Example: 4-input NAND

With transistors sized for

similar performance:

Leakage of Fan-in(2) =

Leakage of Fan-in(4) x 3

(Averaged over all possible

input patterns)

Fan-in (2) Fan-in (4)

versus


2 4 6 8 10 12 14 16 0

2

4

6

8

10

12

14

Input pattern

Le

akag

e C

urr

en

t (n

A)

Fan-in (2)

Fan-in (4)


Example: 32 bit Kogge-Stone Adder

[Ref: S.Narendra, ISLPED’01]

% o

f in

pu

t v

ecto

rs

Standby leakage current (A)

factor 18

Reducing the threshold by 150 mV increases leakage of

single NMOS transistor by factor 60

© Springer 2001

2019-10-28

53


Circuit optimization can lead to substantial

energy reduction at limited performance loss

Energy-delay plots the perfect mechanisms

for analyzing energy-delay trade-off’s.

Well-defined optimization problem over W,

VDD and VTH parameters

Increasingly better support by today’s CAD

flows

Observe: leakage is not necessarily bad – if

appropriately managed.

Summary


Books:

A. Bellaouar, M.I Elmasry, Low-Power Digital VLSI Design Circuits and Systems, Kluwer Academic Publishers, 1st Ed, 1995.

D. Chinnery, K. Keutzer, Closing the Gap Between ASIC and Custom, Springer, 2002.

D. Chinnery, K. Keutzer, Closing the Power Gap Between ASIC and Custom, Springer, 2007.

J. Rabaey, A. Chandrakasan, B. Nikolic, Digital Integrated Circuits: A Design Perspective, 2nd ed, Prentice Hall 2003.

I. Sutherland, B. Sproul, D. Harris, Logical Effort: Designing Fast CMOS Circuits, Morgan-Kaufmann, 1st Ed, 1999.

Articles:

R.W. Brodersen, M.A. Horowitz, D. Markovic, B. Nikolic, V. Stojanovic, “Methods for True Power

Minimization,” Int. Conf. on Computer-Aided Design (ICCAD), pp. 35-42, Nov. 2002.

S. Date, N. Shibata, S.Mutoh, and J. Yamada, "IV 30MHz Memory-Macrocell-Circuit Technology

with a 0.5urn Multi-Threshold CMOS," Proceedings of the 1994 Symposium on Low Power

Electronics, San Diego, CA, pp. 90-91, Oct. 1994.

M. Hamada, Y. Ootaguro, T. Kuroda, “Utilizing Surplus Timing for Power Reduction,” IEEE

Custom Integrated Circuits Conf., (CICC), pp. 89-92, Sept. 2001.

F. Ishihara, F. Sheikh, B. Nikolic, “Level conversion for dual-supply systems,” Int. Conf. Low

Power Electronics and Design, (ISLPED), pp. 164-167, Aug. 2003.

P.M. Kogge and H.S. Stone, “A Parallel Algorithm for the Efficient Solution of General Class of

Recurrence Equations,” IEEE Trans. Comput., vol. C-22, no. 8, pp. 786-793, Aug 1973.

T. Kuroda, “Optimization and control of VDD and VTH for low-power, high-speed CMOS design,”

Proceedings ICCAD 2002, pp. , San Jose, Nov. 2002.

References

2019-10-28

54


Articles (cont.):

H.C. Lin and L.W. Linholm, “An Optimized Output Stage for MOS Integrated Circuits,” IEEE J.

Solid-State Circuits, vol. SC-10, no. 2, pp. 106-109, Apr. 1975.

S. Ma and P. Franzon, “Energy Control and Accurate Delay Estimation in the Design of CMOS

Buffers,” IEEE J. Solid-State Circuits, vol. 29, no. 9, pp. 1150-1153, Sept. 1994.

D. Markovic, V. Stojanovic, B. Nikolic, M.A. Horowitz, R.W. Brodersen, “Methods for True Energy-

Performance Optimization,” IEEE Journal of Solid-State Circuits, vol. 39,

no. 8, pp. 1282-1293, Aug. 2004.

MathWorks, http://www.mathworks.com

S. Narendra, S. Borkar, V. De, D. Antoniadis, A. Chandrakasan, “Scaling of stack effect and its

applications for leakage reduction,” Int. Conf. Low Power Electronics and Design, (ISLPED), pp.

195-200, Aug. 2001.

T. Sakurai and R. Newton, “Alpha-Power Law MOSFET Model and its Applications to CMOS

Inverter Delay and Other Formulas,” IEEE J. Solid-State Circuits, vol. 25, no. 2,

pp. 584-594, Apr. 1990.

Y. Shimazaki, R. Zlatanovici, B. Nikolic, “A shared-well dual-supply-voltage 64-bit ALU,” Int. Conf.

Solid-State Circuits, (ISSCC), pp. 104-105, Feb. 2003.

V. Stojanovic, D. Markovic, B. Nikolic, M.A. Horowitz, R.W. Brodersen, “Energy-Delay Tradeoffs

in Combinational Logic using Gate Sizing and Supply Voltage Optimization,” European Solid-

State Circuits Conf., (ESSCIRC), pp. 211-214, Sept. 2002.

M. Takahashi et al., “A 60mW MPEG video codec using clustered voltage scaling with variable

supply-voltage scheme,” IEEE Int. Solid-State Circuits Conf., (ISSCC), pp. 36-37,

Feb. 1998.

References

Documents

Projektowanie energooszczędnych systemów wbudowanych · Jan M. Rabaey Low Power Design Essentials ©2008 Preface Low Power Design Essentials ©2008 4 Goals of this Book Provide