Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
2019-10-28
1
Projektowanie energooszczędnych systemów wbudowanych
dr inż. Ireneusz Brzozowski
C-3, p. 512
WIET KATEDRA ELEKTRONIKI
Elektronika i Telekomunikacja
www.agh.edu.pl
Redukcja strat energii w układach cyfrowych CMOS
• Wstęp: moc i energia – podstawy
• Redukcja dynamicznych strat energii
• Redukcja statycznych strat energii
EiT 2017/18 PESW: Redukcja strat mocy w cyfrowych układach VLSI 2
2019-10-28
2
Jan M. Rabaey
Low Power Design Essentials ©2008
Preface
Low Power Design Essentials ©2008 4
Goals of this Book
Provide an educational perspective on
low-power design for digital integrated
circuits
Promote a structured design methodology
for low-power/energy design
Traverse the levels of the design hierarchy
Explore bounds and roadblocks
Provide future perspectives
2019-10-28
3
Low Power Design Essentials ©2008 5
An Innovative Format
Pioneered in W. Sansen’s “Analog Design
Essentials” book (Springer)
PowerPoint slides present a quick outline
of essential points and issues, and provide
a graphical perspective
Side notes provide depth, explain
reasonings, link topics
Supplemented with web-site: http://bwrc.eecs.berkeley.edu/LowPowerEssentials
An ideal tool for focused-topic course
Książka na stronie wydawcy: https://link.springer.com/book/10.1007/97
8-0-387-71713-5
Jan M. Rabaey
Low Power Design Essentials ©2008
Moc i Energia – podstawy
tłumaczenie: I. Brzozowski
2019-10-28
4
Low Power Design Essentials ©2008 7
Miary
Czas opóźnienia (sekunda [s]): – Miara wydajności
Energia (dżul [J]) – Miara efektywności:
wysiłek potrzebny do wykonania zadania
Moc (wat [W]) – Energia konsumowana na jednostkę czasu
Moc*opóźnienie (dżul [J]) – Parametr technologiczny – mierzy efektywność wykonania jakiejś
operacji w danej technologii
Energia*opóźnienie = moc*opóźnienie2 (dżul-sekunda2 [Js])
– Łączy miary wydajności i energii – współczynnik dobroci (figure of merit) stylu projektowania
Inne: Energia*opóźnienie n (dżul-sek.n [Jsn]) – Zwiększona waga wydajności nad energią
Miary
podstawowe
P=E/t
Low Power Design Essentials ©2008 8
Gdzie moc jest tracona w CMOS?
Aktywne (dynamiczne) straty mocy
– (Roz)ładowanie pojemności
– Straty quasi-zwarciowe
Układy pull-up i pull-down są włączone podczas
przełączenia
Statyczne (upływność) straty mocy
– Tranzystory nie są idealnymi przełącznikami
Statyczne prądy
– Prądy polaryzacji (bias)
2019-10-28
5
Low Power Design Essentials ©2008 9
Aktywne (lub dynamiczne) straty mocy
Źródła:
Ładowanie i rozładowanie pojemności
Chwilowe szpilki (hazardy dynamiczne)
Prądy quasi-zwarciowe
Kluczowa własność mocy czynnej :
fPdyn
gdzie f to częstotliwość przełączeń
Low Power Design Essentials ©2008 10
Dynamiczne straty mocy
Moc = Energia/przełączenie • Współczynnik przełączeń = CLVDD
2 • f01 = CLVDD
2 • f • P01
= CswitchedVDD2 • f
pojemność efektywna: CLeff = CL to: średnia wartość pojemności
w układzie, która jest ładowana w każdym cyklu zegara
Straty mocy są zależne od danych - zależą od
prawdopodobieństwa przełączania
Pojemność przełączeniowa Cswitched = P01CL= CL
( jest nazywany aktywnością przełączeniową)
2019-10-28
6
Low Power Design Essentials ©2008 11
Wpływ funkcji logicznej
A B Out
0 0 1
0 1 0
1 0 0
1 1 0
Przykład: statyczna 2-wej, bramka NOR
Załóżmy prawdopodobieństwo sygnału
pA=1 = 1/2
pB=1 = 1/2
Wtedy prawdopodobieństwo przejścia
p01 = pOut=0 * pOut=1 =
= 3/4 * 1/4 = 3/16
NOR = 3/16
Jeśli wejście przełącza się w każdym cyklu
Bramka NAND ma podobny wynik
Low Power Design Essentials ©2008 12
Wpływ funkcji logicznej
A B Out
0 0 0
0 1 1
1 0 1
1 1 0
Przykład: statyczna 2-wej, bramka XOR
Załóżmy prawdopodobieństwo sygnału
pA=1 = 1/2
pB=1 = 1/2
Wtedy prawdopodobieństwo przejścia
p01 = pOut=0 * pOut=1 =
= 1/2 * 1/2 = 1/4
P01 = 1/4
Jeśli wejście przełącza się w każdym cyklu
2019-10-28
7
Low Power Design Essentials ©2008 13
Prawdopodobieństwo przejść dla bramek
p01
AND (1 - pApB)pApB
OR (1 - pA)(1 - pB)(1 - (1 - pA)(1 - pB))
XOR (1 - (pA +pB – 2pApB))(pA + pB – 2pApB)
Aktywność dla statycznych bramek CMOS
= p0 p1
Jako funkcja prawdopodobieństwa sygnałów wejściowych
nie ma „2” jak w
innych książkach
Low Power Design Essentials ©2008 14
Aktywność jako funkcja topologii
NOR,NAND = (2N-1)/22N XOR = 1/4
XOR
NAND/NOR
Pra
wd. p
rze
jścia
0
1
Liczba wejść do bramki
XOR versus NAND/NOR
Aktywność:
2019-10-28
8
Low Power Design Essentials ©2008 15
Obliczanie aktywności i problemy
Omówione na 1-szym wykładzie
Metody obliczania
Problemy: korelacje przestrzenne i czasowe,
hazardy i szpilki
Low Power Design Essentials ©2008 16
Prądy quasi-zwarciowe
(zwane także prądami zwarciowymi [ang. crowbar currents])
V in Vout
CL
VDD
Isc
vin
VDD -VT
ishort
VT
t
t
I peak
Tranzystory PMOS i NMOS przewodzą jednocześnie
podczas przełączania bramki
Psc ~ f
2019-10-28
9
Low Power Design Essentials ©2008 17
Prądy quasi-zwarciowe
Wyrównanie czasów narastania/opadania sygnałów wejściowego i wyjściowego może ograniczyć Psc do 10-15% dynamicznych strat mocy
duże obciążenie (duże CL)
małe obciążenie (małe CL)
V in
V out
C L
V DD
I sc ~ 0
V in V out
C L
V DD
I sc = I MAX
time (s) 0 20
- 0.5
0
0.5
1
1.5
2
2.5
40 60
x 10 - 4
C L = 20 fF
C L = 100 fF
C L = 500 fF
[Ref: H. Veendrick, JSSC’84]
Low Power Design Essentials ©2008 18
Modelowanie quasi-zwarciowych strat mocy
Mogą być modelowane jako pojemność
)( bakCout
inSC =
a, b: parametry technologiczne
k: funkcja napięć: zasilania i progowego oraz wymiarów tranzystora
2DDSCSC VCE =
Może być łatwo włączony do modelu czasowego i poboru mocy
fVCP DDSCSC
2=
2019-10-28
10
Low Power Design Essentials ©2008 19
Upływność tranzystorów – straty statyczne
Upływność drenu
– Prądy dyfuzyjne
– Obniżenie bariery indukowane drenem (DIBL)
Upływności złączowe
– Upływność drenu indukowana bramką (GIDL)
Upływność bramki
– Tunelowanie prądu przez cienki tlenek
Low Power Design Essentials ©2008 20
Więcej szczegółów na ten temat można znaleźć w książce.
Składniki strat statycznych - szczegółowo
Upływność podprogowa drenu a napięcie
progowe
Upływność jest silnie zależne od napięcia drenu
(głównie z powodu DIBL)
„Efekt stosu” – szeregowe połączenie
tranzystorów
Tunelowanie podbramkowe
Inne składniki
2019-10-28
11
Low Power Design Essentials ©2008 21
– aktywność przełączeniowa
CL – pojemność obciążająca
CCS – pojemność quasi-zwarciowa
Vswing – amplituda napięcia
f – częstotliwość
DDLeakDCDDswingCSL VIIfVVCCP ~
IDC – prąd statyczny
Ileak – prąd upływu
statycznamoctempooperaja
energiaP =
Źródła rozpraszania mocy – podsumowanie
Low Power Design Essentials ©2008 22
Tradycyjna filozofia projektowania
Główny cel to maksymalna wydajność
– Minimalne opóźnienie na poziomie układu.
Architektura realizuje wymaganą funkcjonalność
z żądaną wydajnością (opóźnieniem).
Wydajność jest osiągnięta dzięki optymalnemu
doborowi wymiarów, mapowaniu logicznemu
(technologicznemu) i przekształceniom
architektury.
Wybór napięć zasilania i progowych, tak aby
osiągnąć maksymalną wydajność z zastrzeżeniem
ograniczeń niezawodności.
2019-10-28
12
Low Power Design Essentials ©2008 23
Optymalizacja wydajności w CMOS
Rozszerzalne do ogólnej logiki przez ‘logical effort’
Równe efektywne obciążenie (giCi+1/Ci) na stopień
Przykład: dekoder pamięci
CL
CL
predecoder
3 15
CW
word driver
addrinput
wordline
[Ref: I. Sutherland, Morgan-Kaufman‘98]
Skalowanie (wymiarowanie): optymalna wydajność z równomiernym obciążeniem stopni
Low Power Design Essentials ©2008 24
Model już niewłaściwy
Tradycyjny model skalowania
CVDDf2
3.1)7.0
1()7.0()14.1
7.0
1(Power 22 ===
1),
7.0(Freqand,7.0VDDIf ==
CVDD 8.1)2()7.0()14.17.0
1(fPower
,2Freqand,7.0VDDIf
222 ===
==
CVDD 7.2)2()85.0()14.17.0
1(fPower
,2Freqand,85.0VDDIf
222 ===
==
Model utrzymujący skalowanie częstotliwości
Ograniczone skalowanie napięcia (w dół)
2019-10-28
13
Low Power Design Essentials ©2008 25
Nowa filozofia projektowania
Maksymalna wydajność (w odniesieniu do
opóźnienia) jest zbyt energochłonna i/lub
nawet praktycznie nieosiągalna.
Dużo (jeśli nie wszystkie) aplikacje albo mogą
akceptować dłuższy czas wykonania albo
mogą pracować z mniejszą szybkością zegara
niż maksymalna.
Nadwyżka wydajności (oferowana przez
technologię) będzie wykorzystana do redukcji
energii/mocy.
Wymiana szybkości za moc
Low Power Design Essentials ©2008 26
1 2
3 4
-0. 4 0
0.4 0.8
0
0.2
0.4
0.6
0.8
1 x 10
-4
Po
wer
(W
)
A
B
1 2
3 4
-0.4 0 0.4
0.8
0
1
2
3
4
5 x 10
-10
Del
ay
(s)
A B
Dla danego poziomu aktywności moc jest zmniejszana, a opóźnienie
pozostaje niezmienione, jeśli oba VDD i VTH są zmniejszane,
np. przesuwając się z A do B.
Zależność pomiędzy mocą i opóźnieniem
[Ref: T. Sakurai and T. Kuroda, numerous references]
2019-10-28
14
Low Power Design Essentials ©2008 27
Przestrzeń energia-opóźnienie
VTH
VD
D
Krzywa równej wydajności
Minimum energii
Krzywa
równej
energii
Low Power Design Essentials ©2008 28
Iloczyn energia-opóźnienie jako miara
opóźnienie
energia
energia-opóźnienie
technologia 90 nm
VTH około 0,35 V
Parametr energia-opóźnienie osiąga minimum przy około 2 VTH
(typowo, jeśli nie dominuje upływność)
0.6 0.7 0.8 0.9 1 1.1 1.2 0
0.5
1
1.5
2
2.5
3
3.5
VDD
2019-10-28
15
Low Power Design Essentials ©2008 29
W przestrzeni ograniczonej energii projektowanie jest
procesem poszukiwania kompromisu
♦ Minimalizacja energii dla danych wymagań wydajności
♦ Maksymalizacja wydajności dla danego budżetu energetycznego
opóźnienie
Projekt
nieoptymalny
Dmax Dmin
energia
Emin
Emax Pareto-optymalny
projekt
[Ref: D. Markovic, JSSC’04]
Odkrywając przestrzeń energia-opóźnienie
Low Power Design Essentials ©2008 30
Podsumowanie
Moc i energia są teraz głównymi ograniczeniami
projektowymi
Moc czynna nadal dominuje w większości
układów (aplikacji)
– Napięcie zasilania, aktywność układu i pojemność są
kluczowymi parametrami
Upływność staje się główny czynnikiem w
technologiach poniżej 100 nm
– Napięcie zasilania i progowe mają największy wpływ
Projektowanie stało się problemem znalezienia
kompromisu energia-opóźnienie!
2019-10-28
16
Low Power Design Essentials ©2008 31
References
D. Markovic, V. Stojanovic, B. Nikolic, M.A. Horowitz, R.W.
Brodersen, “Methods for True Energy-Performance Optimization,”
IEEE Journal of Solid-State Circuits, vol. 39, no. 8, pp. 1282-1293,
Aug. 2004.
J. Rabaey, A. Chandrakasan, B. Nikolic, “Digital Integrated Circuits:
A Design Perspective,” 2nd ed, Prentice Hall 2003.
Takayasu Sakurai, ”Perspectives on power-aware
electronics,” Digest of Technical Papers ISSCC, pp. 26-29, Febr.
03.
I. Sutherland, B. Sproull, and D. Harris, “Logical Effort”, Morgan
Kaufmann, 1999.
H. Veendrick, “Short-Circuit Dissipation of Static CMOS Circuitry
and its Impact on the Design of Buffer Circuits,” IEEE Journal of
Solid-State Circuits, Vol. SC-19, no. 4, pp.468–473, 1984.
Jan M. Rabaey
Low Power Design Essentials ©2008 Chapter 4
Optimizing Power @ Design Time
Circuits
Dejan Marković
Borivoje Nikolić tłumaczenie: I. Brzozowski
2019-10-28
17
Low Power Design Essentials ©2008 33
Plan
Przestrzeń optymalizacyjna
wymiany (kompromisu) energia-opóźnienie
Optymalizacja dynamicznych strat mocy
– Wiele napięć zasilania
– Wymiarowanie tranzystorów (dobór)
– Mapowanie technologiczne
Optymalizacja statycznych strat mocy
– Wiele napięć progowych
– „Stos” tranzystorów (łączenie szeregowe)
Low Power Design Essentials ©2008 34
Strategia optymalizacji energia/moc
Dla danej funkcji i aktywności można znaleźć optymalny
punkt pracy w przestrzeni energia-wydajność.
Czas optymalizacji zależy od profilu aktywności
Różne metody optymalizacyjne należy zastosować
w przypadku strat dynamicznych i statycznych
Ustalona
aktywność
Zmienna
aktywność
Brak
aktywności -
Standby
Dynamiczne Projektowanie
(Design time)
Praca (Run time)
Uśpienie (Sleep)
Statyczne
2019-10-28
18
Low Power Design Essentials ©2008 35
Minimalizacja wydajności dla danej energii
Minimalizacja energii dla danej wydajności
opóźnienie
Projekt
niezoptymalizowany
Emax
Dmax Dmin
energia/oper.
Emin
Optymalizacyjna energia-opóźnienie i wymiana
Przestrzeń wymiany
Inne ważne metryki: powierzchnia, niezawodność, używalność
lub
Low Power Design Essentials ©2008 36
Stos abstrakcji projektu
Logika/RT
(Micro-)architektura
Oprogramowanie
Układ
Elementy
System/Aplikacja
Ten r
ozdzia
ł
Bardzo bogaty zestaw parametrów projektowych
do rozważenia!
Pomaga rozważyć opcje w odniesieniu do ich
warstwy abstrakcji.
Wymiarowanie, napięcie
zasilania i progowe
logika standardowa versus
dedykowana
Szeregowy versus równoległy.
Ogólnego przeznaczenia vs.
specjalny dla aplikacji
Techn. standardowa versus SOI
Wybór algorytmu
Ilość współbieżności
2019-10-28
19
Low Power Design Essentials ©2008 37
Architektura
Micro-architektura
Układ (logika, przerzutniki)
Optymalizacja może/musi obejmować wiele poziomów
Optymalizacja projektu łączy techniki top-down i bottom-up:
“meet-in-the-middle”
Low Power Design Essentials ©2008 38
Globalnie optymalna krzywa energia-opóźnienie
dla danej funkcji
Optymalizacja energia-opóźnienie
topologia A
topologia B
opóźnienie
en
erg
ia/o
pe
r.
opóźnienie
en
erg
ia/o
pe
r.
topologia A
topologia B
2019-10-28
20
Low Power Design Essentials ©2008 39
Pewne obserwacje optymalizacyjne
∂E / ∂A ∂D / ∂A A=A0
SA=
SB
SA
f (A0,B)
f (A,B0)
opóźnienie
en
erg
ia
D0
(A0,B0)
Wrażliwości przestrzeni energia-opóźnieni
[Ref: V. Stojanovic, ESSCIRC’02]
Low Power Design Essentials ©2008 40
∆E = SA∙(-∆D) + SB∙∆D
Na optymalnej krzywej wszystkie wrażliwości
muszą być równe
Znalezienie optymalnej krzywej energia-opóźnienie
f (A0,B)
f (A,B0)
D0
(A0,B0)
∆D
f (A1,B)
Pareto-optymalny:
najlepsze, co można osiągnąć bez uszczerbku dla przynajmniej
jednej metryki
opóźnienie
en
erg
ia
(A1,B0)
2019-10-28
21
Low Power Design Essentials ©2008 41
Redukcja napięć – Zmniejszenie napięcia zasilania (VDD) kosztem szybkości zegara
– Zmniejszenie amplitudy sygnału logicznego (Vswing)
Redukcja wymiarów tranzystorów (CL) – Spowolnienie logiki
Redukcja aktywności () – Zmniejszenie aktywności przełączeniowej przez transformacje
układu
– Zmniejszenie ilości szpilek (i hazardów) przez zbalansowanie logiki (wyrównanie opóźnień)
fVVCP DDswingLactive ~DDswingLactive VVCE ~
Redukcja energii dynamicznej na etapie projektu
Low Power Design Essentials ©2008 42
Zmniejszenie wymiarów i/lub napięcia zasilania na ścieżce
krytycznej w układzie zmniejsza częstotliwość pracy.
Zmniejszenie wymiarów na niekrytycznej ścieżce redukuje
pobór energii za darmo, ale:
– Zawężenie rozkładu opóźnień w ścieżkach,
– Zwiększenie wpływu zmienności i odporności
tp (ścieżki)
liczba ś
cie
żek
docelowe
opóźnienie
Obserwacja
tp (ścieżki)
liczba ś
cie
żek
docelowe
opóźnienie
2019-10-28
22
Low Power Design Essentials ©2008 43
Minimalizacji Energia (VDD, VTH, W)
podlega: Opóźnienie (VDD, VTH, W) ≤ Dcon
Punkt odniesienia
– Dmin sizing @ VDDmax, VTH
ref
Ograniczenia:
VDDmin < VDD < VDDmax
VTHmin < VTH < VTHmax
Wmin < W
Przestrzeń optymalizacyjna układu
[Ref: V. Stojanovic, ESSCIRC’02]
opóźnienie
en
erg
ia/o
pe
r.
topologia A
topologia B
Low Power Design Essentials ©2008 44
i i+1
Cw gCi Ci Ci+1
Przestrzeń optymalizacyjna: sieć ogólna
VDD,i+1 VDD,i
Bramka w stopniu i obciążona przez (stopień i+1)
2019-10-28
23
Low Power Design Essentials ©2008 45
Dopasowanie parametrów: Von, d, Kd, g
Model opóźnień bazujący na par. α (Alpha-power)
VDDref = 1,2 V, technologia 90 nm
)1
1()()(
11
i
inom
i
iwi
onDD
DDdp
C
C
C
CCC
VV
VKt
d
=
-=
g
g
g
(90nm technology)
0 2 4 6 8 10 0
10
20
30
40
50
60
Fanout (Ci+1/Ci)
Dela
y (
ps)
t p
0,5 0,6 0,7 0,8 0,9 1 0
0,5
1
1,5
2
2,5
3
3,5
4
V DD
/ V DD
ref
FO
4 d
ela
y (
norm
.)
V on
= 0.37 V
d = 1.53
simulation
model
nom = 6 ps
g = 1.35
simulation
model
Low Power Design Essentials ©2008 46
Pasożytnicze opóźnienie pi – zależy od topologii bramki
Wysiłek elektryczny fi ≈ Si+1/Si
Wysiłek logiczny gi – zależy od topologii bramki
Efektywne obciążenie hi = figi
Dla bramek złożonych
[Ref: I. Sutherland, Morgan-Kaufman’99]
Model połączony z formułą „wysiłku logicznego”
)(g
iiinomp
gfpt =
2019-10-28
24
Low Power Design Essentials ©2008 47
= energia konsumowana przez i-tą bramkę logiczną
Energia dynamiczna
i i+1
Cw gCi Ci Ci+1
VDD,i+1 VDD,i
iiiiwiiei
iDDiiiDDiwidyn
SSCCCfSKC
VfCVCCCE
//)(
)()(
11
2
,
2
,1
===
== gg
)(2
,
2
1, iDDiDDiei VVSKE g= -
Low Power Design Essentials ©2008 48
dla równych h
(Dmin)
max dla VDD_max
(Dmin)
Zależności wrażliwości (E/D)
Optymalizacyjny zwrot z inwestycji (ROI)
Rozmiar bramki
Napięcie zasilania
)( 1---=
iinom
i
i
i
hh
E
SD
SE
DD
ond
DD
on
DD
DD
V
V
V
V
D
E
VD
VE
-
-
-=
1
)1(2
ROI – Optimizating Return
on Investment
2019-10-28
25
Low Power Design Essentials ©2008 49
Własności łańcucha inwerterów
– Topologia pojedynczej ścieżki
– Pobór energii rośnie geometrycznie od wejścia do wyjścia
Przykład: łańcuch inwerterów
CL
1
S1 = 1 S2 … SN S3
Cel
– Znaleźć optymalne rozmiary S = [S1, S2, …, SN], napięcie
zasilania i strategię buforowania, aby osiągnąć najlepszą
wymianę energia-opóźnienie.
Low Power Design Essentials ©2008 50
Zmienny wsp. dopasowania rozmiaru pozwala
osiągnąć minimalną energię
[Ref: Ma, JSSC’94]
Łańcuch inwerterów: wymiarowanie bramek
1 2 3 4 5 6 7 0
5
10
15
20
25
stopień
efe
kty
wne o
bcią
żenie
, h
0%
1%
10%
30%
d inc
= 50% nom
opt
1
21
112
2
1
-
-
-
-
-=
=
ii
iS
Snom
DDe
i
iii
hh
EF
F
VK
S
SSS
ang.: Gate sizing
2019-10-28
26
Low Power Design Essentials ©2008 51
VDD głównie redukuje straty energii w obciążeniu końcowym,
Zmienny wsp. rozmiaru przez przez skalowanie napięcia
Łańcuch inwerterów: optymalizacja VDD
1 2 3 4 5 6 7 0
0,2
0,4
0,6
0,8
1,0
stopień
V D
D /
V
DD
nom
0%
1%
10%
30%
d inc
= 50%
nom
opt
Low Power Design Essentials ©2008 52
Parametr o największej wrażliwości ma największy
potencjał do redukcji strat energii
Dwa dyskretne napięcia zasilania dobrze naśladują
indywidualne VDD dla stopni
Łańcuch inwerterów: wyniki optymalizacji
50
inc
0 10 20 30 40 0
20
40
60
80
100
d (%)
redu
kcja
ene
rgii
(%)
0 10 20 30 40 50 0
0,2
0,4
0,6
0,8
1,0
d inc (%)
wra
żliw
ość (
un
orm
ow
an
a)
cVDD
S gVDD
2VDD
2019-10-28
27
Low Power Design Essentials ©2008 53
Sumator drzewiasty
– Długie połączenia
– Re-zbieżne ścieżki
– Wiele aktywnych wyjść
S0
S15
(A0, B
0)
(A15
, B15
)
Cin
Przykład: sumator drzewiasty Kogge-Stone
[Ref: P. Kogge, Trans. Comp’73]
Low Power Design Essentials ©2008 54
wymiarowanie: E (-54%)
dinc=10%
referencja
D=Dmin
dwa-Vdd: E (-27%)
dinc=10%
Sumator drzewiasty: wymiarowanie vs. dwa-VDD
Projekt referencyjny: wszystkie ścieżki są krytyczne
Energia wewnętrzna S bardziej efektywne niż VDD
– S: E (-54%), 2-Vdd: E (-27%) przy wzroście opóźnienia: dinc = 10%
en
erg
ia
en
erg
ia
en
erg
ia
[Ref: Kogge'93, Rabaey'03]
2019-10-28
28
Low Power Design Essentials ©2008 55
Opóźnienie / Dmin
0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 0
0,2
0,4
0,6
0,8
1 odniesienie
S, VDD
VDD, VTH
S, VTH
S, VDD, VTH
Sumator drzewiasty: poszukiwanie wielowymiarowe
Można zbliżyć się całkiem blisko do optimum tylko z 2 zmiennymi
Uzyskanie min. opóźnienia jest bardzo kosztowne energetycznie
Low Power Design Essentials ©2008 56
Napięcia zasilania na poziomie bloków – W blokach o wymaganej większej wydajności
zastosować wyższe napięcie VDD
– W blokach pracujących wolniej zastosowań niższe VDD
– To prowadzi do tzw. „wysp napięciowych” z odseparowanymi sieciami zasilającymi
– Konwersja poziomów napięć jest wykonywana na granicach bloków
Wiele napięć zasilania wewnątrz bloku – Ścieżki niekrytyczne podłączyć do niższego napięcia
– Konwersja poziomów wewnątrz bloku
– Projekt fizyczny jest wyzwaniem
Wiele napięć zasilania
2019-10-28
29
Low Power Design Essentials ©2008 57
V1 = 1.5V, VTH = 0.3V
Użycie trzech napięć zasilania VDD
0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
V1 (V)
V2 (V
)
+
V2 (V) V
3 (
V)
0.4 0.6 0.8 1 1.2 1.4
0.4
0.6
0.8
1
1.2
1.4
Po
wer
Red
ucti
on
Rati
o
0 0.5
1 1.5
0
0.5
1
1.5 0.4
0.5
0.6
0.7
0.8
0.9
1
[Ref: T. Kuroda, ICCAD’02]
© IEEE 2002
Low Power Design Essentials ©2008 58
1.0
0.5 sto
su
nek V
DD
1.0
0.4
0.5 1.0 1.5
V1 (V)
sto
su
nek m
oc
y
V2/V1
P2/P1
{ V1, V2 }
V2/V1
V3/V1
{ V1, V2, V3 }
0.5 1.0 1.5
V1 (V)
P3/P1
V2/V1
V3/V1
V4/V1
0.5 1.0 1.5
V1 (V)
P4/P1
{ V1, V2, V3, V4 }
[Ref: M. Hamada, CICC’01]
Optymalna liczba napięć zasilaniaVDD
Więcej napięć VDD zmniejsza pobór mocy, ale efekt się nasyca,
Efekt redukcji mocy zmniejsza się wraz ze skalowaniem napięcia VDD
Optymalny stosunek V2/V1 wynosi ok. 0,7
© IEEE 2001
2019-10-28
30
Low Power Design Essentials ©2008 59
Dwa napięcia na blok to optymalna ilość.
Optymalny współczynnik wartości napięć wynosi ok. 0,7.
Konwersja napięć jest zrealizowana na granicach bloków
używając przerzutników konwertujących (LCFF).
Opcją jest zastosowanie asynchronicznych konwerterów
– Bardziej wrażliwych na sprzężenia i szum zasilania
Wiele napięć zasilania - wnioski
Low Power Design Essentials ©2008 60
i1 o1
VDDH VDDL
VSS
Konwencjonalna
Układ VDDH Układ VDDL
i2 o2 i1 o1
VDDH
VDDL
VSS
Współdzielona studnia N
i2 o2
Dystrybucja wielu napięć zasilania
Układ VDDH Układ VDDL
2019-10-28
31
Low Power Design Essentials ©2008 61
Układ VDDH
VDDH VDDL
VSS
Izolacja studni N-well
Układ VDDL
(a) Dedykowany wiersz
(b) Dedykowany obszar
VDDH Row
VDDH Row
VDDH
Region
VDDL
Region
Rozwiązanie konwencjonalne
VDDL Row
VDDL Row
Low Power Design Essentials ©2008 62
VDDH
VDDL
VSS
Współdzielona studnia N
(a) Plan topografii
Współdzielona N-Well
[Shimazaki et al, ISSCC’03]
Układ VDDH Układ VDDL
Układ VDDL
Układ VDDH
2019-10-28
32
Low Power Design Essentials ©2008 63
Niższe napięcie VDD jest dzielone
[Ref: M. Takahashi, ISSCC’98]
Skalowanie napięcia grup: “CVS – Clustered Voltage Scaling”
Przykład: wiele napięć zasilających w bloku
FF
FF
FF
FF FF
FF
FF
FF
FF
FF
Struktura CVS Projekt konwencjonalny
Ścieżka krytyczna
Przerzutnik przesuwający poziom
Ścieżka krytyczna
FF
FF
FF
FF
FF
FF FF
FF
FF
FF
FF
© IEEE 1998
Low Power Design Essentials ©2008 64
Impulsowy pół-zatrzask kontra przerzutnik Master-Slave
Mniejsza liczba tranzystorów, mniejsze obciążenie zegara
Szybsza konwersja poziomów z układzie pół-zatrzasku
Krótsza ścieżka od wej. D do wyj. Q w ukł. impulsowym
[Ref: F. Ishihara, ISLPED’03]
Przerzutniki konwertujące poziom napięcia
q
ck
ckb ck
clk
level conversion
ckb
ckd q (inv.)
ck
ckclk
level conversion
d
mo
mf
sf
so dbsf
so
MN1 MN2
Master-Slave Impulsowy pół-zatrzask
© IEEE 2003
ang. Level Converting Flip-Flops (LCFFs)
ang. Pulsed Half-Latch
2019-10-28
33
Low Power Design Essentials ©2008 65
Impulsowy wstępnie
ładowany LCFF (PPR)
– Szybsza konwersja
poziomów dzięki
wstępnemu ładowaniu
– Stłumione przełączanie
ładowania/rozładowania
przez warunkowy
przechwyt
– Krótka ścieżka wej. D do
wyj. Q
clk
ckd1
qb
clk level conversion
x
db
qb
ckd1
VDDH
VDDH
VDDH
d
xb
IV1
q (inv.)
ck
MN1
MN2
MP1
[Ref: F. Ishihara, ISLPED’03]
Dynamiczna wersja impulsowego przerzutnika
Impulsowy wstępnie ładowany zatrzask
© IEEE 2003
konwersji poziomów LCFF
ang. Pulsed Precharge Latch (PPR Latch)
Low Power Design Essentials ©2008 66
carry
gen.
partial
sum
gp
gen.
5:1
MUX
ain
bin
carry
s0/s1
sum
sumb (long loop-back bus)
clk
clock gen.
: VDDH circuit
: VDDL circuit
INV1 INV2
0.5 pF
sum
sel.
2:1
MUX
9:1
MUX
logical
unit
9:1
MUX
ain0
Przykład: jednostka ALU 64-bitowego Procesora
[Ref: Y. Shimazaki, ISSCC’03]
© IEEE 2003
2019-10-28
34
Low Power Design Essentials ©2008 67
sum
keeper pc
sumb
VDDH
VDDL
INV1 INV2
domino level converter (9:1 MUX)
ain0 sel
(VDDH)
VDDH
VDDL
INV2 znajduje się blisko multipleksera 9:1 żeby zwiększyć odporność
na zakłócenia
Konwersja poziomów jest realizowana w multiplekserze domino 9:1
Nisko-amplitudowa magistrala i konwerter poziomu
[Ref: Y. Shimazaki, ISSCC’03]
© IEEE 2003
Low Power Design Essentials ©2008 68
pojedyncze
zasilanie
dzielona studnia (VDDH=1,8V)
En
erg
ia [
pJ]
TCYCLE [ns]
Temperatura pokojowa
200
300
400
500
600
700
800
0,6 0,8 1,0 1,2 1,4 1,6
1,16GHz
VDDL=1,4V
Energia: -25,3%
Opóźnienie: +2,8%
VDDL=1,2V
Energia: -33,3%
Opóźnienie: +8,3%
Wyniki pomiarów: energia i opóźnienie
[Ref: Y. Shimazaki, ISSCC’03]
© IEEE 2003
2019-10-28
35
Low Power Design Essentials ©2008 69
Praktyczne wymiarowanie tranzystorów
Ciągłe wymiarowanie tranzystorów jest tylko
opcją w projektach specjalizowanych (custom)
W ścieżce projektowania ASIC opcje są
ustawione przez dostępną bibliotekę
Opcje wymiarowania dyskretnego są możliwe w projektowaniu opartym na komórkach standardowych przez zapewnienie wielu wersji tej samej komórki – Efektem są duże biblioteki (powyżej 800 komórek)
– Łatwa integracja z mapowaniem technologicznym
Low Power Design Essentials ©2008 70
a
b
c
zapas=1
d
f
Stosowanie bramek o większej liczbie wejść
redukuje pojemność, ale są one wolniejsze
Mapowanie technologiczne
2019-10-28
36
Low Power Design Essentials ©2008 71
(a) Zrealizowana jako 4-wej. NAND + INV
(b) Zrealizowana jako 2-wej. NAND + 2-wej. NOR
Biblioteka 1:
High-Speed
Mapowanie technologiczne – przykład
Przykład: 4-wejściowa bramka AND
Typ bramki
Powierzchnia (jedn. komórki)
Pojemność wej. (fF)
Opóźnienie średnie (ps)
Opóźnienie średnie (ps)
INV 3 1,8 7,0 + 3,8 CL 12,0 + 6,0 CL
NAND2 4 2,0 10,3 + 5,3 CL 16,3 + 8,8 CL
NAND4 5 2,0 13,6 + 5,8 CL 22,7 + 10,2 CL
NOR2 3 2,2 10,7 + 5,4 CL 16,7 + 8,9 CL
Biblioteka 2:
Low-Power
(w opóźnieniu: CL w fF)
(wartości dla technologii 90 nm)
Biblioteki:
Low Power Design Essentials ©2008 72
Mapowanie technologiczne – przykład
4-wej. AND (a) NAND4 +
INV
(b) NAND2 +
NOR2
Powierzchnia 8 11
HS: opóźnienie (ps) 31,0 + 3,8 CL 32,7 + 5,4 CL
LP: opóźnienie (ps) 53,1 + 6,0 CL 52,4 + 8,9 CL
Energia dynamiczna (fF) 0,1 + 0,06 CL 0,83 + 0,06 CL
Powierzchnia – 4-wejściowa bardziej kompaktowa niż 3-wej. (2 bramki zamiast 3)
Czasy – obie realizacje to układy dwupoziomowe
– INV w 2-gim stopniu (a) jest lepszym driverem niż NOR2 (b)
– w przypadku bloków bardziej złożonych prostsze bramki będą szybsze
Pobór energii – przełączenia między bramkami 2-we. zwiększają pobór energii dyn.
– biblioteka „Low-power” – większe opóźnienie, ale mniejsza upływność
Realizacje:
2019-10-28
37
Low Power Design Essentials ©2008 73
Mapowanie technologiczne
Dobór bramek
Wymiarowanie
Dobór kolejności wejść (do bramek)
Optymalizacje logiczne
Faktoryzacja
Przekształcenia
Wstawianie/usuwanie buforów
Optymalizacja nieokreśloności funkcji
Kompromisy energetyczne na poziomie bramek
Low Power Design Essentials ©2008 74
Przekształcenia logiczne w celu minimalizacji
zbędnych przełączeń
Wstawianie buforów w celu zbalansowania ścieżek
Przekształcenia logiczne
0 1
1
1
0
1
1
1
0
1 1
1
1
1
1
1 1
1 2
3
przed po
2019-10-28
38
Low Power Design Essentials ©2008 75
Pomysł: tak zmodyfikować układ, aby zmniejszyć pojemność
Uwaga: to może zwiększyć aktywność!
pa = 0,1; pb = 0,5; pc = 0,5
Przekształcenia algebraiczne – faktoryzacja
a
b
c
f f
a
a
b
c
p1=0,05
p2=0,05
p3=0,075
p4=0,75
p5=0,075
Low Power Design Essentials ©2008 76
Możliwa jest wspólna optymalizacja wielu parametrów
projektowych wykorzystując przestrzeń optymalizacyjną
opartą na czułości – Równe koszty brzegowe ⇔ projekt wydajny energetycznie
Maksymalna wydajność jest BARDZO nieefektywna
energetycznie – Około 70% redukcji energii przy 20% stracie na opóźnieniu
– Dodatkowe zmienne dla wyższej efektywności energetycznej
Dwa napięcia zasilania są w ogólności wystarczające;
3 lub więcej dają tylko małą korzyść
Wybór między wymiarowaniem a parametrami napięcia
zasilania zależy od topologii obwodu
Lecz … upływność nie była jeszcze rozważana
Wnioski z optymalizacji układowych
2019-10-28
39
EiT 2017/18 77
Redukcja strat energii
na etapie syntezy logicznej
Synteza logiczna dwupoziomowych układów o
obniżonym poborze mocy z wykorzystaniem
rozszerzonego (nowego) modelu
Problem redukcji strat mocy może być podany następująco:
mając daną funkcję boolowską f, wraz ze zbiorem wejść v
oraz prawdopodobieństwo zmian wektorów wejściowych pV i
bibliotekę bramek z wyznaczonymi wartościami pojemności
ekwiwalentnych należy znaleźć dwupoziomową realizację
funkcji o najmniejszym poborze mocy określonym za pomocą
nowego modelu.
EiT 2017/18 78
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Procedura
obliczenie pojemności ekw.
dla bramek realizujących
implikanty
generacja wszystkich pokryć
funkcji
estymacja pojemności
ekwiwalentnej bramek
wyjściowych OR
obliczenie całkowitej
pojemności ekw. dla
wszystkich realizacji
wybór najlepszej realizacji
funkcji
dwupoziomowa realizacja
funkcji o minimalnym
poborze mocy
rozkład
prawdopodobieństwa
zmian wektorów wej.
opis funkcji
plik typu „pla” lub
zbiory wektorów (F, R, D)
generacja wszystkich
implikantów funkcji
2019-10-28
40
EiT 2017/18 79
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – analiza
bramka liczba we. k wsp. 2-2k
CLall [fF] całk. poj.ekw. Ck
br_t [fF]
not 1 41 10,022 2,505
nand2 2 161 45,712 2,857
nand3 3 641 207,125 3,236
nand4 4 2561 883,647 3,452
nor2 2 161 74,344 4,646
nor3 3 641 537,434 9,241
nor4 4 2561 3228,536 12,611
Całkowita pojemność ekwiwalentna dla podstawowych bramek CMOS
na pierwszym poziomie układu w przypadku równomiernego rozkładu zmian wektorów
Wniosek:
dla syntezy układów dwupoziomowych o obniżonym poborze mocy
należy stosować bramki o jak najmniejszej liczbie wejść, czyli bramki
realizujące kostki o jak największym wymiarze – implikanty proste.
EiT 2017/18 80
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład
00 01 11 10
00 0 0 0 0
01 1 1 1 1
11 0 1 1 0
10 0 0 0 0
#1 (01--)
#2 (-1-1)
#3 (11-1)
2019-10-28
41
EiT 2017/18 81
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład (c.d.)
kostka pojemność ekwiwalentna [fF]
#1 (01--) 2,894
#2 (-1-1) 3,002
#3 (11-1) 2,828
pokrycie*
pojemność ekwiwalentna [fF]
1) #1 i #2 5,897
2) #1 i #3 5,722 (*) – bez bramki wyjściowej
EiT 2017/18 82
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład – wyjaśnienie
Iloczyn dwóch liczb o wartościach 01 i od 010 jako ilustracja
iloczynu pojemności ekwiwalentnej i prawdopodobieństwa
2019-10-28
42
EiT 2017/18 83
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład – wyjaśnienie
#2 (-1-1) #3 (11-1)
bramka: 2-wej. 3-wej.
liczba sposobów sterowania: 16 64
wymiar tabel z poj. ekw. 4x4 8x8
Nie można bezpośrednio porównać bramek
Opracowano inny sposób zapisu tabel
z pojemnością ekwiwalentną bramek
EiT 2017/18 84
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład – wyjaśnienie
2019-10-28
43
EiT 2017/18 85
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład – bramka wyjściowa
Unormowana pojemność ekwiwalentna dla bramek: not, nand2, nand3
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
U D
0U
U0
D0
0D
DU
UD
1U
D1
U1
1D
UU
DD
0U1
U01
0U0
U00
U10
0D0
00U
10U
1D0
1U0
00D
10D
D01
D00
D10
0D1
0UU
01U
01D
U0U
D0U
UU0
UD0
U0D
0DU
0DD
DD0
UD1
DU0
0UD
D0D
DU1
1UD
U1D
11D
1DU
D1U
1D1
DUU
D11
UDD
UUD
UDU
DUD
DDU
1DD
11U
D1D
DD1
1U1
U11
U1U
1UU
DDD
UU1
UUU
sposób sterowania
po
jem
no
ść
ekw
. C L
all [
fF]
• unikać jednoczesnych zmian na kilku wejściach bramki
• stosować pokrycia rozłączne
EiT 2017/18 86
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – przykład – podsumowanie
Stosując rozłączne pokrycie zredukowano pobór mocy
bramki wyjściowej o niemal 18%.
Pojemność ekwiwalentna całego układu realizującego
pierwsze rozwiązanie wynosi 8,81fF a drugie – 8,11fF.
Redukcja całkowitej średniej mocy strat wynosi 8%
w stosunku do realizacji o minimalnej powierzchni.
2019-10-28
44
EiT 2017/18 87
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy – wnioski
• minimalne ważone pokrycie funkcji
• pokrycie rozłączne
Powyższe cele syntezy mogą być sprzeczne,
zatem należy znaleźć kompromis.
EiT 2017/18 88
Synteza logiczna dwupoziomowych układów o obniżonym
poborze mocy z wykorzystaniem nowego modelu
Praktyczny algorytm syntezy:
1) Dla danej funkcji f wygenerować zbiór wszystkich implikantów K,
2) Dla danego pwe obliczyć pojemność ekwiwalentną implikantów
ze zbioru K,
3) Znaleźć pokrycia funkcji: minimalne ważone Pmin i minimalne
ważone, rozłączne PRmin,
4) Obliczyć poj. ekwiwalentną dla bramki wyjściowej realizującej
pokrycia Pmin i PRmin,
5) Z pośród PRmin i Pmin wybrać lepsze pokrycie funkcji.
2019-10-28
45
Low Power Design Essentials ©2008 89
Considering leakage as well as dynamic
power is essential in sub-100 nm
technologies
Leakage is not essentially a bad thing
– Increased leakage leads to improved
performance, allowing for lower supply voltages
– Again a trade-off issue …
Considering Leakage @ Design Time
Low Power Design Essentials ©2008 90
Must adapt to process and activity variations
2
ln
Lk Sw opt
d
avg
E EL
K
=
-
Topology Inv Add Dec
(ELk/ESw)opt 0.8 0.5 0.2
Leakage – Not Necessarily a Bad Thing
Optimal designs have high leakage (ELk/ESw ≈ 0.5)
10 -2
10 -1
10 0
10 1
0
0.2
0.4
0.6
0.8
1
E static
/E dynamic
E n
orm
V th ref -180mV
0.81V DD max
V th ref -140mV
0.52V DD max
Version 1
Version 2
[Ref: D. Markovic, JSSC’04]
© IEEE 2004
2019-10-28
46
Low Power Design Essentials ©2008 91
Switching energy
Leakage energy
with:
I0(Y): normalized leakage current with inputs in state Y
Refining the Optimization Model
2
10 )( DDedyn VfSKE = g
cycleDD
qkT
VV
stat TVeSIEDDdTH
/
0 )(
-
Y=
Low Power Design Essentials ©2008 92
Using longer transistors
– Limited benefit
– Increase in active current
Using higher thresholds
– Channel doping
– Stacked devices
– Body biasing (body effect)
Reducing the voltage!!
Reducing Leakage @ Design Time
2019-10-28
47
Low Power Design Essentials ©2008 93
10% longer gates
reduce leakage by
50%
Increases switching
power by 18% with
W/L = const.
Doubling L reduces leakage by 5x
Impacts performance – Attractive when don’t have to increase W (e.g. memory)
Longer Channels
100 110 120 130 140 150 160 170 180 190 200 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Transistor length (nm)
1
2
3
4
5
6
7
8
9
10
90 nm CMOS
Switching energy
Leakage power
Norm
aliz
ed s
witchin
g e
nerg
y
Norm
aliz
ed leakage p
ow
er
Low Power Design Essentials ©2008 94
There is no need for level conversion
Dual thresholds can be added to standard design flows
– High-VTh and Low-VTh libraries are a standard in sub-0.18m
processes
– For example: can synthesize using only high-VTh and then only
in-place swap in low-VTh cells to improve timing.
– Second VTh insertion can be combined with resizing
Only two thresholds are needed per block
– Using more than two yields small improvements
Using Multiple Thresholds
2019-10-28
48
Low Power Design Essentials ©2008 95
VDD = 1.5V, VTH.1 = 0.3V
Three VTH’s
0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
Vth2 (V)
Vth1 (
V)
+
VTH.3 (V)
VT
H.2 (
V)
0.4 0.6 0.8 1 1.2 1.4
0.4
0.6
0.8
1
1.2
1.4
Le
ak
ag
e R
ed
uc
tio
n R
ati
o
0 0.5
1 1.5
0
0.5
1 1.5
0
0.2
0.4
0.6
0.8
1
Impact of third threshold very limited
[Ref: T. Kuroda, ICCAD’02]
© IEEE 2002
Low Power Design Essentials ©2008 96
Using Multiple Thresholds
FF
FF
FF
FF
FF
Cell-by-cell VTH assignment (not at block level)
Achieves all-low-VTH performance with substantial
leakage reduction in leakage
Low VTH High VTH
[Ref: S. Date, SLPE’94]
2019-10-28
49
Low Power Design Essentials ©2008 97
Shaded transistors are
low threshold
Low-threshold transistors used only in critical paths
Dual-VT Domino
P1
Inv1
Inv2 Inv3
Dn+1
Clkn
Clkn+1
Dn …
Low Power Design Essentials ©2008 98
Easily introduced in standard cell design
methodology by extending cell libraries with cells
with different thresholds
– Selection of cells during technology mapping
– No impact on dynamic power
– No interface issues (as was the case with multiple
VDD’s)
Impact: Can reduce leakage power substantially
Multiple Thresholds and Design Methodology
2019-10-28
50
Low Power Design Essentials ©2008 99
High-VTH
Only
Low-VTH
Only Dual VTH
Total Slack -53 psec 0 psec 0 psec
Dynamic
Power 3.2 mW 3.3 mW 3.2 mW
Static
Power 914 nW 3873 nW 1519 nW
All designs synthesized automatically using Synopsys Flows
[Courtesy: Synopsys, Toshiba, 2004]
Dual-VTH Design for High-Performance Design
Low Power Design Essentials ©2008 100
Example: High- vs. Low-Threshold Libraries
0
1000
2000
3000
4000
5000
6000
7000
8000
i10 des C7552 seq pair AVER
LVth
LVth+HVth
HVth
HVth+LVth
Leakage P
ow
er
(nW
)
Selected combinational tests
130 nm CMOS
[Courtesy: Synopsys 2004]
2019-10-28
51
Low Power Design Essentials ©2008 101
Complex Gates Increase Ion/Ioff Ratio
Ion and Ioff of single NMOS versus stack of 10 NMOS
transistors
Transistors in stack are sized up to give similar drive
No stack
Stack
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0
0.5
1
1.5
2
2.5
3
VDD (V)
I off (
nA
)
No stack
Stack
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0
20
40
60
80
100
120
140
I on (
A
)
VDD (V)
(90nm technology) (90nm technology)
Low Power Design Essentials ©2008 102
Complex Gates Increase Ion/Ioff Ratio
Stacking transistors suppresses submicron effects
Reduced velocity saturation
Reduced DIBL effect
Allows for operation at lower thresholds
Stack
No stack
Factor 10!
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0
0.5
1
1.5
2
2.5
3
3.5 x 105
VDD (V)
I on/I
off r
ati
o
(90nm technology)
2019-10-28
52
Low Power Design Essentials ©2008 103
Example: 4-input NAND
With transistors sized for
similar performance:
Leakage of Fan-in(2) =
Leakage of Fan-in(4) x 3
(Averaged over all possible
input patterns)
Fan-in (2) Fan-in (4)
versus
Complex Gates Increase Ion/Ioff Ratio
2 4 6 8 10 12 14 16 0
2
4
6
8
10
12
14
Input pattern
Le
akag
e C
urr
en
t (n
A)
Fan-in (2)
Fan-in (4)
Low Power Design Essentials ©2008 104
Example: 32 bit Kogge-Stone Adder
[Ref: S.Narendra, ISLPED’01]
% o
f in
pu
t v
ecto
rs
Standby leakage current (A)
factor 18
Reducing the threshold by 150 mV increases leakage of
single NMOS transistor by factor 60
© Springer 2001
2019-10-28
53
Low Power Design Essentials ©2008 105
Circuit optimization can lead to substantial
energy reduction at limited performance loss
Energy-delay plots the perfect mechanisms
for analyzing energy-delay trade-off’s.
Well-defined optimization problem over W,
VDD and VTH parameters
Increasingly better support by today’s CAD
flows
Observe: leakage is not necessarily bad – if
appropriately managed.
Summary
Low Power Design Essentials ©2008 106
Books:
A. Bellaouar, M.I Elmasry, Low-Power Digital VLSI Design Circuits and Systems, Kluwer Academic Publishers, 1st Ed, 1995.
D. Chinnery, K. Keutzer, Closing the Gap Between ASIC and Custom, Springer, 2002.
D. Chinnery, K. Keutzer, Closing the Power Gap Between ASIC and Custom, Springer, 2007.
J. Rabaey, A. Chandrakasan, B. Nikolic, Digital Integrated Circuits: A Design Perspective, 2nd ed, Prentice Hall 2003.
I. Sutherland, B. Sproul, D. Harris, Logical Effort: Designing Fast CMOS Circuits, Morgan-Kaufmann, 1st Ed, 1999.
Articles:
R.W. Brodersen, M.A. Horowitz, D. Markovic, B. Nikolic, V. Stojanovic, “Methods for True Power
Minimization,” Int. Conf. on Computer-Aided Design (ICCAD), pp. 35-42, Nov. 2002.
S. Date, N. Shibata, S.Mutoh, and J. Yamada, "IV 30MHz Memory-Macrocell-Circuit Technology
with a 0.5urn Multi-Threshold CMOS," Proceedings of the 1994 Symposium on Low Power
Electronics, San Diego, CA, pp. 90-91, Oct. 1994.
M. Hamada, Y. Ootaguro, T. Kuroda, “Utilizing Surplus Timing for Power Reduction,” IEEE
Custom Integrated Circuits Conf., (CICC), pp. 89-92, Sept. 2001.
F. Ishihara, F. Sheikh, B. Nikolic, “Level conversion for dual-supply systems,” Int. Conf. Low
Power Electronics and Design, (ISLPED), pp. 164-167, Aug. 2003.
P.M. Kogge and H.S. Stone, “A Parallel Algorithm for the Efficient Solution of General Class of
Recurrence Equations,” IEEE Trans. Comput., vol. C-22, no. 8, pp. 786-793, Aug 1973.
T. Kuroda, “Optimization and control of VDD and VTH for low-power, high-speed CMOS design,”
Proceedings ICCAD 2002, pp. , San Jose, Nov. 2002.
References
2019-10-28
54
Low Power Design Essentials ©2008 107
Articles (cont.):
H.C. Lin and L.W. Linholm, “An Optimized Output Stage for MOS Integrated Circuits,” IEEE J.
Solid-State Circuits, vol. SC-10, no. 2, pp. 106-109, Apr. 1975.
S. Ma and P. Franzon, “Energy Control and Accurate Delay Estimation in the Design of CMOS
Buffers,” IEEE J. Solid-State Circuits, vol. 29, no. 9, pp. 1150-1153, Sept. 1994.
D. Markovic, V. Stojanovic, B. Nikolic, M.A. Horowitz, R.W. Brodersen, “Methods for True Energy-
Performance Optimization,” IEEE Journal of Solid-State Circuits, vol. 39,
no. 8, pp. 1282-1293, Aug. 2004.
MathWorks, http://www.mathworks.com
S. Narendra, S. Borkar, V. De, D. Antoniadis, A. Chandrakasan, “Scaling of stack effect and its
applications for leakage reduction,” Int. Conf. Low Power Electronics and Design, (ISLPED), pp.
195-200, Aug. 2001.
T. Sakurai and R. Newton, “Alpha-Power Law MOSFET Model and its Applications to CMOS
Inverter Delay and Other Formulas,” IEEE J. Solid-State Circuits, vol. 25, no. 2,
pp. 584-594, Apr. 1990.
Y. Shimazaki, R. Zlatanovici, B. Nikolic, “A shared-well dual-supply-voltage 64-bit ALU,” Int. Conf.
Solid-State Circuits, (ISSCC), pp. 104-105, Feb. 2003.
V. Stojanovic, D. Markovic, B. Nikolic, M.A. Horowitz, R.W. Brodersen, “Energy-Delay Tradeoffs
in Combinational Logic using Gate Sizing and Supply Voltage Optimization,” European Solid-
State Circuits Conf., (ESSCIRC), pp. 211-214, Sept. 2002.
M. Takahashi et al., “A 60mW MPEG video codec using clustered voltage scaling with variable
supply-voltage scheme,” IEEE Int. Solid-State Circuits Conf., (ISSCC), pp. 36-37,
Feb. 1998.
References