Upload
margery-bryant
View
220
Download
0
Tags:
Embed Size (px)
Citation preview
Galaxy: High-Performance Energy-Efficient
Multi-Chip Architectures Using Photonic Interconnects
Nikos HardavellasPARAG@N – Parallel Architecture Group
Northwestern University
Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik
© Hardavellas2
Chip Power Scaling
Chip power does not scale
[Azizi 2010]
© Hardavellas3
Voltage Scaling Has Slowed
In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough
2003 2006 2009 2012 2015
0.1
1
10
100
Transistor Scaling (Moore's Law)
Supply Voltage
Year
Sca
lin
g F
acto
r
© Hardavellas4
Pin Bandwidth Scaling
[TU Berlin]
Cannot feed cores with data fast enough to keep them busy
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Pin Bandwidth
Year
Sca
ling
Fac
tor
© Hardavellas5
Data Scaling• SPEC, TPC datasets growth:
faster than Moore• Same trends in scientific,
personal computing• Large Hadron Collider
March’11: 1.6PB data (Tier-1)• Large Synoptic Survey Telescope
30 TB/night 2x Sloan Digital Sky Surveys/day
Sloan: more data than entire history of astronomy before it
2004 2007 2010 2013 2016 20190
5
10
15
20
OS Dataset Scaling (Muhrvold's Law) TPC Dataset (Historic) Transistor Scaling (Moore's Law)
Year
Sca
ling
Fac
tor
More data more computing power to process them
© Hardavellas6
Galaxy: Optically-Connected Disintegrated Processors
• Physical constraints limit single-chip designs Area, Yield, Power, Bandwidth
• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration
[Pan, WINDS 2010]
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
© Hardavellas7
Outline• Introduction
➔ Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas8
Nanophotonic Components
off-chiplaser
source
coupler
resonant modulators
resonant detectors
Ge-doped
waveguide
Selective: couple optical energy of a specific wavelength
© Hardavellas9
Modulation and Detection
11010101
11010101
10001011
10001011
16 - 64 wavelengths DWDM5 - 20μm waveguide pitch
10Gbps per link
8 Tbps/mm bandwidth density or more !!!
© Hardavellas10
Outline• Introduction• Background
➔ Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas11
Optical Crossbar
© Hardavellas12
Routing Example
© Hardavellas13
Single Chiplet Connectivity
Galaxy Architecture
© Hardavellas14
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
Galaxy MWSR Optical Crossbar
© Hardavellas15
More energy-efficient than SWMR at that scale MWSR avoids broadcast bus, but requires arbitration
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
© Hardavellas16
SWMR vs. MWSR Crossbar Single-Writer Multiple-Reader• Broadcast bus• All receivers always read• On-rings optical loss• High laser power
Multiple-Writer Single-Reader• Only one receiver reads• Only one ring is on low loss• Low laser power• Needs arbitration
© Hardavellas17
Dense Off-Chip Coupling
• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]
• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment within <0.7μm, 0.4μm, 0.7μm> loss <1 dB
Loss comparable to optical proximity couplers
© Hardavellas18
Nanophotonic Parameters
© Hardavellas19
Outline• Introduction• Background• Galaxy Architecture
➔ Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas20
Architectural Parameters
© Hardavellas21
Modeling Infrastructure
Flexus 4.0Booksim 2.0
Cycle Accurate Full System Simulation
Power Calculations with Runtime Statistics
McPat 0.8 DSENT
AnalyticalModel +
HotSpot5.0
FloTherm9.2
Single Chip Design
Multi-Chip Design
Cores,Cache,MCs
Interconnect
DRAMSim 2.0
Thermal Modeling
+
Operating Temperature
Accurate Lekageand Dynamic
Power
DVFS for Temperature
Limiting
3D-stack model
SimFlex sampling95% confidence
photonic-layerring heating
© Hardavellas22
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas23
Laser Power Sensitivity to Optical Parameters
Coupler Loss
Off-Ring LossWaveguide & Filter Drop Loss
Modulator Insertion Loss
Highly sensitive to coupler loss, insensitive to other losses
© Hardavellas24
Sensitivity to Fiber Density
• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch
128 fibers: within 3% of max performance
© Hardavellas25
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration)
Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas26
• xxx_4MC: Unlimited power (max speed of design, irrespective of temp.)• xxx_20MC: Also unlimited bandwidth (20 MCs per chip, 5x more pins)
Performance Against “Unlimited” Designs
Galaxy matches the performance of “unlimited” designs
© Hardavellas27
• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66.2oC chiplets run at max speed
Performance Against Realistic Designs
Galaxy: 2.4x - 3.2x speedup on average (3.4 max)
© Hardavellas28
• Cool chiplets minimize leakage
Energy-Delay Product
Galaxy: 2.4x-2.8x smaller EDP on average (7.1x max)
© Hardavellas29
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration)
➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas30
Comparison Against Multi-Chip Alternatives
Fiber
Galaxy: 2.5x speedup over Oracle Macrochip (6.8x max) 6x less laser power with demonstrated couplers
© Hardavellas31
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration)
➔ Thermal Modeling• Conclude• Overview of Other Research
© Hardavellas32
80-core 5-chiplet Galaxy Thermal CFD Modeling
8cm spacing allows cooling with cheap passive heatsinks
88.20C
© Hardavellas33
9-chiplet Dense Array (Oracle Macrochip)
Tight arrangement points to liquid cooling requirement
2490C
© Hardavellas34
9-chiplet Galaxy 2D
Cooling 9 chiplets with passive heatsinks
1100C
© Hardavellas35
9-chiplet Galaxy 3D
Flexible fibers allow “virtual chip” to break free of 2D planar designs
83.60C
© Hardavellas36
Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints
Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall
• Processor disintegration 2.4x – 3.2x avg. speedup (3.4 max) 2.4x – 2.8x avg. smaller EDP (7.1x max)
• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links
© Hardavellas37
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude ➔ Overview of Other Research
• Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go? Data movement: 1200pJ across 400mm2 chip, 16000pJ memory
Elastic caches: minimize data transfers through adapting caches to workload demands [ISCA’09, IEEEMicro’10, DATE’12]
Processing: ~1500pJ to schedule the operationSeaFire: specialized computing on dark silicon to eliminate general-purpose computing’s overheads [IEEEMicro’11, USENIX-Login’11]
Circuits: wide voltage guardbands Low voltages, process variation timing errors computing errors
Elastic fidelity: allow errors at select code/data segments to save energy while maintaining fidelity contract with user [CoRR abs/1111.4279]
• Chips fundamentally limited by physical constraints. Need to break free.Galaxy: processor disintegration/macrochip integration using photonic interconnects [WINDS’10]
Overall Focus: Energy-Efficient Computing
© Hardavellas39
Thank You!
© Hardavellas40
BACKUP SLIDES
© Hardavellas41
Token-Based ArbitrationVC Token
back traversal
VC Token forward traversal
Data Channel
8 cycles on average for token arbitration (5 chiplets)
© Hardavellas42
Load-Latency Curves
16 tokens provide optimal buffer depth
© Hardavellas43
Comparison Against Multi-Chip Alternatives
© Hardavellas44
Tapered vs. Optical Proximity Couplers
6x less laser power than Oracle Macrochip with demonstrated couplers
0 1 2 3 4 5 6 70.01
0.1
1
10Macrochip (0.05 dB/cm)
OPC passive-aligned
OPC active-aligned
OPC predicted
Galaxy
SiON cladding
SU-8 cladding
Coupler Loss (dB)
Las
er P
ower
per
wav
e-le
ngth
(mW
)
© Hardavellas45
Energy is Shaping the IT Industry#1 of Grand Challenges for Humanity in the Next 50 Years
[Smalley Institute for Nanoscale Research and Technology, Rice U.]
• Computing worldwide: ~408 TWh in 2010 [Gartner]
• Datacenter energy consumption in US ~150 TWh in 2011 [EPA] 3.8% of domestic power generation, $15B CO2-equiv. emissions ≈ Airline Industry (2%)
• Carbon footprint of world’s data centers ≈ Czech Republic• Exascale @ 20MW: 200x lower energy/instr. (2nJ 10pJ)
3% of the output of an average nuclear plant!• 10% annual growth on installed computers worldwide [Gartner]
Exponential increase in energy consumption
Overcoming Data Movement and Processing Overheads• Elastic caches: adapt cache to workload’s demands
Significant energy on data movements and coherence requests Co-locate data, metadata, and computation Decouple address from placement location
Capitalize on existing OS events simplify hardware Cut on-chip interconnect traffic by half
• Seafire: specialized computing on dark silicon Repurpose dark silicon to implement specialized cores Application cherry-picks a few cores, rest of chip is powered off Vast unused area many specialized cores
likely to find good matches 12x lower energy (conservative)
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
46 © Hardavellas
• Elastic fidelity: selectively trade accuracy for energy We don’t always need 100% accuracy, but HW always provides it Language constructs specify required fidelity for code/data segments Steer computation to exec/storage units with appropriate fidelity and
lower voltage 35% lower energy
Overcoming Voltage Guardbands
47 © Hardavellas
No errors 10% errors