OSCAR Vector Multicore System OSCAR Compilercontrolled by OSCAR Compiler Result • 3.5 times speed...

OSCAR Compiler

Vector Accelerator

Clang/LLVM

Performance on FPGA

OSCAR Vector Multicore System Platinum Vector Accelerator on FPGA

Hardware• CPU (NIOS)

• 1CPU + 1VA / 2CPU + 2VA

Platinum Multicore Architecture

Kasahara & Kimura Lab, Waseda University, TOKYO

Vector Accelerator / DTUFeatures• Attachable for any CPUs (Intel, ARM, IBM)

• Data driven initiation (sync flags)

Function Units [tentative]• Vector Function Unit

• 8 double precision ops/clock• 64 characters ops/clock• Variable vector register length• Chaining LD/ST & Vector pipes• Vector Length = 256 element

• Scalar Function Unit

Data Transfer Unit• Overwrap

execution w/data transfer(Currently using DMA)

http://www.kasahara.cs.waseda.ac.jp

Centralized Shared Memory

Compiler Co-designed Interconnection Network

Compiler co-designed Connection Network

On-chip Shared Memory

Multicore Chip

VectorData

TransferUnit

Local MemoryDistributed Shared Memory

Power Control Unit

×４chips

SC18 members

K. MiyamotoT. KawataK. TakahashiT. KashimataB.A. AdhiY. MinatoH. MikamiProf. T. KitamuraProf. K. KimuraProf. H. Kasahara

FPGA ImplementationBoard: C5P development kit (intelFPGA Cyclone V / 301K LE)Specification:• 16 single precision ops/cycle• Local Data Memory Bandwidth 32 byte/clock• All data located on Local Data Memory• Local Data Memory size: 32KB

Compile Flow

Sequential CPrograms

OSCAR Compiler(C to Parallel C)

Host CPUCompiler

AcceleratorCompiler

Executable File

• Multi Grain Parallelization• Local Memory Management• Data Transfer Optimization• Power Management• Auto Vectorization

• Nios II compiler

• Clang / LLVM based• Acc. C code to binary

• Download to FPGA board using Nios II toolchain

OSCAR compiler can generate C code for Accelerator Automatically

Host side code(OSCAR API)

Accelerator side code(Using Intrinsic function)

OSCAR API Translator

• Convert architecture independent directives to architecture specific code

Applications• Swim (SPEC 95)

• Size 257x257• Iteration = 10 times• Evaluation except 1st iteration (initialization)

• Compiler: nios2-elf-gcc• FPU: Floating Point

Hardware 2• Cache: 32KB

• No cache• Local Memory: 32KB• DMA transfer between

DDR and Local Memorycontrolled by OSCAR Compiler

Result• 3.5 times speed up w/o

initialization• Execution time of CPU

part increases w/ocache

CPU(cache 32K)

1CPU+1VA(No cache)

2CPU+2VA(No cache)

3.5x speedup by 2CPU + 2VA for short vector swim (257x257) on FPGA

OSCAR Vector Multicore System OSCAR Compilercontrolled by OSCAR Compiler Result • 3.5 times speed...

Documents

ITEC N466: Project initialization

Session Initialization Protocol (SIP)

Smart Initialization

HWRF Initialization -GSI customization

Array Initialization

Stress Initialization

3 Initialization and Communication

Initialization Dfig Thesis

Initialization File LTire

MNL-608 - 440LX - Motherboard - Super Micro Computer, Inc.JP918 i960 Initialization Mode2-21 JP919 i960 Initialization Mode2-21 JP920 i960 Initialization Mode2-21 JP921 i960 Initialization

Swift3 subscript inheritance initialization

Automatic Robot Initialization Using a Planar Target Scanned ......Automatic Robot Initialization Using a Planar Target Scanned by an Optical Reflection Sensor R. Q. Yang* and M. W

Initialization Strategy for Nonlinear Systems · Initialization Strategy for Nonlinear Systems KSG 2011 Initialization Strategy for Nonlinear Systems Problem presented by Munawar

Initialization & Cleanup

Chapter 14: System initialization CEG2400 - Microcomputer Systems CEG2400 Ch14. System initialization V3b 1

Improving the boot experience POST OS Initialization Service & App Initialization Service & App Init

Webinar - Can your company survive without connectedness? w/ Oscar Berg

Initialization: Positions and velocities

Multiprocessor Initialization

rob102 00 initialization