Programming GPUs with OpenACC · GPU Hackathon 2017-OpenACC CPU-GPU memory model 3 PCIe...

GPU Hackathon 2017- OpenACC

Programming GPUs with OpenACC

SaberFekiComputationalScientistLead

SupercomputingCoreLaboratory,KAUST saber.feki@kaust.edu.sa

GPU architecture

CPU-GPU memory model

PCIeInterconnect16X- 8GB/s(gen2)and15.75GB/s(gen3),verythinpipe!KeplerK402,880cudacores1.48Tflops/s

GPU programming

OpenACC, the standard

• ByNVIDIA,CRAY,PGIandCAPS• ThestandardwasannouncedinNov2011atSC11conference• http://www.openacc-standard.org• OpenACC2.0releasedinsummer2013• Now,20+partnersfromacademiaandindustry

OpenACC advantages

• Easy:Directivesaretheeasypathtoacceleratecomputeintensiveapplications

• Open:OpenACCisanopenGPUdirectivesstandard,makingGPUprogrammingstraightforwardandportableacrossparallelandmulti-coreprocessors

• Powerful:GPUDirectivesallowcompleteaccesstothemassiveparallelpowerofaGPU

PGI and CAPS compilers study (I)

S.Feki,A.Al-Jarro,H.Bağcı.PortinganExplicitTimeDomainVolumeIntegralEquationSolveronGPUswithOpenACC,IEEEAntennasandPropagationMagazine,July,2014

#pragma acc kernels {for ( l = 0 ; l < nt; ++l) { // time loop#pragma acc loop independent collapse (3)

for (int i = 0; i < n; ++i){ for (int j = 0; j < n; ++j){

for (int k = 0; k < n; ++k){B[i][j][k] = B[i]][j][k] + ....

#pragma acc loop independent collapse (3)for (int i = 0; i < n; ++i){

for (int j = 0; j < n; ++j){for (int k = 0; k < n; ++k){

B[i][j][k] = B[i]][j][k] + ....}

} // end time loop }

#pragma acc datafor ( l = 0 ; l < nt; ++l) { // time loop#pragma acc kernels#pragma acc loop independent gang

for (int i = 0; i < n; ++i){ #pragma acc loop independent gang,vector

for (int j = 0; j < n; ++j){#pragma acc loop independent gang,vector

} } }#pragma acc kernels#pragma acc loop independent gang

for (int i = 0; i < n; ++i){ #pragma acc loop independent gang,vector

for (int j = 0; j < n; ++j){#pragma acc loop independent gang,vector

} } }} // end time loopCAPS PGI

PGI and CAPS compilers study (II)

6 11 25 32 41 56 77 113 176

Speedup

Numberofdegreesoffreedom(X1000)

CAPSPGI

S.Feki,A.Al-Jarro,H.Bağcı.PortinganExplicitTimeDomainVolumeIntegralEquationSolveronGPUswithOpenACC,IEEEAntennasandPropagationMagazine,July,2014

Directive syntax

• Fortran!$accdirective[clause[,]clause]…]…oftenpairedwithamatchingenddirective!$accenddirective• C#pragmaaccdirective[clause[,]clause]…]Oftenfollowedbyastructuredcodeblock

kernels: Your first OpenACC Directive

• Eachloopexecutedasaseparatekernel (aparallelfunctionthatrunsontheGPU)

!$acc kernelsdo i=1,n

a(i) = 0.0 b(i) = 1.0c(i) = 2.0

end dodo i=1,na(i) = b(i) + c(i)

end do !$acc end kernels

Compile and run

• C:pgcc–acc[-Minfo=accel]–osaxpy_accsaxpy.c• Fortran:pgf90–acc[-Minfo=accel]–osaxpy_accsaxpy.f90• Compileroutput:[sfeki@c4hdnsaxpy]$pgcc-acc-ta=nvidia-Minfo=accel-osaxpysaxpy.csaxpy:

5,Generatingpresent_or_copyin(x[0:n])Generatingpresent_or_copy(y[0:n])Generatingcomputecapability1.0binaryGeneratingcomputecapability2.0binary

6,LoopisparallelizableAcceleratorkernelgenerated6,#pragmaaccloopgang,vector(128)/*blockIdx.xthreadIdx.x*/CC1.0:8registers;48shared,0constant,0localmemorybytesCC2.0:12registers;0shared,64constant,0localmemorybytes

SAXPY example, revisited

Jacobi Iteration: C code

Jacobi Iteration: OpenACC code

PGI Accelerator Compiler output

Performance

CPU:IntelXeonX56806Cores@3.33GHz

GPU:NVIDIATeslaM2070

What went wrong ?

Excessive data transfer

Another way of detecting it: NVIDIA Profiler

• Usenvprof forprofilingtheGPUapplication:

• UseNVVPGUI:NVIDIAVisualProfiler:

Data construct

• Fortran!$accdata[clause…]structuredblock

!$accenddata• C#pragmaaccdata[clause…]{structuredblock}• Managedatamovement.Dataregionsmaybenested• GeneralClausesif(condition)async(expression)

Data clauses

• copy (list)AllocatesmemoryonGPUandcopiesdatafromhosttoGPUwhenenteringregionandcopiesdatatothehostwhenexitingregion.

• copyin (list)AllocatesmemoryonGPUandcopiesdatafromhosttoGPUwhenenteringregion.

• copyout (list)AllocatesmemoryonGPUandcopiesdatatothehostwhenexitingregion.

• create (list)AllocatesmemoryonGPUbutdoesnotcopy.• present (list)DataisalreadypresentonGPUfromanother

containingdataregion.• andpresent_or_copy[in|out],present_or_create,deviceptr.

Array shaping

• Compilersometimescannotdeterminesizeofarrays• Mustspecifyexplicitlyusingdataclausesandarray“shape”• C#pragmaaccdatacopyin(a[0:size]),copyout(b[s/4:3*s/4])

• Fortran!$accdatacopyin(a(1:size)),copyout(b(s/4:3*s/4))• Note:dataclausescanbeusedondata,kernelsorparallel

Jacobi Iteration: OpenACC C Code, Revisited

Performance numbers

New NVIDIA profiles

CUDA Kernels

• Threadsaregroupedintoblocks• Blocks aregroupedintoagrid• Akernel isexecutedasagridofblocksofthreads

Thread blocks• Threadblocksallowcooperation– Cooperativelyload/storeblocksofmemorythattheyalluse

– Shareresultswitheachotherorcooperatetoproduceasingleresult

– Synchronizewitheachother• Threadblocksallowscalability– Blockscanexecuteinanyorder,concurrentlyorsequentially

– Thisindependencebetweenblocksgivesscalability:• AkernelscalesacrossanynumberofSMs

Mapping OpenACC to CUDA I

• TheOpenACCexecutionmodelhasthreelevels:gang,worker,andvector

• AllowsmappingtoanarchitecturethatisacollectionofProcessingElements(PEs)

• OneormorePEspernode• EachPEismulti-threaded• Eachthreadcanexecutevectorinstructions

• Tile pragmainOpenACC2.0

Mapping OpenACC to CUDA II

• ForGPUs,themappingisimplementation-dependent.Somepossibilities:– gang==block,worker==warp,andvector==threadsofawarp– omit“worker”andjusthavegang==block,vector==threadsofablock

• Dependsonwhatthecompilerthinksisthebestmappingfortheproblem

• ...Butexplicitlyspecifyingthatagivenloopshouldmaptogangs,workers,and/orvectorsisoptionalanyway– Furtherspecifyingthenumberofgangs/workers/vectorsisalsooptional

– Sowhydoit?Totunethecodetofitaparticulartargetarchitectureinastraightforwardandeasilyre-tunedway.

OpenACC loop directive and clauses

#pragmaacc kernelsloopfor(int i=0;i<n;++i)y[i]+=a*x[i];Useswhatevermappingtothreadsandblocksthecompilerchooses.Perhaps16blocks,256threadseach#pragma acc kernelsloopgang(100),vector(128)for(int i=0;i<n;++i)y[i]+=a*x[i];100threadblocks,eachwith128threads,eachthreadexecutesoneiterationoftheloop,usingkernels#pragma acc parallelnum_gangs(100),vector_length(128){#pragma acc loopgang,vectorfor(int i=0;i<n;++i)y[i]+=a*x[i];

}100threadblocks,eachwith128threads,eachthreadexecutesoneiterationoftheloop,usingparallel

Mapping OpenACC to CUDA threads and blocks

• Nestedloopsgeneratemulti-dimensionalblocksandgrids:#pragmaacckernelsloopgang(100),vector(16)for(…)

#pragmaaccloopgang(200),vector(32)for(…)

16threadtallblock

100blockstall(row/Y

direction)

and32threadwide

200blockswide(column/Xdirection)

Other clauses for loop directive

#pragmaaccloop[cluases]

•independent:forindependentloops•seq:forsequentialexecutionoftheloop•Reduction:forreductionoperationsuchasmin,max,etc…

Jacobi example … again

WithKernelsanddatadirectives

Afteraddingloopdirectivewithgangandvectorclauses

An opportunity for Auto-tuning

• Gangandvectorvaluescanbeauto-tunedfortheapplication,targetingtheavailableacceleratordevice

1.171.22

1.321.24 1.20

1.331.25 1.27 1.26

Performan

ProblemSizes

S.Siddiqui,F.Al-Zayer,S.Feki.HistoricLearningApproachforAuto-tuningOpenACCAcceleratedScientificApplications,iWAPT2014,Eugene,Oregon,USA

An opportunity for Auto-tuning

Input code annotated with OpenACC

#pragma acc kernels#pragma acc loop independentfor (x = 4 ; x < nx-4; x++) {

#pragma acc loop independentfor (y = 4; y < ny-4; y++) {

#pragma acc loop independentfor (z = 4; k < nz-4; z++) {U[x][y][z] = c1*V[x]][y][z] + ....

Accelerator Specification

Automatic code generator

#pragma acc kernels#pragma acc loop independent gang(a),vector(b)for (x = 4 ; x < nx-4; x++) {

#pragma acc loop independent gang(c)for (y = 4; y < ny-4; y++) {

#pragma acc loop independent vector(d)for (z = 4; k < nz-4; z++) {U[x][y][z] = c1*V[x]][y][z] + ....

#pragma acc kernels#pragma acc loop independent gang(a)for (x = 4 ; x < nx-4; x++) {

#pragma acc loop independent gang(b),vector(c)for (y = 4; y < ny-4; y++) {

#pragma acc loop independent vector(d)for (z = 4; k < nz-4; z++) {U[x][y][z] = c1*V[x]][y][z] + ....

#pragma acc kernels#pragma acc loop independent gang(a),vector(b)for (x = 4 ; x < nx-4; x++) {

#pragma acc loop independent vector(c)for (y = 4; y < ny-4; y++) {

#pragma acc loop independent gang(d),vector(e)for (z = 4; k < nz-4; z++) {U[x][y][z] = c1*V[x]][y][z] + ....

#pragma acc kernels#pragma acc loop independent for (x = 4 ; x < nx-4; x++) { #pragma acc loop independent gang(a),vector(b)

for (y = 4; y < ny-4; y++) {#pragma acc loop independent gang(c),vector(d)

for (z = 4; k < nz-4; z++) {U[x][y][z] = c1*V[x]][y][z] + ....

Runtime evaluation and selection

Database

• Whichotheroptimizationwecanfurtherdo?

– RestructuringthecodewillenhancebothCPUandGPUversion– Hint:reducememoryoperations

OpenACC Runtime Library

• InC:#include“openacc.h”• InFortran:#include‘openacc_lib.h’ oruseopenacc• Contains:– Prototypesofallroutines– Definitionofdatatypesusedintheseroutinesincludingenumerationtypedescribingtypesofaccelerators

GPU Hackathon 2017- OpenACC 39

OpenACC Runtime Library Definitions

• openacc_version withavalueyyyymm (yearandmonthoftheopenacc version)

• acc_device_t :typeofacceleratordevice– acc_device_none– acc_device_default– acc_device_host– acc_device_not_host

• acc_get_num_devices:returnsthenumberofdevicesofthegiventypeattachedtothehost

• acc_set_device_type:tellswhichtypeofdevicetousewhenexecutinganacceleratorparallelorkernelregion.

• acc_get_device_type:tellswhichtypeofdevicetobeusedforthenextacceleratedregion

• acc_set_device_num:specifywhichdevicetouse• acc_get_device_num:returnsthedevicenumberofthe

specifieddevicetypethatwillbeusedtorunthenextacceleratorparallelorkernelsregion

OpenACC Runtime Library Routines I

OpenACC Runtime Library Routines II

• acc_init:initializetheruntime,canbeusedtoisolatetheinitializationcostfromthecomputationcost

• acc_shutdown:shutdowntheconnectiontothedeviceandfreeanyallocatedresources

• acc_malloc:allocatememoryontheacceleratordevice• acc_free:freesmemoryontheacceleratordevice

OpenACC Runtime Library Routines: use case

• PortinganMPIcodetomultipleGPUs.• Exampleinrunningon8nodes,with4GPUseach,i.e.32MPI

processes

• acc_init()• acc_set_device_num( rank%4)

• Eachnoderuns4MPIprocesses,eachofthemisoffloadingcomputekernelstoaseparateGPU

S.Feki,A.Al-Jarro,H.Bağcı.MultipleGPUsElectromagneticsSimulationsusingMPIandOpenACC,PosterinGPUTechnologyConference,SanJose,California,USA,March24-27,2014

OpenACC and CUDA libraries

GPU accelerated libraries

Sharing data with libraries

• CUDAlibrariesandOpenACCbothoperateondevicearrays• OpenACCprovidesmechanismsforinteroperabilitywith

librarycalls– deviceptr dataclause– host_data construct

• Note:samemechanismsusefulforinteroperabilitywithcustomCUDAC/C++/Fortrancode

deviceptr Data Clause

deviceptr(list)Declaresthatthepointersinlistrefertodevicepointersthatneednotbeallocatedormovedbetweenthehostanddeviceforthispointer.Example:• C#pragmaacc datadeviceptr(d_input)• Fortran$!acc datadeviceptr(d_input)

host_data Construct

• Makestheaddressofdevicedataavailableonthehost.• deviceptr(list)Tellsthecompilertousethedeviceaddress

foranyvariableinlist.Variablesinthelistmustbepresentindevicememoryduetodataregionsthatcontainthisconstruct

• Example• C#pragmaacc host_data use_device(d_input)• Fortran$!acc host_data use_device(d_input)

Summary on device pointers

• Usedeviceptr dataclausetopasspre-allocateddevicedatatoOpenACCregionsandloops

• Usehost_data togetdeviceaddressforpointersinsideaccdataregions

• ThesametechniquesshownherecanbeusedtosharedevicedatabetweenOpenACCloopsand– YourcustomCUDAC/C++/Fortran/etc.devicecode– AnyCUDALibrarythatusesCUDAdevicepointers

48GPU Hackathon 2017- OpenACC

GPU Hackathon 2017- OpenACC 49

Thanks !

Programming GPUs with OpenACC · GPU Hackathon 2017-OpenACC CPU-GPU memory model 3 PCIe...

Documents

Introduction to OpenACC

INTRODUCTION TO OPENACC · 2016-10-26 · 5 Today’s Objectives Understand what OpenACC is and why to use it Understand some of the differences between CPU and GPU hardware. Know

DirectivebasedAccelerator ProgrammingWith OpenACC- · MathewColgrove’’ mathew.colgrove@pgroup.com’ July’2013’ DirectivebasedAccelerator ProgrammingWith OpenACC-

GPU Programming - National Tsing Hua Universityjinnliu/teaching/nc16s/GPU_Tutorial_2013.pdf · In November 2006 Nvidia launched CUDA, ... GPU Programming C OpenACC, CUDA C++ Thrust,

Programming Heterogeneous X64+GPU Systems Using OpenACC

Slide 1 Using OpenACC in IFS Physics’ Cloud Scheme (CLOUDSC) Sami Saarinen ECMWF Basic GPU Training Sept 16-17, 2015

CMSI計算科学技術特論B(14) OpenACC・CUDAによるGPUコンピューティング

Progress Porting WRF to GPU using OpenACC · WRF Porting Plan WRF developers interested in GPU port if performance is suitable. OpenACC extensions are acceptable because: This is

Approaches to GPU Computing Libraries, OpenACC Directives, and Languages

OpenACC for Fortran Programmerson-demand.gputechconf.com/gtc/2015/presentation/S5388-Michael... · Outline GPU Architecture Low-level GPU Programming and CUDA OpenACC Introduction

OpenACCで始めるGPUコンピューティング： OpenACC GPU ......Introduction of GPU computing by OpenACC: Optimize Loops 成瀬彰 1 はじめに前回までに、我々が推奨するOpenACCによるアプ

INTRODUCTION TO OPENACC - ACCRE VanderbiltOpenMP, MPI and CUDA. Ver 1.0 Nov 2011 Ver 2.0 Jun 2013 Ver 2.5 Oct 2015 IT IS NOT GPU PROGRAMMING! ONLY EXPRESS PARALLELISM OpenACC directives...serial

Parallel Compu,ng with OpenACC...GPU Large Scale of applications Genomics Deep Learning Costal Storm Predicon Many-Core CPU (Intel Xeon Phi) Multi-Core CPU OpenMP OpenACC Phi Direcves

INTRODUCTION TO COMPILER DIRECTIVES WITH OPENACC · THE STANDARD FOR GPU DIRECTIVES Simple: Directives are the easy path to accelerate compute intensive applications Open: OpenACC

クラウドでアクセラレーテッドコンピューティン …...P2/G2: GPU-accelerated computing 各GPUの数千CUDAコアによる高並列計算豊富なAPI群(CUDA, OpenACC,

GPU COMPUTING - Normandie - Sciencesconf.org...2 3 4 1 1. Review available GPU-accelerated applications 2. Check for GPU-Accelerated applications and libraries 3. Add OpenACC Directives

Introduction of Openacc for Directives Based GPU AccelerationApr 21, 2015 · INTRODUCTION OF OPENACC FOR DIRECTIVES-BASED GPU ACCELERATION NASA Ames Applied Modeling & Simulation

OpenACC Highlights - February

Performance Analysis and Optimization of OpenACC …on-demand.gputechconf.com/gtc/2014/presentations/...openacc-apps.pdf · OPTIMIZATION WITH OPENACC Michael Wolfe, PGI Compilers

CUDAやOpenACCによる GPUコンピューティング · CUDA やOpenACCによる ... 高い演算能力高いメモリバンド幅高速なシステム・インタコネクト