Diseño de Sistemas Distribuidos · 2017. 10. 31. · Diseño de Sistemas Distribuidos Máster en...

DiseñodeSistemasDistribuidosMásterenCienciayTecnologíaInformática

Curso2017-2018

AlejandroCalderónMateos yFélixGarcíaCarballeiraGrupo deArquitectura deComputadoresalejandro.calderon@uc3m.es

•Sistemas de altas prestaciones en entornos distribuidos

Sistemas DistribuidosComputación de altas prestaciones

Agenda

Introducción alacomputacióndealtasprestaciones– Qué,dóndeycómo– Hardwareysoftware

Evolución delacomputacióndealtasprestaciones– Plataformas– Tendencias

Agenda

Computacióndealtasprestaciones

• LacomputacióndealtasprestacionesoHPC(HighPerformanceComputing) secentraprincipalmenteenlavelocidad.

• Elobjetivoesconseguirlamáximacantidaddecómputo posibleenlamínimacantidaddetiempo.

¿Dóndesenecesita?

[Culler99]

Ejemplo1/2:Predicciónmeteorológica…(http://www.businessinsider.com/97-million-supercomputer-in-the-uk-2014-10)

• Laoficina encargada deprevisiones meteorológicas invertiráen unsupercomputador que lepermitirá mejores previsiones.– Conprecisión de300metrossepodrá indicar incidencias

relacionadas conniebla,rachas deviento,etc.– Predicciones conunmargen de1hora(en lugar de3como

ahora)

• Impacto:– Supondrá 97millones delibras (156,9millones dedólares)– Estará operacional en el2017.– Elsupercomputador pesa loque 11autobusesdedoble planta

http://observer.com/2012/09/red-bus-turns-heads-at-christies-london-themed-sale/ http://futurememes.blogspot.com.es/2012/08/supercomputing-16-petaflops-schmetaflops.html

• Capacidad computacional:– Será 13veces más potente que elque seusa ahora.– Tiene una capacidad aproximada de16petaFLOPS.

Ejemplo2/2:BigHero6(2014)…(http://www.engadget.com/2014/10/18/disney-big-hero-6/)

http://technologybehindmagic.tumblr.com/post/100635699626/the-number-of-rendering-hours-that-went-into-big

Ejemplo2/2:BigHero6(2014)…(http://www.engadget.com/2014/10/18/disney-big-hero-6/)

• Tomanagethatclusterandthe400,000-pluscomputationsitprocessesperday(roughlyabout1.1millioncomputationalhoursperday),histeamcreatedsoftwarecalledCoda,whichtreatsthefourrenderfarmslikeasinglesupercomputer.Ifoneormoreofthosethousandsofjobsfails,CodaalertstheappropriatestaffersviaaniPhoneapp.

• Thefilmtakes199millioncore-hours(181days)ofrendering.Toputtheenormityofthiscomputationaleffortintoperspective,HendricksonsaysthatHyperion"couldrenderTangled(2010) fromscratchevery10days."

• Ifthatdoesn'tdrivethepowerofDisney'sproprietaryrendererhome,thenconsiderthis:SanFransokyo containsaround83,000buildings,260,000trees,215,000streetlightsand100,000vehicles(plusthousandsofcrowdextrasgeneratedbyatoolcalledDenizen).What'smore,allofthedetailyouseeinthecityisactuallybasedoffassessordataforlotsandstreetlayoutsfromtherealSanFrancisco.

¿Cómoseconsiguemásvelocidad?

– Mejoresalgoritmos• O(n2),viajante,…

– Mejoresprocesadores(mejorasenlatecnología)• CPUa10GHz,510TBdeRAM,…

– Paralelismo(mejorasenelusodelatecnologíaactual)• Speedup,LeydeAmdahl,…

¿Esodelparalelismoquéimplica?

– Paralelismo(mejorasenelusodelatecnologíaactual)• Speedup,LeydeAmdahl,…

escalabilidad

https://cdn.turbonomic.com/wp-content/uploads/ScaleUpScaleOut.png

Tiposdeparalelismo

• Tareasindependientes:

Tiposdeparalelismo

• Tareascooperativas:– Pipeline– Coordinación(mutex yconditions)

Tiposdeparalelismo

• Tareascooperativas:– Pipeline– Coordinación(mutex yconditions)

• Tareascompetitivas:– Códigosecuencial:-S

Speedup• Lamejora(ospeedup)enlaejecuciónparalelaconnelementosdecómputoserá:

speedup =tiempo_de_ejecución (1)/tiempo_de_ejecución (n)

Speedup• Lamejora(ospeedup)enlaejecuciónparalelaconnelementosdecómputoserá:

speedup =tiempo_de_ejecución (1)/tiempo_de_ejecución (n)

• Nosiempreseobtieneunspeedup ideal:

http://www.nathankerr.com/projects/parallel-gis-processing/alternative_approaches_to_parallel_gis_processing.html

LeydeAmdahl

• LeydeAmdahl:

“elspeedup teórico estálimitadoporlafracciónsecuencials delprograma”

speedup <=1

(1-s)n

SIn↑ ENTONCESspeedup ~1/s

LeydeAmdahl

0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

3,332,50

2,001,67 1,43 1,25 1,11 1,00

speedup ~ 1/s

¿Esodelparalelismoayuda?casodeestudio:genomahumano

§ http://genomebiology.com/2011/12/8/125http://pressroom.nvidia.com/easyir/customrel.do?easyirid=A0D622CE9F579F09&prid=878712&releasejsp=release_157

¿Esodelparalelismoayuda?casodeestudio:genomahumano

§ http://genomebiology.com/2011/12/8/125http://pressroom.nvidia.com/easyir/customrel.do?easyirid=A0D622CE9F579F09&prid=878712&releasejsp=release_157

Computacióndealtasprestaciones

• Paralelismo– LeydeAmdahl,…

• Mejoresalgoritmos– O(n2),viajante,…

• Mejoresprocesadores– 10GHz,510TB,…

+hardware

software

Agenda

Plataformahardwareysoftware

Computador de altas prestaciones

S.O. + servicios

AlmacenamientoRedProceso

Middleware (Single System Image)

Entorno paralelo MPI/PVMAplicaciones secuenciales

Aplicaciones paralelas

Plataformahardware

§ procesamiento(vectorial vs multiprocesador)

§ memoria(compartida vs distribuida)

Plataformahardware

TaxonomíadeFlynn

Single Instruction Multiple Instruction

Single Data

Multiple Data

Instruction Pool

http://www.buyya.com/microkernel/chap1.pdfDis

TaxonomíadeFlynn

Single Data

Multiple Data

Instruction Pool

TaxonomíadeFlynn

Single Data

Multiple Data

Instruction Pool

multiprocesadorvectorial

MIMDSIMD

automata processor

Plataformahardware

Accesoamemoria

• Memoriacompartida(UMA)

• Memoriadistribuida(MD)

• Memorialógicamentecompartida(NUMA)

Memoria

P1 P2 …

Memoria

Accesoamemoria

Visión lógica de la memoria(comunicación/sincronización)

físic

“Programación cómoda”

compartida

distribuida

NUMA MD “escalabilidad”

Plataformasoftware

• Vectoriales – Uso de instrucciones especiales

• Multiprocesador– UMA, NUMA

• OpenMP, …

– M. Distribuida• MPI, …

Plataformasoftware

• Vectoriales – Uso de instrucciones especiales

• OpenMP, …

– M. Distribuida• MPI, …

Qué es MPI

• MPI es una interfaz de paso de mensaje que representa un esfuerzo prometedor de mejorar la disponibilidad de un software altamenteeficiente y portable para satisfacer las necesidades actuales en la computación de alto rendimiento a través de la definición de un estándar de paso de mensajes universal.

William D. Gropp et al.

Principales pilares de MPI

• Portabilidad:– Definido independiente de plataforma paralela.– Útil en arquitecturas paralelas heterogéneas.

• Eficiencia:– Definido para aplicaciones multihilo (multithread)– Sobre una comunicación fiable y eficiente.– Busca el máximo de cada plataforma.

• Funcionalidad:– Fácil de usar por cualquier programador que ya haya

usado cualquier biblioteca de paso de mensajes.

Implementaciones de MPI

Open MPI 3.0.0 (13/09/2017)– http://www.open-mpi.org/– FT-MPI + LA-MPI + LAM/MPI + PACX-MPI

MPICH 3.2.0 (12/11/2015)– http://www.mpich.org/– Argonne National Laboratory & University of Chicago

Cómo es MPI

#include <stdio.h>#include "mpi.h"

main(int argc, char **argv){

int node,size;int tam = 255;char name[255];

MPI_Init(&argc,&argv);

MPI_Comm_size(MPI_COMM_WORLD, &size );MPI_Comm_rank(MPI_COMM_WORLD, &node);MPI_Get_processor_name(name, &tam);printf("Hola Mundo2 del proceso %d de %d procesos (%s)\n",node,size,name);

MPI_Finalize();}

Cómo es MPI: uso interactivo

bsc41729@login2:~/tmp>mpicc-g-ohellohello.c

bsc41729@login2:~/tmp>cat>machineslogin1login2login3login4

bsc41729@login2:~/tmp>mpirun-np4-machinefilemachineshelloHolaMundo2delproceso2de4procesos(s41c3b03-gigabit1)HolaMundo2delproceso1de4procesos(s41c3b02-gigabit1)HolaMundo2delproceso3de4procesos(s41c3b04-gigabit1)HolaMundo2delproceso0de4procesos(s41c3b01-gigabit1)

Cómo es MPI: uso de PBS (1)

bsc41729@login2:~/tmp>cathello.cmd#!/bin/bash#@job_type=parallel#@class=q10#@group=bsc41#@initialdir=/home/bsc41/bsc41729/tmp/#@output=hello.out#@error=hello.err#@restart=no#@blocking=unlimited#@total_tasks=2#@queue#ProgramExecution.

mpirun-np2\-machinefile$LL_MACHINE_LIST/home/bsc41/bsc41729/tmp/hello

bsc41729@login2:~/tmp>llsubmit hello.cmdllsubmit:Processed command filethrough Submit Filter:"/etc/perf/loadl/scripts/llsubmit".llsubmit:The job "s42-gigabit1.mn.406842"hasbeen submitted.

bsc41729@login2:~/tmp>llqIdOwner Submitted STPRIClass Running On------------------------ ---------- ----------- -- --- ------------ -----------s42-gigabit1.404704.0bsc4172911/2712:19R50q09s06c4b11-gigabit1s42-gigabit1.404731.0bsc4172911/2712:32R50q09s07c1b10-gigabit1s42-gigabit1.404732.0bsc4172911/2712:32R50q09s06c4b03-gigabit1s42-gigabit1.404736.0bsc4172911/2712:34I50q09s42-gigabit1.406842.0bsc4172911/2717:18I50q10

4job step(s)inquery,1waiting,0pending,3running,0held,0preempted

bsc41729@login2:~/tmp>cathello.outProgrambinaryis:/home/bsc41/bsc41729/tmp/helloMachinesfileis/gpfs/projects/bsc99/perf/restricted/spool/049/mlist/s42-gigabit1.mn.406849.0.machine_listSharedmemoryforintra-nodescomsisenabled.GMreceivemodeused:polling.2processeswillbespawned:Process0(/home/bsc41/bsc41729/tmp/hello)ons06c1b03-gigabit1.mnProcess1(/home/bsc41/bsc41729/tmp/hello)ons06c1b03-gigabit1.mnOpenasocketons06c1b03...Gotafirstsocketopenedonport33735.Sharedmemoryfile:/tmp/gmpi_shmem-811134:[0-9]*.tmpHolaMundo2delproceso1de2procesos(s06c1b03-gigabit1)HolaMundo2delproceso0de2procesos(s06c1b03-gigabit1)MPIId1isusingGMport2,board0(MAC0060dd4846f0).MPIId0isusingGMport4,board0(MAC0060dd4846f0).Receiveddatafromall2MPIprocesses.SendingmappingtoMPIId0.SendingmappingtoMPIId1.Datasenttoallprocesses.Reapremoteprocesses:AllremoteMPIprocesseshaveexited.

bsc41729@login2:~/tmp>llclass -limitsclass group job job max max max wall clockname name nodes tasks jobs idletasks time------------ ------- ----- ----- ----- ---- ----- ----------------debug bsc41326480825600:10:00interactive bsc41111481402:00:00papibsc4132051280864012:00:00q09bsc4125651280864048:00:00q10bsc4125651280864048:00:00

MPI2.2– 3.1(http://mpi-forum.org/docs/)

• Estructurasdedatos– Tiposdedatos(básicos,vectores,compuestos,…)– Grupodeprocesos(grupos,comunicadores,…)

• Pasodemensajes– Llamadaspuntoapunto(bloqueantes,…)– Llamadascolectivas(bcast,scatter,gather,…)

• Entradaysalida– Gestióndeficheros(apertura,cierre,…)– Gestióndecontenidos(vistas,punteros,…)

• Procesos– Gestióndeprocesos(creación,…)– Profiling

Supercomputador

Linux (NTP, DNS, DHCP, TFTP, LDAP/NIS, etc.)

NFS, LUSTRE, GPFS, GFS, SAN

Gigabit, Infiniband,

Myrinet

SSH, C3Tools, IPMI, SNMP, Ganglia, Nagios, etc.

PBS/Torque (batch) + MAUI (planificador)

Compiladores de GNU, Intel, PGIBLAS, LAPACK, ACML, etc.

MPICH2/OpenMPICódigo C,

C++, FortranCódigo C/C++, Fortran

Nativo, virtualizado

Supercomputador

S.O. + servicios

Almacenamiento(S.F. paralelo y compartido)

Red(ultrarápida)

Software de gestión de sistema (instalación, administración, monitorización)

Software de gestión de recursos

Software de desarrollo (compiladores y bibliotecas)

Entorno paralelo MPI/PVMAplicaciones secuenciales

Proceso(cpu,gpu,…)

Top500Junio2017(http://www.top500.org)

Rank Site System Cores Rmax(TFLOP/s)

Rpeak(TFLOP/s)

Power(kW)

1 National Supercomputing CenterinWuxiChina

Sunway TaihuLight - Sunway MPP,Sunway SW26010260C1.45GHz,SunwayNRCPC

10,649,600 93,014.6 125,435.9 15,371

2NationalSuperComputerCenterinGuangzhouChina

Tianhe-2(MilkyWay-2) - TH-IVB-FEPCluster,IntelXeonE5-269212C2.200GHz,THExpress-2,IntelXeonPhi31S1PNUDT

3,120,000 33,862.7 54,902.4 17,808

3SwissNationalSupercomputingCentre(CSCS)Switzerland

PizDaint - CrayXC50,XeonE5-2690v312C2.6GHz,Ariesinterconnect,NVIDIATeslaP100CrayInc.

361,760 19,590.0 25,326.3 2,272

4 DOE/SC/OakRidgeNationalLaboratoryUnitedStates

Titan - CrayXK7,Opteron 627416C2.200GHz,CrayGeminiinterconnect,NVIDIAK20xCrayInc.

560,640 17,590.0 27,112.5 8,209

5 DOE/NNSA/LLNLUnitedStates

Sequoia - BlueGene/Q,PowerBQC16C1.60GHz,CustomIBM 1,572,864 17,173.2 20,132.7 7,890

6 DOE/SC/LBNL/NERSCUnitedStates

Cori - CrayXC40,IntelXeonPhi725068C1.4GHz,AriesinterconnectCrayInc. 622,336 14,014.7 27,880.7 3,939

7JointCenterforAdvancedHighPerformanceComputingJapan

Oakforest-PACS - PRIMERGYCX1640M1,IntelXeonPhi725068C1.4GHz,IntelOmni-PathFujitsu

556,104 13,554.6 24,913.5 2,719

8RIKENAdvancedInstituteforComputationalScience(AICS)Japan

Kcomputer,SPARC64VIIIfx2.0GHz,TofuinterconnectFujitsu 705,024 10,510.0 11,280.4 12,660

9 DOE/SC/ArgonneNationalLaboratoryUnitedStates

Mira - BlueGene/Q,PowerBQC16C1.60GHz,CustomIBM 786,432 8,586.6 10,066.3 3,945

10 DOE/NNSA/LANL/SNLUnitedStates

Trinity - CrayXC40,XeonE5-2698v316C2.3GHz,AriesinterconnectCrayInc. 301,056 8,100.9 11,078.9 4,233

https://www.top500.org/list/2017/06/

Top500(country=es)

Rank Site System CoresRmax

(TFlop/s)Rpeak

(TFlop/s)Power(kW)

41 BarcelonaSupercomputing CenterSpain

MareNostrum - iDataPlex DX360M4,XeonE5-26708C2.600GHz,Infiniband FDR,IBM 48,896 925.1 1,017.0 1,015.6

168InstitutoTecnológicoydeEnergíasRenovablesS.A.Spain

TEIDE-HPC - FujitsuPRIMERGYCX250S1,Xeon E5-26708C2.600GHz,Infiniband QDR,Fujitsu 16,384 274.0 340.8 312

MareNostrum - iDataPlex DX360M4,XeonE5-26708C2.600GHz,Infiniband FDR,IBM 48,896 925.1 1,017.0 1,015.6

259InstitutoTecnológicoydeEnergíasRenovablesS.A.Spain

TEIDE-HPC - FujitsuPRIMERGYCX250S1,XeonE5-26708C2.600GHz,Infiniband QDR,Fujitsu 16,384 274.0 340.8 312

MareNostrum - iDataPlex DX360M4,XeonE5-26708C2.600GHz,Infiniband FDRIBM

48,896 925.1 1,017.0 1,015.6

MareNostrum - LenovoSD530,XeonPlatinum816024C2.1GHz,IntelOmni-Path ,Lenovo 148,176 6,227.2 9,957.4 1,380

• Junio2014

• Junio2015

• Junio2016

• Junio2017

Top500Junio2017(http://top500.org/statistics/perfdevel/)

Ipad Pro (~400GF)

GTX 1080 (~9TF)

https://www.xataka.com/basics/que-son-los-teraflops-y-que-miden-exactamente

Nvidia Tegra X1(http://www.dailytech.com/NVIDIAs+64Bit+ARM+Tegra+X1+SoC+Doubles+the+Power

+of+K1+Guns+for+Qualcomm/article37049.htm)Dis

http://www.dailytech.com/NVIDIAs+64Bit+ARM+Tegra+X1+SoC+Doubles+the+Power+of+K1+Guns+for+Qualcomm/article37049.htm

Nvidia Tegra X1(http://www.dailytech.com/NVIDIAs+64Bit+ARM+Tegra+X1+SoC+Doubles+the+Power

+of+K1+Guns+for+Qualcomm/article37049.htm)Dis

http://www.dailytech.com/NVIDIAs+64Bit+ARM+Tegra+X1+SoC+Doubles+the+Power+of+K1+Guns+for+Qualcomm/article37049.htm

Agenda

Evolución delacomputacióndealtasprestaciones– Plataforma– Tendencias

Evoluciónenlasplataformasdecomputacióndealtasprestaciones

1950-1990

Supercomputadoras (SMP, MPP, Sistólico, Array, …)

o Problemas con gran cantidad de cómputo

o Más usado en ciencia y ejércitoo Uso de paralelismo masivo

1950-1990

Supercomputadoras & Mainframes(SMP, MPP, Sistólico, Array, …)

o Problemas con gran cantidad de datos tratados

o Más usado en administracióno Uso de paralelismo y alta frecuencia

• ConstruidoporDonaldBeckeryThomasSterling en1994(NASA)

• Formadopor16computadorespersonalesconprocesadorintel DX4a200MHzinterconectadosporunswitch Ethernet.

• Rendimientoteóricoerade3,2Gflops• Posibilidaddesupercomputadoras”baratas”

1950-1990

Cluster

• ConstruidoporDonaldBeckeryThomasSterling en1994(NASA)

• Formadopor16computadorespersonalesconprocesadorintel DX4a200MHzinterconectadosporunswitch Ethernet.

• Rendimientoteóricoerade3,2Gflops• Posibilidaddesupercomputadoras”baratas”

1950-1990

Cluster

1950-1990

Cluster

1950-1990

Cluster

•http://es.wikipedia.org/wiki/Intel_MIC

1950-1990

Cluster

•http://es.wikipedia.org/wiki/Intel_MIC

• Antecesor:metacomputing porLarrySmarr (NCSA)aliniciodelos80– Centrosdesupercomputación

interconectados:másrecursosdisponibles– I-WAYdemostradoen1995

• Grid apareceenunseminariodadoen1997enANLporIan FosteryCarlKesselman

1995-1997

Cluster

• TérminoacuñadoporLuisF.G.Sarmenta (Bayanihan)

• En1999selanzalosproyectosSETI@home yFolding@home

• Adía6/11/2016todoslosproyectosBOINCsuponen~170,4TeraFLOPS

Volunteercomputing

1995-1997

Cluster

http://boincstats.com/es/stats/-1/project/detail

• Googlepresenta:– MapReduce comoframework paratrabajarcongrandesconjuntos

dedatos:lamismafunciónseaplicaadiferentesparticionesdedatos(map)ydespuésestosresultadossecombinan(reduce)

– GFScomoformadealmacenarpetabytes dedatos(ordenadoresnormales,distribuciónescalableytoleranciaafallos)

• GFS+MRpermitealosusuariosconstruirmainframesbaratos(GFS+MRvsmainframesimilaracluster vssupercomputador)

Volunteercomputing

1995-1997

Cluster

Cluster + GFS+MR

Doug Cuttingy Hadoop

• AmazoninspiraelCloudcomputing actual:– datacenterspensandoenlascomprasdeNavidad,

elrestodeltiemposeusaban~10%– Dospilaresfundamentales:

utility computing yvirtualización

• Principalesmejoras:agilidad,coste,escalabilidad,mantenimiento,…

• Openstack:construiruncloud conuncluster

Servicio

InfraestructuraPlataforma

Volunteercomputing

1995-1997

Cluster

Cluster + GFS+MR

AmazonCluster ComputeInstance

Volunteercomputing

1995-1997

Cluster

Cluster + GFS+MR

Cloud++

AmazonElastic MapReduce

Volunteercomputing

1995-1997

Cluster

Cluster + GFS+MR

Cloud++

Volunteercomputing

1995-1997

Cluster

Distancia entre nodosUn chip

Un rack

Una sala

Un edificio

El MundoGrid computing

Cluster computing

SM Parallelcomputing

Cluster + GFS+MR

Cloud++

Agenda

Principalestendencias

S.O. + servicios

Entorno paralelo

Aplicaciones secuenciales

Hardware

Software

CloudVolunteercomputing

GridSupercomputadoras (SMP, MPP, …)

ClusterPlataforma

S.O. + servicios

Entorno paralelo

Hardware

Software

ClusterPlataforma

Plataforma:uso derecursos distribuidos

• Clouds:empleo derecursosdistribuidos alquilados bajodemanda

• Fog/Edge:acercar elcloudalos dispositivos quelousan

https://iot.do/ngd-openfog-fog-computing-2016-10

Plataforma:uso eficiente derecursos

• Cloudsprivados ypúblicos:ajuste deinfraestructura paraminimizar gasto

• Greencomputing:uso derecursosdistribuidos dedistintas organizaciones

• Internetcomputing:uso deordenadorespersonales aescala global(SETI@home)

S.O. + servicios

Entorno paralelo

Hardware

Software

ClusterPlataforma

Hardware:

A nivel de bit

A nivel de instrucción

A nivel de procesador

A nivel de multicomputador

Hardware:

A nivel de bit

A nivel de instrucción

Hardware:másprocesadoresycores heterogéneos

Hardware multicore

Hardware específico

• Tarjetasgráficas:usodelacapacidaddeprocesamientodelaspotentestarjetasgráficasactuales

§ http://www.zdnet.com/blog/security/vendor-claims-acrobat-9-passwords-easier-to-crack-than-ever/2253

§ http://www.many-core.group.cam.ac.uk/platforms/gpu.shtml

• Tarjetasgráficas:usodelacapacidaddeprocesamientodelaspotentestarjetasgráficasactuales– CUDA:

EntornodeprogramaciónparapoderusarlapotenciadelastarjetasgráficasdeNVidia

– OpenCL:lenguajebasadoenC99extendidoparaoperacionesvectorialesyeliminandociertasfuncionalidades

• Procesadoresmany-core:grancantidaddeprocesadoresenunmismochip

§ http://gizmodo.com/5846060/this-crazy-64+core-processor-wants-to-be-in-your-smartphone§ http://www.tgdaily.com/hardware-features/33451-tilera-announces-64-core-processor

• Procesadoresmany-core:grancantidaddeprocesadoresenunmismochip

§ http://www.electroiq.com/articles/sst/2012/01/40nm-manycore-processors-roll-out-at-tilera.html

• Procesadoresmany-core:grancantidaddeprocesadoresenunmismochip– <memoriacompartida>:

SMPLinux2.6

– <pasodemensaje>:Hypervisor (VMs)

§ http://www.tilera.com/development_tools

• Procesadoresheterogéneos:grancantidaddeprocesadoresconcoprocesadoresespecializados(many integrated cores)

§ http://es.wikipedia.org/wiki/Intel_MIC§ http://hothardware.com/News/Intel-Demos-Knights-Ferry-Development-Platform-Tesla-Scores-With-Amazon/

• Procesadoresheterogéneos:grancantidaddeprocesadoresconcoprocesadoresespecializados

§ http://es.wikipedia.org/wiki/Intel_MIC§ http://hothardware.com/News/Intel-Demos-Knights-Ferry-Development-Platform-Tesla-Scores-With-Amazon/

• Procesadoresheterogéneos:grancantidaddeprocesadoresconcoprocesadoresespecializados– <memoriacompartida>:

IntelCilk (plus),IntelThreading Building Blocks,OpenMP,¿OpenACC?,OpenCL

– <pasodemensaje>:IntelMPI

§ http://goparallel.sourceforge.net/parallel-programming-intel-mic-early-experiences-tacc/§ http://www.drdobbs.com/parallel/intels-50-core-mic-architecture-hpc-on-a/232800139

Hardware multicore

Hardware específico

Hardware:memoriapersistente,degrancapacidadybajalatencia

• Memoria3D-XPoint:

§ http://www.golem.de/news/3d-xpoint-neuer-speicher-wird-als-ddr-modul-oder-pcie-karte-eingesetzt-1508-115728.html

Hardware:”memoria”concapacidaddecómputo

• Memoria“activa”:computosimpleenlapropiamemoria

§ http://www.hpcwire.com/2013/11/22/micron-exposes-memorys-double-life-automata-processor/

Hardware:aceleradoresespecíficosporUSB

• ConectorUSBType A.• VPU(Vision Processing Unit)

Myriad 2.• 4GBdememoriaLPDDR3.• Soportedelframework “Caffe”.• CompatibleconFP16(precisión

media).• Consumode1vatio.• Precio:79dólares(2017)

§ https://www.muycomputer.com/2017/07/20/movidius-neural-compute-stick/§ https://www.movidius.com/MyriadX

Hardware:qubit-chip

• “…While quantumcomputerspromise greater efficiency andperformancetohandle certainproblems,they won’t replace theneed for conventional computingor other emerging technologieslike neuromorphiccomputing.We’ll need the technicaladvances that Moore’s lawdelivers inorder toinvent andscale these emergingtechnologies…”

§ https://newsroom.intel.com/news/intel-delivers-17-qubit-superconducting-chip-advanced-packaging-qutech/

S.O. + servicios

Entorno paralelo

Hardware

Software

ClusterPlataforma

Software

• Integrarsolucionesvectorialesymultiprocesador(dentrodelasherramientasdedesarrollo)

• Vectoriales– SSE,AVX,AVX2,…

• OpenMP,• iTBB,…

– M. Distribuida• MPI,…• Map-reduce

Ejemplo:CUDA/LLVMadaptadoanuevosentornos

• CUDACompilerSDK• VersióndeClang/LLVMcon:

– GeneracióndecódigoparaGPU– CompilaciónconCUDA

• Soportepara:– MacOS– Windows– Linux(algunos)

§ http://developer.nvidia.com/cuda/cuda-llvm-compiler

Software

• Integrarsolucionesdememoriacompartidaypasodemensajeconayudadelsistemaoperativo.

Ejemplo:MPI3.x:adaptaciónarequisitosactuales

• Programaciónhíbrida• Toleranciaafallos• Accesoremotoamemoria• Comunicacióncolectivaytopología• Soportedeherramientas• Persistencia• Compatibilidadhaciaatrás

§ http://meetings.mpi-forum.org/MPI_3.0_main_page.php

Software

• Integrarsolucionesdememoriacompartidaypasodemensajeconayudadelsistemaoperativo.

• Buscarperfilessimplificadosquepermitanlamayorescalabilidadposible.

Sistemasdistribuidos:Computacióndealtasprestaciones

• Google:– ModeloMapReduce

– SistemasdeficherosdeGoogle– Algoritmosdeclasificación(K-Means +Canopy)

§ http://code.google.com/edu/parallel/mapreduce-tutorial.html§ http://code.google.com/edu/submissions/mapreduce-minilecture/listing.html§ http://en.wikipedia.org/wiki/MapReduce

Aplicaciones:Adaptaciónacomputacióndealtasprestaciones

• Ejemplos:– Primalanddual-based algorithms for

sensing range adjustment inWSNs

– The unified accelerator architecture forRNAsecondary structure prediction on FPGA

– Protein simulation datainthe relational model

– Dynamic learning model update ofhybrid-classifiers for intrusion detection

§ http://www.springer.com/computer/swe/journal/11227

Agenda

Bibliografía

• ParallelComputerArchitectures:aHardware/SoftwareApproach.D.E.Culler,J.P.Singh,withA.Gupta

• Capítulo 1

• Organización yArquitectura deComputadores (5ta.ed.)WilliamStallings

• Capítulo 16:Procesamiento Paralelo.

• Organización deComputadoras (4ta.ed.)AndrewS.Tanenbaum

• Capítulo 8:Arquitecturas decomputadoras paralelas.

Bibliografía

• GPU+CPU– http://www.hardwarezone.com.ph/articles/view.php?cid=3&id=2786

• Cluster– http://www.democritos.it/~baro/slides/LAT-HPC-GRID-2009/Part1.pdf

• TOP500Supercomputer Sites– http://www.top500.org/

• Beowulf– http://www.beowulf.org/overview/index.html

DiseñodeSistemasDistribuidosMásterenCienciayTecnologíaInformática

Curso2017-2018

AlejandroCalderónMateos yFélixGarcíaCarballeiraGrupodeArquitectura deComputadoresalejandro.calderon@uc3m.es

•Sistemas de altas prestaciones en entornos distribuidos

Diseño de Sistemas Distribuidos · 2017. 10. 31. · Diseño de Sistemas Distribuidos Máster en...

Documents

Sistemas Distribuidos. Diseño e Implementacion

Diseño de Sistemas Distribuidos de Detección de Anomalías de Red

Sistemas Distribuidos - LDC Noticiasmcuriel/Cursos/sop3/Tema1.pdf · Desafíos en el diseño de sistemas distribuidos ... Sistemas operativos?Lenguajes de programación? ... gestión

Sistemas operacionais sistemas-distribuidos

Sistemas Operativos Distribuidos Sistemas de ficheros distribuidos

Diseño de Sistemas Distribuidos - ARCOS – …±o de Sistemas Distribuidos Máster en Ciencia y Tecnología Informática Curso 2017-2018 Félix García Carballeira Grupo de Arquitectura

sistemas distribuidos

Sistemas Distribuidos Sistemas Operativos Distribuidos

Procesos distribuidos Diseño de sistemas distribuidos Caso

Diseño de Sistemas Distribuidos · Diseño de Sistemas distribuidos Félix García Carballeira 21 Métodos de acceso remotos § Modelo carga/descarga q Transferencias completas del

1 TEMA 10. SISTEMAS OPERATIVOS DISTRIBUIDOS Introducción Hardware Software Aspectos de diseño

Diseño de Sistemas Distribuidos - UC3M€¦ · Diseño de Sistemas Distribuidos Máster en Ciencia y Tecnología Informática Curso 2016-2017 Alejandro Calderón Mateos & Óscar

Sistemas Distribuidos I Conceptos de Sistemas Distribuidos y Arquitectura

Curso Universitario Sistemas Distribuidos...1.4.1. Características y conceptos fundamentales de los sistemas distribuidos de tipo cliente-servidor 1.4.2. Proceso de diseño e implementación

Programación Paralela - Conceptos y diseño de sistemas distribuidos

Metodología para análisis y diseño de sistemas distribuidos

SISTEMAS DISTRIBUIDOS DE TIEMPO REAL “ SISTEMAS DISTRIBUIDOS DE TIEMPO REAL ” Sistemas Distribuidos

Diseño de Sistemas Distribuidos · Diseño de Sistemas Distribuidos Máster en Ciencia y Tecnología Informática Curso 2017-2018 Alejandro Calderón Mateos y Félix García Carballeira

Diseño de Sistemas Distribuidos - ARCOS – Computer ...±o de Sistemas Distribuidos Máster en Ciencia y Tecnología Informática Curso 2016-2017 Félix García Carballeira Grupo

Diseño de Sistemas Distribuidos - UC3M · Diseño de Sistemas Distribuidos Máster en Ciencia y Tecnología Informática Curso 2016-2017 Alejandro Calderón Mateos & Jaime Pons Bailly-Bailliere