Hive és Pig

  • View
    36

  • Download
    3

Embed Size (px)

DESCRIPTION

Hive és Pig. Kazi Sándor. Magasszintű nyelvek MR alapokon. 2014. MapReduce – Hive / Pig. Teljes workflow egyben Nem nekünk kell a folyamatok egyes belső állapotait kezelni Optimalizációs lehetőség MapReduce jobok belseje , sorrend Akár a teljes feladat ismert - PowerPoint PPT Presentation

Text of Hive és Pig

Slide 1

Kazi SndorMagasszint nyelvek MR alapokonHive s Pig

2014.

MapReduce Hive / PigTeljes workflow egybenNem neknk kell a folyamatok egyes bels llapotait kezelniOptimalizcis lehetsgMapReduce jobok belseje, sorrendAkr a teljes feladat ismertDeklaratv(abb) krnyezetEltoldik a programozsi feladat hangslyaAz a krds, mit szeretnnkKevsb krds (de nha krds), hogy pontosan hogyan isHiveQL s Pig LatinMegjelenhetnek smainformcik (flig-meddig)Tpus megktsekTrolsi formtumokJogosultsgok

Mikor melyik? Hive / PigMindkett MR framework felettiA Hive j neknk, haLekrdezsekhezAz adat mr betltve, ennek egy struktrlt kivonata kellAdott krdsek megvlaszolsraSQL-bl kszlnk tszokniA HiveQL-nl alacsony a belpsi kszbA Pig j neknk, haETL (Extract-Transform-Load) folyamatokhozAdatelksztsre elemzs elttHossz mveletsorok vghezvitelreGyakran egytt hasznljk ketNem teljesen vltjk ki egyms funkcionalitsbanPl.: Yahoo, Facebook

TartalomAlapokArchitektraKliensekCsomagbanEgybAdatbetlsInternal/ExternalAdattpusokFormtumImpalaHiveQLDDLDMLLekrdezsekMintavtelezsNzetekIndexek, VgrehajtsFggvnyekStreamingJogosultsgokTervezs, Konfigurci

Alapok Mi a HiveAdattrhz megvalsts Hadoop felettA MapReduce framework felettMveletektl fggen lehet MR nlklSma csak olvasshoz (OLAP, nem OLTP)Flstruktrlt adatokon isAlapveten soralap trolsMit nem ad a HiveNem biztost gyors vlaszokat ad-hoc lekrdezsekreNincs rekord szint insert/update/deleteSajt lekrdez nyelv (HiveQL)SQL-hez hasonl szintaxisMagasszint, deklaratvAz optimizer lnyegben a MapReduce jobbal dolgozik

Alapok ArchitektraMetastoreMetaadatok az adatokrlMetadatok az adatbzisrlTblkTpusos oszlopoksszetett adatstruktrk is (0NF)PartcikStatikus illetve dinamikus partcikDinamikus partcik alaphelyzetben kikapcsolvaGyorstja a partcikra irnyul lekrdezseketVdrk (Buckets)Hash partcikGyorstja a join mveleteket

Hive KliensekCLI: Command Line InterfaceHWI: Hive Web InterfaceEditor, History, Table/Database browserJDBC, ODBC, ThriftAdatbzishozzfrs sztandard interfszeken

Hue (Beeswax) :8000 (default port)Editor (syntax highlighting, save/load), History, Table/Database browserQubole Big Data as a ServiceQuery Optimizer (Hive): cache, job optmizierAqua Data StudioVizulis query pts, import/export, stb.FluidShell sajt szkriptkrnyezet

Adatbetlts In/ExternalInternalAdatok tnylegesen a Hive struktrjbanAdatstruktra trlsekor az adat is elveszikCREATE TABLE ;LOAD DATA INPATH [OVERWRITE] INTO TABLE ;

ExternalHDFS, mint kls adathelyAz adatok a helykn maradnakAdatstruktra trlsekor csak az absztrakci tnik elCREATE EXTERNAL TABLE ;LOAD DATA INPATH [OVERWRITE] INTO TABLE ;

Adatbetlts AdattpusokTpusLersMretPldaTINYINTEgsz1 B99, 99YSMALLINTEgsz2 B99, 99SINTEgsz4 B99BIGINTEgsz8 B99, 99LBOOLEANBool1 bTrueFLOATLebegpontos szm4 B3.14159DOUBLELebegpontos szm8 B3.14159DECIMALLebegpontos decimlis szm (max 38)16 B40004, 1E14STRINGKaraktersorozat'String', "String"VARCHARKaraktersorozat mretmaximummalCHARKarakterTIMESTAMPIdblyeg (10-9 s)DATEDtum (1 day)BINARYBittmbSTRUCTStruktrastructMAPKulcs-rtk struktramap