Hadoop i sveprisutno računarstvo

Универзитет у БеоградуФакултет организационих наука

Лабораторија за електронско пословање

Hadoop i sveprisutnoračunarstvo

Darko Marjanović

Đorđe Stepanić

Miloš Milovanović

• Oblasti izučavanja u Laboratoriji za elektronsko poslovanje:

– Elektronsko poslovanje

– Internet i mobilne tehnologije

– Big Data

– Cloud Computing

– E-obrazovanje

– Sveprisutno računarstvo

– Socijalne mreže

Big Data

• Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnostiuobičajeno korišćenog softvera zaskladištenje, obradu i upravljanje podacima.

• Big data je sve ono što ne može da stane u Excel.

Big Data dimenzije

• Volume – velika brzina rasta novih podataka ičuvanje postojećih dovodi do toga da se sadaskladište stotine terabajta pa čak i mnogo više.

• Variety – raznolikost podataka, više nijedovoljno čuvati samo struktuirane podatke veći slike, podatke sa društvenih mreža, logove, senzorske podatke…

• Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.

Hadoop

• Hadoop je open-source software framework Apache fondacije.

• Služi za skladištenje i procesiranje velikihkoličina podataka.

• Hadoop je nastao 2005. godine od straneDoug Cutting i Mike Cafarella.

• Ime je dobio po slonu igrački Cutting-ovogsina.

• Napisan je u Java programskom jeziku.

Hadoop komponente

• Hadoop Common paket

• Hadoop Distributed File System(HDFS)

• Hadoop YARN

• Hadoop Map Reduce

Hadoop Ekosistem

• Hadoop je moguće nadograditi brojnim alatimakojima sa poboljšavaju mogućnosti i efikasnostobrade podataka.

• Dele se na alate za prenošenje podataka, analizupodataka, upravljanje klasterom…

• Neki od alata koji se grade na Hadoop su:– Apache Hive– Apache Pig– Apache Flume– Apache Hue– Apache HCatalog– ……

Hadoop – Elab klaster

• Master node, Slave1 node, Slave2 node

– 27 Cores (CPU)

– 60 GB RAM

– 1TB +++

• Test klaster na privatnom Cloud-u, realizovanuz pomoć OpenStack softvera.

– 32 Cores (CPU)

– 64 GB RAM

– 2TB +++

Hadoop – Za šta se koristi

• Prikupljanje i analiza

– Moodle podaci

– Twitter podaci

– Senzorski podaci

• Integracija sa drugim servisima

– Sharepoint

• Edukativne svrhe

Projekat Slonče i Malina

• Skupljanje i analiza senzorskih podataka izpametnog okruženja.

• Poboljšanje algoritma za upravljačke akcije.

• Generisanje izveštaja radi donošenja boljihodluka.

• Praćenje u realnom vremenu.

Zašto Hadoop

• Velika brzina pristizanja novih podataka, upisivanje novih podataka na 2 do 3 sekunde.

• Raznolikost podataka, senzorski podaci.

• Velika količina podataka, mogućnost zadugotrajno skladištenje.

Početni model

Model u razvoju - Upravljačke akcije

Sveprisutno računarstvo

Apache Flume

• Brz transfer podataka u Hadoop HDFS

• Sources – izvor podataka

• Channels – kanal prenosa podataka

• Sinks - izvor

Apache Flume

• Koristi se za najčešće za log podatke, serijalizovane podatke, podatke sa društvenihmreža…..

• Namenjen je isključivo za transfer podataka, u slučaju obrade podataka prilikom transferakoristi se Apache Storm.

• Ne koristi se za struktuirane podatke, zaprenos relacione baze u HDFS se koristi Sqoop.

Apache Flume

Hive - nastanak

12m korisnika

<100GB/dan

58m korisnika

1TB/dan

360m korisnika

FacebookMySQL, Java Derby, ScribePython skripte

Hive nastanak

• Uvođenje Hadoop-a

• Potreba za MapReduce-om

• 30PB podataka na klasteru 2011-te

• Korisnici – marketing stručnjaci

• Nedostaci – napredno poznavanje Java programskog jezika, teško čitljive šeme podataka

Šta je Hive?

• Hive – data warehousing infrastruktura za Hadoop

• HiveQL zasnovan na SQL-u

• Jednostavnije pisanje MapReduce programa

• Primena:– Analiza log podataka

– Obrada teksta

– Indeksiranje dokumenata

– Statističke analize, Business Intelligence

Hive komponente

• Shell – interakcija sa korisnikom

• Driver – upravljanje Hive engine-om

• Compiler

• Execution engine – izvršavanje

• Meta Store – šema tabela + SerDe

Hive vs OLAP

• Skaliranje i za više od 10.000 mašina u klasteru

• Obrada >1TB podataka

• Nema izmene podataka

• Male promene na podacima imaju mali značaj

Hive tipovi podataka

Primitivni

Integer-tinyint 1B

-smallint 2B

-int 4B

-bigint 8B

Boolean – True/False

Float-float

-double

String

Složeni

Structs

Maps (key-value)

Arrays

Zašto Hive?

• Laka manipulacija podataka

• Nestruktuirani podaci prikazani kao tabele

• Mogućnosti proširivanja

• Sličnost sa SQL-om

Hive Demo

Hadoop i sveprisutno računarstvo

Data & Analytics

Studirajte Mehatroniku i Računarstvo na Veleučilištu u

RAČUNARSTVO I INFORMATIKA (Autosaved)

RAČUNARSTVO I INFORMATIKA...3 Ovaj besplatni priručnik je realizovan kao pomoćno nastavno sredstvo za predmet Računarstvo i informatika za prvi razred gimnazije. Informatika i

SP Informaka i računarstvo I godina - Singidunum University · SP Informaka i računarstvo I godina Ponedeljak Utorak Sreda Četvrtak Petak Objektno orijensano programiranje-JAVA

Informatika i računarstvo

Informaka i računarstvo III godina...Informaka i računarstvo III godina Ponedeljak Utorak Sreda Četvrtak Petak Analiza i obrada podataka Milan Milosavljević Predavanja Kumodraška

RAČUNARSTVO I INFORMATIKA

KATEDRA ZA RAČUNARSTVO I IT INFORMATIKU VAS · PDF filekatedre za raČunarstvo i informatiku katedra za raČunarstvo i informatiku vas poziva na dogaĐaj matematiČki fakultet u beogradu

Studijski program: Računarstvo - fer.hr · PDF fileFER-2 Računarstvo / Telekomunikacije i informatika 2 Modul Telekomunikacije i informatika Predmeti studija Računarstva: Komunikacijske

Outsourcing i Cloud računarstvo Dokumentacija i poslovni procesi

Amar Fazlić-Računarstvo i Informatika

Uvod u računarstvo i informacione tehnologije · PDF fileHARDVER – GRAFIČKA KARTICA Uvod u računarstvo i informacione tehnologije 75 Stariji model grafičke kartice sa aktivnim

INFORMATIKA I RAČUNARSTVO

1. Informatika i Računarstvo 2013

ČUNARSTVO I INFORMATIKA - · PDF file1/28 RAČUNARSTVO I INFORMATIKA Cilj i zadaci Cilj nastavnog predmeta računarstvo i informatika je sticanje znanja, ovladavanje veštinama i

Grid računarstvo i računarstvo visokih performansi - scl.rs · PDF fileGrid računarstvo i računarstvo visokih performansi Vladimir Slavnić Laboratorija za primenu računara u

Računarstvo i informatika

Uvod u računarstvo - riteh.uniri.hr · PDF fileSaržaj kolegija Uvod u računarstvo}Uvod i razvoj računala }Zapis podataka i kodiranje informacija u ... Uvod u programiranje i programski

Nastavni plan i program za gimnaziju - Računarstvo i informatika (PDF)

Elektrotehnika i računarstvo - IV godina · Elektrotehnika i računarstvo - IV godina Ponedeljak Utorak Sreda Četvrtak Petak Engleski jezik 4 Ivana Đerić Predavanja Danijelova