41
Big Data dengan Hadoop Oleh : Agus Priyanto, M.Kom SEKOLAH TINGGI TEKNOLOGI TELEMATIKA TELKOM Smart, Trustworthy, And Teamwork

Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Embed Size (px)

Citation preview

Page 1: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Big Data denganHadoopOleh : Agus Priyanto, M.Kom

SEKOLAH TINGGI TEKNOLOGI TELEMATIKA TELKOM

Smart, Trustworthy, And Teamwork

Page 2: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Tujuan Pembelajaran

Setelah mengikuti pertemuan ini, mahasiswa dapat memahamiarsitektur Hadoop

Setelah mengikuti pertemuan ini, mahasiswa dapat memahamiEkosistem Hadoop dan Cara KerjaHadoop

Page 3: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Definisi Hadoop

Apache Hadoop adalah suatuframework yang memungkinkanpemrosesan data set besar padakluster-kluster komputer secaraterdistribusi dengan memanfaatkanmodel-model pemrogramansederhana

Page 4: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop dirancang untuk dapatdikembangkan (scale up) dari sebuahserver hingga ribuan mesin, dimanatiap-tiap mesin tersebut menawarkanfitur komputasi dan penyimpanansecara lokal

Page 5: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop tidak bergantung padahardware untuk memberikan tingkatketersediaan yang tinggi (high availability) karena library Hadoopsendiri dirancang untuk mendeteksidan menangani kegagalan (failure) pada layer aplikasi.

Page 6: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop bukanlah sebuah software, melainkan sebuah framework open source

Apache yang dikembangkan menggunakanbahasa pemrograman Java, dan dapat

digunakan untuk memproses data set yang besar menjadi komputasi terdistribusi yang

lebih kecil

Page 7: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Pengguna Hadoop

Page 8: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Sejarah

Doug Cutting Mike Cafarella

Hadoop diciptakan oleh Doug Cutting danMike Cafarella pada tahun 2005 yang pada

saat itu bekerja di Yahoo!

Page 9: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Timeline

2002

•Nutch project started

2003

•Google publish GFS architecture paper

2004

•Develop NutchDistributed File System

•Google publish MapReduce Paper

Page 10: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

2006

• Hadoop project started

2008

• Hadoop became top level project in Apache

• Hadoop broke the record the fastest system to sort terabytes of data

Page 11: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop dan Cloud Support

Hadoop flavor Apache Hadoop (http://hadoop.apache.org)

Cloudera – CDH (http://cloudera.com)

Yahoo! Hadoop(https://developer.yahoo.com/hadoop/)

Cloud Support Amazon Elastic MapReduce

(https://aws.amazon.com/elasticmapreduce/)

Google Cloud Platform (https://cloud.google.com/solutions/hadoop/)

Page 12: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Arsitektur Hadoop 1.0 dan Hadoop 2.0

Page 13: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Komponen dalam Hadoop

Hadoop Common : Java libraries yang dibutuhkan oleh modul-modulHadoop lainnya

Menyediakan file sistem yang digunakanuntuk memulai Hadoop

Page 14: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop YARN : Platform untukmanajemen sumber daya (resource)

Mengatur sumber daya komputasi dalamkluster, dan menggunakannya untukpenjadwalan aplikasi pengguna

Page 15: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop Distributed File System (HDFS) : Sistem file terdistribusi yang menyimpandata pada commodity machine

Storage Engine

Membagi/mendistribusi file pada node dalam cluster

Komponen : Name node dan data node

Page 16: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Map/Reduce : Suatu model pemrograman yang digunakan untukmemproses data berskala besarsecara paralel.

Processing Engine

Mendistribusikan proses pada node lain

Komponen : Job tracker dan task tracker

Page 17: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop : Ciri Utama

Affordable – bisa berjalan padahardware ‘pasaran’

Reliable – tahan terhadap kegagalanhardware/software

Scalability – hadoop bisa bertambahsecara linear dengan menambahkannode baru dalam sistem

Page 18: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Cost-effective – Hadoop membawakomputasi paralel yang masif(berjumlah sangat besar) ke dalamsuatu commodity server penghematan biaya penyimpananper terabyte yang akan membuatpemodelan seluruh data menjadi lebihterjangkau (affordable)

Page 19: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Flexible – Hadoop bersifat schema-less, dan dapat mendukung berbagai tipedata, baik yang terstruktur atau tidakterstruktur, dari berbagai sumber.

Fault-tolerant – ketika terjadi masalahdalam suatu node, maka sistem akanmengalihkan pekerjaan (work) ke lokasilain dari data tersebut, kemudianmelanjutkan pemrosesan.

Page 20: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hadoop Ekosistem

Hadoop dilengkapi dengan sebuahekosistem yang berisikan proyek-proyek dariApache, yang meningkatkan nilai sertakebergunaan dari Hadoop.

Common – sekumpulan komponen daninterface untuk sistem file terdistribusi dangeneral I/O (serialization, Java RPC, persistent data structures).

Page 21: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Avro – sistem serialization untukpenyimpanan data yang efisien, cross-language RPC dan persistent.

MapReduce – model pemrosesan data danlingkungan eksekusi (execution environment) terdistribusi yang dapat berjalan dalamkluster-kluster besar dari suatu commodity machine.

Page 22: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

HDFS – sistem file terdistribusi yang berjalan pada kluster-kluster besar darisuatu commodity machine.

Pig – data flow language dan lingkunganeksekusi untuk menjelajahi (explore) data set yang sangat besar. Pig berjalan padaHDFS dan kluster-kluster MapReduce.

Page 23: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hive – merupakan suatu data warehouse terdistribusi.

o Hive mengatur data yang disimpan di HDFS serta menyediakan suatu bahasaquery yang berbasis SQL (yang kemudianakan diterjemahkan ke dalam job-job MapReduce oleh runtime engine) untukmelakukan query data

Page 24: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

HBase – suatu basis data yang terdistribusi dan column-oriented.

o Hbase menggunakan HDFS untukmedia penyimpanannya, sertamendukung baik komputasi berjenisbatch menggunakan MapReduce, maupun point queries (random reads).

Page 25: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

ZooKeeper : sebuah coordination service yang terdistribusi dan highly available.

o ZooKeeper menyediakan fitur sepertikunci-kunci terdistribusi (distributed locks) yang dapat digunakan untukmembangun aplikasi-aplikasi terdistribusi

Page 26: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Sqoop – tool untuk transfer bulk data secara efisien antara data store yang terstruktur (seperti databaserelasional) dan HDFS.

Oozie – service untuk menjalankan danmenjadwalkan workflow dari job-job Hadoop (termasuk jobMapReduce, Pig, dan Hive).

Page 27: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas
Page 28: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Cara Kerja Hadoop

Tahap 1 : Pengguna atau aplikasi dapatmenyerahkan suatu job ke Hadoop (klienjob Hadoop) dengan menspesifikasikanbeberapa item, yaitu:

Lokasi dari input dan output file yang ada dalam sistem file terdistribusi,

Kelas-kelas java dalam bentuk jar yang berisikan implementasidari fungsi-fungsi map dan reduce,

Dan konfigurasi job, dengan mengatur parameter-parameter berbeda secara spesifik untuk suatu job.

Page 29: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Tahap 2 : Klien job Hadoop akanmenyerahkan job (jar/executable) dan konfigurasinya ke JobTracker, kemudian mengasumsikan kewajibanuntuk mendistribusikan software/ konfigurasi ke slave, menjadwalkantask dan memantaunya, sertamenyediakan status dan informasi kejob-client

Page 30: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Tahap 3 : TaskTracker pada node yang berbeda akan mengeksekusi task per implementasi MapReduce, kemudiankeluaran dari fungsi map reduce akandisimpan pada file output yang ada disistem file.

Page 31: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Job Tracker

Name Node

Client job

Data node

Task tracker

Task

Task

Task

Server

Data node

Task tracker

Task

Task

Task

Server

Data node

Task tracker

Task

Task

Task

Server

Map Reduce

HDFS

Page 32: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Name Node dan Data Node

Name Node Master dari HDFS (Hadoop Distributed File

System) Mengatur Data Node Mengatur bgmana file dibagi dalam blok

dan penyimpanannya Membagi job ke Data Node

Data Node Tempat blok disimpan Menerima instruksi dari Name Node

Page 33: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Job dan Task Tracker

Job Tracker Membagi task ke HDFS Cluster

Melacak Map/Reduce tasks

Restarts task yang gagal ke node lain

Melakukan speculative execution

Task Tracker Melacak individual map/reduce

Report kemajuan task ke Job Tracker

Page 34: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

The Hadoop Way

Page 35: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Cloudera: CDH + Tableau

Cloudera adalah salah satu kontributor aktifdari Hadoop Project yang menyediakansebuah distribusi Hadoop open-source bernama CDH (Cloudera’s Distribution Hadoop).

Sedangkan, Tableau sendiri merupakansalah satu perangkat lunak Business Intelligence (BI) yang sudah mendukungCloudera Distribution (CDH) termasukApache Hadoop

Page 36: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Komponen CDH4 Relasi CDH4 dan Tableau

Page 37: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

http://hadoop.apache.org

http://cloudera.com/

http://hortonworks.com/

Page 38: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

Hortonworks dan Ambari

Hortonworks Data Platform (HDP) merupakan sebuah distribusi Hadoop dalambentuk ‘packaged software’

Dengan memanfaatkan konsep dariarsitektur YARN, HDP menyediakan suatuplatform data untuk pemrosesan data multi-workload, dan didukung oleh kemampuanyang dibutuhkan platform data untukenterprise — spanning Governance, Security and Operations.

Page 39: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas
Page 40: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas

What Hadoop is Not !

Hadoop tidak cocok sebagai penggantidatabase

Map Reduce tidak selalu menjadialgoritma terbaik

Bukan tempat yang pas untuk belajarJava

Hadoop cluster bukan tempat belajarLinux network administration

Bukan tempat belajar memahami pesanerror jaringan

http://wiki.apache.org/hadoop/HadoopIsNot

Page 41: Big Data dengan Hadoop - Spirit Carries Onaguspri.dosen.st3telkom.ac.id/wp-content/uploads/sites/19/2017/03/... · pada layer aplikasi. ... Doug Cutting Mike Cafarella ... Kelas-kelas