28
Hadoop

Hadoop

Embed Size (px)

Citation preview

Page 1: Hadoop

Hadoop

Page 2: Hadoop

Hadoopin lyhyt historiaVuosi Keskeinen teema

2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch

2007 Projekti julkistetaan v. 0.14

2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan

2009 Versio 0.20 julkistetaan

2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)

2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista

2012 Teema: nopeus, mm. Cloudera Impala julkistetaan

2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan

2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)

2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta

Page 3: Hadoop

Innoittajana Google

Googlen julkaisu Vuosi

Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt(SQL)

Spanner 2012 ? - Transaktiot

Page 4: Hadoop

Spanner“Spanner is Google's scalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions. This paper describes how Spanner is structured, its feature set, the rationale underlying various design decisions, and a novel time API that exposes clock uncertainty. This API and its implementation are critical to supporting external consistency and a variety of powerful features: non-blocking reads in the past, lock-free read-only transactions, and atomic schema changes, across all of Spanner.”

http://research.google.com/archive/spanner.html

Page 5: Hadoop

Hadoopin asema Big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

Page 6: Hadoop

Hadoop Suomessa

Käyttäjiä v. 2015 esim.

Käyttäjiä lähitulevaisuudessa

RovioSanoma

Huawei

Vähittäiskauppa

Teollisuus

Telekommunikaatio

Media PalvelualatFonecta

Page 7: Hadoop

Hadoop-työpaikat

Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com

Taas nopeassa nousussa vuoden 2015 alusta lähtien

Page 8: Hadoop

Mitä Hadoop tekee?Klusterin.

● Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Page 9: Hadoop

Klusteri?

Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Page 10: Hadoop

Commodity hardware?

Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.

CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet

~ 5 000 €

Page 11: Hadoop

Laskentateho vai tallennustila?

Laskentaoptimoitu

Matalinvirrankulutus

Laskentapainotteinen Tasapainoinen:enemmän tehoa / node

Tallennukseenoptimoitu

CPU

Tallennuskapasiteetti

Tallennuspainotteinen

Page 12: Hadoop

Miksi Hadoop kiinnostaa?

Miksi haluaisin Hadoop-klusterin?

- edullista tallennustilaa (mikä vaan x86-palvelin käy)

- tehokasta prosessointia (rinnakkaisuus)

- toimintavarmuutta (moninkertainen tallennus)

- skaalautuvuutta (klusteria helppo laajentaa)

- ekosysteemi, lisäosia ja laajennoksia!

Page 13: Hadoop

Hadoop - komponentit

MapReduce(hajautettu laskenta/analytiikka)

HDFS(hajautettu tiedostojärjestelmä)

YARN(Yet Another Resource Negotiator) Common utilities

Page 14: Hadoop

Hadoopin ilmeiset edut

Ohjelmoijan/käyttäjän ei tarvitse välittää:

● Mille palvelimille data on tallennettu

● Datan varmistamisesta

● Koodin hajauttamisesta

● Skaalautuvuudesta

Page 15: Hadoop

Hadoop versiosta 1 versioon 2

Lähde: Hortonworks

Page 16: Hadoop

Analytiikan siiloutuminen

Analytics Batch processing Point queries Interactive

reportingOperational

analyticsInvestigative

analyticsData stream processing

SQL-on-Hadoop Engines Explained, R20 Consultancy

Page 17: Hadoop

Hadoopin lähtökohta alunperin

Analytics Batch processing Point queries Interactive

reportingOperational

analyticsInvestigative

analyticsData stream processing

SQL-on-Hadoop Engines Explained, R20 Consultancy

Page 18: Hadoop

Integraatiot ja yhteiskäyttö haaste

Siilo 1

Analytics Batch processing

Siilo 2 Siilo 3

Point queries Interactive reporting

Siilo 4 Siilo 5

Operational analytics

Investigative analytics

Siilo 6

Data stream processing

Siilo 7

SQL-on-Hadoop Engines Explained, R20 Consultancy

Page 19: Hadoop

Tavoite: yksi alusta, Hadoop

Analytics Batch processing Point queries Interactive

reportingOperational

analyticsInvestigative

analyticsData stream processing

Yksi data-alusta (Data Management Platform)

DW (HDFS?)

SQL-on-Hadoop Engines Explained, R20 Consultancy

Page 20: Hadoop

Hadoop-klusteriAnalysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)

Linear Scale Compute & HDFS Storage

Operations (Ambari)

Security (Knox, etc.)

Ingest

Multitenant Processing: YARN (Hadoop Operating System)

BatchMapReduce

ScriptPig

SQLHive

OnlineHBase

Accumulo

Real-timeStorm

In-memorySpark

Others...

Page 21: Hadoop

Kokeile jakeluja

Ilmainen kokeilu auttaa vertailemaan

Page 23: Hadoop

HortonworksHDP 2.2 on Sandbox(VMWare, Virtualbox)

http://hortonworks.com/hdp/downloads/

Page 24: Hadoop

MapRMapR Sandbox (M7)(VMWare, Virtualbox)

https://www.mapr.com/products/mapr-sandbox-hadoop/download

Page 25: Hadoop

IBM InfoSphere BigInsightsIBM InfoSphere BigInsights Quick Start Edition(Linux, Windows)

http://www.ibm.com/developerworks/downloads/im/biginsightsquick/

Page 27: Hadoop

Pivotal HDPivotal HD 2.1.0 Single Node VM(Linux)

https://network.pivotal.io/products/pivotal-hd

Page 28: Hadoop

Kiitos!Immo [email protected]@immonfi.linkedin.com/in/immosalo+358 41 368 1048