Hadoop

Hadoop

Hadoopin lyhyt historiaVuosi Keskeinen teema

2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch

2007 Projekti julkistetaan v. 0.14

2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan

2009 Versio 0.20 julkistetaan

2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)

2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista

2012 Teema: nopeus, mm. Cloudera Impala julkistetaan

2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan

2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)

2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta

Innoittajana Google

Googlen julkaisu Vuosi

Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt(SQL)

Spanner 2012 ? - Transaktiot

Spanner“Spanner is Google's scalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions. This paper describes how Spanner is structured, its feature set, the rationale underlying various design decisions, and a novel time API that exposes clock uncertainty. This API and its implementation are critical to supporting external consistency and a variety of powerful features: non-blocking reads in the past, lock-free read-only transactions, and atomic schema changes, across all of Spanner.”

http://research.google.com/archive/spanner.html



Hadoopin asema Big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

Hadoop Suomessa

Käyttäjiä v. 2015 esim.

Käyttäjiä lähitulevaisuudessa

RovioSanoma

Huawei

Vähittäiskauppa

Teollisuus

Telekommunikaatio

Media PalvelualatFonecta

Hadoop-työpaikat

Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com

Taas nopeassa nousussa vuoden 2015 alusta lähtien

Mitä Hadoop tekee?Klusterin.

● Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Klusteri?

Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Commodity hardware?

Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.

CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet

~ 5 000 €

Laskentateho vai tallennustila?

Laskentaoptimoitu

Matalinvirrankulutus

Laskentapainotteinen Tasapainoinen:enemmän tehoa / node

Tallennukseenoptimoitu

CPU

Tallennuskapasiteetti

Tallennuspainotteinen

Miksi Hadoop kiinnostaa?

Miksi haluaisin Hadoop-klusterin?

- edullista tallennustilaa (mikä vaan x86-palvelin käy)

- tehokasta prosessointia (rinnakkaisuus)

- toimintavarmuutta (moninkertainen tallennus)

- skaalautuvuutta (klusteria helppo laajentaa)

- ekosysteemi, lisäosia ja laajennoksia!

Hadoop - komponentit

MapReduce(hajautettu laskenta/analytiikka)

HDFS(hajautettu tiedostojärjestelmä)

YARN(Yet Another Resource Negotiator) Common utilities

Hadoopin ilmeiset edut

Ohjelmoijan/käyttäjän ei tarvitse välittää:

● Mille palvelimille data on tallennettu

● Datan varmistamisesta

● Koodin hajauttamisesta

● Skaalautuvuudesta

Hadoop versiosta 1 versioon 2

Lähde: Hortonworks

Analytiikan siiloutuminen

Analytics Batch processing Point queries Interactive

reportingOperational

analyticsInvestigative

analyticsData stream processing

SQL-on-Hadoop Engines Explained, R20 Consultancy

Hadoopin lähtökohta alunperin






Integraatiot ja yhteiskäyttö haaste

Siilo 1

Analytics Batch processing

Siilo 2 Siilo 3

Point queries Interactive reporting

Siilo 4 Siilo 5

Operational analytics

Investigative analytics

Siilo 6

Data stream processing

Siilo 7


Tavoite: yksi alusta, Hadoop





Yksi data-alusta (Data Management Platform)

DW (HDFS?)


Hadoop-klusteriAnalysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)

Linear Scale Compute & HDFS Storage

Operations (Ambari)

Security (Knox, etc.)

Ingest

Multitenant Processing: YARN (Hadoop Operating System)

BatchMapReduce

ScriptPig

SQLHive

OnlineHBase

Accumulo

Real-timeStorm

In-memorySpark

Others...

Kokeile jakeluja

Ilmainen kokeilu auttaa vertailemaan

ClouderaQuickStart VMs for CDH 5.3.x(VMWare, KVM, Virtualbox)

http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html




HortonworksHDP 2.2 on Sandbox(VMWare, Virtualbox)

http://hortonworks.com/hdp/downloads/



MapRMapR Sandbox (M7)(VMWare, Virtualbox)

https://www.mapr.com/products/mapr-sandbox-hadoop/download



IBM InfoSphere BigInsightsIBM InfoSphere BigInsights Quick Start Edition(Linux, Windows)

http://www.ibm.com/developerworks/downloads/im/biginsightsquick/



Microsoft HDInsightWindows Azure HDInsight Emulator(Windows)

http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started-emulator/#install




Pivotal HDPivotal HD 2.1.0 Single Node VM(Linux)

https://network.pivotal.io/products/pivotal-hd



Kiitos!Immo [email protected]@immonfi.linkedin.com/in/immosalo+358 41 368 1048

https://fi.linkedin.com/in/immosalo

https://fi.linkedin.com/in/immosalo

Technology

Hadoop