21
„Big dataamikor a probléma az adat mérete maga Benczúr András MTA SZTAKI Informatika kutató laboratórium http://dms.sztaki.hu MTA 2012. május 16.

„Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

„Big data” amikor a probléma az adat

mérete maga

Benczúr András

MTA SZTAKI

Informatika kutató laboratórium http://dms.sztaki.hu

MTA 2012. május 16.

Page 2: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Big Data – az új divatszó

Source: The Emerging Big Data slide from the Intelligent

Information Management DG INFSO/E2 Objective ICT-2011.4.4

Info day in Luxembourg on 26 September 2011

• “big data” is when the size of the data

itself becomes part of the problem

• “big data” is data that becomes large

enough that it cannot be processed

using conventional methods

• Google sorts 1PB in 33 minutes (07-09-2011)

• Amazon S3 store contains 762B objects (31-01-2012)

• New Relic: 20B+ application metrics/day (18-07-2011)

• Walmart monitors 100M entities in real time (12-09-2011)

Page 3: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Fast

data

Big

analytics

Big Data

Services

Big Data Rétegek

Page 4: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Tudományos és üzleti relevancia • VLDB 2011 (~100 papers):

• 6 MapReduce/Hadoop, 10 big data (+keynote), 11 NoSQL

architektúra, 6 GPS/szenzor adat cikk

• tutorial, demo (Microsoft, SAP, IBM NoSQL eszközök)

• session: Big Data Analysis, MapReduce, Scalable Infrastructures

• SIGMOD 2011: 70 cikkből 10 új architektúrákról és

analitikai alkalmazásukról

• Gartner 2011 trend No. 5: Next Generation Analytics „significant changes to existing operational and business

intelligence infrastructures”

• The Economist 2010.02.27: „Monstrous amounts of

data … Information is transforming traditional businesses”

• News special issue on Big Data - április

Page 5: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

„Big data”: miért pont most?

• A hardver egyre jobb és

olcsóbb?

• De egyre több adatunk

van – éppen az IT

fejlődés következtében

• Rossz hír a lineárisnál

lassabb algoritmusoknak!

• Moore törvény

(duplázódás 18 havonta)

ma már magok száma és

nem sebesség!

Page 6: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

„Az algoritmusok rövid története”

P, NP PRAM elméleti

modellek

Thinking

Machines:

hypercube,

Cray: vektorprocesszorok

SIMD, MIMD,

message

passing

Map-reduce

Google Multi-core

Many-core

Cloud

Flash disk

CM-5: sok

vektorproc

Külső táras

algortimusok

Page 7: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

• P: Gráfbejárás;

Feszítőfa

• NP: Steiner fa

Őstörténet: P, NP

1

25

15 5

1

5

1 1

15

2

1 2

2

2 1 2

1 1

Page 8: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Algoritmus-történelem: párhuzamos fák

• Iteratív minimum feszítőerdő építés

• Kezdetben minden csúcs egy fa; minden

iterációban fák egyesülnek (Borůvka)

Bentley: A parallel algorithm for

constructing minimum spanning trees

1980

Harish et al. Fast Minimum Spanning

Tree for Large Graphs on the GPU

2009

1

3

8

2

6

7

4

5

Page 9: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Kit érdekel ez még ma?

Mary Smith [email protected] 50071

M. Doe [email protected] 79216

Mary Doe [email protected] 50071

M. Smith [email protected] 34302

name e-mail ID

1

2 3

Kép-

szegmentálás

Azonosság-

feloldás

Page 10: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Gráfalgoritmusok és elosztott számítási paradigmák

• Distributed Key-Value Store:

eloszott B-fa index

Akár szekvenciális algoritmus

pl. Project Voldemort

• MapReduce:

map → reduce műveletek

Google; Apache Hadoop

• Bulk Synchronous Parallel:

superstep: számítás →

kommunikáció → barrier sync

Google Pregel; Apache Hama, GraphLab

Page 11: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

MapReduce gráfalgoritmusok

Map: élsúlyok átadása a végpontoknak

...

Reduce: minimum élsúly választás

Iteráció, amíg

1 < komponens

Page 12: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

BSP példa: komponensek címkézése

Page 13: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Kísérletek: azonosság-feloldás

15 öreg szerver, 4GB memory, 3GHz CPU

biztosító ügyféladat (személyenként átlag 2 előfordulás)

Sidló, B, Garzó, Molnár, Infrastructures and bounds

for distributed entity resolution. QDB 2011

Page 14: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Kísérletek: azonosság-feloldás

15 öreg szerver, 4GB memory, 3GHz CPU

biztosító ügyféladat (személyenként átlag 2 előfordulás)

Page 15: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Kísérletek: azonosság-feloldás

Hadoop fázisok

HAMA fázisok

15 öreg szerver, 4GB memory, 3GHz CPU

biztosító ügyféladat (személyenként átlag 2 előfordulás)

Összefüggő

komponensek

Rendezés

Page 16: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Elosztott rendszerek Murphy törvénye

C

A P

Fox&Brewer “CAP Tétel”:

C-A-P: kettőt választhatunk!

consistency

Availability Partition-resilience AP: egy replika válaszolhat

hibásan

Végül konzisztenssé válhat –

eventual consistency

Page 17: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Konzisztens hash-elés

objektumok n szerveren

szerver

Minden objektum a legközelebbi

szerverre kerül

új szerver?

pozíció: ax+b mod n

pozíció: a’x+b’ mod n+1 ??

Page 18: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Terhelésmegosztás, konzisztens hash

a212: 10.10.10.1 10.10.10.4 10.10.10.3 10.10.10.2

a213: 10.10.10.3 10.10.10.4 10.10.10.2 10.10.10.1

a214: 10.10.10.1 10.10.10.2 10.10.10.3 10.10.10.4

a215: 10.10.10.2 10.10.10.1 10.10.10.4 10.10.10.3

Szerverek véletlen permutációja

Karger, Lehman,

Leighton, Panigrahy,

Levine, Lewin:

Consistent hashing and

random trees:

distributed caching

protocols for relieving

hot spots on the World

Wide Web.

STOC 1997

Page 19: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Azonosság-feloldás: erősebb korlátok!

Halmaz metszet kommunikációs bonyolultsága Θ(n) bit [Kalyanasundaram, Schintger 1992]

Következmény: több szerveren elosztott adatok esetén Θ(n) kommunikáció eldönteni, hogy van-e duplikátum!

Javasolt módszerek: „Blocking” [Whang, Menestrina, Koutrika, Theobald, Garcia-Molina. ER with

Iterative Blocking, 2009, stb.]

Legjobb esetben is minden adatot ki kell cserélni

Kapcsolódó terület: Locality Sensitive Hashing nincs „minimum”, azaz koordináta egyezés LSH

hasonló a Donoho Zero „norm” (nem-0 koordináták száma) negatív eredményekhez

Sidló, B, Garzó, Molnár, Infrastructures and bounds

for distributed entity resolution. QDB 2011

Page 20: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Összefoglalás

• Big Data részterületei

• Számítógép-architektúrák– processzor tömbök,

megfizethető nagyon sok magos eszközök

• Algoritmusok – tervezési elvek a 90-es évekből

• Adatbázisok – elosztott, oszlop-orientált, NoSQL

• Adatbányászat, Keresés, Gépi tanulás, Hálózatok

– az alkalmazási területek

• Algoritmikus gondolkodás és szoftvertervezés

• Korlátok, hibatűrés, adat és számítás-intenzív

feladatok

• Sok kiforratlan alternatíva (pl. BSP)

Page 21: „Big data - SZTAKI · Algoritmus-történelem: párhuzamos fák •Iteratív minimum feszítőerdő építés •Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek

Benczúr – Big Data – MTA 2012 május 16.

Kérdések?

Benczúr András

Laborvezető, Informatika Kutató

Labor

http://datamining.sztaki.hu/

MTA SZTAKI [email protected]