Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,

Big data áttekintés

Sidló Csaba

MTA Számítástechnikai és Automatizálási Kutatóintézet

Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport

[email protected]

http://dms.sztaki.hu

http://bigdatabi.sztaki.hu

2014. november 6.

mailto:[email protected]




http://dms.sztaki.hu/

http://bigdatabi.sztaki.hu/

MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig

o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika

o „Big Data”: • Web, közösségi média elemzés és keresés

• smart city, mobilitás

• szenzoradatok (pl. szélerőmű), log-adatok

• dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)

Longneck data integration

Tartalom

• definíció

• megoldások, szállítók

• trendek, kutatási témák

• alkalmazás példák

• néhány kiemelt big data téma o számítási modellek, pl. Hadoop

o osztott rendszerek problémái

source: https://secure.flickr.com/photos/t_gregorius/5839399412

https://secure.flickr.com/photos/t_gregorius/5839399412

https://secure.flickr.com/photos/t_gregorius/5839399412

Big Data

Big Data

Big Data definíciók • adatok 3 (vagy 4, 5) V-je:

o volume (mennyiség – sok),

• pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!

o velocity (sebesség – gyorsan jön és megy),

• pl. az ügyfél vonalban van, ki ő, mi a története?

o variety (változatosság – sokféle forrás, típus)

• pl. milyen népszerű a héten a termékünk közösségi hálókon?

o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom)

• “big data is data that becomes large enough that it cannot be processed using conventional methods”

• elsődleges alkalmazók: analitika, üzleti intelligencia

volume

velocity variety

big data

Wired magazin, 2013:

• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)

• sok százezer PetaByte méretű adatbázis

forrás:

http://www.wired.com/magazine/2013/04/bigdata/

business email each year

Google index

Facebook upload each year

Youtube upload each year

Volume: mennyi?

http://www.wired.com/magazine/2013/04/bigdata/

Big data megoldások

• hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a

feladat, tervezhetően több számítási erőforrással

• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek

o áttérés új architektúrákra: • in-memory, SSD

• GPU

• SQL, NoSQL, NewSQL példa: új technológiák és hype

Petabytes

„Numbers Everyone Should Know”

- a megoldások korlátai

RAM • L1 cache reference 0.5 ns • L2 cache reference 7 ns • Main memory reference 100 ns • Read 1 MB sequentially from memory 250,000

ns

Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network

10,000,000 ns

Disk • Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns

forrás: Jeff Dean, Google

Disk • 10+TB

RAM • 100+ GB

CPU • L2 1+ MB • L1 10+ KB

GPU onboard

memory • Global 4-8 GB • Block shared 10+ KB

Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd

USD

• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat

• IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak

forrás:

http://wikibon.org/wiki/v/Big_

Data_Vendor_Revenue_and

_Market_Forecast_2012-2017

http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017






forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/

http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/







forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation


















forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny

• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)

feldolgozás • …

• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.

• feladathoz megfelelő kombináció



















Big data rétegek

Fast Data

Big Analytics

Big Data Services

forrás: The

Emerging Big

Data slide from

the Intelligent

Information

Management

DG INFSO/E2

Objective, ICT-

2011.4.4 Info

day

SQL, NoSQL eszközkombinációk

• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!

• „polyglot persistence”

• hagyományos alkalmazások?

o főleg Web 2.0 alkalmazók és fejlesztők!

o ld. „hype cycle”, „crossing the chasm”

• Mo.?

• nagy szereplők:

o saját eszközkészlet

Big data trendek – szubjektív válogatás

• innovációs görbe:

o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)

o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)

• pezsgés: meetup-ok, konferenciák (tudományos is)

• real time, streaming (adatfolyam) feldolgozás: hatalmas igény

• flash memória, SSD vs. hagyományos tároló-tömbök

• in memory feldolgozás

o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)

• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)

kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations

http://en.wikipedia.org/wiki/Diffusion_of_innovations








Big data kutatás

• első nagyobb big data konferencia: IEEE BigData 2013

• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD

• irányvonalak: o alapok

• elméleti modellek, szabványok, …

o infrastruktúra

• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …

o adatkezelés

• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …

o keresés és adatbányászat

o biztonság és adatvédelem

o alkalmazások

forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

http://www.ischool.drexel.edu/bigdata/bigdata2013/

http://www.ischool.drexel.edu/bigdata/bigdata2013/

Néhány kiemelt kutatási téma

• új elméleti és számítási modellek:

o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után?

o egyszerűség, gyorsaság vs. komplex műveletek

• pl. relációs SQL vs. NoSQL key-value stores

o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?

• keresés és adatbányászat

o nagyléptékű gráf adat feldolgozás és analitika

o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek

Néhány kiemelt kutatási téma 2.

• big data vizualizáció

• benchmarking

• skálázható adat-management felhőkön

o storage rendszerek: adat lokalitás elrejtése

o pl. több adat center lokális számításokkal Amazon S3-on

Új üzleti intelligencia módszertanok

• data science o matematika, statisztika, informatika, hacker atitűd, tudományos

megközelítés, iparági ismeretek

o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek

• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra

o agile data science – hagyományos alkalmazások ?

• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől

vizualizációig

o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik

• adatvezéreltség

Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök:

o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat)

big data adatbányászat: minden még nagyobb; • eszközök:

o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, …) o Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok o Statisztika

• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek

Emberi genom

• dekódolás / szekvenálás o 725 MB adat kb.

o 1990: 10-15 év, $3 milliárd

o most: EC2, MapReduce, $100; egész folyamat: <$1000

o 40-node, 320-core: < 3 óra, 10-node: 1 nap

CERN • CERN Wigner adatközpont:

1 PB/sec 2x100GB 100-200e gép, 70 PB

Web

• web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.)

• miért nincs Európában F1 adatbázisuk? Kevés az áram!

o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.)

o Twitter

o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az

infrastruktúráját

o …

• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés

Saját web feladat példák

• Hanzo Archives (UK):

o Amazon EC2 cloud + S3

• Internet Memory Foundation:

o low-end szerverekkel PB-ok feldolgozása

• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső

• saját kódok – open source eszközök még nem elég kiforrottak

• 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz

• hardware kb. $15,000; Amazon ár kb. $1000 lenne

• Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész

http://kopi.sztaki.hu/

Gráfvizualizáció

• YAGO entitások

• kapcsolatok

Twitter, SAP HANA: Meryl Streep – Oscar, 2012



kép: http://mirror.co.uk



kép: http://bbc.com



Kiskereskedelem • Walmart: 250 gépes Hadoop cluster,

napi több TB felhasználói aktivitás (2012.)

• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon

Ajánlórendszerek • magyar pl. Gravity, Scarab Research

• collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!

1 4 3

4

4 4

4

2

1,5

-1,0

2,1

0,8

1,0

1,6 1,8

0.7 1.6

0,0

1,4 1,1

0,9 1,9

2,5 -0,3

P

Q

R 3.3 2.4

-0.5 3.5 1.5

1.1 4.9

Forrás: Tikk Domonkos, Gravity

Mobilitás

• mobilszolgáltatók: infrastruktúrából location adatok

o 4,5 milliárd mobil kb. mostanában

o minőségi mutatók valós idejű követése, liquid applications, smart city

o real-time scalable distributed stream processing: 100 000 events / sec (several million people)

• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben

Forgalmi térkép, útvonaltervezés

woophoo.com, ~2008

google.com, 2011

woophoo.com (~2008)

• “big data” competition open to the scientific community o exploring the tremendous potential

of telephone data

o producing rich, diverse ideas

• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication

between cell towers

o communication sub-graphs

o mobility traces: privacy vs. fine resolution

• coarse (prefectures) with more users,

• fine resolution dataset with less users (sparse sample)

http://perso.uclouvain.be/vincent.blondel/netmob/2013/

http://perso.uclouvain.be/vincent.blondel/netmob/2013/

D4D saját példa vizualizáció

Aggregated cell density predictions Sample of individual user predictions

„Okos város” D4D példák • Songdo City, Santander, …

• itthon: o HUGO útdíj, Futár

o Székesfehérvár, Debrecen, Szeged, Szolnok

Unique in the crowd:

The privacy bounds of human mobility

disease containment using calls matrix and

mobility matrix

AllAboard: a system for exploring urban mobility and optimizing

public transport using cellphone data

forrás: D4D challenge

http://movingobject.co/




4/6 villamos megállóinak detekciója telefon szenzor- adatokból

• már a telefonon szűrni kell

• pontatlan, heterogén, sok, gyorsan keletkező adat

Szenzoradatok

• Internet of Things, Cyber Physical Systems: szenzor mindenhol

• szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó

o farm: 10-100 turbina, régió: 5-50 farm

kép: http://www.newscientist.com/

-30

-20

-10

0

10

20

30

40

50

60

70

80

90

100

110

120

130

0

10

20

30

40

50

60

70

80

90

100

110

Mod

el e

stim

atio

n er

ror (

%) [

limit:

+/-

17%

]

Tem

pera

ture

s

Time - a year

Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell

(Model validity: ambient temperature between 4 and 10 C)

Values_for_Model_INPUT_2 Values_for_Model_INPUT_1

Gearbox bearing temperature_MODEL_ESTIMATES Gearbox bearing temperature_MEASURED

Ambient temperature (for model vaildity) Error_%

Sensors – smart home, city, country, …

• Road and parking slot sensors • Mobile parking traces • Public transport, Oyster cards • Bike hire schemes

Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf

… even agriculture …

Kép és hang

• megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson!

• 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra

o évente mondjuk 1500 betegre: 3-7 TB

• rendszámfelismerés

• call center hívások o leiratok

o NLP

o sentiment analysis

o entity recognition

Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)

• Ügyfél rekordok csoportosítása

valós személyek

• Hány természetes személy ügyfelünk van?

• Lehetséges felhasználások pl.:

• Call center, marketing lead-ek kezelése

• Kockázatelemzés, riasztás

• Kitiltott ügyfelek, új ügyfél kedvezmények

Mire alkalmazható?

● személyazonosság

– ügyfelek, adóalanyok

– internet szolgáltatás felhasználói (email, facebook stb.)

– nemzetbiztonság, terror-elhárítás

● termékek

● weboldalak (spam)

● helyek, POI-k

● összetett entitások:

– szervezetek, cégek, családok

Ügyfélkezelés

• CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook

• teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált?

• jogilag kérdéses az adatgyűjtés!

• call center o beszélgetés leiratok

• hangulat (sentiment), kulcsszavak stb.

• keresés

• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle

kapcsolható esemény

o lemorzsolódás előrejelzés, személyre szabott ajánlatok, …

o AdWords stb.

IT logok, alkalmazás naplók

• gyűjteni sokszor muszáj, elemezni nehéz

• pl. prezi.com: 150 GB / nap (2013)

• valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013)

• webanalitika, weblog: kiforrott megoldások

kép: http://www.google.com/analytics/

http://www.google.com/analytics/

saját kísérletek: 30-100+ GB/nap

30-60 M esemény

IT-log feldolgozás adatfolyam Adattárház aggregáció

szűk keresztmetszetek azonosítása,

folyamat-optimalizáció

csalások, visszaélések, támadások felderítése

?

hagyományos módszerek elhasalnak!

adatintenzív feladat

Elosztott

rendszerek

Murphy

törvénye

2013-09-17 54

NoSQL: „CAP tétel” és adatmodell

P

C A

ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems

ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency

kettőt választhatsz!

CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, …

CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 …), Greenplum, Vertica, Membase, OrientDB, Neo4j, …

AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB,

A

C P „Consistency”: minden node mindig ugyanazt az adatot látja

„Partition tolerance”: kieshetnek node-ok, de a rendszer működik

„Avalilability”: mindig van visszajelzés

adatmodell: SQL key-value „wide column” dokumentum- orientált gráf

http://blog.nahurst.com/visual-guide-to-nosql-systems









Mi történik, ha szétesik a rendszer?

• Végül lehet konzisztens (eventual consistency)

• A kapcsolat helyreállása után lehet adatot cserélni

CAP tétel bizonyítás

• Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal

• Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz

• Vagy availability (A), vagy konzisztencia (C)

2013-09-17 56 Big Data

reduce

Hadoop és MapReduce

• Hadoop:

o open source, kiforrott („enterprise ready”), sok helyen használt platform

o sokan építenek rá terméket, szolgáltatást

o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább

• MapReduce: a Hadoop számítási modellje

o amiben jó: elosztott rendezés

o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!

Inp

ut

(HD

FS)

Ou

tpu

t (H

DFS

)

map

map

map

reduce

map map

…

reduce reduce

…

split: (k, v) sort by k merge: (k, [v, v2, v3, …])

A Big Data nem csodafegyver

NoSQL By Perry Hoekstra

Technical Consultant

Perficient, Inc.

Sidló Csaba

[email protected]

http://dms.sztaki.hu

http://bigdatabi.sztaki.hu

Documents

Big data áttekintés - SZTAKI · 2015-01-21 · o alapok •elméleti modellek, szabványok, … o infrastruktúra •cloud, stream, osztott feldolgozás, open platformok, NoSQL,