16
Big Data: kutatástól alkalmazásokig Sidló Csaba István MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport [email protected] http://dms.sztaki.hu 2013. május 7.

ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Big Data: kutatástól alkalmazásokig

Sidló Csaba István

MTA Számítástechnikai és Automatizálási Kutatóintézet

Üzleti Intelligencia és Adattárházak Csoport [email protected]

http://dms.sztaki.hu

2013. május 7.

Page 2: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

MTA SZTAKI és Big Data

• Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 „Big Data”

MTA Lendület Fiatal Kutatói Díj

o kutatás – fejlesztés, teljes innovációs lánc

o kb. 30-40 tag, kutatók, fejlesztők, hallgatók

o 60+ gép, 170+ mag, 600+ TB tároló

• Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia

Laboratórium, Dr. Viharos Zsolt János

• projektek valódi „big data” feladatokkal o logelemzés, webanalitika, webes keresés,

spam detektálás, ajánlórendszerek, csalásfelderítés

o smart city, mobilitás, „internet of things”

http://bigdatabi.sztaki.hu

http://dms.sztaki.hu

Page 3: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

„Big Data”

• adatok és kapcsolódó feladatok

• adatok 3 (vagy 4, 5) V-je:

o volume (mennyiség – sok),

o velocity (sebesség – gyorsan jön és megy),

o variety (változatosság – sokféle forrás, típus)

o + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom)

• “big data is when the size of the data itself becomes part of the problem”

• “big data is data that becomes large enough that it cannot be processed using conventional methods”

volume

velocity variety

big data

Page 4: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Mennyi? • Google: 1PB rendezése 33 percben (2011.07.)

• Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.)

• szélerőmű szenzor adatok: o 1 turbina, msec mintavétel, 20-30 szenzor,

60-100 szignál > 100GB adat / hó

o farm: 10-100 turbina, régió: 5-50 farm

• Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB / év adattárházban (2013 .02.)

• emberi genom dekódolás: o 1990: 10-15 év, $3 milliárd

o most: EC2, MapReduce, $100

o 40-node, 320-core: < 3 óra, 10-node: 1 nap Petabytes

Page 5: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Wired magazin, 2013 május:

• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)

• sok százezer PetaByte méretű adatbázis

forrás: http://www.wired.com/magazine/2013/04/bigdata/

business email each year

Google index

Facebook upload each year

Youtube upload each year

Page 6: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Big data piac

• kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD, 59%-os növekmény 2011-hez képest

• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat

o Web 2.0: ők voltak az elsők

• IBM, Oracle, Microsoft, SAP, EMC, HP emelett felvásárolnak

forrás: http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017

Page 7: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/ forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

• rétegek: adatelérés, analitika, alkalmazások • nagy a tülekedés, sok szereplő

• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)

feldolgozás • …

• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.: minden megkapható, mindent megígérnek

Page 8: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Big data kutatás

• első nagy (? meglátjuk) big data konferencia: IEEE BigData 2013

• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD

• irányvonalak: o alapok

• elméleti modellek, szabványok, …

o infrastruktúra

• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …

o adatkezelés

• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …

o keresés és adatbányászat

o biztonság és adatvédelem

o alkalmazások

forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

Page 9: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Néhány kiemelt kutatási téma

• új elméleti és számítási modellek:

o mi jön a bevált Hadoop / MapReduce után?

o egyszerűség, gyorsaság vs. komplex műveletek

• skálázható adat-management felhőkön

o storage rendszerek: adat lokalitás elrejtése

o pl. több adat center lokális számításokkal Amazon S3-on

• keresés és adatbányászat

o nagyléptékű gráf adat feldolgozás és analitika

• közösségi oldalak?

Page 10: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Néhány kiemelt kutatási téma 2.

• big data vizualizáció

Page 11: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Big data trendek – szubjektív válogatás

• innovációs görbe:

o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)

o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)

• real time, streaming (adatfolyam) feldolgozás: hatalmas igény

• flash memória, SSD vs. hagyományos tároló-tömbök

• in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop

• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)

kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations

Page 12: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Log-adat, napló feldolgozás

• IT-log, auditlog: o sok helyen előforduló probléma

biztonság / feladat optimalizáció

o gyűjteni: könnyű feldolgozni: nehéz

• webanalitika, weblog: o sok kiforrott megoldás

o de sok speciális igény, feladat

adatintenzív feladatok

kép: http://www.google.com/analytics/

Page 13: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Képek, szociális hálók, azonosságok

számításintenzív feladatok

kép szegmentáció

(képkereséshez)

entity resolution -

azonosságfeloldás

Page 14: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Mobilitás, telekom, szenzor adatok

http://www.d4d.orange.com

• „smart city”: intelligens parkolás, forgalomirányítás stb. • „internet of things”: autó, hűtő, telefon, bicaj stb. netre kötve • folyamatos automatikusan generált adatfolyam (gépek vs.

emberek), valós idejű feldolgozási igények

számítás és adatintenzív feladatok

http://movingobject.co/

Page 15: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Webes feladatok

• Hanzo Archives (UK): Amazon EC2 cloud + S3

• vs. Internet Memory Foundation: low-end szerverekkel PB-ok feldolgozása

• SZTAKI Web adat:

o pl. http://kopi.sztaki.hu plágiumkereső

o open source eszközök még nem elég kiforrottak saját kódok

o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész

számítás és adatintenzív feladatok

o Amazon EC2 cloud + S3

Page 16: ig Data: kutatástól alkalmazásokig · 2013-05-08 · „ig Data • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség

Webes trendek kinyerése / „opinion mining”

• magyar blogok; gyorsan reagálnak

• igény: valósidejű; deep Web?

• előfordulási gyakoriságok (pl. Google Trends) témák fontos kifejezések szófelhője

2011.12.30. 2012.02.28.