Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Big Data: kutatástól alkalmazásokig
Sidló Csaba István
MTA Számítástechnikai és Automatizálási Kutatóintézet
Üzleti Intelligencia és Adattárházak Csoport [email protected]
http://dms.sztaki.hu
2013. május 7.
MTA SZTAKI és Big Data
• Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 „Big Data”
MTA Lendület Fiatal Kutatói Díj
o kutatás – fejlesztés, teljes innovációs lánc
o kb. 30-40 tag, kutatók, fejlesztők, hallgatók
o 60+ gép, 170+ mag, 600+ TB tároló
• Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia
Laboratórium, Dr. Viharos Zsolt János
• projektek valódi „big data” feladatokkal o logelemzés, webanalitika, webes keresés,
spam detektálás, ajánlórendszerek, csalásfelderítés
o smart city, mobilitás, „internet of things”
http://bigdatabi.sztaki.hu
http://dms.sztaki.hu
„Big Data”
• adatok és kapcsolódó feladatok
• adatok 3 (vagy 4, 5) V-je:
o volume (mennyiség – sok),
o velocity (sebesség – gyorsan jön és megy),
o variety (változatosság – sokféle forrás, típus)
o + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom)
• “big data is when the size of the data itself becomes part of the problem”
• “big data is data that becomes large enough that it cannot be processed using conventional methods”
volume
velocity variety
big data
Mennyi? • Google: 1PB rendezése 33 percben (2011.07.)
• Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.)
• szélerőmű szenzor adatok: o 1 turbina, msec mintavétel, 20-30 szenzor,
60-100 szignál > 100GB adat / hó
o farm: 10-100 turbina, régió: 5-50 farm
• Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB / év adattárházban (2013 .02.)
• emberi genom dekódolás: o 1990: 10-15 év, $3 milliárd
o most: EC2, MapReduce, $100
o 40-node, 320-core: < 3 óra, 10-node: 1 nap Petabytes
Wired magazin, 2013 május:
• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)
• sok százezer PetaByte méretű adatbázis
forrás: http://www.wired.com/magazine/2013/04/bigdata/
business email each year
Google index
Facebook upload each year
Youtube upload each year
Big data piac
• kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD, 59%-os növekmény 2011-hez képest
• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat
o Web 2.0: ők voltak az elsők
• IBM, Oracle, Microsoft, SAP, EMC, HP emelett felvásárolnak
forrás: http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/ forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
• rétegek: adatelérés, analitika, alkalmazások • nagy a tülekedés, sok szereplő
• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)
feldolgozás • …
• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.: minden megkapható, mindent megígérnek
Big data kutatás
• első nagy (? meglátjuk) big data konferencia: IEEE BigData 2013
• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD
• irányvonalak: o alapok
• elméleti modellek, szabványok, …
o infrastruktúra
• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …
o adatkezelés
• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …
o keresés és adatbányászat
o biztonság és adatvédelem
o alkalmazások
forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma
• új elméleti és számítási modellek:
o mi jön a bevált Hadoop / MapReduce után?
o egyszerűség, gyorsaság vs. komplex műveletek
• skálázható adat-management felhőkön
o storage rendszerek: adat lokalitás elrejtése
o pl. több adat center lokális számításokkal Amazon S3-on
• keresés és adatbányászat
o nagyléptékű gráf adat feldolgozás és analitika
• közösségi oldalak?
Néhány kiemelt kutatási téma 2.
• big data vizualizáció
Big data trendek – szubjektív válogatás
• innovációs görbe:
o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)
o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)
• real time, streaming (adatfolyam) feldolgozás: hatalmas igény
• flash memória, SSD vs. hagyományos tároló-tömbök
• in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop
• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)
kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations
Log-adat, napló feldolgozás
• IT-log, auditlog: o sok helyen előforduló probléma
biztonság / feladat optimalizáció
o gyűjteni: könnyű feldolgozni: nehéz
• webanalitika, weblog: o sok kiforrott megoldás
o de sok speciális igény, feladat
adatintenzív feladatok
kép: http://www.google.com/analytics/
Képek, szociális hálók, azonosságok
számításintenzív feladatok
kép szegmentáció
(képkereséshez)
entity resolution -
azonosságfeloldás
Mobilitás, telekom, szenzor adatok
http://www.d4d.orange.com
• „smart city”: intelligens parkolás, forgalomirányítás stb. • „internet of things”: autó, hűtő, telefon, bicaj stb. netre kötve • folyamatos automatikusan generált adatfolyam (gépek vs.
emberek), valós idejű feldolgozási igények
számítás és adatintenzív feladatok
http://movingobject.co/
Webes feladatok
• Hanzo Archives (UK): Amazon EC2 cloud + S3
• vs. Internet Memory Foundation: low-end szerverekkel PB-ok feldolgozása
• SZTAKI Web adat:
o pl. http://kopi.sztaki.hu plágiumkereső
o open source eszközök még nem elég kiforrottak saját kódok
o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
számítás és adatintenzív feladatok
o Amazon EC2 cloud + S3
Webes trendek kinyerése / „opinion mining”
• magyar blogok; gyorsan reagálnak
• igény: valósidejű; deep Web?
• előfordulási gyakoriságok (pl. Google Trends) témák fontos kifejezések szófelhője
2011.12.30. 2012.02.28.