Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Big data áttekintés
Sidló Csaba
MTA Számítástechnikai és Automatizálási Kutatóintézet
Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport
http://dms.sztaki.hu
http://bigdatabi.sztaki.hu
2014. november 6.
MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig
o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika
o „Big Data”: • Web, közösségi média elemzés és keresés
• smart city, mobilitás
• szenzoradatok (pl. szélerőmű), log-adatok
• dedikált csoportok: „Lendület – Big Data”, „Big Data Üzleti Intelligencia” (partner: SZTAKI EMI)
Longneck data integration
Tartalom
• definíció
• megoldások, szállítók
• trendek, kutatási témák
• alkalmazás példák
• néhány kiemelt big data téma o számítási modellek, pl. Hadoop
o osztott rendszerek problémái
source: https://secure.flickr.com/photos/t_gregorius/5839399412
Big Data
Big Data
Big Data definíciók • adatok 3 (vagy 4, 5) V-je:
o volume (mennyiség – sok),
• pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel!
o velocity (sebesség – gyorsan jön és megy),
• pl. az ügyfél vonalban van, ki ő, mi a története?
o variety (változatosság – sokféle forrás, típus)
• pl. milyen népszerű a héten a termékünk közösségi hálókon?
o veracity (megbízhatóság – változó adatminőség), value (érték – feldolgozással értéknövekedés), variability (változékonyság – változó tartalom)
• “big data is data that becomes large enough that it cannot be processed using conventional methods”
• elsődleges alkalmazók: analitika, üzleti intelligencia
volume
velocity variety
big data
Wired magazin, 2013:
• 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta)
• sok százezer PetaByte méretű adatbázis
forrás:
http://www.wired.com/magazine/2013/04/bigdata/
business email each year
Google index
Facebook upload each year
Youtube upload each year
Volume: mennyi?
Big data megoldások
• hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a
feladat, tervezhetően több számítási erőforrással
• régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek
o áttérés új architektúrákra: • in-memory, SSD
• GPU
• SQL, NoSQL, NewSQL példa: új technológiák és hype
Petabytes
„Numbers Everyone Should Know”
- a megoldások korlátai
RAM • L1 cache reference 0.5 ns • L2 cache reference 7 ns • Main memory reference 100 ns • Read 1 MB sequentially from memory 250,000
ns
Intra-process communication • Mutex lock / unlock 100 ns • Read 1 MB sequentially from network
10,000,000 ns
Disk • Disk seek 10,000,000 ns • Read 1 MB sequentially from disk 30,000,000 ns
forrás: Jeff Dean, Google
Disk • 10+TB
RAM • 100+ GB
CPU • L2 1+ MB • L1 10+ KB
GPU onboard
memory • Global 4-8 GB • Block shared 10+ KB
Big data piac • kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd
USD
• növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat
• IBM, Oracle, Microsoft, SAP, EMC, HP, … felvásárolnak
forrás:
http://wikibon.org/wiki/v/Big_
Data_Vendor_Revenue_and
_Market_Forecast_2012-2017
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
• rétegek: adatelérés, analitika, alkalmazások • sok szereplő, erős verseny
• SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time)
feldolgozás • …
• szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.
• feladathoz megfelelő kombináció
Big data rétegek
Fast Data
Big Analytics
Big Data Services
forrás: The
Emerging Big
Data slide from
the Intelligent
Information
Management
DG INFSO/E2
Objective, ICT-
2011.4.4 Info
day
SQL, NoSQL eszközkombinációk
• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!
• „polyglot persistence”
• hagyományos alkalmazások?
o főleg Web 2.0 alkalmazók és fejlesztők!
o ld. „hype cycle”, „crossing the chasm”
• Mo.?
• nagy szereplők:
o saját eszközkészlet
Big data trendek – szubjektív válogatás
• innovációs görbe:
o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)
o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.)
• pezsgés: meetup-ok, konferenciák (tudományos is)
• real time, streaming (adatfolyam) feldolgozás: hatalmas igény
• flash memória, SSD vs. hagyományos tároló-tömbök
• in memory feldolgozás
o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop)
• statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review)
kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations
Big data kutatás
• első nagyobb big data konferencia: IEEE BigData 2013
• hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD
• irányvonalak: o alapok
• elméleti modellek, szabványok, …
o infrastruktúra
• cloud, stream, osztott feldolgozás, open platformok, NoSQL, …
o adatkezelés
• adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, …
o keresés és adatbányászat
o biztonság és adatvédelem
o alkalmazások
forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma
• új elméleti és számítási modellek:
o MapReduce, BSP, Storm topológiák – mi a következő? mi jön a Hadoop / MapReduce után?
o egyszerűség, gyorsaság vs. komplex műveletek
• pl. relációs SQL vs. NoSQL key-value stores
o cluster, cloud, grid – különböző környezetek hogyan támogassák a big data problémák megoldását?
• keresés és adatbányászat
o nagyléptékű gráf adat feldolgozás és analitika
o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2.
• big data vizualizáció
• benchmarking
• skálázható adat-management felhőkön
o storage rendszerek: adat lokalitás elrejtése
o pl. több adat center lokális számításokkal Amazon S3-on
Új üzleti intelligencia módszertanok
• data science o matematika, statisztika, informatika, hacker atitűd, tudományos
megközelítés, iparági ismeretek
o “the sexiest job in the 21st century” (Harward Business Review): keresett, drága szakemberek
• agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra
o agile data science – hagyományos alkalmazások ?
• önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől
vizualizációig
o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik
• adatvezéreltség
Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; • eszközök:
o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat)
big data adatbányászat: minden még nagyobb; • eszközök:
o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, …) o Mesterséges Intelligencia és Gépi Tanulás – ajánló rendszerek, hálózatok o Statisztika
• adat „más célból” gyűlik • gyakran nincs mintavételezés • adatgazdagítás helyett a hiányzó adatokat átugró módszerek
Emberi genom
• dekódolás / szekvenálás o 725 MB adat kb.
o 1990: 10-15 év, $3 milliárd
o most: EC2, MapReduce, $100; egész folyamat: <$1000
o 40-node, 320-core: < 3 óra, 10-node: 1 nap
CERN • CERN Wigner adatközpont:
1 PB/sec 2x100GB 100-200e gép, 70 PB
Web
• web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.)
• miért nincs Európában F1 adatbázisuk? Kevés az áram!
o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013 .02.)
o Twitter
o Amazon • kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az
infrastruktúráját
o …
• web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés
Saját web feladat példák
• Hanzo Archives (UK):
o Amazon EC2 cloud + S3
• Internet Memory Foundation:
o low-end szerverekkel PB-ok feldolgozása
• SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső
• saját kódok – open source eszközök még nem elég kiforrottak
• 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz
• hardware kb. $15,000; Amazon ár kb. $1000 lenne
• Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
Gráfvizualizáció
• YAGO entitások
• kapcsolatok
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://mirror.co.uk
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
kép: http://bbc.com
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Twitter, SAP HANA: Meryl Streep – Oscar, 2012
Kiskereskedelem • Walmart: 250 gépes Hadoop cluster,
napi több TB felhasználói aktivitás (2012.)
• hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon
Ajánlórendszerek • magyar pl. Gravity, Scarab Research
• collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú – nagyon kis késleltetés az elvárt!
1 4 3
4
4 4
4
2
1,5
-1,0
2,1
0,8
1,0
1,6 1,8
0.7 1.6
0,0
1,4 1,1
0,9 1,9
2,5 -0,3
P
Q
R 3.3 2.4
-0.5 3.5 1.5
1.1 4.9
Forrás: Tikk Domonkos, Gravity
Mobilitás
• mobilszolgáltatók: infrastruktúrából location adatok
o 4,5 milliárd mobil kb. mostanában
o minőségi mutatók valós idejű követése, liquid applications, smart city
o real-time scalable distributed stream processing: 100 000 events / sec (several million people)
• itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben
Forgalmi térkép, útvonaltervezés
woophoo.com, ~2008
google.com, 2011
woophoo.com (~2008)
• “big data” competition open to the scientific community o exploring the tremendous potential
of telephone data
o producing rich, diverse ideas
• Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication
between cell towers
o communication sub-graphs
o mobility traces: privacy vs. fine resolution
• coarse (prefectures) with more users,
• fine resolution dataset with less users (sparse sample)
http://perso.uclouvain.be/vincent.blondel/netmob/2013/
D4D saját példa vizualizáció
Aggregated cell density predictions Sample of individual user predictions
„Okos város” D4D példák • Songdo City, Santander, …
• itthon: o HUGO útdíj, Futár
o Székesfehérvár, Debrecen, Szeged, Szolnok
Unique in the crowd:
The privacy bounds of human mobility
disease containment using calls matrix and
mobility matrix
AllAboard: a system for exploring urban mobility and optimizing
public transport using cellphone data
forrás: D4D challenge
http://movingobject.co/
4/6 villamos megállóinak detekciója telefon szenzor- adatokból
• már a telefonon szűrni kell
• pontatlan, heterogén, sok, gyorsan keletkező adat
Szenzoradatok
• Internet of Things, Cyber Physical Systems: szenzor mindenhol
• szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó
o farm: 10-100 turbina, régió: 5-50 farm
kép: http://www.newscientist.com/
-30
-20
-10
0
10
20
30
40
50
60
70
80
90
100
110
120
130
0
10
20
30
40
50
60
70
80
90
100
110
Mod
el e
stim
atio
n er
ror (
%) [
limit:
+/-
17%
]
Tem
pera
ture
s
Time - a year
Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell
(Model validity: ambient temperature between 4 and 10 C)
Values_for_Model_INPUT_2 Values_for_Model_INPUT_1
Gearbox bearing temperature_MODEL_ESTIMATES Gearbox bearing temperature_MEASURED
Ambient temperature (for model vaildity) Error_%
Sensors – smart home, city, country, …
• Road and parking slot sensors • Mobile parking traces • Public transport, Oyster cards • Bike hire schemes
Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
… even agriculture …
Kép és hang
• megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson!
• 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra
o évente mondjuk 1500 betegre: 3-7 TB
• rendszámfelismerés
• call center hívások o leiratok
o NLP
o sentiment analysis
o entity recognition
Ügyféladatok: azonosságfeloldás • nehéz feladat: O(n2)
• Ügyfél rekordok csoportosítása
valós személyek
• Hány természetes személy ügyfelünk van?
• Lehetséges felhasználások pl.:
• Call center, marketing lead-ek kezelése
• Kockázatelemzés, riasztás
• Kitiltott ügyfelek, új ügyfél kedvezmények
Mire alkalmazható?
● személyazonosság
– ügyfelek, adóalanyok
– internet szolgáltatás felhasználói (email, facebook stb.)
– nemzetbiztonság, terror-elhárítás
● termékek
● weboldalak (spam)
● helyek, POI-k
● összetett entitások:
– szervezetek, cégek, családok
Ügyfélkezelés
• CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook
• teljesebb történet – mire panaszkodott napok óta, mielőtt telefonált?
• jogilag kérdéses az adatgyűjtés!
• call center o beszélgetés leiratok
• hangulat (sentiment), kulcsszavak stb.
• keresés
• digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle
kapcsolható esemény
o lemorzsolódás előrejelzés, személyre szabott ajánlatok, …
o AdWords stb.
IT logok, alkalmazás naplók
• gyűjteni sokszor muszáj, elemezni nehéz
• pl. prezi.com: 150 GB / nap (2013)
• valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013)
• webanalitika, weblog: kiforrott megoldások
kép: http://www.google.com/analytics/
saját kísérletek: 30-100+ GB/nap
30-60 M esemény
IT-log feldolgozás adatfolyam Adattárház aggregáció
szűk keresztmetszetek azonosítása,
folyamat-optimalizáció
csalások, visszaélések, támadások felderítése
?
hagyományos módszerek elhasalnak!
adatintenzív feladat
Elosztott
rendszerek
Murphy
törvénye
2013-09-17 54
NoSQL: „CAP tétel” és adatmodell
P
C A
ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency
kettőt választhatsz!
CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, …
CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 …), Greenplum, Vertica, Membase, OrientDB, Neo4j, …
AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB,
A
C P „Consistency”: minden node mindig ugyanazt az adatot látja
„Partition tolerance”: kieshetnek node-ok, de a rendszer működik
„Avalilability”: mindig van visszajelzés
adatmodell: SQL key-value „wide column” dokumentum- orientált gráf
Mi történik, ha szétesik a rendszer?
• Végül lehet konzisztens (eventual consistency)
• A kapcsolat helyreállása után lehet adatot cserélni
CAP tétel bizonyítás
• Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal
• Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz
• Vagy availability (A), vagy konzisztencia (C)
2013-09-17 56 Big Data
reduce
Hadoop és MapReduce
• Hadoop:
o open source, kiforrott („enterprise ready”), sok helyen használt platform
o sokan építenek rá terméket, szolgáltatást
o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább
• MapReduce: a Hadoop számítási modellje
o amiben jó: elosztott rendezés
o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin!
Inp
ut
(HD
FS)
Ou
tpu
t (H
DFS
)
map
map
map
reduce
map map
…
reduce reduce
…
split: (k, v) sort by k merge: (k, [v, v2, v3, …])
A Big Data nem csodafegyver
NoSQL By Perry Hoekstra
Technical Consultant
Perficient, Inc.