37
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek „Leíró” statisztika: alapfogalmak „Big Data” elemzési módszerek Kocsis Imre ikocsis @ mit.bme.hu 2013.09.18.

„Leíró” statisztika: alapfogalmak

  • Upload
    meagan

  • View
    34

  • Download
    0

Embed Size (px)

DESCRIPTION

„Leíró” statisztika: alapfogalmak. „Big Data” elemzési módszerek Kocsis Imre ikocsis @ mit.bme.hu 2013.09.18. Honlap: http:// www.inf.mit.bme.hu/edu/courses/bigdata Az eddigi anyagok még a héten kikerülnek Házi feladat témák és játékszabályok: jövő hét - PowerPoint PPT Presentation

Citation preview

Page 1: „Leíró” statisztika: alapfogalmak

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

„Leíró” statisztika: alapfogalmak

„Big Data” elemzési módszerek

Kocsis [email protected]

2013.09.18.

Page 2: „Leíró” statisztika: alapfogalmak

Honlap: http://www.inf.mit.bme.hu/edu/courses/bigdatao Az eddigi anyagok még a héten kikerülnek

Házi feladat témák és játékszabályok: jövő héto Saját ötletek: két hét múlváig, [email protected]

Page 3: „Leíró” statisztika: alapfogalmak

Leíró statisztika Vizsgált adatok alapvető jellemzői

o Kvantitatívo Erősen absztrahál, „összefoglal”

Egyfajta ellentéte: következtető (inferential) stat.oMegfigyelt mintán túlmutató következtetéseko Pl. populáció tulajdonságaira következtetés mintából

N.B.: ez egy erősen mérnöki szemléletű kurzus

Page 4: „Leíró” statisztika: alapfogalmak

Adatok Adat: nyers tények

o Numerikus érték, szöveg, görbe, 2D kép, … Többváltozós adat(készlet), multivariate data:

oMérések, megfigyelések, válaszok sokasága kiválasztott változók egy készletén

Többváltozós adatelemzésben tipikusan: tábláko data matrix, data array, data frame, spreadsheet…o ! Ez „csak” a „klasszikus” többváltozós statisztikao r x n mátrix (megfigyelés/változó)

Page 5: „Leíró” statisztika: alapfogalmak

Adattípusok Indexelő (indexing) vagy azonosító (identifier)

változóko Különleges eset: elsődleges és idegen kulcsok

Bináris (indikátor) Bool: „nem ismert” érték is lehet Nominális

o Sztringo Általában osztályozás és kategorizálás címkéi

Ordináliso (Lineárisan) rendezett

Egészértékű, folytonos (numerikus/decimális)

Page 6: „Leíró” statisztika: alapfogalmak

Adattípusok Fix (fixed):

o Tudatosan előre rögzített, vagyo „Kauzális” a jelenség tekintetébeno Ált. indexelő

Stochasztikus: o Véletlenszerűen kerül(t) kiválasztásra az ért. tartománybólo Lásd pl. Bevezetés a matematikai statisztikába

Bemeneti (input, predictor, independent, „X”):o Statisztikai kísérlet rögzíti vagy vezérli

Kimeneti (output, response, dependent, „Y”):o Stochasztikus és a bemenettől függo Többváltozós statisztika: X -?-> Y

Page 7: „Leíró” statisztika: alapfogalmak

Adatminőség Adattisztítás!

o Meglepően hosszú tud lennio Legtöbbször nem tökéleteso Big Data?

Inkonzisztenciáko Beviteli/mérési hibák, „hibás join”, részleges megfigyelés, hamisítás,

Kieső értékek (outliers)o =/= „durva hiba” (gross error)o Nem feltétlenül előnytelen, de klasszikusan azo Magas dimenziószámnál nehéz lehet detektálnio Alacsony dimenziós vizualizáció segíthet

Page 8: „Leíró” statisztika: alapfogalmak

Adatminőség Hiányzó adatok (missing data, „NA”, „null”)

o Hol lehet probléma?oMesterséges feltöltés („imputation”)

Több változó, mint megfigyelés/mintao Génkifejeződési vizsgálatokoMűholdképek spektrális vizsgálatao…

Page 9: „Leíró” statisztika: alapfogalmak

„The Curse of Dimensionality” Soha nincs elég adatunk egy magas dimenziós

bemeneti tér teljes lefedésére.

A dimenziók számának növelésével a hiperkocka-régiók térfogata egyre inkább a kocka „szélére” esik

Page 10: „Leíró” statisztika: alapfogalmak

(Folytonos) megfigyelések jellemzése n(-ik) percentilis: az érték, ami alá a megfigyelések

n%-a esik

Első, második és harmadik kvartilis

Medián

„Kvartilis-távolság”, Interquartile Range: Q3-Q1

MIN, MAX, AVG (MEAN), …

Page 11: „Leíró” statisztika: alapfogalmak

Kvartilisek szerepe

Page 12: „Leíró” statisztika: alapfogalmak

Boxplot (Box and whisker plot)

Ez már nem fog menni Excelben. (?)

Page 13: „Leíró” statisztika: alapfogalmak

Oszlopdiagram (bar chart)

• Ábrázolt összefügg.:• Diszkrét változó egyes

értékeinek abszolút gyakorisága

• Adategység:• Oszlop – az oszlop magassága

az adott érték absz. gyakoriságáttükrözi

•Tervezői döntés:• Csoportok kialakítása?• Értékkészlet darabolása?

Page 14: „Leíró” statisztika: alapfogalmak

Centrális tendencia és diszperzió Centrális jelleg jellemzői:

o Átlag, medián, multimodalitás (illetve módus)

„Diszperzió” jellemzőio Percentilisek, szórás(ok), variancia

Melyik mennyire érzékeny a kiugró értékekre?

Megj.: a mintaátlag vs. populáció-átlag jellegű kérdésekkel itt nem foglalkozunko (Mi minek hogyan milyen becslője…)

Page 15: „Leíró” statisztika: alapfogalmak

Minta-variancia; minta kovariancia-mátrix

Mennyire robosztusak?

Page 16: „Leíró” statisztika: alapfogalmak

Variancia, kovariancia: példa

Page 17: „Leíró” statisztika: alapfogalmak

Variancia, kovariancia: példa

Page 18: „Leíró” statisztika: alapfogalmak

Variancia, kovariancia: példa

Normalizálás (szórások szorzatával): Pearson-féle lineáris korrelációs koefficiens

Page 19: „Leíró” statisztika: alapfogalmak

Lineáris korrelációs koefficiens

1 2 3 4 5 6 7

0.5

1.0

1.5

2.0

2.5

iris$Petal.Length

iris

$P

eta

l.Wid

th

Egyenest most még nem illesztünk

Page 20: „Leíró” statisztika: alapfogalmak

Eloszlás jellemzése? Ha mégis kevésbé

akarunk absztrahálni

Problémák.

1. Biztos, hogy normál eloszlású a populáció?

2. Paramétereket kell becsülnünk a mintából

Page 21: „Leíró” statisztika: alapfogalmak

Hisztogram

•Ábrázolt összefügg.:• folytonos változó eloszlása

•Adategység:• Oszlop – az oszlop magassága az

adott érték absz. gyakoriságát tükrözi• …vagy frekvenciáját

•„Tervezői döntés”:• Oszlopok szélessége?

Nők és férfiak magasságának eloszlása is szép haranggörbe

Fontos percentilisek?

Page 22: „Leíró” statisztika: alapfogalmak

Nemparametrikus sűrűségbecslés Legyen X egy r komponensű val. vektorvált. Bármely p, amire

Ún. „bona fide sűrűség” (bona fide density). NPDE: p parametrikus struktúra nélkül

o Pl. elég nagy családba tartozik ahhoz, hogy esélytelen legyen véges paraméterkészlettel reprezentálni.

o (Vagy csak nem akarunk ezzel foglalkozni…)

Page 23: „Leíró” statisztika: alapfogalmak

Nemparametrikus sűrűségbecslés Egy becslő elfogulatlan (unbiased) -re, ha minden

Véges adatkészleten nincs bona fide becslő, ami ezt minden folytonos sűrűségre teljesítené.o Aszimptotikus becslők vannak: mintaszámmal „egyre

jobb” a megfelelés

Konzisztencia-kritériumoko MSE(x) 0 minden x-re a mintaméret növelésével:

„kvadratikus átlagban pontonként konzisztens becslő”o MSE: becslési hiba várhatóértékének négyzete

Page 24: „Leíró” statisztika: alapfogalmak

Problémák a hisztogrammal? Általánosságban nem elfogulatlan Akkor konzisztens, ha nem csökkentjük túl gyorsan a

bin-méretet (Ronda „zárt” alak)

Érzékeny például az „origó” választására A „query value” a határon „ugrin” Az ismert algoritmusok ellenére a gyakorlatban jórészt

manuálisan paraméterezzük Vagy „darabos”, vagy „nem folytonos”

Page 25: „Leíró” statisztika: alapfogalmak

Bin-szélesség hatása

Histogram of iris$Petal.Length

iris$Petal.Length

Fre

quen

cy

1 2 3 4 5 6 7

010

2030

Histogram of iris$Petal.Length

iris$Petal.Length

Fre

quen

cy

1 2 3 4 5 6 7

02

46

810

12

A többváltozós hisztogramokkal itt nem foglalkoztunk

Page 26: „Leíró” statisztika: alapfogalmak

Kernel-módszerek Megpróbálunk „folytonos vonalat húzni” Legyen Xi egy ismeretlen f eloszlásból vett n elemű

minta. Egy „kernel density estimator” függvény ezt

közelíti:

h egy „ablakszélesség-paraméter”; K egy „magfüggvény”.

Page 27: „Leíró” statisztika: alapfogalmak

Magfüggvény-példák [4] Négyszög (rectangular): Háromszög (triangular): Bartlett-Epanechnikov: Nem korlátos bázisú Gauss (Gaussian):

Page 28: „Leíró” statisztika: alapfogalmak

Histogram of iris$Petal.Length

iris$Petal.Length

Fre

qu

en

cy

1 2 3 4 5 6 7

01

02

03

0

0 2 4 6 8

0.0

00

.05

0.1

00

.15

0.2

00

.25

density.default(x = iris$Petal.Length, kernel = "gaussian")

N = 150 Bandwidth = 0.5832

De

nsity

0 2 4 6 8

0.0

00

.05

0.1

00

.15

0.2

00

.25

density.default(x = iris$Petal.Length, kernel = "triangular")

N = 150 Bandwidth = 0.5832

De

nsi

ty

0 2 4 6 8

0.0

00

.05

0.1

00

.15

0.2

00

.25

density.default(x = iris$Petal.Length, kernel = "rectangular")

N = 150 Bandwidth = 0.5832

De

nsity

Page 29: „Leíró” statisztika: alapfogalmak

Big Data és leíró statisztika? A MapReduce programozási modellt láttuk. [5]

Page 30: „Leíró” statisztika: alapfogalmak

MapReduce és leíró statisztika? MIN/MAX/AVG…

o Folytonos esetben?o Diszkrét esetben?

Oszlopdiagram?

Hisztogram?

Kernel sűrűség-közelítés nagy adatra?o Tényleg nagy adatra drága „lekérdezni”: O(n) tag!o SIGMOD 2013: approximáció a minták csak egy mintáján

számolással

Page 31: „Leíró” statisztika: alapfogalmak

MapReduce és hisztogram (közelítés) Tfh. Nem feltételezhetjük az ún. range partitioning-et a vizsgált

változórao Pl. óriási CSV-t dolgozunk fel – Hadoop + HDFSo Különben nem lenne problémánk

Partition Incremental Discretization (PiD) [4]o Módosítva [5]

Layer1o Párhuzamosan több hisztogram építéseo Azonos (igen kicsi) szélességű bin-ekkel kezdünk feltételezett intervallumono Egy bin átlép egy thresholdot: splito N.B. adatfolyamra is működik

Layer2: Layer1 hisztogramok összefűzése

Page 32: „Leíró” statisztika: alapfogalmak

Layer1 karbantartás [5]

Page 33: „Leíró” statisztika: alapfogalmak

Layer1 karbantartás [4]

Page 34: „Leíró” statisztika: alapfogalmak

Layer1 karbantartás [4]

Page 35: „Leíró” statisztika: alapfogalmak

Összefűzés - hibaforrások

Csak a Layer1 töréspontjai

Split pontatlan számlálók

+ „split” az összefűzés során

Page 36: „Leíró” statisztika: alapfogalmak

Leíró statisztikák MapReduce becslése Közelítő hisztogram újrahasznosítása

o Kvantilisek becsléseo Medián becsléseo … De hogyan?

Faktor/nominális változók: wordcount!

Variancia/szórás: pl. két menetben o Empirikus átlag kell hozzá

Kovariancia, korreláció: két menetben, egy változó-párra egyszerű

Page 37: „Leíró” statisztika: alapfogalmak

Források [1] Izenman, A. J. (2008). Modern Multivariate Statistical Techniques. New York,

NY: Springer New York. doi:10.1007/978-0-387-78189-1 [2] Zheng, Y., Jestes, J., Phillips, J. M., & Li, F. (2013). Quality and efficiency for

kernel density estimates in large data. In Proceedings of the 2013 international conference on Management of data - SIGMOD ’13 (p. 433). New York, New York, USA: ACM Press. doi:10.1145/2463676.2465319

[3] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/CBO9781139058452

[4] Gama, J., & Pinto, C. (2006). Discretization from data streams. In Proceedings of the 2006 ACM symposium on Applied computing - SAC ’06 (p. 662). New York, New York, USA: ACM Press. doi:10.1145/1141277.1141429

[5] http://www.slideshare.net/Hadoop_Summit/creating-histograms-from-data-stream-via-map-reduce