Opisna statistika 2

  • View
    216

  • Download
    2

Embed Size (px)

Text of Opisna statistika 2

  • 2.2 Srednje vrijednosti

    aritmeticka sredina, medijan, mod

    Podaci (realizacije varijable X):

    x1, x2, . . . , xn (1)

    1

  • 2.2.1 Aritmeticka sredina

    X je numericka varijabla.

    Aritmeticka sredina od (1) je broj:

    x =1

    n(x1 + x2 + + xn) =

    1

    n

    n

    i=1

    xi.

    2

  • Ako se u (1) ponavljaju brojevi:

    a1, a2, . . . , ak, (2)

    s frekvencijama

    f1, f2, . . . , fk

    tada je

    x =1

    n(f1a1 + f2a2 + + fkak) =

    1

    n

    k

    j=1

    fjaj.

    Primijetimo:

    {a1, a2, . . . , ak} ImX

    3

  • Primjer 2.3 (nastavak)

    i fi0 111 42 23 24 1

    5 30 020

    x =11 0 + 4 1 + 2 2 + 2 3 + 1 4

    20= 0.9

    4

  • Zadatak 1. Pokazite da je aritmeticka sredina in-

    varijantna na afine transformacije skupa podataka.

    Preciznije: neka su a, b R (a 6= 0), te

    y1, y2, . . . yn

    novi skup podataka dobiven iz (1) transformacijom:

    yi := axi + b, 1 i n.

    Tada je

    y = ax + b.

    5

  • Zadatak 2. Pokazite da je aritmeticka sredina skupa

    podataka (1) jedinstveni broj u kojem realna funkcija

    v() :=n

    i=1

    (xi )2

    postize svoj minimum.

    6

  • Harmonijska sredina?

    Geometrijska sredina?

    7

  • 2.2.2 Medijan

    X je numericka ili ordinalna varijabla.

    Medijan je vrijednost od X za koju vrijedi da je 50%

    podataka manje od ili jednako toj vrijednosti i 50%

    podataka je vece od ili jednako njoj.

    8

  • Uredimo podatke (1):

    x(1) x(2) x(n). (3)

    Definicija. Neka su podaci (1) brojevi.

    Medijan je broj:

    m = x(k) ako je n = 2k 1

    m =1

    2(x(k) + x(k+1)) ako je n = 2k

    9

  • Primjer 2.4 (nastavak)

    Uredeni podaci:

    22 23 24 24 24 24 25 25 25 2626 26 26 26 27 27 27 28 29 30

    n = 20 = 2 10

    m =1

    2(x(10) + x(11)) =

    1

    2(26 + 26) = 26

    10

  • Zadatak 1. Pokazite da je medijan invarijantan na

    afine transformacije skupa podataka.

    11

  • Zadatak 2. Pokazite da postoji jedinstveni broj m

    u kojem realna funkcija

    d() :=n

    i=1

    |xi |

    postize svoj minimum ako i samo ako je n neparan

    broj ili je x(k) = x(k+1) za n = 2k. U tom slucaju je

    m medijan od (1).

    Koliko tocaka minimuma ima funkcija d ako je n =

    2k paran broj i x(k) < x(k+1)? Koja je veza medijana

    od (1) s tim tockama?

    12

  • 2.2.3 Mod

    Mod je vrijednost od X s najvecom

    frekvencijom.

    Primjer 2.2 (nastavak)

    ai fiS 9M 30L 16

    55

    mod = M

    13

  • 2.3 Mjere rasprsenja

    raspon, interkvartil, varijanca i standardna devijacija

    2.3.1 Raspon podataka

    R = max1in

    xi min1in

    xi = x(n) x(1)

    14

  • Za = k + (k = [] cijeli broj i 0 < 1),

    x() := x(k) + (x(k+1) x(k))

    2.3.2 Interkvartil

    Izracunamo donji (qL) i gornji (qU) kvartil:

    qL := x(

    n+14

    ), qU := x(3(n+1)4

    )

    Interkvartil:

    IQR := qU qL

    15

  • Primjer 2.6 Mjerenjem koncentracije -endorphinau krvnoj plazmi 11 trkaca nakon utrke, dobiveni susljedeci podaci (pmol/l):

    66,72,79,84,102,110,123,144,162,169,414

    n = 11

    m = x(11+12

    ) = x(6) = 110

    qL = x(11+14

    ) = x(3) = 79

    qU = x(311+14) = x(9) = 162

    IQR = 162 79 = 83x(1) = 66, x(11) = 414 R = 414 66 = 348.

    16

  • Karakteristicna petorka uzorka:

    (x(1), qL, m, qU , x(n))

    Dijagram pravokutnika (box and whisker plot)

    17

  • Primjer 2.7. Raspolazemo sa 100 podataka o iznosimasteta zbog popustanja vodovodnih instalacija po poli-cama osiguranja kucanstava.

    243 306 271 396 287 399 466 269 295 330425 324 228 113 226 176 320 230 404 487127 74 523 164 366 343 330 436 141 388293 464 200 392 265 403 372 259 426 262221 355 324 374 347 261 278 113 135 291176 342 443 239 302 483 231 292 373 346293 236 223 371 287 400 314 464 337 308359 352 273 267 277 184 286 214 351 270330 238 248 419 330 319 440 427 343 414291 299 265 318 415 372 238 323 411 494

    18

  • 19

  • 2.3.3 Uzoracka varijanca i standardna devijacija

    Uzoracka varijanca:

    s2 =1

    n 1

    n

    i=1

    (xi x)2, s2 =1

    n 1

    k

    j=1

    fj(aj x)2

    Uzoracka standardna devijacija:

    s := +

    s2.

    20

  • Ekvivalentne formule:

    s2 =1

    n 1

    n

    i=1

    x2i n

    n 1x2

    s2 =1

    n 1

    k

    j=1

    fja2j

    n

    n 1x2

    21

  • Primjer 2.4 (nastavak)

    Frekvencijska tablica:

    i fi fiai fia2i

    22 1 22 48423 1 23 52924 4 96 230425 3 75 187526 5 130 338027 3 81 218728 1 28 78429 1 29 84130 1 30 900

    20 514 13284

    x = 51420 = 25.7

    s2 = 1328419 2019 25.7

    2 == 3.91

    s =

    3.91 = 2.0

    22

  • Zadatak 1. Neka su podaci

    y1, y2, . . . , yn

    dobiveni afinom transformacijom

    yi = axi + b, i = 1,2, . . . , n (a 6= 0)

    podataka (1). Tada je uzoracka varijanca s2(y)

    transformiranih podataka jednaka

    s2(y) = a2 s2,

    odn. standarna devijacija je

    s(y) = |a| s.

    23

  • Zadatak 2. (Cebisevljeva nejednakost)

    Neka je > 0 proizvoljan broj, a x i s2 arit. sredina

    i uzoracka varijanca podataka (1). Tada vrijedi:

    #{i : |xi x| } (n 1)s2

    2.

    Koristeci tu nejednakost izracunajte kolika je rela-

    tivna frekvencija podataka koji se od aritmeticke sre-

    dine razlikuju za ne vise od k standardnih devijacija

    (k > 1).

    24

  • 2.4 Mjere lokacije

    Decili:

    Dk := x(

    k10(n+1)

    ), k = 1,2, . . . ,9

    Percentili:

    Pk := x(

    k100(n+1)

    ), k = 1,2, . . . ,99

    25

  • Kvantili:

    Za broj 0,1 t.d. je (n + 1) < n,-kvantil je broj

    q := x((n+1))

    26

  • 2.5 Momenti

    Neka je r prirodan broj.

    r-ti moment podataka (1) je broj:

    Mr :=1

    n

    n

    i=1

    xri .

    Ukoliko su svi podaci xi pozitivni brojevi, r-ti mo-

    ment se moze definirati za bilo koji realni pozitivni

    broj r.

    27

  • Neka je r prirodan broj.

    r-ti centralni moment podataka (1) je broj:

    Cr :=1

    n

    n

    i=1

    (xi x)r.

    28

  • 2.6 Standardizacija podataka

    Neka su x i s arit. sredina i std. devijacija od (1).

    Transformirajmo podatke iz (1):

    zi :=xi x

    s, i = 1,2, . . . , n (4)

    Niz (4) zovemo standardizirani niz od (1).

    29

  • 2.7 Koeficijent asimetrije

    3 :=1

    n 1

    n

    i=1

    (xi x

    s

    )3

    Koja je ekvivalentna formula ukoliko raspolazemo

    frekvencijskom tablicom?

    30

  • Ako je

    3 = 0 podaci su simetricni 3 < 0 podaci su negativno asimetricni 3 > 0 podaci su pozitivno asimetricni

    31

  • 32

  • 2.7 Koeficijent zaobljenosti

    4 :=1

    n 1

    n

    i=1

    (xi x

    s

    )4 3

    Koja je ekvivalentna formula ukoliko raspolazemo

    frekvencijskom tablicom?

    33

  • 2.8 Dvodimenzionalna obiljezja

    (X, Y ) : K L

    Podaci:

    (x1, y1), (x2, y2), . . . , (xn, yn) (5)

    34

  • Ako je:

    ImX = {a1, a2, . . . , ar}ImY = {b1, b2, . . . , bc}

    Im (X, Y ) = {(ai, bj) : 1 i r, 1 j c}

    fij = frekvencija od (ai, bj) u (5)

    fi = (marginalna) frekvencija od ai u (5)

    gj = (marginalna) frekvencija od bj u (5)

    fi =c

    j=1

    fij, gj =r

    i=1

    fij

    35

  • Kontingencijska frekvencijska tablica:

    X\Y b1 b2 bc

    a1 f11 f12 f1c f1a2 f21 f22 f2c f2... ... ... . . . ... ...ar fr1 fr2 frc fr

    g1 g2 gc n

    36

  • Primjer 2.8. U jednom razredu od n = 30 ucenika

    promatra se ocjena iz matematike (X) i fizike (Y ).

    Podaci:

    (1,3), (4,3), (2,2), (3,2), (1,2), (1,1),(2,2), (4,4), (2,2), (5,5), (3,3), (2,2),(3,3), (4,4), (5,5), (3,5), (2,1), (2,3),(2,2), (2,2), (3,3), (3,2), (4,4), (2,2),(3,3), (2,1), (3,2), (3,2), (3,2), (2,2)

    37

  • Kontingencijska frekvencijska tablica:

    X\Y 1 2 3 4 5

    1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2

    3 14 7 3 3 30

    38

  • Marginalna distribucija

    distribucija od X distribucija od Y

    39

  • Primjer 2.8. (nastavak) Kontingencijska tablica

    frekvencija 7 tablica relativnih frekvencija:

    X\Y 1 2 3 4 5

    1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2

    3 14 7 3 3 30

    7

    X\Y 1 2 3 4 5

    1 130

    130

    130

    0 0 330

    2 230

    830

    130

    0 0 1130

    3 0 530

    430

    0 130

    1030

    4 0 0 130

    330

    0 430

    5 0 0 0 0 230

    230 3

    301430

    730

    330

    330

    1

    40

  • Uvjetne distribucije

    distribucija od X uz dano Y = bj distribucija od Y uz dano X = ai

    41

  • Primjer 2.8. (nastavak)

    Uvjetne distribucije od X:

    X\Y 1 2 3 4 5

    1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2

    3 14 7 3 3 30

    X\Y = y 1 2 3 4 51 1

    3114

    17

    0 02 2

    3814

    17

    0 03 0 5

    1447

    0 13

    4 0 0 17

    1 05 0 0 0 0 2

    31 1 1 1 1

    42

  • Uvjetne distribucije od Y :

    X\Y 1 2 3 4 5

    1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2

    3 14 7 3 3 30

    X = x\Y 1 2 3 4 5

    1 13

    13

    13

    0 0 12 2