Download pdf - Opisna statistika 2

Transcript

2.2 Srednje vrijednosti

aritmeticka sredina, medijan, mod

Podaci (realizacije varijable X):

x1, x2, . . . , xn (1)

1

2.2.1 Aritmeticka sredina

X je numericka varijabla.

Aritmeticka sredina od (1) je broj:

x =1

n(x1 + x2 + · · · + xn) =

1

n

n∑

i=1

xi.

2

Ako se u (1) ponavljaju brojevi:

a1, a2, . . . , ak, (2)

s frekvencijama

f1, f2, . . . , fk

tada je

x =1

n(f1a1 + f2a2 + · · · + fkak) =

1

n

k∑

j=1

fjaj.

Primijetimo:

a1, a2, . . . , ak ⊆ ImX

3

Primjer 2.3 (nastavak)

i fi0 111 42 23 24 1

5 − 30 0∑20

x =11 · 0 + 4 · 1 + 2 · 2 + 2 · 3 + 1 · 4

20= 0.9

4

Zadatak 1. Pokazite da je aritmeticka sredina in-

varijantna na afine transformacije skupa podataka.

Preciznije: neka su a, b ∈ R (a 6= 0), te

y1, y2, . . . yn

novi skup podataka dobiven iz (1) transformacijom:

yi := axi + b, 1 ≤ i ≤ n.

Tada je

y = ax + b.

5

Zadatak 2. Pokazite da je aritmeticka sredina skupa

podataka (1) jedinstveni broj u kojem realna funkcija

v(µ) :=n∑

i=1

(xi − µ)2

postize svoj minimum.

6

Harmonijska sredina?

Geometrijska sredina?

7

2.2.2 Medijan

X je numericka ili ordinalna varijabla.

Medijan je vrijednost od X za koju vrijedi da je 50%

podataka manje od ili jednako toj vrijednosti i 50%

podataka je vece od ili jednako njoj.

8

Uredimo podatke (1):

x(1) ≤ x(2) ≤ · · · ≤ x(n). (3)

Definicija. Neka su podaci (1) brojevi.

Medijan je broj:

m = x(k) ako je n = 2k − 1

m =1

2(x(k) + x(k+1)) ako je n = 2k

9

Primjer 2.4 (nastavak)

Uredeni podaci:

22 23 24 24 24 24 25 25 25 2626 26 26 26 27 27 27 28 29 30

n = 20 = 2 · 10

m =1

2(x(10) + x(11)) =

1

2(26 + 26) = 26

10

Zadatak 1. Pokazite da je medijan invarijantan na

afine transformacije skupa podataka.

11

Zadatak 2. Pokazite da postoji jedinstveni broj m

u kojem realna funkcija

d(µ) :=n∑

i=1

|xi − µ|

postize svoj minimum ako i samo ako je n neparan

broj ili je x(k) = x(k+1) za n = 2k. U tom slucaju je

m medijan od (1).

Koliko tocaka minimuma ima funkcija d ako je n =

2k paran broj i x(k) < x(k+1)? Koja je veza medijana

od (1) s tim tockama?

12

2.2.3 Mod

Mod je vrijednost od X s najvecom

frekvencijom.

Primjer 2.2 (nastavak)

ai fiS 9M 30L 16∑

55

⇒ mod = M

13

2.3 Mjere rasprsenja

raspon, interkvartil, varijanca i standardna devijacija

2.3.1 Raspon podataka

R = max1≤i≤n

xi − min1≤i≤n

xi = x(n) − x(1)

14

Za β = k + α (k = [β] cijeli broj i 0 ≤ α < 1),

x(β) := x(k) + α(x(k+1) − x(k))

2.3.2 Interkvartil

Izracunamo donji (qL) i gornji (qU) kvartil:

qL := x(n+14

), qU := x(3(n+1)

4

)

Interkvartil:

IQR := qU − qL

15

Primjer 2.6 Mjerenjem koncentracije β-endorphinau krvnoj plazmi 11 trkaca nakon utrke, dobiveni susljedeci podaci (pmol/l):

66,72,79,84,102,110,123,144,162,169,414

n = 11

m = x(11+1

2

) = x(6) = 110

qL = x(11+1

4

) = x(3) = 79

qU = x(3·11+1

4

) = x(9) = 162

⇒ IQR = 162 − 79 = 83x(1) = 66, x(11) = 414 ⇒ R = 414 − 66 = 348.

16

Karakteristicna petorka uzorka:

(x(1), qL, m, qU , x(n))

Dijagram pravokutnika (”box and whisker plot”)

17

Primjer 2.7. Raspolazemo sa 100 podataka o iznosimasteta zbog popustanja vodovodnih instalacija po poli-cama osiguranja kucanstava.

243 306 271 396 287 399 466 269 295 330425 324 228 113 226 176 320 230 404 487127 74 523 164 366 343 330 436 141 388293 464 200 392 265 403 372 259 426 262221 355 324 374 347 261 278 113 135 291176 342 443 239 302 483 231 292 373 346293 236 223 371 287 400 314 464 337 308359 352 273 267 277 184 286 214 351 270330 238 248 419 330 319 440 427 343 414291 299 265 318 415 372 238 323 411 494

18

19

2.3.3 Uzoracka varijanca i standardna devijacija

Uzoracka varijanca:

s2 =1

n − 1

n∑

i=1

(xi − x)2, s2 =1

n − 1

k∑

j=1

fj(aj − x)2

Uzoracka standardna devijacija:

s := +√

s2.

20

Ekvivalentne formule:

s2 =1

n − 1

n∑

i=1

x2i −

n

n − 1x2

s2 =1

n − 1

k∑

j=1

fja2j −

n

n − 1x2

21

Primjer 2.4 (nastavak)

Frekvencijska tablica:

i fi fiai fia2i

22 1 22 48423 1 23 52924 4 96 230425 3 75 187526 5 130 338027 3 81 218728 1 28 78429 1 29 84130 1 30 900∑

20 514 13284

x = 51420 = 25.7

s2 = 1328419 − 20

19 · 25.72 == 3.91

s =√

3.91 = 2.0

22

Zadatak 1. Neka su podaci

y1, y2, . . . , yn

dobiveni afinom transformacijom

yi = axi + b, i = 1,2, . . . , n (a 6= 0)

podataka (1). Tada je uzoracka varijanca s2(y)

transformiranih podataka jednaka

s2(y) = a2 · s2,

odn. standarna devijacija je

s(y) = |a| · s.

23

Zadatak 2. (Cebisevljeva nejednakost)

Neka je ε > 0 proizvoljan broj, a x i s2 arit. sredina

i uzoracka varijanca podataka (1). Tada vrijedi:

#i : |xi − x| ≥ ε ≤(n − 1)s2

ε2.

Koristeci tu nejednakost izracunajte kolika je rela-

tivna frekvencija podataka koji se od aritmeticke sre-

dine razlikuju za ne vise od k standardnih devijacija

(k > 1).

24

2.4 Mjere lokacije

Decili:

Dk := x(k10(n+1)

), k = 1,2, . . . ,9

Percentili:

Pk := x(k

100(n+1)), k = 1,2, . . . ,99

25

Kvantili:

Za broj α ∈ 〈0,1〉 t.d. je α(n + 1) < n,

α-kvantil je broj

qα := x(α(n+1))

26

2.5 Momenti

Neka je r prirodan broj.

r-ti moment podataka (1) je broj:

Mr :=1

n

n∑

i=1

xri .

Ukoliko su svi podaci xi pozitivni brojevi, r-ti mo-

ment se moze definirati za bilo koji realni pozitivni

broj r.

27

Neka je r prirodan broj.

r-ti centralni moment podataka (1) je broj:

Cr :=1

n

n∑

i=1

(xi − x)r.

28

2.6 Standardizacija podataka

Neka su x i s arit. sredina i std. devijacija od (1).

Transformirajmo podatke iz (1):

zi :=xi − x

s, i = 1,2, . . . , n (4)

Niz (4) zovemo standardizirani niz od (1).

29

2.7 Koeficijent asimetrije

α3 :=1

n − 1

n∑

i=1

(xi − x

s

)3

Koja je ekvivalentna formula ukoliko raspolazemo

frekvencijskom tablicom?

30

Ako je

• α3 = 0 podaci su simetricni

• α3 < 0 podaci su negativno asimetricni

• α3 > 0 podaci su pozitivno asimetricni

31

32

2.7 Koeficijent zaobljenosti

α4 :=1

n − 1

n∑

i=1

(xi − x

s

)4− 3

Koja je ekvivalentna formula ukoliko raspolazemo

frekvencijskom tablicom?

33

2.8 Dvodimenzionalna obiljezja

(X, Y ) : Ω → K × L

Podaci:

(x1, y1), (x2, y2), . . . , (xn, yn) (5)

34

Ako je:

ImX = a1, a2, . . . , arImY = b1, b2, . . . , bc

⇒ Im (X, Y ) = (ai, bj) : 1 ≤ i ≤ r, 1 ≤ j ≤ c

fij = frekvencija od (ai, bj) u (5)

fi = (marginalna) frekvencija od ai u (5)

gj = (marginalna) frekvencija od bj u (5)

fi =c∑

j=1

fij, gj =r∑

i=1

fij

35

Kontingencijska frekvencijska tablica:

X\Y b1 b2 · · · bc∑

a1 f11 f12 · · · f1c f1a2 f21 f22 · · · f2c f2... ... ... . . . ... ...ar fr1 fr2 · · · frc fr∑

g1 g2 · · · gc n

36

Primjer 2.8. U jednom razredu od n = 30 ucenika

promatra se ocjena iz matematike (X) i fizike (Y ).

Podaci:

(1,3), (4,3), (2,2), (3,2), (1,2), (1,1),(2,2), (4,4), (2,2), (5,5), (3,3), (2,2),(3,3), (4,4), (5,5), (3,5), (2,1), (2,3),(2,2), (2,2), (3,3), (3,2), (4,4), (2,2),(3,3), (2,1), (3,2), (3,2), (3,2), (2,2)

37

Kontingencijska frekvencijska tablica:

X\Y 1 2 3 4 5∑

1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2∑

3 14 7 3 3 30

38

Marginalna distribucija

→ distribucija od X

→ distribucija od Y

39

Primjer 2.8. (nastavak) Kontingencijska tablica

frekvencija 7→ tablica relativnih frekvencija:

X\Y 1 2 3 4 5∑

1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2∑

3 14 7 3 3 30

7→

X\Y 1 2 3 4 5∑

1 130

130

130

0 0 330

2 230

830

130

0 0 1130

3 0 530

430

0 130

1030

4 0 0 130

330

0 430

5 0 0 0 0 230

230∑ 3

301430

730

330

330

1

40

Uvjetne distribucije

→ distribucija od X uz dano Y = bj

→ distribucija od Y uz dano X = ai

41

Primjer 2.8. (nastavak)

Uvjetne distribucije od X:

X\Y 1 2 3 4 5∑

1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2∑

3 14 7 3 3 30

X\Y = y 1 2 3 4 51 1

3114

17

0 02 2

3814

17

0 03 0 5

1447

0 13

4 0 0 17

1 05 0 0 0 0 2

3∑1 1 1 1 1

42

Uvjetne distribucije od Y :

X\Y 1 2 3 4 5∑

1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 0 1 104 0 0 1 3 0 45 0 0 0 0 2 2∑

3 14 7 3 3 30

X = x\Y 1 2 3 4 5∑

1 13

13

13

0 0 12 2

11811

111

0 0 13 0 5

10410

0 110

14 0 0 1

434

0 15 0 0 0 0 1 1

43

Regresijske funkcije

→ x : ImY → R

x(y) := arit. sredina uvjetne distrib. od X uz dano Y = y

→ y : ImX → R

y(x) := arit. sredina uvjetne distrib. od Y uz dano X = x

44

Primjer 2.8. (nastavak)

X\Y 1 2 3 4 5∑

y(x)1 1 1 1 0 0 3 22 2 8 1 0 0 11 21

113 0 5 4 0 1 10 27

104 0 0 1 3 0 4 15

45 0 0 0 0 2 2 5∑

3 14 7 3 3 30 −x(y) 5

33214

197 4 13

3 − −

45


Recommended