51
8. Gyakorisági táblázatok elemzése (statisztikai elemzések arányokkal, illetve diszkrét változókkal)

Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat 2 -próbával)

  • Upload
    gaura

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

8. Gyakorisági táblázatok elemzése (statisztikai elemzések arányokkal, illetve diszkrét változókkal). Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat  2 -próbával) Arányok összehasonlítása összetartozó és független minták segítségével Diszkrét változók kapcsolatvizsgálata. - PowerPoint PPT Presentation

Citation preview

Page 1: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

1

8. Gyakorisági táblázatok elemzése (statisztikai elemzések arányokkal, illetve diszkrét változókkal)

Page 2: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

2

Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat 2-próbával)

Arányok összehasonlítása összetartozó és független minták segítségével

Diszkrét változók kapcsolatvizsgálata

Tartalom

Page 3: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

3

Diszkrét változók eloszlásában

Hol találkozunk arányokkal?

Page 4: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

4

Példa diszkrét eloszlásra

0 1 2 3

Arány: 0,20 0,35 0,40 0,05

Érték:

Page 5: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

5

Néhány példa diszkrét változóra Személy neme (x1 = férfi, x2 = nő)

Iskolázottsági szint (x1 = Alsófok, x2 = Középfok, x3 = Felsőfok)

5-fokú skálaváltozók Diagnózis (x1 = Neurózis, x2 = Szkizofrénia, ...)

Kor (x1 = 18-35 év, x2 = 36-55 év, x3 = 56-99 év)

Page 6: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

6

Kvantitatív

Ordinális Nominális

Kvalitatív

Változó típusa

Arány Intervallum

Kiemelt fontosságú diszkrét változók

Page 7: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

7

Statisztikai problématípusok arányok esetén

Page 8: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

8

–Csoki nyuszitojást milyen színű papírban viszik (veszik) a leginkább? (piros, zöld ...)

–Fiúból, vagy lányból születik-e több?–Szmogriadó esetén, ha csak a páratlan

rendszámú autók közlekedhetnek: Kisebb-e a páros rendszámúak aránya? Kisebb-e 1/3-nál a páros rendszámúak aránya?

1. Eloszlásvizsgálatok

Page 9: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

9

–Igaz-e, hogy a nők között több neurotikus van, mint a férfiak között?

–Ugyanolyan-e Bp.-en a Koronás, a Kádár- és a Kossuth-címer kedveltsége, mint vidéken?

2a. Homogenitásvizsgálatok (Arányok összehasonlítása

független minták segítségével)

Page 10: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

10

–Változik-e a dohányosok aránya egy előadássorozat hatására különböző időpontokban?

–Változik-e a pártok kedveltségi aránya két vagy több időpont között?

2b. Homogenitásvizsgálatok (Arányok összehasonlítása

összetartozó minták segítségével)

Page 11: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

11

–Függ-e a pártpreferencia az iskolázottságtól?–Milyen szoros kapcsolatban van a fenti két

változó egymással?

3. Két diszkrét változó kapcsolatának vizsgálata

(Kapcsolatvizsgálatok)

Page 12: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

12

Problématípusok rendszere

Statisztikai probléma típusa

Eloszlásvizsgálat Homogenitásvizsgálat Kapcsolatvizsgálat

Független minták Összetartozó minták

Page 13: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

13

Példa: A Koronás, a Kádár és a Kossuth címer kedveltsége egy 939 fős mintában.

1. Eloszlásvizsgálatok

Koronás címer

Kádár-címer

Kossuth-címer

Összes személy

708 109 122 939

Page 14: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

14

00,10,20,30,40,50,60,70,8

Koronáscímer

Kádár-címer Kossuth-címer

Százalékos megoszlási arányok

Page 15: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

15

a) H0: Koronás: 60%, Kádár: 20%, Kossuth: 20%

b) H0: Koronás: 40%, Kádár: 20%, Kossuth: 40%

c) H0: Koronás = Kádár = Kossuth = 33,3%

Lehetséges nullhipotézisek

Page 16: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

16

A mintabeli kapott és a nullhipotézis igaz volta esetén várt gyakoriságok összehasonlítása és a köztük lévő különbségekből egy 2 próbastatisztika kiszámítása.

g

1i i

2ii2

várt

)vártkapott(

Szabadságfok: f = g - 1

A khi-négyzet-próba alapötlete

Page 17: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

17

Minél nagyobb az eltérés a kapott és a várt gyakoriságok között, annál valószínűbb, hogy H0 nem igaz.

Az eltérés egyik mértéke a 2 próbastatisztika. Ha igaz H0, ez a mennyiség közelítőleg 2-eloszlású.

Ha 2 elég nagy, akkor H0-t elutasítjuk.

Eloszlásvizsgálat khi-négyzet-próbával

Page 18: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

18

A 2-próba végrehajtása

2 = (708-313)2/313 + ...8920920,01

921 (f = 2; p < 0,01 szignifikáns)

Mivel a 2-érték elég nagy, a nullhipotézist elutasítjuk.‘A 3 címert kedvelők aránya szignifikánsan különbözik.’

708 109 122 =939

Várt gyak. 313 313 313

Kapottgyak.

=939

Page 19: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

19

Adatok: 1000 személy pártpreferencia értékei: melyik pártra szavazna?

Értékek: FIDESZ, MDF, MSZP, SZDSZ, JOBBIK, Egyéb (más párt vagy nem válaszol)

Kapott gyakoriságok:

n1 = 515, n2 = 13, n3 = 145, n4 = 12, n5 = 115

Másik példa: Választás 2010

Page 20: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

20

Bekerül-e a parlamentbe az SZDSZ? – Nullhipotézis: P(SZDSZ) = 0,05

– Adatok: n1 = 12, n2 = 790, várt gyak. = ?

Győz-e az MSZP-vel szemben a FIDESZ?– Nullhipotézis: P(FIDESZ) = P(MSZP)

– Adatok: n1 = 515, n2 = 145, várt gyak. = ?

Megválaszolandó kérdések

Page 21: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

21

2a. Két populáció összehasonlítása diszkrét változó segítségével

Kérdés: Budapestiek és vidékiek között van-e különbség a címerpreferencia tekintetében?

Nullhipotézis: A két populációban a címerválasztási arányok ugyananazok

Page 22: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

22

116 15 32 n1 =163

Vidék 592 94 90

Bpest

n2 =776

Kétszempontosgyakorisági táblázat Koronás Kádár Kossuth Össz.

Össz.: 708 109 122 N =939

Page 23: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

23

Arányok összehasonlítása (sorösszegek szerinti százalékok)

71,2% 9,2% 19,6% 100%

Vidék 76,3% 12,1% 11,6%

Bpest

100%

Koronás Kádár Kossuth Össz.

Page 24: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

24

H0 igaz volta esetén a

próbastatisztika 2-eloszlást követ. Szabadságfok: f = (sorok száma - 1)(oszlopok száma - 1).

2 < 20,05: H0-t 5%-os szinten nem utasítjuk el.

2 20,05 : H0-t 5%-os szinten elutasítjuk.

j,i ij

2ijij2

várt

)vártkapott(

Általános khi-négyzet-próba

Page 25: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

25

A címeres példa eredménye

Sorok száma: g = 2Oszlopok száma: h = 3Szabadságfok: f = (2-1)(3-1) = 12 = 2Kritikus értékek:

- 20,05 = 5,991 - 2

0,01 = 9,210Kiszámított khi-négyzet-érték: 2 = 8,144 Döntés: H0-t 5%-os szinten elutasítjuk.

Page 26: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

26

A várt gyakoriságok ne legyenek kb. 5-nél kisebbek.

Engedmény: elég, ha 80%-ra teljesül.Például egy 22-es táblázatban 4 cella

van, ezért ezekre mind teljesülnie kell.

A 2-próba alkalmazási feltétele

Page 27: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

27

Kis gyakoriságú sorok vagy oszlopok összevonása.

Nagyobb minta választása.22-es táblázat esetén a 22-es 2-próba

helyett a Fisher-egzakt-próba.

Mit tehetünk, ha az alkalmazási feltétel nem teljesül?

Page 28: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

28

Példa oszlopok összevonására

Isk. szint 0 1 2 3 4 Össz.

Alsófok 3 2 16 10 24 55

Középfok 0 2 10 13 20 45

Felsőfok 0 4 17 5 16 42

Össz. 3 8 43 28 60 142

h6 változó értékei

Page 29: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

29

Férfiak és nők feminitása (CPI)

0

10

20

30

40

50

60

70

80

90

100

Férfi Nő

Alacsony Fem

Magas Femszáz

alék

Page 30: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

30

Fem ≤ 11 Fem > 11

Férfi (n = 12) 6 6Nő (n = 70) 7 63

2 = 12,286 (f = 1, p < 0,01), vártmin = 1,9

Fisher-egzakt-próba: p = 0,0027

Példa a Fisher-egzakt-próbára

Page 31: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

31

– Két dichotóm változó összehasonlítása (McNemar-próba, Előjelpróba)

– Ketőnél több dichotóm változó összehasonlítása (Cochran-féle Q-próba)

– Két tetszőleges diszkrét változó összehasonlítása (Általános McNemar-próba, Bowker-féle szimmetria-próba)

2b. Összetartozó mintás homogenitásvizsgálatok

Page 32: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

32

Két helyzet vagy időpont összehasonlítása egy dichotóm változó segítségével

Példa: Középiskolai osztályban előadást tartanak a dohányzás ártalmáról. 36 tanuló közül 8 leszokik, 3 rászokik a dohányzásra. Hatásos-e az előadás?

Nullhipotézis: A dohányzás változójának eloszlása az előadás előtt és után ugyanaz.

–Különbségváltozó: x1= leszokik, x2 = rászokik

–Nullhipotézis: H0: P(leszokás) = P(rászokás)

Page 33: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

33

Adattáblázat:

Képlet és számolás: McNemar-próba

Alkalmazási feltétel: (b+c)/2 5

Hogyan lehetne itt az előjelpróbát alkalmazni?

Dohányzik? Utána igen Utána nemElőtte igen a b = 8Előtte nem c = 3 d

22 2

0 1028 3

8 32511

2 27

b c

b c

Page 34: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

34

1. általánosítás: X dichotóm, h számú összetartozó minta összehasonlítása

Nullhipotézis: A h számú dichotóm változó eloszlása ugyanaz

Page 35: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

35

Szakmai példa: h számú tesztkérdés nehézségének az összehasonlítása

Személy item1 item2 item3 item4

1. 0 1 1 0

2. 1 1 0 0

3. 0 0 1 0

4. 0 1 0 1 ... ... ... ... ...

Megoldási arány 0,28 0,56 0,48 0,22

Page 36: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

36

Másik szakmai példa: elvonó kúra után állapotrögzítés több időpontban

Személy 1. hónap 3. hónap 6. hónap 9. hónap

1. 0 1 1 0

2. 1 1 0 0

3. 0 0 1 0

4. 0 1 0 1 ... ... ... ... ...

Visszaesők aránya 0,18 0,26 0,32 0,30

Page 37: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

37

Cochran-féle Q-próba Nullhipotézis: A h számú dichotóm változó

eloszlása ugyanaz az 1 (és úgyszintén a 0) érték elméleti arányai megegyeznek

Alkalmazási feltétel: nh 24–n: személyek száma; h: változók száma

Próbastatisztika: Q, mely H0 igaz volta esetén közelítőleg 2-eloszlást követ

Page 38: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

38

2. általánosítás: X tetszőleges, de csak két összetartozó mintát hasonlítunk össze (változik-e X eloszlása az egyik

helyzetről/időpontról a másikra?)

Sima McNemar-próba általánosítása: Általános McNemar-próba (vagy Bowker-féle szimmetria-próba)

Page 39: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

39

2 diszkrét változó kapcsolatának vizsgálata

Könnyen teremt baráti kapcsolatokat

15 éveslányok

Kapcsolatvizsgálat homogenitásvizsgálat

Dohányzik Igen Nem ÖsszesenIgen 105 17 122Nem 469 340 809Összesen 574 357 931

Page 40: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

40

Sorösszegek szerinti százalékok táblázata

Könnyen teremt baráti kapcsolatokat

15 éveslányok

Dohányzik Igen Nem ÖsszesenIgen 86,1 13,9 100Nem 58,0 42,0 100Összesen 61,7 38,3 100

Page 41: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

41

A pártpreferencia függése az életkortól és a nemtől

• A pártpreferencia nem függ a kortól, ha a pártpreferencia eloszlása különböző életkori szinteken ugyanaz.• A pártpreferencia nem függ a nemtől, ha a pártpreferencia eloszlása férfiaknál és nőknél ugyanaz.

Page 42: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

42

Függ-e ennek a személynek a kedveltsége az iskolai végzettségtől?

Iskolázottság és szimpátia

Page 43: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

43

Eloszlás a 3 iskolázottsági szinten

0

10

20

30

40

50

Neg+ Neg 0 Poz Poz+

száz

alék

alsófok középfok felsőfok

Page 44: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

44

X és Y függetlensége

• X független Y-tól, ha Y eloszlása ugyanaz X minden értéke mellett• Y független X-től, ha X eloszlása ugyanaz Y minden értéke mellett• A függetlenség kölcsönös

Page 45: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

45

A kapcsolat szorosságának mérése diszkrét változók esetén

Cramér-féle V kontingencia-együttható:

Ha X és Y független, V = 0. 0 ≤ V ≤ 1.

VN g h

2

1(min( , ) )

Page 46: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

46

A kapcsolat szorosságának mérése dichotóm változók esetén

Dichotóm (kétértékű) változók esetén V φ kontingencia együttható, |φ| = V

-1 ≤ φ ≤ 1φ = Pearson-féle r korrelációs együttható

a sor- és az oszlopváltozó között

Page 47: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

47

A kapcsolat szorosságának mérése dichotóm változók esetén

Kontingencia-együttható (φ) Pearson korreláció a numerikusan kódolt

dichotóm változók között

Yule-féle asszociációs együttható (, Y) Kendall-féle gamma dichotóm változókkal

Alfa esélyhányados

Page 48: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

48

Az alfa esélyhányadosX= „” X=„+”

Y = férfi a b

c dY = nő

Alfa = (b/a) : (d/c) Ha alfa = 1, nincs különbség a 2 csoport között Ha alfa nagyon kicsi vagy nagyon nagy, komoly

különbség van a 2 csoport között

Page 49: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

49

A φ együttható jelentése Kódoljuk X értékeit az 1 és a 2 számmal

(pl. 1 = férfi, 2 = nő). Kódoljuk Y értékeit ugyancsak az 1 és a 2

számmal (pl. 1 = igen, 2 = nem). φ a Pearson-féle korrelációs együttható

X és Y között

Page 50: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

50

A együttható jelentése Kódoljuk X értékeit az 1 és a 2 számmal

(pl. 1 = férfi, 2 = nő). Kódoljuk Y értékeit ugyancsak az 1 és a 2

számmal (pl. 1 = igen, 2 = nem). a pozitív és a negatív együttjárás %-os

arányának különbsége (Kendall-féle Γ)

Page 51: Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat   2 -próbával)

51

A kapcsolat szorosságának mérése ordinális változók esetén

Ordinális skálájú változók esetén: Kendall-féle monotonitási (asszociációs) együttható.

Jelentés: pozitív kapcsolat relatív fölénye a negatívval szemben: (Poz-Neg)/(Poz+Neg)

Egyirányú függés mérése:

Somers-féle monotonitási mérőszámok