89
Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät Petri Nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto [email protected] http://www.uta.fi/~petri.nokelainen

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

  • Upload
    chaz

  • View
    117

  • Download
    0

Embed Size (px)

DESCRIPTION

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät. Petri Nokelainen. [email protected] http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut - PowerPoint PPT Presentation

Citation preview

Page 1: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Petri Nokelainen

Kasvatustieteiden yksikköTampereen yliopisto

[email protected]://www.uta.fi/~petri.nokelainen

Page 2: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 3: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.1 Sijaintiluvut

• Mediaani– Järjestettyjen arvojen

keskimmäisin arvo (n+1)/2

• Moodi– Tyypillisin arvo, esiintyy

useimmin– Multimodaalinen

Page 4: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.1 Sijaintiluvut

• Keskiarvo (k.a., M)– Generalized mean

• k = 1 aritmeettinen keskiarvo• k = -1 harmoninen keskiarvo• k -> 0 geometrinen keskiarvo

Page 5: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.1 Sijaintiluvut

Page 6: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.1 Sijaintiluvut

Page 7: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

(FSD, http://www.fsd.uta.fi/menetelmaopetus/keskiluvut/keskiluvut.html.)

Tilastollisia käsitteitä1.1 Sijaintiluvut

Page 8: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.1 Sijaintiluvut

• Tynnyrikuvaaja (Boxplot)– Laatikon ääripäät kuvaavat

kvartiileja (quartiles)• Ensimmäinen kvartiili on mediaania

pienempien arvojen mediaani, toinen kvartiili on itse mediaani ja kolmas kvartiili on mediaania korkeampien arvojen mediaani.

– Mediaani on merkitty laatikon keskellä kulkevalla viivalla

– Laatikon ulkopuolella olevat viivat (whiskers) kuvaavat pienintä ja suurinta havaintoa.

10

9

8

7

6

5

4

3

2

1

Page 9: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 10: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.2 Hajontaluvut

Page 11: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.2 Hajontaluvut

• Keskihajonta s (k.h., SD, standard deviation)– Varianssin s2 neliöjuuri:

– Edellyttää välimatka-asteikollista muuttujaa.– Kuvaa havaintojen keskimääräistä etäisyyttä

keskiarvosta.– Keskihajonta säilyttää alkuperäisen mitta-asteikon

tulkinnassa.

Page 12: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.2 Hajontaluvut

Page 13: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.2 Hajontaluvut

(FSD, http://www.fsd.uta.fi/menetelmaopetus/hajontaluvut/hajontaluvut.html.)

Page 14: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Normaalijakauman oletukseen perustuvissa testeissä on syytä tarkastella otosjakauman symmetrisyyttä.– Vinous g1 (skewness) kuvaa

jakauman vaakapoikkeamaa oikealle tai vasemmalle verrattuna normaalijakaumaan.

– Huipukkuus g2 (kurtosis) kuvaa jakauman huipun muotoa.

g1: oikealle ja vasemmalle vinot jakaumat

g2: huipukas ja tasainen jakauma

Tilastollisia käsitteitä1.2 Hajontaluvut

Page 15: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

234 vastaajaa ovat käyttäneet kaikkia 7-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n = /√n = 1.253/ √234 ≈ .082) avulla voidaan arvioida 95% luottamusväli annetuille vastauksille: 5.28 - 5.60 (5.44 ± 1.96*.082). Kaksi kertaa keskivirhettä (.159) suuremman ja itseisarvoltaan 1 lähestyvän skewness (g1) arvon (-.956) perusteella voidaan päätellä että vastausjakauma on vasemmalle vino (”negatiivinen”). Kurtosis (g2) saa positiivisen, kaksi kertaa keskivirhettään (.317) suuremman arvon (.923), joten jakauman voidaan todeta olevan huipukas.

234 vastaajaa ovat käyttäneet kaikkia 5-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n = /√n = 1.099/ √234 ≈ .072) avulla voidaan arvioida 95% luottamusväli annetuille vastauksille: 3.03 – 3.31 (3.17 ± 1.96*.072). Jakauma muistuttaa vaakavinoumaltaan normaalijakaumaa, koska skewness arvo (-.122) on pienempi kuin sen keskivirhe (.160). Jakauma on muodoltaan hieman tasainen, koska kurtosis saa negatiivisen arvon (-.578), mutta ei poikkea normaalista koska tuo arvo jaettuna sen keskivirheellä (.320) on pienempi kuin kaksi (-.578/.320 = 1.81).

Esimerkki vasemmalle vinosta (negatiivisesta) ja huipukkaasta vastausjakaumasta

Esimerkki normaalista vastausjakaumasta

Page 16: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 17: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

• Empiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista.– Diskreeteille muuttujille pylväsdiagrammi

tai viivadiagrammi.

Page 18: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

• Empiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista.– Jatkuville muuttujille histogrammi

tai tynnyrikaavio (boxplot, laatikko-jana).

Page 19: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

• Tilastolliset todennäköisyysjakaumat ovat matemaattisia malleja ilmiöiden esiintymistodennäköisyyksistä, ts. empiirisesti havaittuja ilmiöitä voidaan kuvata matemaattisten mallien avulla.

• Lähes kaikki tilastolliset testit perustuvat erilaisten todennäköisyysjakaumien käyttöön.

• Diskreettejä jakaumia: binomijakauma, Poisson –jakauma.

• Jatkuvia jakaumia: Normaalijakauma, Studentin t-jakauma, 2 –jakauma, F –jakauma.

Page 20: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Populaatio Otos

s

xHajontaOdotusarvo

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

Normaalijakauma

Tilastollisessa päättelyssä yleisimminkäytetty jakauma (ns. Gaussin käyrä).Odotusarvo () ja hajonta () määrittävät jakauman muodon.

Page 21: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Standardoidun normaalijakauman odotusarvo on 0 ja keskihajonta 1. X-akselin mittayksikkönä on keskihajonta, joten voimme esim. päätellä että 68.2% havainnoista on +/- yhden keskihajonnan mitan päässä keskiarvosta.

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

-3 –2 -1 0 1 2 3

2.3%2.3%

Page 22: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

WAIS-R –testillä mitattujen älykkyysosamäärien keskiarvo Suomessa on 100 ja keskihajonta 15. Älykkyys on normaalisti jakautunut ominaisuus, joten testipistemäärien jakauma noudattelee normaalijakaumaan parametrein = 100 ja = 15. Saat MENSAn järjestämästä testistä pistemääräksesi 131 – miten menee?!

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

-3 –2 -1 0 1 2 3

2.3%2.3%

Page 23: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Tilastollisia käsitteitä1.3 Todennäköisyysjakaumat

-3 –2 -1 0 1 2 3

2.3%2.3%

06.215

100131

X

z

Älykkyysosamäärä 131 sijaitsee yli kahden keskihajonnan mitan päässä keskiarvosta. Vain 2.3 prosenttia ihmisistä saa vastaavia tai korkeampia älykkyysosamääräpisteitä.

Page 24: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 25: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

1.4 Hypoteesien testaaminen

• Hypoteesi sisältää tutkijan ”valistuneen arvauksen” aineiston tutkimuskysymykseen antamasta vastauksesta.

• Hypoteesin testaamisen avulla arvioidaan, voidaanko otoksen perusteella tehdä populaatiota koskevia luotettavia päätelmiä.

Page 26: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

1.4 Hypoteesien testaaminen

• Nollahypoteesi (H0) tarkoittaa sitä, että aineiston antama tulos ei esiinny populaatiossa, se on syntynyt esim. epäedustavan otoksen vaikutuksesta.

• Vastahypoteesi (H1), tai vaihtoehtoinen hypoteesi, olettaa päinvastaista: Aineistossa esiintynyt ilmiö on löydettävissä myös populaatiosta.

Page 27: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

1.4 Hypoteesien testaaminen

• Otannalla on suuri merkitys tilastollisen tutkimuksen tulosten yleistettävyydelle: otos määrittelee sen populaation johon tulokset voidaan yleistää.– Mihin populaatioon yliopisto-opiskelijoiden silmien

väriä koskevat tulokset voidaan yleistää?– Entäpä jos tutkitaan loogista ajattelua?

Page 28: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

1.4 Hypoteesien testaaminen

• Tutkimuskysymyksissä esitettyjä hypoteeseja testataan aineistosta tilastollisten testien avulla.

• Testit laskevat todennäköisyyden (ns. ”p-arvo”) aineistolle jos nollahypoteesi pitää paikkansa: P(D|H0).

• P-arvot vaihtelevat välillä 0 = epätosi .. 1 = tosi.

Page 29: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Nollahypoteesin hylkäämistä silloin kun se oikeasti pitääkin paikkansa kutsutaan tyypin yksi virheeksi (Type I error, ).

• Nollahypoteesin virheellinen hyväksyminen johtaa tyypin kaksi virheeseen (Type II error, ).

1.4 Hypoteesien testaaminen

Page 30: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• P-arvoille on asetettu yleisiä raja-arvoja (kriittinen -arvo), joita käytetään apuvälineinä tulkittaessa tutkimuslöydösten tilastollista merkitsevyyttä:p < .05 tilastollisesti melkein merkitsevä

Tämä on yleisin merkitsevyysraja (5%).p < .01 tilastollisesti merkitseväp < .001 tilastollisesti erittäin merkitsevä.

1.4 Hypoteesien testaaminen

Page 31: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Esim. jos t-testi tuottaa tulokseksi t(49)=3.4, p=.04, voidaan todeta että on olemassa vain neljän prosentin todennäköisyys saada vastaavan suuruinen ero kahden verrattavan ryhmän välille, jos otos edustaa populaatiota jossa nollahypoteesi on tosi.

• Vaikka kahden ryhmän välinen ero on tilastollisesti merkitsevä, se ei automaattisesti tarkoita tieteellisessä mielessä merkityksellistä eroa.

1.4 Hypoteesien testaaminen

Page 32: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Hypoteesintestaukseen liittyy kaksi virhetyyppiä:– Tyypin I virhe (Type I error, error)

• Oikeasti paikkansa pitävä H0 hylätään ja H1 astuu virheellisesti voimaan.

• Löydetään tutkimustulos jota ei oikeasti ole olemassakaan.

– Tyypin II virhe (Type II error, error)• Oikeasti paikkansa pitävä H1 hylätään ja H0 jää

virheellisesti voimaan.• Tämä on ns. ”nollatutkimusta” josta usein puuttuu voima

(power), mutta ei hätää – myöhempi tutkimus kyllä ennemmin tai myöhemmin löytää asioiden oikean laidan!

1.4 Hypoteesien testaaminen

Page 33: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 34: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2. Tilastollisten analyysimenetelmien päätyypit

1. Muuttujien välisten riippuvuussuhteiden voimakkuus– Korreloiko vastaajien ikä työhön sitoutumista mittaavan

muuttujan arvojen kanssa, ja jos korreloi, niin minkä suuntaisesti?

2. Ryhmien välisten erojen merkitsevyys– Onko eri ikäryhmien välillä eroja työhön sitoutumisessa?

3. Ryhmäjäsenyyden ennustaminen– Mitkä työhön sitoutumista mittaavat muuttujat ennustavat

parhaiten mihin ikäryhmään vastaajat kuuluvat?4. Muuttujarakenteen mallintaminen

– Millaisiin ulottuvuuksiin (”faktoreihin”) käsite ”työhön sitoutuminen” on jaettavissa?

– Selittävätkö esimiehen johtamistaidot ja työn psyykkinen rasittavuus työhön sitoutumista?

Page 35: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2. Tilastollisten analyysimenetelmien päätyypit

1. Muuttujien välisten riippuvuussuhteiden voimakkuus– Khiin neliötesti (2), korrelaatioanalyysi (r), regressioanalyysi (R),

kanoninen korrelaatioanalyysi2. Ryhmien välisten erojen merkitsevyys

– t-testi, varianssianalyysi (ANOVA), monimuuttujavarianssianalyysi (MANOVA), kovarianssianalyysi (ANCOVA)

3. Ryhmäjäsenyyden ennustaminen– Erotteluanalyysi (DA), logistinen regressioanalyysi (LOGIT),

ryhmittely eli klusterianalyysi4. Muuttujarakenteen mallintaminen

– Eksploratiivinen faktorianalyysi (EFA), pääkomponenttianalyysi (PCA), rakenneyhtälömallinnus (SEM, alalajina polkuanalyysi PATH ANALYSIS ja konfirmatorinen faktorianalyysi CFA)

Page 36: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

(Nokelainen, 2008.)

SPSS

AMOS

SPSS Extension

MPlus

SPSS

Page 37: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 38: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

• Khiin neliötesti (Chi square test, 2)– Millainen riippuvuussuhde on iän ja työhön sitoutumisen

välillä?• 1 nominaali/järjestysasteikollinen riippumaton (IV)

muuttuja (ikä luokiteltuna kolmeen luokkaan)• 1 nominaali/järjestysasteikollinen riippuva (DV) muuttuja

(työhön sitoutuminen asteikolla 1 - 5)

Olemme kiinnostuneita kuhunkin luokkaan X {X1, X2, X3} kuuluvien ihmisten vastauksista {Y1, Y2, Y3, Y4,Y5} kysymykseen Y.

Page 39: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

N

ffF ji

ij

oo

e

Taulukosta näemme, että tulos2(1)=20.822 on tilastollisesti merkitsevä yhden promillen riskitasolla (p < .001).

Page 40: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Khiin neliön suhteellinen tulkitseminen on vaikeaa, koska sillä ei ole ylärajaa – riippuvuuslukuna käytetään usein

kontingenssikerrointa (C)

48.822.2070

822.202

2

n

C

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 41: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Cmax ei ole 1, vaan se riippuu taulukon rivien (h) ja sarakkeiden (g) lukumäärästä seuraavan kaavan mukaisesti:

, jossa k = min(g,h)

k 2 3 4 5 6

0.71 0.82 0.87 0.89 0.91

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 42: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Khiin neliötestin tulos– Khiin neliötestin perusteella miesten ja naisten

hiihto ja luistelutottumukset poikkesivat toisistaan tilastollisesti merkitsevästi, 2(1) = 20.822, p < .001, C = .48 (Cmax = 0.71).

– Naiset raportoivat tasaisempaa kiinnostusta kahteen edellä mainittuun talviurheilulajiin kuin miehet, jotka selvästi suosivat hiihtämistä.

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 43: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Raportointiesimerkkejä:– Khiin neliötestin perusteella tytöt saavat poikia

parempia kouluarvosanoja: 2(1) = 5.432, p = .031. 2 = Khiin neliö, (1) = vapausasteet (df, degrees of

freedom), 5.432 = Khiin neliötestin arvo, ei kerro muuta kuin sen, että sukupuolten välillä on eroa (poikkeaa nollasta), p = 0.31 tarkoittaa sitä, että sukupuolten välillä on tilastollisesti melkein merkitsevä ero 5 prosentin riskitasolla.

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 44: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Raportointiesimerkkejä:– Khiin neliötestin perusteella tytöt saavat poikia

parempia kouluarvosanoja: C(1) = 0.39, p = .031 (Cmax = 0.71).

• C = Kontingenssikerroin, (1) = vapausasteet, 0.39 kertoo ryhmien välisen eron merkitsevyyden, p = .031 tarkoittaa sitä, että sukupuolten välillä on tilastollisesti merkitsevä ero 5 prosentin riskitasolla (.031 < .05), Cmax = 0.71 on tässä taulukossa ryhmien välisen eron yläraja.

• Kun C = 0.39, voidaan todeta, että ero ei ole tieteellisesti kovin merkittävä, vaikka onkin sitä tilastollisesti.

• Jos arvo olisi esim. 0.60, voisimme olla enemmän riemuissamme sukupuolten välisestä erosta (koska tällöin ollaan lähempänä ryhmien välisen eron ylärajaa 0.71).

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 45: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

• Korrelaatioanalyysi (rp tai rs)– Onko iän ja työhön sitoutumisen välillä riippuvuussuhde? Jos

on, niin minkä suuntainen?

• 2 jatkuvaa muuttujaa (rp) (ikä vuosina, työhön sitoutumista mittaavan testin pistemäärä)

• 2 järjestysasteikollista muuttujaa (rs) (ikä luokkina, työhön sitoutuminen asteikolla 1 – 5)

Olemme kiinnostuneita kunkin vastaajan antamista vastauksista kahteen muuttujaan X ja Y.

Page 46: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

=KORRELAATIO(E7:E10,F7:F10)

Page 47: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Testin nollahypoteesi (H0) = muuttujien korrelaatio perusjoukossa on 0.

• Tietokoneohjelmat laskevat korrelaation yhteydessä merkitsevyysluvun (p, significance) olettaen että normaalijakauman ehto täyttyy,

• p -arvo– ilmoittaa todennäköisyyden sille että otoksesta laskettu

korrelaatio on vähintään saadun suuruinen mikäli H0 pitää paikkansa

– ilmoittaa kuinka paljon on ”todisteita” nollahypoteesia vastaan, mitä pienempi p (0 < p < .05), sitä enemmän todisteita

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 48: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Yleinen merkitsevyystaso on 5 prosenttiap < 0.05 (5%) * tilastollisesti melkein merkitseväp < 0.01 (1%) ** tilastollisesti merkitseväp < 0.001 (0,1%) *** tilastollisesti erittäin merkitsevä

• Jos luku jää etukäteen sovitun merkitsevyystason alapuolelle, H0 hylätään ja vaihtoehtoinen hypoteesi H1 hyväksytään.

– Ongelmana on se, että H1 ei ole ollut mukana analyyseissa eikä siten ole välttämättä H0:n vastakohta ..

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 49: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Korrelaation yhteydessä on syytä kommentoida muuttujien välistä yhteistä varianssia (coefficient of determination), joka lasketaan korottamalla korrelaatiokertoimen arvo toiseen potenssiin.– Esim. jos muuttujien välillä on r = .3 suuruinen

korrelaatio, niillä on 9 prosenttia (.3*.3=.09) yhteistä vaihtelua (total variance).

– Onko se paljon vai vähän, riippuu tutkimustehtävän luonteesta eli analyysin tuloksille asetetuista tieteellisistä oletuksista.

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 50: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Cohen (1988) on lisäksi määritellyt korrelaatioille tieteellisen vaikuttavuuden (effect size) arvot:– Small effect size r > 0.1 – Medium effect size r > 0.3– Large effect size r > 0.5– Much larger than typical r > 0.7

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 51: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Pearsonin (tulomomentti) korrelaatiokerroin (rp) on tarkoitettu välimatka- ja suhdeasteikollisille muuttujille.

• Mittaa muuttujien välistä lineaarista yhteyttä (correlation).

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 52: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

x:n ja y:n kovarianssi:

Korrelaatiokerroin saadaan jakamalla kovarianssi x:n keskihajonnan ja y:n keskihajonnan tulolla:

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Pearsonin tulomomenttikorrelaatio (rP)

Page 53: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

SPSS –ohjelman tuloste:

Page 54: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

SPSS –ohjelman tuloste:

Page 55: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Spearmanin järjestyskorrelaatiokerroin (rs)– Spearman´s Rank Order Correlation (rho)

• Vaatii muuttujilta vähintään järjestysasteikollista mittaustasoa -> perustuu järjestyksen vertaamiseen.

• Mittaa muuttujien välistä yhteyttä (association), joka voi olla lineaarista tai epälineaarista.

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 56: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

SPSS-ohjelmantuloste:

Page 57: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Korrelaatio (rp) Varianssi (%)

+/- .10 - +/- .29 1.0 - 8.4

+/- .30 - +/- .49 9.0 - 24.0

+/- .50 - +/- 1.00 25.0 - 100.0

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus

Page 58: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Sisältö

1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennäköisyysjakaumat 1.4 Hypoteesien testaaminen

2. Tilastollisten analyysimenetelmien päätyypit

2.1 Muuttujien välisten riippuvuussuhteiden voimakkuus2.2 Ryhmien välisten erojen merkitsevyys2.3 Ryhmäjäsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

Page 59: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.2 Ryhmien välisten erojen merkitsevyys

• t-testi (t)– Vertaillaan kahden ryhmän keskiarvoja.– Voidaan käyttää sekä saman että

erisuuruisten varianssien tapauksessa.– Muuttujien tulee olla normaalisti

jakautuneita.

William ”Student” Gosset1876-1937

Page 60: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Riippumattomien otosten t-testi– Independent-samples

H0: nainen = mies

2.2 Ryhmien välisten erojen merkitsevyys

Page 61: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Riippuvien otosten t-testi– Dependent-samples, paired test

H0: ennen = jälkeen H0: ennen - jälkeen = 0

2.2 Ryhmien välisten erojen merkitsevyys

Page 62: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Yhden otoksen t-testi– One-sample

H0: = 100

2.2 Ryhmien välisten erojen merkitsevyys

Page 63: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät
Page 64: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

s Otoskeskihajontan Lukumäärä0 Odotusarvox Otoskeskiarvo

2.2 Ryhmien välisten erojen merkitsevyys

Page 65: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

H0 Naiset ja miehet kokevat esimiehen arvostavan työtään yhtä paljon.

H1a Sukupuolet kokevat esimiehen arvostuksen eritavoin.

H1b Miehet kokevat esimiehen arvostavan työtään enemmän.

H1a Kaksisuuntainen

H1b Yksisuuntainen

2.2 Ryhmien välisten erojen merkitsevyysRiippumattomien otosten t-testi

Page 66: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Levenen testin avulla selvitetään ryhmien varianssien samankaltaisuutta (H0: V1 = V2)– Jakaumilla on sama muoto = pooled-variance t test

• Levenen testin Sig. > .05 = Equal variances assumed– Jakaumilla on eri muoto = separate-variance t test

• Levenen testin Sig. < .05 = Equal variances not assumed• Vapausasteet pienenevät (=laskennassa käytetty

otoskoko pienenee) erisuuruisten varianssien vuoksi. • Vapausasteet pienenevät sitä enemmän mitä

suuremmasta varianssien erosta on kysymys.

2.2 Ryhmien välisten erojen merkitsevyysRiippumattomien otosten t-testi

Page 67: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.2 Ryhmien välisten erojen merkitsevyysRiippumattomien otosten t-testi

Sig. = p-arvo

Page 68: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Esimiehen arvostusta eri sukupuolten välillä vertailtiin riippumattomien otosten t-testillä. Tutkimukseen osallistui 233 miestä ja 126 naista. Tulokset osoittivat että miesten (M = 4.2, SD = .67) ja naisten (M = 3.9, SD=1.02) välillä on tilastollisesti merkitsevä ero sen suhteen, kuinka esimiehen arvostus omaa työtä kohtaan koetaan, t(357) = -2.26, p = .03.

2.2 Ryhmien välisten erojen merkitsevyysRiippumattomien otosten t-testi

Page 69: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Effect size (efektikoko)– Tuloksilla on tilastollinen ja tieteellinen

merkitsevyys.– Cohen (1988) ehdottaa tieteellisen

merkitsevyyden arviointia seuraavien tilastollisten arvojen perusteella:

2.2 Ryhmien välisten erojen merkitsevyysTieteellinen merkitsevyys

Page 70: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Effect size (efektikoko)– Koska edellä suoritettiin t-testi, tieteellisen

merkitsevyyden arviointi voidaan suorittaa etan neliön (2) avulla:

2 =t2

t2 + (N1+N2-2)

.01 = small effect

.06 = moderate effect

.14 = large effect

2.2 Ryhmien välisten erojen merkitsevyysTieteellinen merkitsevyys

Page 71: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2 =-2.262

-2.262 + (233+126-2)

.01 = small effect

.06 = moderate effect

.14 = large effect

= .01

t(357) = -2.26, p = .03

2.2 Ryhmien välisten erojen merkitsevyysTieteellinen merkitsevyys

Page 72: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Esimiehen arvostusta eri sukupuolten välillä vertailtiin riippumattomien otosten t-testillä. Tutkimukseen osallistui 233 miestä ja 126 naista. Tulokset osoittivat että miesten (M = 4.22, SD = .67) ja naisten (M = 3.87, SD=1.02) välillä on tilastollisesti merkitsevä ero sen suhteen, kuinka esimiehen arvostus omaa työtä kohtaan koetaan, t(357) = -2.26, p = .03. Tulos on kuitenkin tilastollisesta merkitsevyydestä huolimatta Cohenin (1988) mukaan efektikooltaan pieni, 2 = .01.

2.2 Ryhmien välisten erojen merkitsevyysRiippumattomien otosten t-testi

Page 73: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Perustuvat järjestykseen (rank), testaavat kahden mediaanin eron tilastollista merkitsevyyttä.– Mittaustasovaatimuksena järjestysasteikko.– Testattavien jakaumien tulee olla saman muotoisia

(mutta ei normaalijakautuneita).

• Käytetään kun t-testin edellytykset eivät ole voimassa muuttujamuunnoksenkaan jälkeen.– Epäparametriset testit sopivat t-testiä paremmin

pienelle otoskoolle (esim. alle 50 havaintoa).

2.2 Ryhmien välisten erojen merkitsevyysMann-Whitney U, Wilcoxon W

Page 74: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Mann-Whitney U– Lasketaan kuinka monta kertaa pienemmän

otoskoon havainto on järjestyksessä suurempi kuin suuremman otoskoon havainto.

• Wilcoxon W– Lasketaan järjestämällä kahden otoksen

yhteen liitetyt havainnot ja selvittämällä pienemmän otoksen järjestyslukujen summa.

2.2 Ryhmien välisten erojen merkitsevyysMann-Whitney U, Wilcoxon W

Page 75: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Erityispiirteitä:– Summaavat vakioon

– Samat z arvot

U + W =m(m + 2n + 1)

2

m pienemmänryhmän havainnot

n suuremman ryhmän havainnot

2.2 Ryhmien välisten erojen merkitsevyysMann-Whitney U, Wilcoxon W

Page 76: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

SEX, v21,1,2,2,2,4,4,5 (0 = _ )

0= = = 2,75

1= = = 6,25

114

254

1,5+1,5+4+44

4+6,5+6,5+84

U = N1N2+ -T1= 26-25=1 N1(N1+1)

2

Page 77: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Onko naisten ja miesten välillä eroa esimiehen arvostuksen suhteen?

2.2 Ryhmien välisten erojen merkitsevyysMann-Whitney U, Wilcoxon W

Page 78: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Paired-samples t-test, repeated measures– Samasta otoksesta kerätään dataa useita

kertoja (eri olosuhteissa, eri aikoina).

• Pre-test – post-test –asetelmat– Mittaus 1 – KOE – mittaus 2

• Matched pairs –asetelmat– Testataan uutta opetusmenetelmää kahdessa

ryhmässä (toinen on kontrolli- ja toinen koeryhmä).– Ryhmien jäsenet on valittu ”pareittain”

koulumenestyksen ja sukupuolen perusteella.– Jakson lopussa molemmat ryhmät tekevät saman

testin, suorituksia verrataan pareittain.

2.2 Ryhmien välisten erojen merkitsevyysRiippuvien otosten t-testi

Page 79: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

t(6)=.733, p=.491t = 3.29 11.856

7

Page 80: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

t(6)=-2.52, p=.045t = -3.42863.59894

7

Matched pairs -asetelma

2.2 Ryhmien välisten erojen merkitsevyysRiippuvien otosten t-testi

Page 81: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.2 Ryhmien välisten erojen merkitsevyysWilcoxon signed rank -test

Page 82: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Testaa nollahypoteesina sitä, että ryhmien välillä ei ole eroja = kunkin vastaajan arvot ovat sattumanvaraisia.

• Testin arvot jakautuvat 2 –jakauman tavoin.

2.2 Ryhmien välisten erojen merkitsevyysFriedmanin testi

Page 83: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Kuutta opiskelijaa pyydettiin asettamaan kolme eri karkkilajiketta paremmuusjärjestykseen (1,2,3).

• Onko karkkilajikkeiden välillä eroja?

2.2 Ryhmien välisten erojen merkitsevyysFriedmanin testi

Page 84: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

2.2 Ryhmien välisten erojen merkitsevyysFriedmanin testi

Page 85: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Testataan yhden näytteen poikkeamaa populaation oletetusta arvosta:– Kahden kontrolliryhmän (peruskoulun 5 lk.)

keskiarvo tietokoneenkäyttötaitoa mittaavassa testissä on 32 pistettä. Sama testi suoritetaan tietokoneiden opetuskäytön mahdollisuuksia tutkivan kokeilukoulun viidesluokkalaisille. Tutkija haluaa selvittää poikkeaako kokeilukoulun 39 pisteen keskiarvo merkittävästi kontrollikoulujen keskiarvosta.

2.2 Ryhmien välisten erojen merkitsevyysYhden otoksen t-testi

Page 86: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

H0: = 100

Keskimääräinen älykkyysosamäärä on tutkimustulosten mukaan 100. Tämän kurssin keskiarvo on 120,7. Ovatko kurssilaisetkeskimääräistä älykkäämpiä?

2.2 Ryhmien välisten erojen merkitsevyysYhden otoksen t-testi

Page 87: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

• Tilastokurssin opiskelijoiden standardoidun älykkyystestin pistemäärää verrattiin yliopisto-opiskelijoiden keskimääräiseen älykkyystestin pistemäärään. Tulokset osoittivat että kurssin opiskelijoiden testin mittaama älykkyys (M = 120.7, SD = 23.77) on keskimääräistä (M = 100.0) korkeampi, mutta ero ei ole tilastollisesti merkitsevä, t(6) = 2.31, p = .06.

2.2 Ryhmien välisten erojen merkitsevyysYhden otoksen t-testi

Page 88: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Lähteet

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.

Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company.

Page 89: Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Lähteet

Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160.

Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky.

Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset

menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki:

Tammi.Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on

reporting Eta-squared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), 916-924.

Tabachnick, B ., & Fidell, L. (1996). Using Multivariate Statistics. Third Edition. New York: HarperCollins.