13
TUME II / TILASTOLLINEN OSUUS TILASTOLLINEN RIIPPUVUUS SEPPO RÄSÄNEN SAVONIA-AMK TERVEYSALA KUOPIO KEVÄT 2008 22.03.22 1 TYTUT21

TYTUT21

Embed Size (px)

DESCRIPTION

TYTUT21. TUME II / Tilastollinen osuus Tilastollinen riippuvuus Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008. Tilastollinen riippuvuus…. Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde. - PowerPoint PPT Presentation

Citation preview

TUME II / TILASTOLLINEN OSUUS

TILASTOLLINEN RIIPPUVUUS

SEPPO RÄSÄNEN SAVONIA-AMK

TERVEYSALA KUOPIOKEVÄT 2008

19.04.23

1

TYTUT21

Tilastollinen riippuvuus…

19.04.23

2

• Muuttujien välistä riippuvuutta arvioitaessa pyritään kuvaamaan muuttujien välinen syy – seuraussuhde.

• Esim. tupakointi on syy ja keuhkosyöpäriski on seuraus.

• Sanotaan, että tupakointi on selittävä eli riippumaton (independent) muuttuja ja keuhkosyövän riski on selitettävä eli riippuva (dependent) muuttuja.

• Tupakointi siis selittää keuhkosyövän esiintymisriskiä.

• Muuttujien välinen riippuvuus voi olla positiivista (yksi kasvaa -> myös toinen kasvaa) tai negatiivista (yksi kasvaa -> toinen pienenee).

Tilastollinen riippuvuus…

19.04.23

3

• Tutkittaessa kahden muuttujan saamia arvoja saatetaan huomata, että muuttujien välillä on selvä riippuvuus, mutta se riippuvuus ei johdu suoraan muuttujista itsestään, vaan jostain muusta ulkopuolisesta tekijästä eli tutustu muuttujiin tilannekohtaisesti. • Muuttujien välistä riippuvuutta voidaan arvioida: 1) graafisesti, 2)testien avulla, 3)regressiolla •Suurempi otoskoko antaa luotettavampia tuloksia

Hahmottele jostakin tilanteesta pistekuvio,

Onko riippuvuutta?Onko positiivinen vai negatiivinen

riippuvuus?

Tilastollinen riippuvuus…

19.04.23

4

Riippuvuuden testaamiseen käytetään mm. Ristiintaulukointia (khii-toiseen testi) Korrelaatiota (Pearson, Spearman)

Riippuvuustestauksessa selvitetään, onko kahden muuttujan välillä jotain riippuvuutta

Muuttujien välillä voi olla jonkin asteinen riippuvuus, mutta testissä tulee analysoida, onko merkitsevyystaso riittävä

Tilastollinen merkitsevyystaso kuvataan p-arvolla (SPSS:ssä *, ** ja *** merkeillä) p<0,001 tilastollisesti erittäin merkitsevä (***) [0%..0,1%[ 0,001≤p<0,01 tilastollisesti merkitsevä (**) [0,1%..1%[ 0,01 ≤p<0,05 tilastollisesti melkein merkitsevä (*) [1%,5%[ 0,05 ≤p<0,1 tilastollisesti suuntaa antava [5%,10%[

Tilastollinen riippuvuus…

19.04.23

5

Ristiintaulukointi (crosstabs) Sovelias tapa seurata riippuvuuksia luokitellulle (nominal)

tiedolle Ristiintaulukoinnin avulla saadaan 2D-taulukko, jossa voidaan

vertailla vaikkapa kahden muuttujan eri kombinaatioiden frekvenssejä

Nopea tapa saada aineistosta perustietoa Auttaa päättämään, millaista jatkotutkimusta kannattaa tehdä Auttaa näkemään, millaisia ilmiöitä aineistosta voi nousta Ristiintaulukoinnissa ei nähdä riskitasoa, jolla päättely

tehdään kyseessä suuntaa-antava tieto, jonka perusteella tarkastellaan asiaa tarkemmin

Jos toinen muuttuja on luokitteluasteikollinen, niin riippuvuuden testaaminen kannattaa aloittaa ristiintaulukoinnista

Ristiintaulukoinnissa kannattaa laskea soluihin prosentit helpottaa yleensä analyysin tekoa

Jatkuva muuttuja luokitellaan ennen ristiintaulukointia

Tilastollinen riippuvuus…

19.04.23

6

Ristiintaulukointi (crosstabs) Kahden muuttujan riippuvuuden voimakkuutta

voidaan mitata kontingenssikertoimen avulla (C) 0 ≤C<1 C<0,2 ei esiinny riippuvuutta,

C>0,3 esiintyy riippuvuutta, muutoin riippuvuudesta ei voida tehdä päätelmää

Riippumattomuuden testaaminen tapahtuu khii-toiseen testillä (Χ2-testi ) Testin edellytykset:

Otos on satunnaisesti valittu perusjoukosta Korkeintaan 20 % odotetuista arvoista saa olla pienempiä

kuin viisi Jokaisen odotetun arvon on oltava vähintään 1

Tilastollinen riippuvuus…

Hypoteesit (kaikissa riippuvuustesteissä) Nollahypoteesi: Muuttujien välillä ei ole yhteyttä

perusjoukossa. Vastahypoteesi: Muuttujien välillä on yhteyttä

perusjoukossa. Päättely p-arvosta (alle 5%, niin vastahypoteesi

hyväksytään, 95% luottamustaso) ”p-arvo ilmaisee, että onko nollasta

poikkeava riippuvuus tilastollisesti merkitsevä, vai onko se sattumaa”

p-arvo kuvaa hylkäämisvirheen todennäköisyyttä (=kuinka suuri riski otetaan, että tulkitaan ko. riippuvuuden voimakkuus)

19.04.23

7

Tilastollinen riippuvuus…

19.04.23

8

Korrelaatio, R Kertoimen arvot välillä [-1..1], nolla tarkoittaa ei

riippuvuutta Positiivinen kerroin tarkoittaa sitä, että jos

muuttujan1 arvo kasvaa, niin silloin muuttujan2 arvo kasvaa, negatiiviselle arvolle muuttujan2 arvo pienenee

Syy-seuraus suhteissa puhutaan syy-muuttujaa selittäväksi muuttujaksi ja seuraus-muuttujaa selitettäväksi muuttujaksi (asiayhteys ratkaisee tilanteen)

Riippuvuuden voimakkuus: 0..0,2 ei riippuvuutta 0,2..0,3 ”harmaa alue” 0,3..0,7 heikko, kohtalainen riippuvuus 0,7..1 vahva riippuvuus

Tilastollinen riippuvuus…

19.04.23

9

Pearsonin korrelaatio Lasketaan vähintään välimatka-asteikolliselle

(scale) muuttujalleSpearmanin korrelaatio

Lasketaan järjestysasteikon (ordinal) muuttujille (luokitteluasteikollehan oli ristiintaulukointi)

Korrelaatioon liittyy selitysaste (prosenttiluku), joka kuvaa kuinka suuren osan selitettävän muuttujan vaihtelusta voidaan selittää selittävän muuttujan avulla.

Selitysaste = korrelaatio2 * 100%

Tilastollinen riippuvuus…

19.04.23

10

Regressio ”Tietty lääke tietyillä annoksilla alentaa verenpainetta tietyn

verran” Muuttujien tulee olla scale-asteikollisia Jos muuttujien välinen riippuvuus on lineaarista, se voidaan

kuvata matemaattisesti kaavalla y=a+bx, missä x on selittävä (riippumaton) ja y selitettävä

(riippuva) muuttuja Lineaarinen regressio toteutetaan pienimmän neliösumman

menetelmällä, PNS-menetelmä Regressiolla voidaan siis mallintaa tilannetta voidaan

ennustaa niitä havaintopareja, joita ei ole aineistossa Regression hyvyyttä kuvataan selitysasteen avulla (r2) Kun regressiosuoran kertoimet (a, b) saadaan, tulee

tarkastella riippuvuuden luonteen lineaarisuus vaikkapa pistekaavion avulla

Tilastollinen riippuvuus…

19.04.23

11

Regressioesimerkki (harrastusaika riippuu henkilön iästä) Riippuva (selitettävä) muuttuja, y

Riippumaton (selittävä) muuttuja, x

y=2,499 + 0,009x

Hyvyys = 1,5% ???

Tilastollinen riippuvuus…

19.04.23

12

Harjoitus 1 Tarkastele ristiintaulukoinnin avulla kahden

luokitellun asteikon riippuvuutta Jos joku muuttuja on jatkuva, tee siitä luokiteltu

muuttuja Tarkastele samaa asiaa myös konteingenssikertoimen

avulla, tuleeko sama tulosHarjoitus 2

Tarkastele järjestysasteikon muuttujan riippuvuuksia Spearmanin korrelaatiolla, mitä voit tulkita kertoimesta ja merkitsevyydestä

Tarkastele Scale-asteikon muuttujien Pearsonin korrelaatiota, mitä voit tulkita kertoimesta ja merkitsevyydestä

Tee korrelaatioita kerralla usean muuttujan kesken

Tilastollinen riippuvuus…

19.04.23

13

Harjoitus 3 Tutki ratsastuskoulussa harrastusajan ja aloitusiän

(ikä-harrastusaika) lineaarista riippuvuutta Mikä on PNS-suoran yhtälö? Mikä on mallin hyvyys?