37
College 3 Meervoudige Lineaire Regressie Jolien Pas ECO 2012-2013 - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2)

College 3 Meervoudige Lineaire Regressie

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: College 3 Meervoudige Lineaire Regressie

College 3Meervoudige Lineaire Regressie

Jolien PasECO 2012-2013

- Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2)

Page 2: College 3 Meervoudige Lineaire Regressie

'Computerprogramma voorspelt Top 40-hits’Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

AMSTERDAM - Wetenschappers aan de Universiteit van Bristol

in Groot-Brittannië beweren een computerprogramma te hebben

ontwikkeld dat kan voorspellen of een nummer hitpotentie heeft.

23 predictoren, bijvoorbeeld: duur, dansbaarheid, luidheid,

harmonische eenvoud.

Waarschijnlijk nog betere voorspelling wanneer er ook gekeken

wordt naar het budget waarmee gepromoot wordt, de video clip,

songteksten, de populairiteit van de artiest, etc.

Voor meer informatie zie http://scoreahit.com/TheHitEquation

2

Page 3: College 3 Meervoudige Lineaire Regressie

Vorige week: Enkelvoudige Lineaire Regressie

1 response variabele (Y) voorspellen uit 1 predictor variabele (X)

Regressievergelijking steekproef: xbby 10ˆ +=

Regressievergelijking populatie:

Regressiegewicht kan getoetst worden met een t-toets,

maar een (ANOVA) F-toets kan het model ook toetsen.

3

xy 10 ββµ +=10

Page 4: College 3 Meervoudige Lineaire Regressie

Voorbeeld: Enkelvoudige lineaire regressie

(ANOVA) F-toets: H0: β1 = 0 en Ha: β1 0

T-toets: H0: β1 = 0 en Ha: β1 > 0

t2 = F3.1452 = 9.89

Vanwege eenzijdige Ha

p-waarde halveren

xy 412.0948.2ˆ += 4

Page 5: College 3 Meervoudige Lineaire Regressie

Deze week uitbreiding:Meervoudige Lineaire Regressie

1 response variabele (Y) voorspellen uit meerdere predictoren (X-en)

Regressievergelijking steekproef: ppxbxbxbby ++++= ...ˆ 22110

Regressievergelijking populatie:

Deze week concentreren we ons op het opstellen van de regressievergelijking adhv SPSS-output (dus minder rekenwerk!)

Een (ANOVA) F-toets kan het gehele model toetsen, maar het is ook nog mogelijk omper regressiegewicht een t-toets te bekijken.

5

ppy xxx ββββµ ++++= ...22110

Page 6: College 3 Meervoudige Lineaire Regressie

Statistisch model

p = aantal predictoren

Subpopulaties worden nu onderscheiden door een bepaalde

ppy xxx ββββµ ++++= ...22110

Subpopulaties worden nu onderscheiden door een bepaaldeset van waarden op alle predictoren

In elke subpopulatie is y normaal verdeeld met standaarddeviatie σ

(enσ is in elke subpopulatie gelijk)

6

Page 7: College 3 Meervoudige Lineaire Regressie

Populatieparameters

DATA = FIT + RESIDUAL

p = aantal predictoreni = 1, 2, …, n

[ ] iippiii xxxy εββββ +++++= ...22110

De populatieparameters β0, β1, β2, …,βp worden geschat met b0, b1, b2, …, bp waarbij geprobeerd wordt de error zo klein mogelijk te maken � uit SPSS

σ wordt geschat met s:

En zoals we vorige week al zagen (ook in werkgroep):

7

DFE

SSEMSE

pn

es i ==

−−= ∑

1

2

)1()1()1( 222 RnsRSSTSSE y −×−×=−×=

Page 8: College 3 Meervoudige Lineaire Regressie

Waarom meerdere predictoren?

Twee grondredenen:

1. Betere voorspelling � meer verklaarde variantie en minder residuelevariantieminder residuelevariantie

2. Als we een causale theorie willen onderzoeken en daarbijmogelijke spurieuzerelaties willen elimineren

8

Page 9: College 3 Meervoudige Lineaire Regressie

Meervoudigeregressievooreenbeterevoorspelling(1)

Enkelvoudige regressie:

- Response variabele (Y): Geluk

- Predictor (X): Extraversie

Meervoudige regressie:

- Response variabele (Y): Geluk

- Predictor 1 (X1): Extraversie

- Predictor 2 (X2): Neuroticisme

9

Page 10: College 3 Meervoudige Lineaire Regressie

Correlaties mbt geluk

R2extraversie= 0.3232 = 0.104

R2neuroticisme= 0.2622 = 0.069

Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?10

Page 11: College 3 Meervoudige Lineaire Regressie

Voorbeeld SPSSSPSS ���� Analyze ���� Regression ���� Linear

11

Page 12: College 3 Meervoudige Lineaire Regressie

Assumpties Regressie Analyse

Onafhankelijke en afhankelijke variabelen zijn kwantitatief

Gemiddelde respons is lineaire functie van de X-variabelen

Residuen zijn onafhankelijk ennormaal verdeeld

Spreiding van de residuen is hetzelfde in elke subpopulatie(homoscedasticiteit)

12

Page 13: College 3 Meervoudige Lineaire Regressie

Assumptie: De relatie tussen de predictoren en Y is lineair

Check: bekijk plot van voorspelde waardes vs. residuals

(in SPSS te maken: linear regression ���� plots)

13

Page 14: College 3 Meervoudige Lineaire Regressie

Assumptie: Homoscedasticiteit

Check: bekijk plot van voorspelde waardes vs. residuals

(in SPSS te maken: linear regression ���� plots)

14

Page 15: College 3 Meervoudige Lineaire Regressie

Assumptie: De residuen zijn normaalverdeeld

Check: bekijk Normal Probability pp-plot of histogram

(in SPSS aanvinken: linear regression ���� plots)

15

Page 16: College 3 Meervoudige Lineaire Regressie

Output: de ANOVA-tabel

1 F-waarde, maar 2 predictoren. Wat toetsen we dan?

H0: β1 = β2 = β3 = … = βp = 0

HA : tenminste éénβj ≠ 0

16

Page 17: College 3 Meervoudige Lineaire Regressie

De ANOVA-tabel

17

Page 18: College 3 Meervoudige Lineaire Regressie

Output: Regressiecoëfficiënten

18

meneuroticiseextraversi geluk *174.*352.494.2 ++=

NB: t2 ≠ F zodra er meerdere predictoren zijn

Page 19: College 3 Meervoudige Lineaire Regressie

Hoe kunnenwe dit weergeven?

meneuroticiseextraversi geluk *174.*352.494.2 ++=

19

Page 20: College 3 Meervoudige Lineaire Regressie

Regressiecoëfficiëntentoetsen

bToetsen van de coëfficiënten met een t-toets:

Betrouwbaarheidsinterval van een coëfficiënt:

Beide met df = n – p – 1

SE dit keer niet zelf berekenen, maar uit SPSS tabel halen

20

jbj SEtb *±jb

j

SE

bt =

Page 21: College 3 Meervoudige Lineaire Regressie

Hoe goed is de voorspelling?

R² = VAF = SSM / SST

R is de multipele correlatie (correlatie tussen voorspelde y-

waardes en geobserveerde y-waardes)waardes en geobserveerde y-waardes)

R² adjusted:aangepaste R² voor generalisatie naar populatie

1

1)1(1 22

−−−−−=pn

nRRadj

21

Page 22: College 3 Meervoudige Lineaire Regressie

AdjustedR2

Bij R2 = 0.3:

Stel n = 30 en p = 2, dan R2 = 0.25

1

1)1(1 22

−−−−−=pn

nRRadj

Stel n = 30 en p = 2, dan R2adj = 0.25

Stel n = 30 en p = 6, dan R2adj = 0.12

Stel n = 30 en p = 8, dan R2adj = -0.07

Veel verschil tussen R2 en R2adj, en negatieve R2

adj duiden

op slechte combinatie van aantal predictoren en aantal personen

22

Page 23: College 3 Meervoudige Lineaire Regressie

R2extraversie= 0.3232 = 0.104

R2neuroticisme= 0.2622 = 0.069

Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?

Nee, ze verklaren samen 14% van de variantie!

Output: Verklaardevariantie

Nee, ze verklaren samen 14% van de variantie!

Hoe komt dit? Denk aan significante correlatie tussen

extraversie en neuroticisme (r = .238 met p = .026)23

Page 24: College 3 Meervoudige Lineaire Regressie

Uniekeverklaardevariantie

NeuroticismeExtraversie

Extraversie verklaart 10.4% van de variantie van geluk, maar deel daarvan wordt ook verklaart door Neuroticisme

Unieke verklaarde variantie Extraversie: R2totaal– R2

neuroticisme

Oftewel: 14% - 6.9% = 7.1% 24

Page 25: College 3 Meervoudige Lineaire Regressie

Nog een voorbeeld:Voorspellen van Vetpercentage

Vetpercentage (Y) voorspellen uit BMI (X1), Leeftijd (X2)

en Geslacht (X3 met 0 = vrouw en 1 = man)

25

Page 26: College 3 Meervoudige Lineaire Regressie

Assumpties:Voorspellen van Vetpercentage

26

Page 27: College 3 Meervoudige Lineaire Regressie

Voorspellen van Vetpercentage

Relatief hoge R en R2 : : goede voorspellingRelatief hoge R en R : goede voorspelling

F zeer significant: tenminste één βj ≠ 027

Page 28: College 3 Meervoudige Lineaire Regressie

Voorspellen van Vetpercentage

Alle regressiegewichten zijn significant (p < .001)

V ETP =-3.46 + 1.11BMI + .24 LFT − 9.17 SEXE28

Page 29: College 3 Meervoudige Lineaire Regressie

Meervoudigeregressieomspurieuzerelaties teelimineren(2)

D-score Data (koopmans, 1987): 12 kinderen, 6 meisjes en 6 jongens,

variërend in leeftijd van 3 tot 10 jaar, zijn getest met een test voor

cognitieve ontwikkeling.

Enkelvoudige regressie:

- Response variabele (Y): Cognitieve ontwikkeling

- Predictor (X): Geslacht

Meervoudige regressie:

- Response variabele (Y): Cognitieve ontwikkeling

- Predictor 1 (X1): Geslacht

- Predictor 2 (X2): Leeftijd

-

29

Page 30: College 3 Meervoudige Lineaire Regressie

Cognitieve Ontwikkeling voorspellen uit geslacht

Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen

30

Er is een significant (positief) effect van SEXEop DSCORE

(p = .039): jongens scoren significant hoger dan meisjes

Sexe*288.2305.10 Dscore +=

Page 31: College 3 Meervoudige Lineaire Regressie

Correlaties mbt Cognitieve OntwikkelingLet op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen

31

SEXE � r = .600 � r² = .360

LFT � r = .957 � r² = .916

Page 32: College 3 Meervoudige Lineaire Regressie

Cognitieve Ontwikkeling voorspellen uit geslacht, gecorrigeerd voor leeftijd

Effect van LFT is significant (p < 0.001), maar SEXEis niet meer

significant (p = .799)

Verklaring?

32

Page 33: College 3 Meervoudige Lineaire Regressie

Cognitieve Ontwikkeling

Het significante verband

tussen SEXE en

DSCORE is spurieus

Verband gevonden door Verband gevonden door

(toevallige) samenhang

tussen LFT en SEXE

“Controleren voor” LFT

elimineert het spurieuze

effect van SEXE33

Page 34: College 3 Meervoudige Lineaire Regressie

Soorten meervoudige regressie

Standard:

Alle variabelen worden op hetzelfde moment toegevoegd

Stepwise:

Variabelen worden op basis van sterkte van voorspelling

toegevoegd

Hierarchical:

Variabelen worden toegevoegd op manier die door onderzoeker

wordt bepaald

34

Page 35: College 3 Meervoudige Lineaire Regressie

Soorten regressie in SPSS

35

Page 36: College 3 Meervoudige Lineaire Regressie

Soorten regressie in SPSS

36

Page 37: College 3 Meervoudige Lineaire Regressie

Volgende week

Experimenteel onderzoek en experimentele controle

(dit hoort bij deel 2 van ECO)

- MM&C Hoofdstuk 2.4 (p. 129 t/m 130), 2.6 en 3.1

- Leary Hoofdstuk 9 en 10

- Aanvullende tekst 4

37