College 3 Meervoudige Lineaire Regressie

College 3Meervoudige Lineaire Regressie

Jolien PasECO 2012-2013

- Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2)

'Computerprogramma voorspelt Top 40-hits’Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

AMSTERDAM - Wetenschappers aan de Universiteit van Bristol

in Groot-Brittannië beweren een computerprogramma te hebben

ontwikkeld dat kan voorspellen of een nummer hitpotentie heeft.

23 predictoren, bijvoorbeeld: duur, dansbaarheid, luidheid,

harmonische eenvoud.

Waarschijnlijk nog betere voorspelling wanneer er ook gekeken

wordt naar het budget waarmee gepromoot wordt, de video clip,

songteksten, de populairiteit van de artiest, etc.

Voor meer informatie zie http://scoreahit.com/TheHitEquation

2

Vorige week: Enkelvoudige Lineaire Regressie

1 response variabele (Y) voorspellen uit 1 predictor variabele (X)

Regressievergelijking steekproef: xbby 10ˆ +=

Regressievergelijking populatie:

Regressiegewicht kan getoetst worden met een t-toets,

maar een (ANOVA) F-toets kan het model ook toetsen.

3

xy 10 ββµ +=10

Voorbeeld: Enkelvoudige lineaire regressie

(ANOVA) F-toets: H0: β1 = 0 en Ha: β1 0

T-toets: H0: β1 = 0 en Ha: β1 > 0

t2 = F3.1452 = 9.89

Vanwege eenzijdige Ha

p-waarde halveren

xy 412.0948.2ˆ += 4

Deze week uitbreiding:Meervoudige Lineaire Regressie

1 response variabele (Y) voorspellen uit meerdere predictoren (X-en)

Regressievergelijking steekproef: ppxbxbxbby ++++= ...ˆ 22110

Regressievergelijking populatie:

Deze week concentreren we ons op het opstellen van de regressievergelijking adhv SPSS-output (dus minder rekenwerk!)

Een (ANOVA) F-toets kan het gehele model toetsen, maar het is ook nog mogelijk omper regressiegewicht een t-toets te bekijken.

5

ppy xxx ββββµ ++++= ...22110

Statistisch model

p = aantal predictoren

Subpopulaties worden nu onderscheiden door een bepaalde

ppy xxx ββββµ ++++= ...22110

Subpopulaties worden nu onderscheiden door een bepaaldeset van waarden op alle predictoren

In elke subpopulatie is y normaal verdeeld met standaarddeviatie σ

(enσ is in elke subpopulatie gelijk)

6

Populatieparameters

DATA = FIT + RESIDUAL

p = aantal predictoreni = 1, 2, …, n

[ ] iippiii xxxy εββββ +++++= ...22110

De populatieparameters β0, β1, β2, …,βp worden geschat met b0, b1, b2, …, bp waarbij geprobeerd wordt de error zo klein mogelijk te maken � uit SPSS

σ wordt geschat met s:

En zoals we vorige week al zagen (ook in werkgroep):

7

DFE

SSEMSE

pn

es i ==

−−= ∑

1

2

)1()1()1( 222 RnsRSSTSSE y −×−×=−×=

Waarom meerdere predictoren?

Twee grondredenen:

1. Betere voorspelling � meer verklaarde variantie en minder residuelevariantieminder residuelevariantie

2. Als we een causale theorie willen onderzoeken en daarbijmogelijke spurieuzerelaties willen elimineren

8

Meervoudigeregressievooreenbeterevoorspelling(1)

Enkelvoudige regressie:

- Response variabele (Y): Geluk

- Predictor (X): Extraversie

Meervoudige regressie:

- Response variabele (Y): Geluk

- Predictor 1 (X1): Extraversie

- Predictor 2 (X2): Neuroticisme

9

Correlaties mbt geluk

R2extraversie= 0.3232 = 0.104

R2neuroticisme= 0.2622 = 0.069

Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?10

Voorbeeld SPSSSPSS �� Analyze �� Regression �� Linear

11

Assumpties Regressie Analyse

Onafhankelijke en afhankelijke variabelen zijn kwantitatief

Gemiddelde respons is lineaire functie van de X-variabelen

Residuen zijn onafhankelijk ennormaal verdeeld

Spreiding van de residuen is hetzelfde in elke subpopulatie(homoscedasticiteit)

12

Assumptie: De relatie tussen de predictoren en Y is lineair

Check: bekijk plot van voorspelde waardes vs. residuals

(in SPSS te maken: linear regression �� plots)

13

Assumptie: Homoscedasticiteit

Check: bekijk plot van voorspelde waardes vs. residuals

(in SPSS te maken: linear regression �� plots)

14

Assumptie: De residuen zijn normaalverdeeld

Check: bekijk Normal Probability pp-plot of histogram

(in SPSS aanvinken: linear regression �� plots)

15

Output: de ANOVA-tabel

1 F-waarde, maar 2 predictoren. Wat toetsen we dan?

H0: β1 = β2 = β3 = … = βp = 0

HA : tenminste éénβj ≠ 0

16

De ANOVA-tabel

17

Output: Regressiecoëfficiënten

18

meneuroticiseextraversi geluk *174.*352.494.2 ++=

NB: t2 ≠ F zodra er meerdere predictoren zijn

Hoe kunnenwe dit weergeven?

meneuroticiseextraversi geluk *174.*352.494.2 ++=

19

Regressiecoëfficiëntentoetsen

bToetsen van de coëfficiënten met een t-toets:

Betrouwbaarheidsinterval van een coëfficiënt:

Beide met df = n – p – 1

SE dit keer niet zelf berekenen, maar uit SPSS tabel halen

20

jbj SEtb *±jb

j

SE

bt =

Hoe goed is de voorspelling?

R² = VAF = SSM / SST

R is de multipele correlatie (correlatie tussen voorspelde y-

waardes en geobserveerde y-waardes)waardes en geobserveerde y-waardes)

R² adjusted:aangepaste R² voor generalisatie naar populatie

1

1)1(1 22

−−−−−=pn

nRRadj

21

AdjustedR2

Bij R2 = 0.3:

Stel n = 30 en p = 2, dan R2 = 0.25

1

1)1(1 22

−−−−−=pn

nRRadj

Stel n = 30 en p = 2, dan R2adj = 0.25

Stel n = 30 en p = 6, dan R2adj = 0.12

Stel n = 30 en p = 8, dan R2adj = -0.07

Veel verschil tussen R2 en R2adj, en negatieve R2

adj duiden

op slechte combinatie van aantal predictoren en aantal personen

22

R2extraversie= 0.3232 = 0.104

R2neuroticisme= 0.2622 = 0.069

Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?

Nee, ze verklaren samen 14% van de variantie!

Output: Verklaardevariantie

Nee, ze verklaren samen 14% van de variantie!

Hoe komt dit? Denk aan significante correlatie tussen

extraversie en neuroticisme (r = .238 met p = .026)23

Uniekeverklaardevariantie

NeuroticismeExtraversie

Extraversie verklaart 10.4% van de variantie van geluk, maar deel daarvan wordt ook verklaart door Neuroticisme

Unieke verklaarde variantie Extraversie: R2totaal– R2

neuroticisme

Oftewel: 14% - 6.9% = 7.1% 24

Nog een voorbeeld:Voorspellen van Vetpercentage

Vetpercentage (Y) voorspellen uit BMI (X1), Leeftijd (X2)

en Geslacht (X3 met 0 = vrouw en 1 = man)

25

Assumpties:Voorspellen van Vetpercentage

26

Voorspellen van Vetpercentage

Relatief hoge R en R2 : : goede voorspellingRelatief hoge R en R : goede voorspelling

F zeer significant: tenminste één βj ≠ 027

Voorspellen van Vetpercentage

Alle regressiegewichten zijn significant (p < .001)

V ETP =-3.46 + 1.11BMI + .24 LFT − 9.17 SEXE28

Meervoudigeregressieomspurieuzerelaties teelimineren(2)

D-score Data (koopmans, 1987): 12 kinderen, 6 meisjes en 6 jongens,

variërend in leeftijd van 3 tot 10 jaar, zijn getest met een test voor

cognitieve ontwikkeling.

Enkelvoudige regressie:

- Response variabele (Y): Cognitieve ontwikkeling

- Predictor (X): Geslacht

Meervoudige regressie:

- Response variabele (Y): Cognitieve ontwikkeling

- Predictor 1 (X1): Geslacht

- Predictor 2 (X2): Leeftijd

-

29

Cognitieve Ontwikkeling voorspellen uit geslacht

Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen

30

Er is een significant (positief) effect van SEXEop DSCORE

(p = .039): jongens scoren significant hoger dan meisjes

Sexe*288.2305.10 Dscore +=

Correlaties mbt Cognitieve OntwikkelingLet op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen

31

SEXE � r = .600 � r² = .360

LFT � r = .957 � r² = .916

Cognitieve Ontwikkeling voorspellen uit geslacht, gecorrigeerd voor leeftijd

Effect van LFT is significant (p < 0.001), maar SEXEis niet meer

significant (p = .799)

Verklaring?

32

Cognitieve Ontwikkeling

Het significante verband

tussen SEXE en

DSCORE is spurieus

Verband gevonden door Verband gevonden door

(toevallige) samenhang

tussen LFT en SEXE

“Controleren voor” LFT

elimineert het spurieuze

effect van SEXE33

Soorten meervoudige regressie

Standard:

Alle variabelen worden op hetzelfde moment toegevoegd

Stepwise:

Variabelen worden op basis van sterkte van voorspelling

toegevoegd

Hierarchical:

Variabelen worden toegevoegd op manier die door onderzoeker

wordt bepaald

34

Soorten regressie in SPSS

35

Soorten regressie in SPSS

36

Volgende week

Experimenteel onderzoek en experimentele controle

(dit hoort bij deel 2 van ECO)

- MM&C Hoofdstuk 2.4 (p. 129 t/m 130), 2.6 en 3.1

- Leary Hoofdstuk 9 en 10

- Aanvullende tekst 4

37

Documents

College 3 Meervoudige Lineaire Regressie