Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
College 3Meervoudige Lineaire Regressie
Jolien PasECO 2012-2013
- Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2)
'Computerprogramma voorspelt Top 40-hits’Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html
AMSTERDAM - Wetenschappers aan de Universiteit van Bristol
in Groot-Brittannië beweren een computerprogramma te hebben
ontwikkeld dat kan voorspellen of een nummer hitpotentie heeft.
23 predictoren, bijvoorbeeld: duur, dansbaarheid, luidheid,
harmonische eenvoud.
Waarschijnlijk nog betere voorspelling wanneer er ook gekeken
wordt naar het budget waarmee gepromoot wordt, de video clip,
songteksten, de populairiteit van de artiest, etc.
Voor meer informatie zie http://scoreahit.com/TheHitEquation
2
Vorige week: Enkelvoudige Lineaire Regressie
1 response variabele (Y) voorspellen uit 1 predictor variabele (X)
Regressievergelijking steekproef: xbby 10ˆ +=
Regressievergelijking populatie:
Regressiegewicht kan getoetst worden met een t-toets,
maar een (ANOVA) F-toets kan het model ook toetsen.
3
xy 10 ββµ +=10
Voorbeeld: Enkelvoudige lineaire regressie
(ANOVA) F-toets: H0: β1 = 0 en Ha: β1 0
T-toets: H0: β1 = 0 en Ha: β1 > 0
t2 = F3.1452 = 9.89
Vanwege eenzijdige Ha
p-waarde halveren
xy 412.0948.2ˆ += 4
Deze week uitbreiding:Meervoudige Lineaire Regressie
1 response variabele (Y) voorspellen uit meerdere predictoren (X-en)
Regressievergelijking steekproef: ppxbxbxbby ++++= ...ˆ 22110
Regressievergelijking populatie:
Deze week concentreren we ons op het opstellen van de regressievergelijking adhv SPSS-output (dus minder rekenwerk!)
Een (ANOVA) F-toets kan het gehele model toetsen, maar het is ook nog mogelijk omper regressiegewicht een t-toets te bekijken.
5
ppy xxx ββββµ ++++= ...22110
Statistisch model
p = aantal predictoren
Subpopulaties worden nu onderscheiden door een bepaalde
ppy xxx ββββµ ++++= ...22110
Subpopulaties worden nu onderscheiden door een bepaaldeset van waarden op alle predictoren
In elke subpopulatie is y normaal verdeeld met standaarddeviatie σ
(enσ is in elke subpopulatie gelijk)
6
Populatieparameters
DATA = FIT + RESIDUAL
p = aantal predictoreni = 1, 2, …, n
[ ] iippiii xxxy εββββ +++++= ...22110
De populatieparameters β0, β1, β2, …,βp worden geschat met b0, b1, b2, …, bp waarbij geprobeerd wordt de error zo klein mogelijk te maken � uit SPSS
σ wordt geschat met s:
En zoals we vorige week al zagen (ook in werkgroep):
7
DFE
SSEMSE
pn
es i ==
−−= ∑
1
2
)1()1()1( 222 RnsRSSTSSE y −×−×=−×=
Waarom meerdere predictoren?
Twee grondredenen:
1. Betere voorspelling � meer verklaarde variantie en minder residuelevariantieminder residuelevariantie
2. Als we een causale theorie willen onderzoeken en daarbijmogelijke spurieuzerelaties willen elimineren
8
Meervoudigeregressievooreenbeterevoorspelling(1)
Enkelvoudige regressie:
- Response variabele (Y): Geluk
- Predictor (X): Extraversie
Meervoudige regressie:
- Response variabele (Y): Geluk
- Predictor 1 (X1): Extraversie
- Predictor 2 (X2): Neuroticisme
9
Correlaties mbt geluk
R2extraversie= 0.3232 = 0.104
R2neuroticisme= 0.2622 = 0.069
Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?10
Voorbeeld SPSSSPSS ���� Analyze ���� Regression ���� Linear
11
Assumpties Regressie Analyse
Onafhankelijke en afhankelijke variabelen zijn kwantitatief
Gemiddelde respons is lineaire functie van de X-variabelen
Residuen zijn onafhankelijk ennormaal verdeeld
Spreiding van de residuen is hetzelfde in elke subpopulatie(homoscedasticiteit)
12
Assumptie: De relatie tussen de predictoren en Y is lineair
Check: bekijk plot van voorspelde waardes vs. residuals
(in SPSS te maken: linear regression ���� plots)
13
Assumptie: Homoscedasticiteit
Check: bekijk plot van voorspelde waardes vs. residuals
(in SPSS te maken: linear regression ���� plots)
14
Assumptie: De residuen zijn normaalverdeeld
Check: bekijk Normal Probability pp-plot of histogram
(in SPSS aanvinken: linear regression ���� plots)
15
Output: de ANOVA-tabel
1 F-waarde, maar 2 predictoren. Wat toetsen we dan?
H0: β1 = β2 = β3 = … = βp = 0
HA : tenminste éénβj ≠ 0
16
De ANOVA-tabel
17
Output: Regressiecoëfficiënten
18
meneuroticiseextraversi geluk *174.*352.494.2 ++=
NB: t2 ≠ F zodra er meerdere predictoren zijn
Hoe kunnenwe dit weergeven?
meneuroticiseextraversi geluk *174.*352.494.2 ++=
19
Regressiecoëfficiëntentoetsen
bToetsen van de coëfficiënten met een t-toets:
Betrouwbaarheidsinterval van een coëfficiënt:
Beide met df = n – p – 1
SE dit keer niet zelf berekenen, maar uit SPSS tabel halen
20
jbj SEtb *±jb
j
SE
bt =
Hoe goed is de voorspelling?
R² = VAF = SSM / SST
R is de multipele correlatie (correlatie tussen voorspelde y-
waardes en geobserveerde y-waardes)waardes en geobserveerde y-waardes)
R² adjusted:aangepaste R² voor generalisatie naar populatie
1
1)1(1 22
−−−−−=pn
nRRadj
21
AdjustedR2
Bij R2 = 0.3:
Stel n = 30 en p = 2, dan R2 = 0.25
1
1)1(1 22
−−−−−=pn
nRRadj
Stel n = 30 en p = 2, dan R2adj = 0.25
Stel n = 30 en p = 6, dan R2adj = 0.12
Stel n = 30 en p = 8, dan R2adj = -0.07
Veel verschil tussen R2 en R2adj, en negatieve R2
adj duiden
op slechte combinatie van aantal predictoren en aantal personen
22
R2extraversie= 0.3232 = 0.104
R2neuroticisme= 0.2622 = 0.069
Verklaren ze dan samen (10.4 + 6.9 =) 17.3% van de variantie?
Nee, ze verklaren samen 14% van de variantie!
Output: Verklaardevariantie
Nee, ze verklaren samen 14% van de variantie!
Hoe komt dit? Denk aan significante correlatie tussen
extraversie en neuroticisme (r = .238 met p = .026)23
Uniekeverklaardevariantie
NeuroticismeExtraversie
Extraversie verklaart 10.4% van de variantie van geluk, maar deel daarvan wordt ook verklaart door Neuroticisme
Unieke verklaarde variantie Extraversie: R2totaal– R2
neuroticisme
Oftewel: 14% - 6.9% = 7.1% 24
Nog een voorbeeld:Voorspellen van Vetpercentage
Vetpercentage (Y) voorspellen uit BMI (X1), Leeftijd (X2)
en Geslacht (X3 met 0 = vrouw en 1 = man)
25
Assumpties:Voorspellen van Vetpercentage
26
Voorspellen van Vetpercentage
Relatief hoge R en R2 : : goede voorspellingRelatief hoge R en R : goede voorspelling
F zeer significant: tenminste één βj ≠ 027
Voorspellen van Vetpercentage
Alle regressiegewichten zijn significant (p < .001)
V ETP =-3.46 + 1.11BMI + .24 LFT − 9.17 SEXE28
Meervoudigeregressieomspurieuzerelaties teelimineren(2)
D-score Data (koopmans, 1987): 12 kinderen, 6 meisjes en 6 jongens,
variërend in leeftijd van 3 tot 10 jaar, zijn getest met een test voor
cognitieve ontwikkeling.
Enkelvoudige regressie:
- Response variabele (Y): Cognitieve ontwikkeling
- Predictor (X): Geslacht
Meervoudige regressie:
- Response variabele (Y): Cognitieve ontwikkeling
- Predictor 1 (X1): Geslacht
- Predictor 2 (X2): Leeftijd
-
29
Cognitieve Ontwikkeling voorspellen uit geslacht
Let op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen
30
Er is een significant (positief) effect van SEXEop DSCORE
(p = .039): jongens scoren significant hoger dan meisjes
Sexe*288.2305.10 Dscore +=
Correlaties mbt Cognitieve OntwikkelingLet op: Geslacht is gecodeerd met 0 = meisje en 1 = jongen
31
SEXE � r = .600 � r² = .360
LFT � r = .957 � r² = .916
Cognitieve Ontwikkeling voorspellen uit geslacht, gecorrigeerd voor leeftijd
Effect van LFT is significant (p < 0.001), maar SEXEis niet meer
significant (p = .799)
Verklaring?
32
Cognitieve Ontwikkeling
Het significante verband
tussen SEXE en
DSCORE is spurieus
Verband gevonden door Verband gevonden door
(toevallige) samenhang
tussen LFT en SEXE
“Controleren voor” LFT
elimineert het spurieuze
effect van SEXE33
Soorten meervoudige regressie
Standard:
Alle variabelen worden op hetzelfde moment toegevoegd
Stepwise:
Variabelen worden op basis van sterkte van voorspelling
toegevoegd
Hierarchical:
Variabelen worden toegevoegd op manier die door onderzoeker
wordt bepaald
34
Soorten regressie in SPSS
35
Soorten regressie in SPSS
36
Volgende week
Experimenteel onderzoek en experimentele controle
(dit hoort bij deel 2 van ECO)
- MM&C Hoofdstuk 2.4 (p. 129 t/m 130), 2.6 en 3.1
- Leary Hoofdstuk 9 en 10
- Aanvullende tekst 4
37