Upload
nazaire-bour
View
113
Download
4
Embed Size (px)
Citation preview
Régression linéaire (STT-2400)
Section 3
Tests d’hypothèses et
l’hypothèse linéaire générale
Version: 26 janvier 2007
STT-2400; Régression linéaire2
Tests d’hypothèses
On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables:
– PRICE, prix en milliers de dollars US: variable réponse.– FLR, surface du plancher en pieds carrés: préviseur.– RMS, nombre de pièces: préviseur.– BDR, nombre de chambres à coucher: préviseur.– BTH, nombre de salles de bain: préviseur.– GAR, présence ou non d’un garage (0: aucun garage, 1: garage simple, 1.5:
garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur.
– LOT, largeur de la façade du terrain en pieds: préviseur.– FP, nombre de foyers: préviseur.– ST, présence de contre-fenêtre (storm window): préviseur.
STT-2400; Régression linéaire3
Ajustement dans l’exemple du prix des maisons
Un ajustement donne la fonction moyenne suivante:
Au niveau de l’interprétation, il semble y avoir une association positive entre l’ajout d’un garage et le prix de la maison de l’ordre de 1770$ US, les autres choses étant égales.
On note que l’augmentation d’une chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur l’augmentation d’une chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces).
Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter.
STFPLOTGARBTH
BDRRMSFLRPRICE
82.1091.6263.077.137.2
70.790.3018.064.18
STT-2400; Régression linéaire4
D’autres questions d’intérêt pourraient être…
(a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)?
(b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US?
(c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière?
(d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison?
(e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison?
STT-2400; Régression linéaire5
Formulation des questions de façon statistique… tests déjà vus!
(a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)?
(b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US?
0:
0:
21
20
H
H
5:
5:
51
50
H
H
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
STT-2400; Régression linéaire6
Formulation des questions de façon statistique… nouveaux tests!
(c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière?
(d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison?
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
321
320
:
:
H
H
01
540
:
0:
HH
H
STT-2400; Régression linéaire7
Formulation des questions de façon statistique (suite)
(e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison?
Ce test correspond bien entendu au test F global dans une table d’ANOVA.
01
876543210
:
0:
HH
H
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
STT-2400; Régression linéaire8
Hypothèse linéaire générale
Un examen attentif de tous ces tests montre qu’en fait toutes ces questions impliquent des contraintes linéaires sur les paramètres:
En fait toutes ces hypothèses peuvent s’exprimer comme un cas particulier de l’hypothèse linéaire générale.
.0;0
;;5;0
8154
3252
STT-2400; Régression linéaire9
Formulation de l’hypothèse linéaire générale
Considérons le modèle de régression linéaire multiple:
L’hypothèse linéaire générale est:
La matrice C est de dimension et elle est de rang m. Les vecteurs et sont de dimension .
eXβy
0γCβ :0H
1 pm
11 p
STT-2400; Régression linéaire10
Exemple (a)
Pour (a), il suffit de poser:
On a m = 1. L’hypothèse linéaire générale est:
Elle se réduit donc à:
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
0: 20 H
0γ ;0,0,0,0,0,0,1,0,0C
0γCβ :0H
STT-2400; Régression linéaire11
Exemple (b)
Pour (b), il suffit de poser:
On a m = 1. L’hypothèse linéaire générale est:
Elle se réduit donc à:
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
5: 50 H
5;0,0,0,1,0,0,0,0,0 C
0γCβ :0H
STT-2400; Régression linéaire12
Exemple (c)
Pour (c), il suffit de poser:
On a m = 1. L’hypothèse linéaire générale est:
Elle se réduit donc à:
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
320 : H
0γC ;0,0,0,0,0,1,1,0,0
0γCβ :0H
STT-2400; Régression linéaire13
Exemple (d)
Pour (d), il suffit de poser:
On a m = 2. L’hypothèse linéaire générale est:
Elle se réduit donc à:
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
0: 540 H
0
0;
000100000
000010000γC
0γCβ :0H
STT-2400; Régression linéaire14
Exemple (e)
Pour (e), il suffit de considérer la matrice :
On a donc m = 8. L’hypothèse linéaire générale est:
Elle se réduit donc à:
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
0: 810 H
0γI0C ;8
0γCβ :0H
98
STT-2400; Régression linéaire15
Statistique de test pour l’hypothèse linéaire générale
Supposons que les erreurs sont iid normales . Confrontons les hypothèses:
C est de dimension et de rang .
Posons:
2,0 N
0γCβ
0γCβ
:
:
1
0
H
H
1 pm 1 pm
2
11
ˆ
ˆ''ˆ
mF
γβCCXX'CγβC
STT-2400; Régression linéaire16
Statistique F pour l’hypothèse linéaire générale
On pose encore:
Hypothèses à confronter:
Règle de décision: rejeter H0 si
2
11
ˆ
ˆ''ˆ
mF
γβCCXX'CγβC
0γCβ
0γCβ
:
:
1
0
H
H
1, pnmFF
1/ˆ;''ˆ 21 pnRSSyXXXβ
STT-2400; Régression linéaire17
Quelques faits concernant le test F
Ce test est en fait le test du rapport de vraisemblance pour les hypothèses considérées.
Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur l’estimation des paramètres du modèle par la méthode de vraisemblance maximale.
Même si les erreurs ne sont pas normales, ce test est généralement robuste aux écarts à la normalité des erreurs.
Qu’est-ce que cela veut dire? Si des écarts relativement peu importants de l’hypothèse de normalité surviennent, alors les estimateurs, tests d’hypothèses et intervalles de confiance se trouvent souvent peu affectés.
STT-2400; Régression linéaire18
Test-F dans la situation « modèle plein – modèle réduit »
Reconsidérons l’exemple (d): (d) Est-ce que le nombre de salles de bains ou
de garages semblent affecter le prix d’une maison?
STFPLOTGAR
BTHBDRRMSFLRPRICE
8765
43210
01
540
:
0:
HH
H
STT-2400; Régression linéaire19
Formalisation de l’exemple (d)
Considérons , où les matrices composants X sont de dimensions:
On considère la partition suivante du vecteur :
21 XXX
qn
qpn
:
1:
2
1
X
X
'2'1' βββ
1:
11:
2
1
q
qp
β
β
STT-2400; Régression linéaire20
Confrontation du modèle plein et du modèle réduit
On désire confronter:
Autrement formulé, on désire tester l’hypothèse nulle:
eβXβXy
eβXy
2211
11
:
:
MP
MR
0β 20 :H1:2 qβ
STT-2400; Régression linéaire21
Test F pour tester « modèle plein – modèle réduit »
Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante:
On compare avec la distribution F suivante:
MPMP
MPMRMPMR
dlRSS
dldlRSSRSSF
MPMPMR dldldlF ,
STT-2400; Régression linéaire22
Mise en œuvre pratique du test pour l’hypothèse « modèle plein-modèle réduit »
Ainsi afin de mettre en œuvre ce test il suffit d’effectuer deux régression.
On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSSMP et son nombre de dl associé.
On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSSMR et ses dl.
On calcule la statistique F.
STT-2400; Régression linéaire23
Hypothèse linéaire avec SAS dans la procédure PROC REG
proc reg data=maison; model price = flr rms bdr bth gar lot fp st; HypA: test bdr = 0; HypB: test gar = 5; HypC: test bdr = bth; HypD: test bth = 0, gar = 0; HypE: test flr, rms, bdr, bth, gar, lot, fp, st; run;
proc reg data=maison; model price = flr rms bdr lot fp st; run;
STT-2400; Régression linéaire24
Quelques commentaires sur les tests
Pour HypA: on avait déjà ce test en regardant la statistique-t pour la variable BDR: (-4.21)2 = 17.70 avec valeur-p de 0.0006.
Pour HypE: on retrouve le résultat du test global, avec une statistique F de 20.11.
Pour HypD: La statistique-F est de 1.32. On peut obtenir cette statistique de l’ajustement des deux régressions, l’une incluant tous les préviseurs (RSS=378.21240, dl=17), l’autre excluant BTH et GAR (RSS=436.92812). On vérifie que:
(436.92812-378.21240)/(2*22.24779) = 1.32