Analyse de donnéesRégression linéaire
Jamal [email protected]
Université Paris-Dauphine, Licence MIDO
2014-2015
1 / 45 Jamal Atif Analyse de Données
Copyright
Ce cours est adapté librement des ressources suivantes :
▶ Livre : Régression avec , Pierre-André Cornillon et EricMatzner- Lober, Springer 2010.
2 / 45 Jamal Atif Analyse de Données
Exemple introductif
Un analyste en webmarketing s’intéresse à la relation de causalité entre lesfrais de publicité et les ventes d’un produit donné. En particulier il cherche àsavoir s’il est possible d’expliquer le nombre de ventes par les frais depublicité. Il collecte l’échantillon des données suivant :
Pub. (e) Ventes (unité)1 12 13 24 25 4
Il s’agit alors :▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub,▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub.
⇒ Régression
3 / 45 Jamal Atif Analyse de Données
Nuage de points
▶ Pub (x) est une variable indépendante, dite variableexplicative ou encore de régression
▶ Ventes (y) est dépendante dite réponse.
4 / 45 Jamal Atif Analyse de Données
Première démarcheExaminer le nuage de points
Trouver une relation entre la variable x et la variable y, telleque :
yi ≈ f (xi), i = 1, · · · ,n5 / 45 Jamal Atif Analyse de Données
Modèle
yi ≈ f (xi)
; Se fixer une famille de fonction F (ex : fonctions linéaires) etune fonction de coût L telle que :
n∑i=1
L(y − f (x)) est minimale pour une fonction f ∈ F donnée,
où n représente le nombre de données disponibles (taille del’échantillon) et L une fonction de coût ou de perte (Loss).
⇕
f = argminf∈F
n∑i=1
L(y − f (x)), i = 1, · · · ,n
Exemples de L :▶ L(x) =| x |,▶ L(x) = x2,▶ etc.
6 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simple
▶ F est une famille de fonctions linéaires (affines) de R dansR.
▶ On suppose disposer d’un échantillon de n points (xi, yi).
yi = β1 + β2xi + εi, ∀i = 1, · · · ,n
▶ εi modélisent le bruit et sont supposés aléatoires (les pointsn’étant jamais parfaitement alignées sur une droite).
▶ β1 et β2 sont les paramètres inconnues du modèles.
7 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simpleHypothèses :
yi = β1 + β2xi + εi, ∀i = 1, · · · ,n
1. le bruit est une variable aléatoire d’espérance nulle et devariance inconnue fixe (homoscédacité) : E(εi) = 0 etVar(εi) = σ2,
2. εi et εj sont décorrélés pour tout i = j : cov(εi, εj) = 0
3. εi une v.a distribuée selon une loi normale de moyennenulle et de variance σ2 : εi ∼ N (0, σ2).
8 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simpleHypothèses :
Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi
Nuage de points (xi, yi).
9 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simpleHypothèses :
Homoscédacité vs Hétéroscédacité
Nuage de points (xi, εi). εi ∼ N (0, xi)
10 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simpleHypothèses :
Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi
Distribution des erreurs.
11 / 45 Jamal Atif Analyse de Données
Modèle de régression linéaire simpleHypothèses :
Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi
A gauche (xi, yi), au milieu (xi, εi) et à droite la distribution de ε.εi+1 ∼ N (εi, 100)
12 / 45 Jamal Atif Analyse de Données
Estimateur des Moindres carrés Ordinaires
f = argminf∈F
n∑i=1
L(yi − f (xi)), i = 1, · · · ,n
On fixe L(x) = x2 et f (x) = β1 + β2x
(β1, β2) = argminβ1,β2
n∑i=1
(yi − β1 − β2xi)2
13 / 45 Jamal Atif Analyse de Données
Estimateur des Moindres carrés OrdinairesCela revient à minimiser le carré du bruit εi pour chaque i :
εi = yi − β1 + β2xi = yi − yi
yi : le point observé, et yi le point de la droite théorique.
(β1, β2) = argminβ1,β2
n∑i=1
(yi − β1 − β2xi)2,
= argminβ1,β2
n∑i=1
(yi − yi)2,
= argminβ1,β2
n∑i=1
ε2i ,
= argminβ1,β2
||ε||2
14 / 45 Jamal Atif Analyse de Données
Illustration
Au tableau !
15 / 45 Jamal Atif Analyse de Données
Calcul des estimateurs de β1 et β2
▶ On notera S(β1, β2) =∑n
i=1(yi − β1 − β2xi)2
▶ S(β1, β2) est quadratique donc convexe et différentiable ⇒admet un minimum unique en (β1, β2).
▶ On calcule les points pour lesquelles les dérivées partiellesde S en β1 et β2 s’annulent. On obtient les équationsnormales suivantes :
∂S∂β1
= −2
n∑i=1
(yi − β1 − β2xi) = 0
∂S∂β2
= −2
n∑i=1
xi(yi − β1 − β2xi) = 0
(1)
16 / 45 Jamal Atif Analyse de Données
Calcul des estimateurs de β1 et β2
∂S∂β1
= −2n∑
i=1
(yi − β1 − β2xi) = 0
⇒β1n + β2
n∑i=1
xi =
n∑i=1
yi
⇒β1 = y − β2x.
17 / 45 Jamal Atif Analyse de Données
Calcul des estimateurs de β1 et β2
∂S∂β2
= −2
n∑i=1
xi(yi − β1 − β2xi) = 0
⇒β1
n∑i=1
xi + β2
n∑i=1
x2i =
n∑i=1
xiyi
⇒β2 =
∑xiyi −
∑xiy∑
x2i −∑
xix=
∑xi(yi − y)∑xi(xi − x) =
∑(xi − x)(yi − y)∑(xi − x)(xi − x)
Exercice de TD !
18 / 45 Jamal Atif Analyse de Données
Quelques remarques
▶ La relation β1 = y − β2x montre que la droite des moindrescarrés passe par le centre de gravité des nuages (x, y).
▶ Les expressions obtenues pour β1 et β2 montrent que cesdeux estimateurs sont linéaires par rapport au vecteur y.
▶ L’estimateur β2 peut s’écrire (exercice de TD) :
β2 = β2 +
∑(xi − x)εi∑(xi − x)2
→ La variation de β1 et β2 vient seulement de ε
19 / 45 Jamal Atif Analyse de Données
Quelques propriétés de β1 et β2
Sous les hypothèses 1 et 2 (centrage, décorrélation ethomoscédacité) β1 et β2 sont des estimateurs sans biais de β1 etβ2.
Nous savons que :
β2 = β2 +
∑(xi − x)εi∑(xi − x)2
Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle.Nous avons donc :
E(β2) = β2
Pour β1, on part de l’expression :
β1 = y − β2x,
d’où l’on tire :
E(β1) = E(y)− xE(β2) = β1 + xβ2 − xβ2 = β1
20 / 45 Jamal Atif Analyse de Données
Quelques propriétés de β1 et β2
Les variances des estimateurs sont :
var(β1) =σ2
∑x2i
n∑
(xi − x)2 = σ2
(1
n+
x2∑(xi − x)2
)var(β2) =
σ2∑(xi − x)2
Et la covariance vaut :
cov(β1, β2) = − σ2x∑(xi − x)2
Preuve au tableau.
21 / 45 Jamal Atif Analyse de Données
Résultat fondamental
Théorème de Gauss-Markov :Parmi les estimateurs sans biais linéaires de y, les estimateursβi sont de variances minimales.
Nous omettrons la preuve.
22 / 45 Jamal Atif Analyse de Données
Calcul des résidus et de la variance résiduelle
εi = yi − yi = yi − β1 − β2xi = (yi − y)− β2(xi − x)
Par construction, nous avons :∑i
εi =∑
i
(yi − y)− β2∑
i
(xi − x) = 0.
Estimateur non biaisé de σ2
La statistique σ2 =∑
ε2i /(n − 2) est un estimateur sans biais deσ2.
Détails au tableau.
23 / 45 Jamal Atif Analyse de Données
PrévisionRappel : un des buts de la régression est la prévision/prédiction.
Soit xn+1 une nouvelle valeur pour laquelle nous voulonsprédire yn+1. Le modèle s’écrit :
yn+1 = β1 + β2xn+1 + εn+1,
avec E(εn+1) = 0, var(εn+1 = σ2) et cov(εn+1, εn) = 0 pour touti = 1, · · · ,n.
La valeur yn+1 peut être prédite comme suit :
yn+1 = β1 + β2xn+1
24 / 45 Jamal Atif Analyse de Données
Erreur de prévision
yn+1 = β1 + β2xn+1
L’erreur de prévision εn+1 = (yn+1 − yn+1) satisfait lespropriétés suivantes :{
E(εn+1) = 0
var(εn+1) = σ2(1 + 1
n + (xn+1−x)2∑ni=1(xi−x)2
) (2)
InterprétationLa variance augmente lorsque xn+1 s’éloigne du centre de gravité. Autrementdit, faire la prévision lorsque xn+1 est «loin» de x est périlleux, puisque lavariance de l’erreur de prévision peut être très grande.
25 / 45 Jamal Atif Analyse de Données
Interprétation géométriqueLe problème de régression peut prendre la forme matricielle :y = Ab + ε, avec
A =
1 x1...
...1 xn
,b =
[β1β2
], ε =
ε1...εn
26 / 45 Jamal Atif Analyse de Données
Décomposition de la variance
ε = y − y
Par le théorème de Pythagore, nous avons :
||y − y1||2 = ||y − y1||2 + ||ε||2 (3)n∑
i=1
(yi − y)2 =n∑
i=1
(yi − y)2 +n∑
i=1
ε2i , (4)
SCT = SCE + SCR (5)
▶ SCT : Somme des Carrés des écarts Totale ; elle possède (n − 1) degrés deliberté
▶ SCE : Somme des Carrés des écarts Expliquée ; elle possède (1) degrés deliberté
▶ SCR : Somme des Carrés des écarts Résiduelle ; elle possède (n − 2) degrésde liberté
27 / 45 Jamal Atif Analyse de Données
Rappels sur les degré de libertéSomme des carrés à la moyenne, SC
SC =
n∑i=1
(xi − x)2
Nombre de degrés de liberté (ddl)
▶ ddl = nombre total des valeurs − nombre des valeursestimées.
▶ Pour la somme précédente (SC), on a estimé la moyenne,donc ddl = n − 1.
Variance estimée
var(x) = SCddl
=1
n − 1
n∑i=1
(xi − x)2
28 / 45 Jamal Atif Analyse de Données
Décomposition de la variance
SCT = SCE + SCR
Les degrés de liberté (ddl) s’additionnent, tout comme lessommes carrés d’écarts :
(n − 1) = 1 + (n − 2)
Les variances s’obtient en divisant chaque somme de carrésd’écarts par le nombre de ddl correspondants :
Vt =SCTn − 1
, Ve = SCE, Vr =SCEn − 2
Ce sont respectivement les variances totale, expliquée, etrésiduelle. (Ces variances ne s’additionnent pas !)
29 / 45 Jamal Atif Analyse de Données
Quelques quantitésLe coefficient de détermination R2
R2 =SCESCT
=||y − y1||2||y − y1||2 = 1− ||ε||2
||y − y1||2 = 1− SCRSCT
= ρ2xy
▶ Si R2 = 1, le modèle explique tout, l’angle θ vaut zéro et y est dansM(X), c’est-à-dire que yi = β1 + β2xi pour tout i : les points del’échantillon sont parfaitement alignés sur la droite des moindrescarrés ;
▶ Si R2 = 0, cela veut dire que (yi − y)2 = 0, donc yi = y pour tout i. Lemodèle de régression linéaire est inadapté puisqu’on ne modélise riende mieux que la moyenne ;
▶ Si R2 est proche de zéro, cela veut dire que Y est quasiment dansl’orthogonal de M(X), le modèle de régression linéaire est inadapté, lavariable x n’explique pas bien la variable réponse y (du moins pas defaçon affine).
30 / 45 Jamal Atif Analyse de Données
Quelques quantités
Le coefficient de corrélation R : c’est la racine du coefficient dedétermination, affecté du signe de la pente β2. Ilest toujours compris entre −1 et 1.
L’écart-type résiduel σ : c’est la racine carrée de la variancerésiduelle (σ =
√Vr). C’est une estimation de
l’erreur faite sur la mesure de la variabledépendante y. Une valeur de 0 indiquerait unajustement parfait.
Le rapport de variance F : c’est le rapport de la varianceexpliquée à la variance résiduelle (F = Ve
Vr).
31 / 45 Jamal Atif Analyse de Données
Régions de confiances et tests d’hypothèses
Mieux que les expressions des estimateurs et celles de leursvariances, on aimerait connaître leurs lois : ceci permettrait parexemple d’obtenir des régions de confiance et d’effectuer destests d’hypothèses. Dans cette optique, il faut bien entendufaire une hypothèse plus forte sur notre modèle, à savoirpréciser la loi des erreurs.
32 / 45 Jamal Atif Analyse de Données
Cas d’erreurs gaussiennes
Hypothèses supplémentaires sur le modèle :1. εi ∼ N (0, σ2)
2. εi sont mutuellement indépendants
Il s’en suit :
∀i ∈ {1, · · · ,n} yi ∼ N (β1 + β2xi, σ2)
33 / 45 Jamal Atif Analyse de Données
Estimateurs du maximum de vraisemblanceLa vraisemblance vaut
L(y;β1, β2, σ2) =
n∏i=1
N (β1 + β2xi, σ2)
=
(1√2πσ2
)n
exp
[− 1
2σ2
n∑i=1
(yi − β1 − β2xi)2
]
=
(1√2πσ2
)n
exp[− 1
2σ2S(β1, β2)
]
⇒ Trouver (β1, β2, σ2) qui maximisent la vraisemblance.⇒ Pour simplifier le calcul on prend la log-vraisemblance :log(L).
logL(y;β1, β2, σ2) = −n2
log(2πσ2)− 1
2σ2S(β1, β2)
34 / 45 Jamal Atif Analyse de Données
Estimateurs du maximum de vraisemblanceβ1mv, β2mv
logL(y;β1, β2, σ2) = −n2
log(2πσ2)− 1
2σ2S(β1, β2)
▶ Maximiser par rapport à (β1, β2) revient à minimiser−S(β1, β2).
⇒ Les estimateurs du maximum de vraisemblance de β1 et β2sont égaux aux estimateurs des moindres carrés.
β1mv = β1, β2mv = β2
35 / 45 Jamal Atif Analyse de Données
Estimateurs du maximum de vraisemblanceσ2
mv
Il reste à maximiser logL(y; β1, β2, σ2) par rapport à σ2.
∂L(y; β1, β2, σ2)
∂σ2= − n
2σ2+
1
2σ4S(β1, β2)
= − n2σ2
+1
2σ4
n∑i=1
(yi − β1 − β2xi)2
∂L(y; β1, β2, σ2)
∂σ2mv
= 0 ⇒ σ2mv =
1
n
n∑i=1
εi2
▶ L’estimateur du maximum de vraisemblance de σ2 est différent del’estimateur MCO σ2.
▶ L’estimateur du maximum de vraisemblance de σ2 est donc biaisé. Eneffet E(σ2
mv) =1n
∑E(ε2i ) = n−2
n σ2
⇒ Ce biais est d’autant plus négligeable que le nombre d’observations estgrand.
36 / 45 Jamal Atif Analyse de Données
Lois des estimateurs et régions de confianceRappels sur les lois usuelles
Loi du χ2
Soit X1, · · · ,Xn des variables aléatoires i.i.d. suivant une loi normale centréeréduite. La loi de la variable X =
∑ni=1 X2
i est appelée loi du χ2 à n degrés deliberté (ddl), noté X ∼ χ2
n .
Loi de StudentSoit Z une variable aléatoire suivant une loi normale centrée réduite et X unevariable suivant une loi du χ2 à n degrés de liberté, avec Z et Xindépendantes. La loi de la variable T = Z√
X/nest appelée loi de Student à n
degrés de liberté et on note T ∼ Tn.
Loi de FisherSoit U1 une variable aléatoire suivant une loi du χ2 à n1 degrés de liberté etU2 une variable aléatoire suivant une loi du χ2 à n2 degrés de liberté, avec U1
et U2 indépendantes. La loi de la variable F = U1/n1U2/n2
est appelée loi de Fisherà (n1, n2) degrés de liberté et on note F ∼ Fn1
n2 .
37 / 45 Jamal Atif Analyse de Données
Lois des estimateurs et régions de confiance
Quelques notations préalables :
c =−σ2x∑(xi − x)2 σ2 =
1
n − 2
∑ε2i
σ21 = σ2
( ∑x2i
n∑
(xi − x)2
)σ1 = σ2
( ∑x2i
n∑
(xi − x)2
)σ22 =
σ2∑(xi − x)2 σ2 =
σ2∑(xi − x)2
▶ σ21 , σ2
2 et c sont les variances et covariance des estimateursdes moindres carrés ordinaires.
▶ σ21 et σ2
2 correspondent quant à elles aux estimateurs desvariances d e β1 et β2.
38 / 45 Jamal Atif Analyse de Données
Lois des estimateurs avec variance connue
Les lois des estimateurs des MCO avec variance σ2 connuesont :
▶ β =
[β1β2
]∼ N (β, σ2V) où β =
[β1β2
]et
V = 1∑(xi−x)2
[ ∑x2i /n −x
−x 1
]= 1
σ2
[σ21 c
c σ22
]▶ (n−2)
σ2 σ2 ∼ χ2n−2, loi du χ2 à (n − 2) ddl.
▶ β et σ2 sont indépendants.
39 / 45 Jamal Atif Analyse de Données
Lois des estimateurs avec variance estimée
Les lois des estimateurs des MCO avec variance σ2 estiméesont :
▶ β1−β1
σ1∼ Tn−2 où Tn−2 est une loi de Student à (n − 2)
degrés de liberté.
▶ β2−β2
σ2∼ Tn−2.
▶ 12σ2 (β − β)′V−1((β − β) ∼ F2
n−2, loi de Fisher deparamètres (2,n − 2).
Ces dernières propriétés nous permettent de donner desintervalles de confiance (IC) ou des régions de confiance (RC)des estimateurs.
40 / 45 Jamal Atif Analyse de Données
Intervalles et régions de confiance▶ IC(β1)± tn−2(1− α/2)σ1 où tn−2(1− α/2) est le quantile de
niveau (1− α/2) d’une loi de Student Tn−2.▶ IC(β2)± tn−2(1− α/2)σ2▶ RC(β) : Une région de confiance simultanée pour β1 et β2
au niveau (1− α) est1
2σ2
(n(β1 − β1)
2 + 2nx(β1 − β1)(β2 − β2) +∑
x2i (β2 − β2)2)
≤ f 2n−2(1− α),
où f 2n−2(1− α) est le quantile de niveau (1− α) d’une loiF2
n−2.▶ Un intervalle de confiance de σ2 est donné par :[
(n − 2)σ2
cn−2(1− α/2),(n − 2)σ2
cn−2(α/2)
]où cn−2(1− α/2) est le quantile de niveau 1− α/2 d’une loiχ2
n−2.
41 / 45 Jamal Atif Analyse de Données
Loi et intervalle de confiance pour la prédiction
On a :
yn+1 − yn+1 ∼ N(0, σ2
(1 +
1
n+
(xn+1 − x)2∑ni=1(xi − x)2
))Avec les notations et hypothèses précédentes, on obtient :
yn+1 − yn+1
σ√
1 + 1n + (xn+1−x)2∑n
i=1(xi−x)2∼ Tn−2
d’où l’on déduit l’intervalle de confiance suivant pour yn+1 :[yn+1 ± tn−2(1− α/2)σ
√1 +
1
n+
(xn+1 − x)2∑ni=1(xi − x)2
]
42 / 45 Jamal Atif Analyse de Données
Tests d’hypothèseTest Bilatéral
H0 : β1 = 0,Ha : β2 = 0
Sous H0, nous avons la v.a :
t =β2σ2
∼ tn−2
Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :
▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.
43 / 45 Jamal Atif Analyse de Données
Tests d’hypothèseTest unilatéral
Exemple : vérifier si β2 est positive.
H0 : β2 ≥ 0,Ha : β2 < 0
Sous H0, nous avons :
t =β2σ2
=β2 − β2
σ2+
β2σ2
∼ tn−2 + terme positif
Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :
▶ si |t∗| ≥ tn−2(α), alors H0 est acceptée,▶ si |t∗| < tn−2(α), alors H0 est rejetée.
44 / 45 Jamal Atif Analyse de Données
Tests d’hypothèse
Test de passage par l’oginie β1Test si β1 = 0 :
H0 : β1 = 0,H1 : β1 = 0
Sous H0, nous avons la v.a :
t =β1σ1
∼ tn−2
Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :
▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.
45 / 45 Jamal Atif Analyse de Données