Download pdf - Analyse de données - LAMSADEatif/lib/exe/fetch.php?... · Rappels sur les degré de liberté Somme des carrés à la moyenne, SC SC = ∑n i=1 (xi x)2 Nombre de degrés de liberté

Analyse de donnéesRégression linéaire

Jamal [email protected]

Université Paris-Dauphine, Licence MIDO

2014-2015

1 / 45 Jamal Atif Analyse de Données

Copyright

Ce cours est adapté librement des ressources suivantes :

▶ Livre : Régression avec , Pierre-André Cornillon et EricMatzner- Lober, Springer 2010.


Exemple introductif

Un analyste en webmarketing s’intéresse à la relation de causalité entre lesfrais de publicité et les ventes d’un produit donné. En particulier il cherche àsavoir s’il est possible d’expliquer le nombre de ventes par les frais depublicité. Il collecte l’échantillon des données suivant :

Pub. (e) Ventes (unité)1 12 13 24 25 4

Il s’agit alors :▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub,▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub.

⇒ Régression


Nuage de points

▶ Pub (x) est une variable indépendante, dite variableexplicative ou encore de régression

▶ Ventes (y) est dépendante dite réponse.


Première démarcheExaminer le nuage de points

Trouver une relation entre la variable x et la variable y, telleque :

yi ≈ f (xi), i = 1, · · · ,n5 / 45 Jamal Atif Analyse de Données

Modèle

yi ≈ f (xi)

; Se fixer une famille de fonction F (ex : fonctions linéaires) etune fonction de coût L telle que :

n∑i=1

L(y − f (x)) est minimale pour une fonction f ∈ F donnée,

où n représente le nombre de données disponibles (taille del’échantillon) et L une fonction de coût ou de perte (Loss).

⇕

f = argminf∈F

n∑i=1

L(y − f (x)), i = 1, · · · ,n

Exemples de L :▶ L(x) =| x |,▶ L(x) = x2,▶ etc.


Modèle de régression linéaire simple

▶ F est une famille de fonctions linéaires (affines) de R dansR.

▶ On suppose disposer d’un échantillon de n points (xi, yi).

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

▶ εi modélisent le bruit et sont supposés aléatoires (les pointsn’étant jamais parfaitement alignées sur une droite).

▶ β1 et β2 sont les paramètres inconnues du modèles.


Modèle de régression linéaire simpleHypothèses :

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

1. le bruit est une variable aléatoire d’espérance nulle et devariance inconnue fixe (homoscédacité) : E(εi) = 0 etVar(εi) = σ2,

2. εi et εj sont décorrélés pour tout i = j : cov(εi, εj) = 0

3. εi une v.a distribuée selon une loi normale de moyennenulle et de variance σ2 : εi ∼ N (0, σ2).



Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Nuage de points (xi, yi).



Homoscédacité vs Hétéroscédacité

Nuage de points (xi, εi). εi ∼ N (0, xi)



Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Distribution des erreurs.



Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi

A gauche (xi, yi), au milieu (xi, εi) et à droite la distribution de ε.εi+1 ∼ N (εi, 100)


Estimateur des Moindres carrés Ordinaires

f = argminf∈F

n∑i=1

L(yi − f (xi)), i = 1, · · · ,n

On fixe L(x) = x2 et f (x) = β1 + β2x

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2


Estimateur des Moindres carrés OrdinairesCela revient à minimiser le carré du bruit εi pour chaque i :

εi = yi − β1 + β2xi = yi − yi

yi : le point observé, et yi le point de la droite théorique.

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2,

= argminβ1,β2

n∑i=1

(yi − yi)2,

= argminβ1,β2

n∑i=1

ε2i ,

= argminβ1,β2

||ε||2


Illustration

Au tableau !


Calcul des estimateurs de β1 et β2

▶ On notera S(β1, β2) =∑n

i=1(yi − β1 − β2xi)2

▶ S(β1, β2) est quadratique donc convexe et différentiable ⇒admet un minimum unique en (β1, β2).

▶ On calcule les points pour lesquelles les dérivées partiellesde S en β1 et β2 s’annulent. On obtient les équationsnormales suivantes :

∂S∂β1

= −2

n∑i=1

(yi − β1 − β2xi) = 0

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

(1)



∂S∂β1

= −2n∑

i=1

(yi − β1 − β2xi) = 0

⇒β1n + β2

n∑i=1

xi =

n∑i=1

yi

⇒β1 = y − β2x.



∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

⇒β1

n∑i=1

xi + β2

n∑i=1

x2i =

n∑i=1

xiyi

⇒β2 =

∑xiyi −

∑xiy∑

x2i −∑

xix=

∑xi(yi − y)∑xi(xi − x) =

∑(xi − x)(yi − y)∑(xi − x)(xi − x)

Exercice de TD !


Quelques remarques

▶ La relation β1 = y − β2x montre que la droite des moindrescarrés passe par le centre de gravité des nuages (x, y).

▶ Les expressions obtenues pour β1 et β2 montrent que cesdeux estimateurs sont linéaires par rapport au vecteur y.

▶ L’estimateur β2 peut s’écrire (exercice de TD) :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

→ La variation de β1 et β2 vient seulement de ε


Quelques propriétés de β1 et β2

Sous les hypothèses 1 et 2 (centrage, décorrélation ethomoscédacité) β1 et β2 sont des estimateurs sans biais de β1 etβ2.

Nous savons que :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle.Nous avons donc :

E(β2) = β2

Pour β1, on part de l’expression :

β1 = y − β2x,

d’où l’on tire :

E(β1) = E(y)− xE(β2) = β1 + xβ2 − xβ2 = β1


Quelques propriétés de β1 et β2

Les variances des estimateurs sont :

var(β1) =σ2

∑x2i

n∑

(xi − x)2 = σ2

(1

n+

x2∑(xi − x)2

)var(β2) =

σ2∑(xi − x)2

Et la covariance vaut :

cov(β1, β2) = − σ2x∑(xi − x)2

Preuve au tableau.


Résultat fondamental

Théorème de Gauss-Markov :Parmi les estimateurs sans biais linéaires de y, les estimateursβi sont de variances minimales.

Nous omettrons la preuve.


Calcul des résidus et de la variance résiduelle

εi = yi − yi = yi − β1 − β2xi = (yi − y)− β2(xi − x)

Par construction, nous avons :∑i

εi =∑

i

(yi − y)− β2∑

i

(xi − x) = 0.

Estimateur non biaisé de σ2

La statistique σ2 =∑

ε2i /(n − 2) est un estimateur sans biais deσ2.

Détails au tableau.


PrévisionRappel : un des buts de la régression est la prévision/prédiction.

Soit xn+1 une nouvelle valeur pour laquelle nous voulonsprédire yn+1. Le modèle s’écrit :

yn+1 = β1 + β2xn+1 + εn+1,

avec E(εn+1) = 0, var(εn+1 = σ2) et cov(εn+1, εn) = 0 pour touti = 1, · · · ,n.

La valeur yn+1 peut être prédite comme suit :

yn+1 = β1 + β2xn+1


Erreur de prévision

yn+1 = β1 + β2xn+1

L’erreur de prévision εn+1 = (yn+1 − yn+1) satisfait lespropriétés suivantes :{

E(εn+1) = 0

var(εn+1) = σ2(1 + 1

n + (xn+1−x)2∑ni=1(xi−x)2

) (2)

InterprétationLa variance augmente lorsque xn+1 s’éloigne du centre de gravité. Autrementdit, faire la prévision lorsque xn+1 est «loin» de x est périlleux, puisque lavariance de l’erreur de prévision peut être très grande.


Interprétation géométriqueLe problème de régression peut prendre la forme matricielle :y = Ab + ε, avec

A =

1 x1...

...1 xn

,b =

[β1β2

], ε =

ε1...εn


Décomposition de la variance

ε = y − y

Par le théorème de Pythagore, nous avons :

||y − y1||2 = ||y − y1||2 + ||ε||2 (3)n∑

i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

ε2i , (4)

SCT = SCE + SCR (5)

▶ SCT : Somme des Carrés des écarts Totale ; elle possède (n − 1) degrés deliberté

▶ SCE : Somme des Carrés des écarts Expliquée ; elle possède (1) degrés deliberté

▶ SCR : Somme des Carrés des écarts Résiduelle ; elle possède (n − 2) degrésde liberté


Rappels sur les degré de libertéSomme des carrés à la moyenne, SC

SC =

n∑i=1

(xi − x)2

Nombre de degrés de liberté (ddl)

▶ ddl = nombre total des valeurs − nombre des valeursestimées.

▶ Pour la somme précédente (SC), on a estimé la moyenne,donc ddl = n − 1.

Variance estimée

var(x) = SCddl

=1

n − 1

n∑i=1

(xi − x)2


Décomposition de la variance

SCT = SCE + SCR

Les degrés de liberté (ddl) s’additionnent, tout comme lessommes carrés d’écarts :

(n − 1) = 1 + (n − 2)

Les variances s’obtient en divisant chaque somme de carrésd’écarts par le nombre de ddl correspondants :

Vt =SCTn − 1

, Ve = SCE, Vr =SCEn − 2

Ce sont respectivement les variances totale, expliquée, etrésiduelle. (Ces variances ne s’additionnent pas !)


Quelques quantitésLe coefficient de détermination R2

R2 =SCESCT

=||y − y1||2||y − y1||2 = 1− ||ε||2

||y − y1||2 = 1− SCRSCT

= ρ2xy

▶ Si R2 = 1, le modèle explique tout, l’angle θ vaut zéro et y est dansM(X), c’est-à-dire que yi = β1 + β2xi pour tout i : les points del’échantillon sont parfaitement alignés sur la droite des moindrescarrés ;

▶ Si R2 = 0, cela veut dire que (yi − y)2 = 0, donc yi = y pour tout i. Lemodèle de régression linéaire est inadapté puisqu’on ne modélise riende mieux que la moyenne ;

▶ Si R2 est proche de zéro, cela veut dire que Y est quasiment dansl’orthogonal de M(X), le modèle de régression linéaire est inadapté, lavariable x n’explique pas bien la variable réponse y (du moins pas defaçon affine).


Quelques quantités

Le coefficient de corrélation R : c’est la racine du coefficient dedétermination, affecté du signe de la pente β2. Ilest toujours compris entre −1 et 1.

L’écart-type résiduel σ : c’est la racine carrée de la variancerésiduelle (σ =

√Vr). C’est une estimation de

l’erreur faite sur la mesure de la variabledépendante y. Une valeur de 0 indiquerait unajustement parfait.

Le rapport de variance F : c’est le rapport de la varianceexpliquée à la variance résiduelle (F = Ve

Vr).


Régions de confiances et tests d’hypothèses

Mieux que les expressions des estimateurs et celles de leursvariances, on aimerait connaître leurs lois : ceci permettrait parexemple d’obtenir des régions de confiance et d’effectuer destests d’hypothèses. Dans cette optique, il faut bien entendufaire une hypothèse plus forte sur notre modèle, à savoirpréciser la loi des erreurs.


Cas d’erreurs gaussiennes

Hypothèses supplémentaires sur le modèle :1. εi ∼ N (0, σ2)

2. εi sont mutuellement indépendants

Il s’en suit :

∀i ∈ {1, · · · ,n} yi ∼ N (β1 + β2xi, σ2)


Estimateurs du maximum de vraisemblanceLa vraisemblance vaut

L(y;β1, β2, σ2) =

n∏i=1

N (β1 + β2xi, σ2)

=

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − β1 − β2xi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2S(β1, β2)

]

⇒ Trouver (β1, β2, σ2) qui maximisent la vraisemblance.⇒ Pour simplifier le calcul on prend la log-vraisemblance :log(L).

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)


Estimateurs du maximum de vraisemblanceβ1mv, β2mv

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

▶ Maximiser par rapport à (β1, β2) revient à minimiser−S(β1, β2).

⇒ Les estimateurs du maximum de vraisemblance de β1 et β2sont égaux aux estimateurs des moindres carrés.

β1mv = β1, β2mv = β2


Estimateurs du maximum de vraisemblanceσ2

mv

Il reste à maximiser logL(y; β1, β2, σ2) par rapport à σ2.

∂L(y; β1, β2, σ2)

∂σ2= − n

2σ2+

1

2σ4S(β1, β2)

= − n2σ2

+1

2σ4

n∑i=1

(yi − β1 − β2xi)2

∂L(y; β1, β2, σ2)

∂σ2mv

= 0 ⇒ σ2mv =

1

n

n∑i=1

εi2

▶ L’estimateur du maximum de vraisemblance de σ2 est différent del’estimateur MCO σ2.

▶ L’estimateur du maximum de vraisemblance de σ2 est donc biaisé. Eneffet E(σ2

mv) =1n

∑E(ε2i ) = n−2

n σ2

⇒ Ce biais est d’autant plus négligeable que le nombre d’observations estgrand.


Lois des estimateurs et régions de confianceRappels sur les lois usuelles

Loi du χ2

Soit X1, · · · ,Xn des variables aléatoires i.i.d. suivant une loi normale centréeréduite. La loi de la variable X =

∑ni=1 X2

i est appelée loi du χ2 à n degrés deliberté (ddl), noté X ∼ χ2

n .

Loi de StudentSoit Z une variable aléatoire suivant une loi normale centrée réduite et X unevariable suivant une loi du χ2 à n degrés de liberté, avec Z et Xindépendantes. La loi de la variable T = Z√

X/nest appelée loi de Student à n

degrés de liberté et on note T ∼ Tn.

Loi de FisherSoit U1 une variable aléatoire suivant une loi du χ2 à n1 degrés de liberté etU2 une variable aléatoire suivant une loi du χ2 à n2 degrés de liberté, avec U1

et U2 indépendantes. La loi de la variable F = U1/n1U2/n2

est appelée loi de Fisherà (n1, n2) degrés de liberté et on note F ∼ Fn1

n2 .


Lois des estimateurs et régions de confiance

Quelques notations préalables :

c =−σ2x∑(xi − x)2 σ2 =

1

n − 2

∑ε2i

σ21 = σ2

( ∑x2i

n∑

(xi − x)2

)σ1 = σ2

( ∑x2i

n∑

(xi − x)2

)σ22 =

σ2∑(xi − x)2 σ2 =

σ2∑(xi − x)2

▶ σ21 , σ2

2 et c sont les variances et covariance des estimateursdes moindres carrés ordinaires.

▶ σ21 et σ2

2 correspondent quant à elles aux estimateurs desvariances d e β1 et β2.


Lois des estimateurs avec variance connue

Les lois des estimateurs des MCO avec variance σ2 connuesont :

▶ β =

[β1β2

]∼ N (β, σ2V) où β =

[β1β2

]et

V = 1∑(xi−x)2

[ ∑x2i /n −x

−x 1

]= 1

σ2

[σ21 c

c σ22

]▶ (n−2)

σ2 σ2 ∼ χ2n−2, loi du χ2 à (n − 2) ddl.

▶ β et σ2 sont indépendants.


Lois des estimateurs avec variance estimée

Les lois des estimateurs des MCO avec variance σ2 estiméesont :

▶ β1−β1

σ1∼ Tn−2 où Tn−2 est une loi de Student à (n − 2)

degrés de liberté.

▶ β2−β2

σ2∼ Tn−2.

▶ 12σ2 (β − β)′V−1((β − β) ∼ F2

n−2, loi de Fisher deparamètres (2,n − 2).

Ces dernières propriétés nous permettent de donner desintervalles de confiance (IC) ou des régions de confiance (RC)des estimateurs.


Intervalles et régions de confiance▶ IC(β1)± tn−2(1− α/2)σ1 où tn−2(1− α/2) est le quantile de

niveau (1− α/2) d’une loi de Student Tn−2.▶ IC(β2)± tn−2(1− α/2)σ2▶ RC(β) : Une région de confiance simultanée pour β1 et β2

au niveau (1− α) est1

2σ2

(n(β1 − β1)

2 + 2nx(β1 − β1)(β2 − β2) +∑

x2i (β2 − β2)2)

≤ f 2n−2(1− α),

où f 2n−2(1− α) est le quantile de niveau (1− α) d’une loiF2

n−2.▶ Un intervalle de confiance de σ2 est donné par :[

(n − 2)σ2

cn−2(1− α/2),(n − 2)σ2

cn−2(α/2)

]où cn−2(1− α/2) est le quantile de niveau 1− α/2 d’une loiχ2

n−2.


Loi et intervalle de confiance pour la prédiction

On a :

yn+1 − yn+1 ∼ N(0, σ2

(1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

))Avec les notations et hypothèses précédentes, on obtient :

yn+1 − yn+1

σ√

1 + 1n + (xn+1−x)2∑n

i=1(xi−x)2∼ Tn−2

d’où l’on déduit l’intervalle de confiance suivant pour yn+1 :[yn+1 ± tn−2(1− α/2)σ

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]


Tests d’hypothèseTest Bilatéral

H0 : β1 = 0,Ha : β2 = 0

Sous H0, nous avons la v.a :

t =β2σ2

∼ tn−2

Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :

▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.


Tests d’hypothèseTest unilatéral

Exemple : vérifier si β2 est positive.

H0 : β2 ≥ 0,Ha : β2 < 0

Sous H0, nous avons :

t =β2σ2

=β2 − β2

σ2+

β2σ2

∼ tn−2 + terme positif


▶ si |t∗| ≥ tn−2(α), alors H0 est acceptée,▶ si |t∗| < tn−2(α), alors H0 est rejetée.


Tests d’hypothèse

Test de passage par l’oginie β1Test si β1 = 0 :

H0 : β1 = 0,H1 : β1 = 0

Sous H0, nous avons la v.a :

t =β1σ1

∼ tn−2


▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.