45
1/6 2/6 3/6 4/6 5/6 6/6 12. R´ egression lin´ eaire simple MTH2302D S. Le Digabel et F. Gilbert, ´ Ecole Polytechnique de Montr´ eal A2013 (v1) MTH2302D: r´ egression 1/45

12 Regression

  • View
    51

  • Download
    3

Embed Size (px)

DESCRIPTION

12_regression 12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression12_regression

Citation preview

  • 1/6 2/6 3/6 4/6 5/6 6/6

    12. Regression lineaire simple

    MTH2302D

    S. Le Digabel et F. Gilbert, Ecole Polytechnique de Montreal

    A2013(v1)

    MTH2302D: regression 1/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Plan

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 2/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 3/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Regression lineaire : introductionBut : etablir un lien entre une variable dependante Y et unevariable independante X pour pouvoir ensuite faire des previsionssur Y lorsque X est mesuree.

    Exemple 1

    Lanalyse de la temperature de fonctionnement dun procedechimique sur le rendement du produit a donne les valeurs suivantespour la temperature Xi et le rendement correspondant Yi :

    Temperature C Rendement % Temperature C Rendement %100 45 150 70110 51 160 74120 54 170 78130 61 180 85140 66 190 89

    MTH2302D: regression 4/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)

    Le graphe ci-dessous represente les points (Xi, Yi) pour cesdonnees et sugge`re une relation lineaire entre X et Y .

    40

    45

    50

    55

    60

    65

    70

    75

    80

    85

    90

    90 110 130 150 170 190

    rendement vs temprature

    MTH2302D: regression 5/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 6/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Mode`le lineaire

    DefinitionUn mode`le de regression lineaire simple est de la forme

    Y = 0 + 1X +

    ou`

    I Y est la variable dependante (une v.a.).I 0 et 1 sont les coefficients (ordonnee a` lorigine et pente).I X est la variable independante (variable explicative).I est une erreur aleatoire.

    MTH2302D: regression 7/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Mode`le lineaire (suite)

    Lesperance de Y pour chaque X est le point sur la droitedequation E(Y |X) = 0 + 1X.On suppose que

    I Pour chaque valeur de X, E() = 0 et V() = 2.I N(0, 2).I Les erreurs sont independantes (non correlees).

    On cherche a`

    I Estimer les parame`tres 0, 1 et 2.I Verifier si le mode`le est adequat.

    MTH2302D: regression 8/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 9/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Parame`tres 0 et 1Supposons que n paires dobservations (X1, Y1), (X2, Y2), . . .,(Xn, Yn) ont ete faites. Substituant dans le mode`le lineaire, onobtient

    Yi = 0 + 1Xi + i i = Yi 0 1Xi.

    Les coefficients sont determines par la methode des moindrescarres qui minimise la somme des carres des erreurs :

    L(0, 1) =ni=1

    (Yi 0 1Xi)2.

    On resout le syste`me de deux equations a` deux inconnuesL(0, 1) = 0.

    MTH2302D: regression 10/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Parame`tres 0 et 1 (suite)

    L(0, 1) = 0

    0 = Y 1X

    1 =n

    i=1XiYi n X Yni=1X

    2i nX

    2 =SXYSXX

    avec

    I X = 1nn

    i=1Xi et Y =1n

    ni=1 Yi.

    I SXX =n

    i=1(Xi X)2 =n

    i=1X2i nX

    2 = (n 1)S2.I SY Y =

    ni=1(Yi Y )2 =

    ni=1 Y

    2i nY

    2.

    I SXY =n

    i=1(Xi X)(Yi Y ) =n

    i=1XiYi n X Y .

    Exemple 2 : retrouver ces formules.

    MTH2302D: regression 11/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Droite de regression pour lexemple 1

    40

    45

    50

    55

    60

    65

    70

    75

    80

    85

    90

    90 110 130 150 170 190

    donnes

    droite de rgression

    Voir fichier Excel.

    MTH2302D: regression 12/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Proprietes de 0 et 1La droite de regression estimee est Y = 0 + 1X.

    Les variables aleatoires 0 et 1 sont des estimateurs de lordonneea` lorigine 0 et de la pente 1.

    Theore`me

    1. E(0) = 0 et E(1) = 1 (estimateurs non biaises).

    2. V(0) = 2[1n+

    X2

    SXX

    ]et V(1) =

    2

    SXX.

    3. Cov(0, 1) = 2X

    SXX.

    MTH2302D: regression 13/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Parame`tre 2

    Rappel : le mode`le de regression est Y = 0 + 1X + avec N(0, 2).La difference entre la valeur estimee Yi = 0 + 1Xi et la valeurobservee Yi est appelee residu et est denotee Ei = Yi Yi.On definit

    I La somme des carres due a` lerreur par

    SSE =ni=1

    E2i =ni=1

    (Yi Yi)2.

    I La somme des carres due a` la regression par

    SSR =ni=1

    (Yi Y )2 = 21SXX =S2XYSXX

    .

    MTH2302D: regression 14/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Parame`tre 2 (suite)

    La quantite SY Y represente la variabilite totale des Yi. On peut ladecomposer par

    SY Y = SST = SSE + SSR .

    Theore`me

    1. E(SSE) = (n 2)2.

    2. 2 =SSEn 2 MSE est donc un estimateur sans biais de

    2.

    MTH2302D: regression 15/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)

    Lanalyse de la temperature de fonctionnement dun procedechimique sur le rendement du produit a donne les valeurs suivantespour la temperature Xi et le rendement correspondant Yi :

    Temperature C Rendement % Temperature C Rendement %100 45 150 70110 51 160 74120 54 170 78130 61 180 85140 66 190 89

    Voir fichier Excel.

    MTH2302D: regression 16/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 17/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Distributions pour 0 et 1

    Theore`meLa statistique

    0 0MSE

    [1n +

    X2

    SXX

    ]suit une loi de Student a` n 2 degres de liberte.Theore`meLa statistique

    1 1MSE/SXX

    suit une loi de Student a` n 2 degres de liberte.

    MTH2302D: regression 18/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Intervalles de confiance pour 0 et 1

    Theore`meIntervalles de confiance bilateraux au niveau de confiance 1 pour 0 et 1 :

    0 = 0 t/2;n2

    MSE [ 1n+

    X2

    SXX

    ]

    1 = 1 t/2;n2MSESXX

    .

    Voir fichier Excel.

    MTH2302D: regression 19/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Intervalles de confiance pour la droite de regression

    Il sagit dun intervalle de confiance pour E(Y0|x0), la reponsemoyenne a` la valeur x0.

    Pour x0 donne soit Y0 = 0 + 1x0 lestimateur de E(Y0|x0).

    Theore`meIntervalle de confiance pour E(Y0|x0) au niveau de confiance1 :

    E(Y0|x0) = Y0 t/2;n2MSE

    [1n+(x0 X)2SXX

    ]

    MTH2302D: regression 20/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)

    Le calcul de lintervalle de confiance a` 95% en chaque pointx0 = Xi, i = 1, 2, . . . , 10 donne le tableau suivant :

    x0 100 110 120 130 140

    y0 45.56 50.39 55.22 60.05 64.88

    limites 1.30 1.10 0.93 0.79 0.71x0 150 160 170 180 190

    y0 69.72 74.55 79.38 84.21 89.04

    limites 0.71 0.79 0.93 1.10 1.30

    Voir fichier Excel.

    MTH2302D: regression 21/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)a` partir des donnees du tableau precedent, on a trace lintervalle deconfiance pour la droite de regression :

    44

    49

    54

    59

    64

    69

    74

    79

    84

    89

    95 105 115 125 135 145 155 165 175 185 195

    donnes

    droite de rgression

    sous-approx.

    sur-approx.

    MTH2302D: regression 22/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Intervalles de previsionSoit x0 une valeur quelconque. La valeur correspondante de Y estY0 = Y |x0 = 0 + 1x0 + 0. On estime ponctuellement Y0 parY0 = 0 + 1x0.

    La statistiqueY0 Y0

    MSE

    [1 + 1n +

    (Xx0)2SXX

    ]suit une loi de Student a` n 2 degres de liberte.Theore`meIntervalle de prevision pour la valeur de Y en x0 :

    Y0 = Y0 t/2;n2MSE

    [1 +

    1n+(X x0)2SXX

    ].

    MTH2302D: regression 23/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Remarques : IC vs IPI Les longueurs des deux types dintervalles croissent lorsque x0

    seloigne de X.

    I LIC de la droite de regression ne convient pas pour effectuerdes previsions puisquil concerne la vraie reponse moyenne aupoint X = x0, soit un parame`tre de la population, et non unenouvelle observation, i.e. une nouvelle valeur pour la v.a. Y .

    I LIP en x0 est toujours plus grand que lIC en x0 car il dependde lerreur associee aux futures observations.

    I LIP prend en compte une nouvelle observation, dou` uneaugmentation de 2 'MSE de la variance.

    I LIP nest valide que pour une nouvelle observation a` la fois.Pour une serie de nouvelles observations, il faut mettre a` jourle mode`le au fur et a` mesure.

    I Voir fichier Excel.

    MTH2302D: regression 24/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)a` partir des donnees du tableau precedent, on a trace lintervalle deprevision pour = 5% :

    18

    38

    58

    78

    98

    118

    50 70 90 110 130 150 170 190 210 230 250

    donnes

    droite de rgression

    sous-approx.

    sur-approx.

    MTH2302D: regression 25/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Tests dhypothe`ses pour 0

    La distribution

    t0 =0 0,0

    MSE

    [1n +

    X2

    SXX

    ] Tn2permet de tester des hypothe`ses du type

    H0 : 0 = 0,0H1 : 0 6= 0,0

    On rejette H0 au seuil si |t0| > t/2;n2.

    MTH2302D: regression 26/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Tests dhypothe`ses pour 1

    La distribution

    t0 =1 1,0MSE/SXX

    Tn2

    permet de tester des hypothe`ses du type

    H0 : 1 = 1,0H1 : 1 6= 1,0

    On rejette H0 au seuil si |t0| > t/2;n2.

    MTH2302D: regression 27/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Tableau danalyse de la variance

    Linformation donnee par les valeurs SY Y , SSE et SSR estpresentee dans un tableau danalyse de la variance :

    Source de Somme Nombre Moyennevariation des carres de d.d.l. des carres F0

    Regression SSR 1 MSR =SSR1

    MSRMSE

    Residus SSE n 2 MSE = SSEn 2

    Total SST = SY Y n 1

    MTH2302D: regression 28/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Signification de la regressionIl sagit de tester les hypothe`ses

    H0 : 1 = 0H1 : 1 6= 0

    Accepter H0 implique que lon conclut quil ny a pas de relationlineaire entre X et Y . Ceci peut signifier que

    I La relation entre X et Y nest pas lineaire.I La variation de X influe peu ou pas sur la variation de Y .

    Au contraire, rejeter H0 implique que lon conclut que la variationde X influe sur la variation de Y .

    Le crite`re est : rejeter H0 au seuil si F0 > F;1,n2, ou encore sila valeur-P calculee est petite, avec valeur-P=P (F1,n2 F0).

    MTH2302D: regression 29/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 : tableau danalyse de la variance

    Source de Somme Nombre Moyennevariation des carres de d.d.l. des carres F0

    Regression SSR = 1924.88 1 MSR = 1924.88 2131.57

    Residus SSE = 7.22 8 MSE = 0.90

    Total SST = 1932.10 9

    P -val. : P (F1,8 F0) ' 5.35 1011 < = 5% on rejette H0.

    MTH2302D: regression 30/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Siginification de la regression (suite)

    On ne rejette pas H0 :

    y

    x

    y

    x

    MTH2302D: regression 31/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Siginification de la regression (suite)

    On rejette H0 :

    y

    x

    y

    x

    MTH2302D: regression 32/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 33/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Rappel des hypothe`ses pour la regression lineaire

    Tout ce qui a ete fait jusquici suppose que

    I Pour chaque X, E() = 0 et V() = 2 est constante.I Les erreurs sont non correlees.I Les erreurs sont distribuees normalement.

    On veut verifier, apre`s que les observations soient faites, si ceshypothe`ses sont satisfaites.

    MTH2302D: regression 34/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Analyse graphique des residusPour verifier lhypothe`se sur 2, on peut tracer le graphe despoints (Yi, Ei) ou (Xi, Ei). Les situations possibles sont illustreesci-dessous.

    Situation a) : Convenable :e

    y

    i

    i^

    0

    MTH2302D: regression 35/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Analyse graphique des residus (suite)Situation b) : La variance augmente avec la valeur de Yi (ou Xi),donc 2 nest pas constante :

    e

    y

    i

    i^

    0

    MTH2302D: regression 36/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Analyse graphique des residus (suite)

    Situation c) : La variance 2 nest pas constante :

    e

    y

    i

    i^

    0

    MTH2302D: regression 37/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Analyse graphique des residus (suite)

    Situation d) : Le mode`le lineaire nest pas approprie :

    e

    y

    i

    i^

    0

    MTH2302D: regression 38/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Test de la normalite des residus

    Si les residus Ei sont normalement distribues alors les erreurs i lesont aussi.

    On peut tester si les residus suivent une loi normale avec :

    I Un histogramme.

    I Un test de normalite (par ex. Shapiro-Wilk).

    I Un graphique de probabilite normal des Ei.

    MTH2302D: regression 39/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)Graphe des points (Yi, Ei) :

    Predicted vs. Residual ScoresDependent variable: Rend

    40 45 50 55 60 65 70 75 80 85 90 95

    Predicted Values

    -1,6

    -1,4

    -1,2

    -1,0

    -0,8

    -0,6

    -0,4

    -0,2

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    1,2

    1,4

    Res

    idua

    ls

    0,95 Conf.Int.

    MTH2302D: regression 40/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Exemple 1 (suite)Graphe de probabilite normal des Ei :

    Normal Probability Plot of Residuals

    -1,6 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4

    Residuals

    -2,0

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    2,0

    Exp

    ecte

    d N

    orm

    al V

    alue

    MTH2302D: regression 41/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Coefficient de determination

    Le coefficient de determination du mode`le de regression lineaire est

    R2 =SSRSY Y

    =21SXXSY Y

    = 1 SSESY Y

    .

    Le coefficient R2 mesure le pourcentage de la variabilite totaleSY Y qui est expliquee par le mode`le.

    Si R2 est proche de 1, alors le mode`le semble adequat.

    Exemple 1 : R2 ' 99.63%.

    MTH2302D: regression 42/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    1. Introduction

    2. Regression lineaire simple

    3. Estimation des parame`tres

    4. Intervalles de confiance et tests

    5. Analyse des residus

    6. Correlation

    MTH2302D: regression 43/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Coefficient de correlationRappel : La correlation entre deux variables aleatoires X et Y estmesuree par le coefficient

    =Cov(X,Y )V(X)V(Y )

    .

    DefinitionLe coefficient de correlation echantillonnal est

    r =SXYSXXSY Y

    .

    Le coefficient de correlation est estime ponctuellement par r.

    Exemple 1 : r ' 99.81%.MTH2302D: regression 44/45

  • 1/6 2/6 3/6 4/6 5/6 6/6

    Interpretation du coefficient de correlation

    On peut montrer que 1 r 1.I Si r = 1 ou r = 1 alors il y a correlation parfaite entre X etY et les points (Xi, Yi) sont tous sur la droite de regression.

    I Si r = 0 alors il ny a pas de correlation entre X et Y et lespoints (Xi, Yi) sont disperses au hasard.

    I Si 0 < r < 1 alors il y a correlation positive faible, moyenneou forte entre X et Y . Dans ce cas, une augmentation de Xentrane une augmentation de Y .

    I Si 1 < r < 0 alors il y a correlation negative faible, moyenneou forte entre X et Y . Dans ce cas, une augmentation de Xentrane une diminution de Y .

    MTH2302D: regression 45/45

    1. Introduction2. Rgression linaire simple3. Estimation des paramtres4. Intervalles de confiance et tests5. Analyse des rsidus6. Corrlation