Regression lineaire Multiple (Autosaved) (Autosaved)

REGRESSION LINEAIRE

MULTIPLE

Projet Statistique

yoople [email protected]

Préparé par:

Pierre Robentz CASSION

Pierre Danou PASCAL

Idatson ELYSEE

Emerson SAINT-LOUIS

Introduction

Le problème ?

En dehors de la magie, tous les phénomènes naturels

ont une explication. L’explication de ces phénomènes

est souvent liée à plusieurs facteurs extérieurs.

Considérons que le phénomène qu’on cherche à

expliquer est une variable (tension électrique, intensité

du courant, rendement, croissance, etc.). Soit y cette

variable et x le vecteur contenant les valeurs des divers

facteurs extérieurs influençant sur y. On appellera y la

variable expliquée et x le vecteur des variables

explicatives. Puisque y dépend de x, n’y a-t-il pas une

fonction qui la relie à x? On verra la réponse dans la

suite

Régression

Plus haut, nous nous avons demandé s’il y a une fonction qui relie y à x. Eh bien la réponse

est oui. C’est cette fonction de relation qui définit le terme régression.

Ainsi on peut écrire: Y=A+f(x)+ε. Y variable expliquée, x vecteur des variables

explicatives. f: fonction qui lie x à Y, εle terme d’erreur, A Valeur de Y quand rien n’agit sur

lui.

Régression linéaire

On parle de régression linéaire lorsque la fonction est linéaire.

Régression linéaire simple : C’est une régression linéaire où le vecteur x de l’équation

Y=A+f(x)+εa un seul composant. Ainsi l’équation devient : Y=A+αx+ ε.

Régression linéaire multiple: le vecteur x a plus qu’un seul composant. x(x1,x2,...,xn). On

ecrit alors 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯𝛽𝑛𝑥𝑛 + 𝜀

Pourquoi ce terme d’erreur ?

Bah ouais! Parfois il peut avoir plus de variables explicatives que ce qu’on a pour cette raison

il est judicieux de prévoir un terme d’erreur.

Retour à notre sujet !

Régression linéaire

Multiple

La régression linéaire multiple est une analyse statistique qui décrit les

variations d'une variable endogène ou expliquée associée aux variations de

plusieurs variables exogènes ou explicatives.

Modèle Théorique

Considerons ce tableau:

𝒏𝒐𝒐𝒃𝒔. 𝒙𝟏 𝒙𝟐 …. 𝒙𝒋 … 𝒙𝒑 𝒚

1 𝒙𝟏𝟏 𝒙𝟏𝟐 … 𝒙𝟏𝒋 … 𝒙𝟏𝒑 𝒚𝟏

...

...

...

...

...

...

𝑖 𝒙𝒊𝟏 𝒙𝒊𝟐 … 𝒙𝒊𝒋 … 𝒙𝒊𝒑 𝒚𝒊

...

...

...

...

...

...

𝑛 𝒙𝒏𝟏 𝒙𝒏𝟐 … 𝒙𝒏𝒋 … 𝒙𝒏𝒑 𝒚𝒏

Moy �̅�𝟏 �̅�𝟐 �̅�𝒋 �̅�𝒑 �̅�

E-type 𝒔𝟏 𝒔𝟐 𝒔𝒋 𝒔𝒑 𝒔𝒚

Ce Tableau 1 contient l’information sur n observations.

Ecrivons les equation de tous les 𝑌𝑖:

𝑌1 = 𝛽0 + 𝛽1𝑥11 + 𝛽2𝑥12 + ⋯𝛽𝑝𝑥1𝑝 + 𝜀 1

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖1 + 𝛽2𝑥𝑖2 + ⋯𝛽𝑝𝑥𝑖𝑝 + 𝜀 𝑖

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑌𝑛 = 𝛽0 + 𝛽1𝑥𝑛1 + 𝛽2𝑥𝑛2 + ⋯𝛽𝑝𝑥𝑛𝑝 + 𝜀 𝑖

Cette écriture nous fait découvrir un système d’équation.

Pour mieux manipuler cet ensemble, écrivons-le sous forme matricielle:

Notation matricielle

On a:

Considérons l’unité expérimentale i. On a:


𝑌𝑖 𝑒𝑠𝑡 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑜𝑢 𝑒𝑛𝑑𝑜𝑔è𝑛𝑒 , 𝑐′𝑒𝑠𝑡

𝑢𝑛𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙é𝑎𝑡𝑜𝑖𝑟𝑒

(𝑥𝑖𝑗) 𝑎𝑣𝑒𝑐 𝑖 𝑓𝑖𝑥𝑒 𝑒𝑠𝑡 𝑙𝑒 𝑣𝑒𝑐𝑡𝑒𝑢𝑟 𝑑𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠

𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑒𝑠 𝑜𝑢 𝑒𝑥𝑜𝑔𝑒𝑛𝑒𝑠 𝑓𝑖𝑥é𝑒 𝑝𝑜𝑢𝑟 𝑙′𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛 𝑖

𝐿𝑒𝑠 𝛽𝑗 , 𝑗 = 0,… , 𝑝 𝑠𝑜𝑛𝑡 𝑙𝑒𝑠 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑒𝑠 𝑖𝑛𝑐𝑜𝑛 nus qu’on

determinera en d’autre terme 𝛽𝑗 correspond à l’augmentation de

𝑌𝑖 lorsqu’on augmente 𝑥𝑖𝑗 d’une unite et qu’on maintient les

autres 𝑥𝑘𝑗, avec k différent de j, constant.

𝜀 𝑖 𝑒𝑠𝑡 𝑙𝑒 𝑡𝑒𝑟𝑚𝑒 𝑑′𝑒𝑟𝑟𝑒𝑢𝑟 𝑑𝑒 𝑌𝑖 . 𝐶

′𝑒𝑠𝑡 𝑙𝑒 𝑐𝑜𝑡é 𝑎𝑙𝑒𝑎𝑡𝑜𝑖𝑟𝑒 𝑑𝑒 𝑌𝑖

(

𝑌1

⋮𝑌𝑖

⋮𝑌𝑛)

=

[ 1⋮1

𝑥11

⋮𝑥𝑖1

𝑥12

⋮𝑥𝑖2

⋮ ⋮ ⋮1 𝑥𝑛1 𝑥𝑛2

⋯⋱⋯

𝑥1𝑝

⋮𝑥𝑖𝑝

⋮𝑥𝑛𝑝]

(

𝛽0

𝛽1

𝛽2

⋮𝛽𝑝)

+ (

𝜀1

⋮𝜀𝑖

⋮𝜀𝑛

)

𝑌 = 𝑋 𝛽 + 𝜀

Il est facile de voir que 𝑌 est le vecteur des variables explicatives, X matrice à n lignes et

p+1 colonnes des variables prédictrices, 𝛽 vecteur des paramètres inconnus et 𝜀 celui des

termes d’erreurs.

Les hypothèses

Dans le modèle linéaire multiple , les hypothèses d'exogénéité, de non colinéarité, de non

corrélation des termes d'erreur et d'homoscédasticité doivent être respectées.

Exogeneité : Les variables explicatives ne sont pas corréler au terme d’erreur c’est-a-dire

𝑐𝑜𝑣𝑎𝑟(𝜀𝑗 ,𝑥𝑖𝑘) = 0 , ∀𝑖, 𝑗, 𝑘. Avec 𝑋 constant, on a𝐸(𝜀) = 0⃗ .

Homoscédasticité : ∀𝜀𝑗 ,𝑗=1,…,𝑛, 𝑣𝑎𝑟(𝜀𝑗) = 𝜎2, 𝑎𝑣𝑒𝑐 𝜎 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡.

Non colinearité des termes d’erreur : ∀𝑖, 𝑗, 𝑗 ≠ 𝑖, 𝑐𝑜𝑣𝑎𝑟(𝜀𝑖 , 𝜀𝑗) = 0.

On peut aussi dire que les termes d’erreur doivent suivre une loi normale

centrée réduites.

Un vecteur comme variable aléatoire????????

Il n’est pas nouveau d’entendre parler de vecteur aléatoire en statistique ou

probabilité. Ce qui nous intéresse maintenant est de savoir l'espérance et la

variance d’un vecteur aléatoire.

L’espérance d’un vecteur aléatoire est le vecteur des espérances. Par exemple :

𝐸(𝜀) =

(

𝐸(𝜀1)⋮

𝐸(𝜀𝑗)

⋮𝐸(𝜀𝑛))

La variance d’un vecteur aléatoire est une matrice.

𝑉(𝜀) = (𝑐𝑜𝑣𝑎𝑟(𝜀1, 𝜀1) ⋯ 𝑐𝑜𝑣𝑎𝑟(𝜀1, 𝜀𝑛)

⋮ ⋱ ⋮𝑐𝑜𝑣𝑎𝑟(𝜀𝑛, 𝜀1) ⋯ 𝑐𝑜𝑣𝑎𝑟(𝜀𝑛, 𝜀𝑛)

)

Dans notre cas où les hypothèses ci-dessus sont vérifiées, 𝑉(𝜀) =

𝜎2𝐼𝑑 , 𝑎𝑣𝑒𝑐 𝐼𝑑 𝑑𝑒 𝑡𝑎𝑖𝑙𝑙𝑒 𝑛 × 𝑛.

Estimation des paramètres

En statistique inférentielle, on a toujours comme but d’estimer les paramètres inconnus à partir des

données recueilli lors d’une ou plusieurs observations c’est-à-dire donner une approximation générale

des variables inconnus à partir de quelques observations.

Soit :


Estimer les βi revient à les chercher de façon à ce que la combinaison linéaire des prédicteurs pour

chaque unité d’observation i approche le plus possible des 𝑦𝑖 de nos observations.

Ecriture de la combinaison : 𝑦𝑖 = 𝛽0̂ + 𝛽1̂𝑥𝑖1 + 𝛽2̂𝑥𝑖2 + ⋯𝛽�̂�𝑥𝑖𝑝 + 𝑒𝑖

En prenant ensemble de ces équations, on trouve une équation de cette forme : 𝑌 = 𝑋�̂� + 𝐸

Avec Y vecteurs des réponses observées, �̂� vecteur des estimations, X matrice des

prédicteurs, E vecteur des termes d’erreurs.

Cela revient à chercher ces coefficients de manière à minimiser les erreurs 𝑒 𝑖(résidus

observés). Pour faire cela, on va utiliser la méthode des moindres carrées qui consiste à minimiser la

somme des carrées des écarts.

En prenant

𝑦�̂� = 𝛽0̂ + 𝛽1̂𝑥𝑖1 + 𝛽2̂𝑥𝑖2 + ⋯𝛽�̂�𝑥𝑖𝑝 valeur prédite cour l’unité expérimentale i, on 𝑒𝑖 = 𝑦𝑖 − �̂�𝑖

Méthode des moindres carrées

Cette méthode consiste à chercher les coefficients qui minimisent la somme des carrées des écarts

autrement dit la somme des carrées des résidus ou termes d’erreur ∑𝑒𝑖2.

La solution de ce problème de minimisation est cette fameuse equation : 𝑋′𝑋 �̂� = 𝑋′𝑌

Avec 𝑋′ la matrice transposée de 𝑋.

Pour résoudre cette équation, 1) il est clair que 𝑋′𝑋 soit inversible, 2) le nombre d’observation doit

être supérieure ou égale au nombre de paramètre à estimer.

Propriétés de l’estimateur �̂�

L’estimateur �̂� dit estimateur de moindre carrée est sans biais. Sachant qu’on a par hypothèse

l’exogénéité des variables c’est-à-dire 𝐸(𝜀) = 0⃗ . Montrons que : 𝐸(�̂�) = 𝛽.

Preuve

�̂� = ((𝑋′𝑋)−1𝑋′𝑌) <=> �̂� = ((𝑋′𝑋)−1𝑋′(𝑋𝛽 + 𝜀))�̂� = 𝛽 + (𝑋′𝑋)−1𝑋′𝜀 𝐸(�̂�) =

𝐸(𝛽 + (𝑋′𝑋)−1𝑋′𝜀) => 𝐸(�̂�) = 𝛽 + (𝑋′𝑋)−1𝑋′𝐸(𝜀) => 𝐸(�̂�) = 𝛽 + (𝑋′𝑋)−1𝑋′0⃗ . D’où

le resultat : 𝐸(�̂�) = 𝛽.

Ceci nous montre, en prenant �̂� comme estimateur, en moyenne on tombe sur la vraie valeur

de 𝛽.

Deuxième propriété 𝑉(�̂�) = (𝑋′𝑋)−1𝜎2.

Preuve :

Afin de démontrer cette formule sous sous hypothèse, montrons que l’ième ligne et le jème

colonne de la matrice (𝑋′𝑋)−1est la 𝑐𝑜𝑣𝑎𝑟(𝜀𝑖 , 𝜀𝑗)/𝜎2.

Posons : 𝐶 = (𝑋′𝑋)−1

𝑋′ => �̂� = 𝐶𝑌 => �̂� = (

𝑐11 ⋯ 𝑐1𝑛

⋮ ⋱ ⋮𝑐𝑝1 ⋯ 𝑐𝑝𝑛

) × (

𝑦1

⋮𝑦𝑛

)

Alors �̂�𝑖−1 = ∑ 𝑐𝑖𝑙𝑛𝑙=1 𝑦𝑙 et �̂�𝑗−1 = ∑ 𝑐𝑗𝑘

𝑛𝑘=1 𝑦𝑘.

𝑐𝑜𝑣𝑎𝑟 (�̂�𝑖−1, �̂�𝑗−1) = 𝑐𝑜𝑣𝑎𝑟(∑ 𝑐𝑖𝑙𝑛𝑙=1 𝑦𝑙, ∑ 𝑐𝑗𝑘

𝑛𝑘=1 𝑦𝑘)

𝑐𝑜𝑣𝑎𝑟(∑ 𝑐𝑖𝑙𝑛𝑙=1 𝑦𝑙, ∑ 𝑐𝑗𝑘

𝑛𝑘=1 𝑦𝑘) = ∑ ∑ 𝑐𝑖𝑙

𝑛𝑘=1 𝑛

𝑙=1 𝑐𝑗𝑘 × 𝑐𝑜𝑣𝑎𝑟(𝑦𝑙, 𝑦𝑘) =>

Avec l’hyphothese de Non colinearité des termes d’erreur.

{𝑐𝑜𝑣𝑎𝑟(𝑦𝑙, 𝑦𝑘) = 0 𝑠𝑖 𝑙 ≠ 𝑘

𝑐𝑜𝑣𝑎𝑟(𝑦𝑙, 𝑦𝑘) = 𝑣𝑎𝑟(𝑦𝑘) 𝑠𝑖 𝑙 = 𝑘

Avec 𝑣𝑎𝑟(𝑦𝑘) = 𝜎2 = 𝑣𝑎𝑟(𝜀)

𝑐𝑜𝑣𝑎𝑟 (�̂�𝑖−1, �̂�𝑗−1) = ∑ ∑ 𝑐𝑖𝑘𝑛𝑘=1 𝑛

𝑘=1 𝑐𝑗𝑘𝜎2 => 𝑐𝑜𝑣𝑎𝑟 (�̂�𝑖−1, �̂�𝑗−1) = 𝜎2(𝐶𝐶′)𝑖𝑗 ou le (𝐶𝐶′)𝑖𝑗

est le composant du ieme ligne et jieme colonne de la matrice 𝐶𝐶′.

𝑉(�̂�) = (𝑐𝑜𝑣𝑎𝑟(�̂�0, �̂�0) ⋯ 𝑐𝑜𝑣𝑎𝑟(�̂�0, �̂�𝑛)

⋮ ⋱ ⋮𝑐𝑜𝑣𝑎𝑟(�̂�𝑛, �̂�0) ⋯ 𝑐𝑜𝑣𝑎𝑟(�̂�𝑛, �̂�𝑛)

) = 𝜎2 (

(𝐶𝐶′)00

⋯ (𝐶𝐶′)0𝑛

⋮ ⋱ ⋮(𝐶𝐶′)

𝑛0⋯ (𝐶𝐶′)

𝑛𝑛

) =>

𝐶′ = ((𝑋′𝑋)−1𝑋′)′ => 𝐶′ = 𝑋((𝑋′𝑋)−1)′ => 𝐶′ = 𝑋(𝑋′𝑋)−1

((𝑋′𝑋)−1)′ 𝑒𝑠𝑡 𝑒𝑔𝑎𝑙 (𝑋′𝑋)−1 parce que 𝑋′𝑋 étant symétrique implique que (𝑋′𝑋)−1 l’est

également.

Donc : 𝐶𝐶′ = (𝑋′𝑋)−1𝑋′𝑋(𝑋′𝑋)−1 => 𝐶𝐶′ = (𝑋′𝑋)−1 .

De ce resultat, on obtient : 𝑽(�̂�) = 𝝈𝟐(𝑿′𝑿)−𝟏.

Nous servirons par la suite avec ce résultat pour trouver des intervalles de confiance des paramètres

estimés.

Si on se sert du point moyen, le modèle est parfaitement ajusté c’est-à-dire 𝑦�̅� = 𝛽0̂ + 𝛽1̂�̅�𝑖1 + 𝛽2̂�̅�𝑖2 +

⋯𝛽�̂��̅�𝑖𝑝.

Estimation de la variance des résidus 𝝈𝟐

Definissons 𝑆𝐶𝐸𝑅 comme etant la Somme des Carrés des Ecarts due aux Résidus.

𝑆𝐶𝐸𝑅 = ∑ 𝑒𝑖2

𝑖 .

𝜎2 peut être estimée par ∑(𝑦𝑖−�̂�𝑖)

2

𝑛−𝑝−1=𝑖

𝑆𝐶𝐸𝑅

𝑛−𝑝−1 . Cet estimateur est non biaisé. En effet,

Il est évident que 𝑆𝐶𝐸𝑅

𝜎2 ~𝜒𝑛−(𝑝+1)2 ,et que 𝐸 (

𝑆𝐶𝐸𝑅

𝜎2 ) = 𝑛 − 𝑝 − 1. On a alors : 𝐸 (𝑆𝐶𝐸𝑅

𝑛−𝑝−1) = 𝜎2. On

tombe en moyenne sur la vraie valeur de 𝜎2 alors on peut conclure que notre estimateur n’est pas

biaisés.

Quelques proprietes des residus

1) 𝑆𝐶𝐸𝑅 = ∑ 𝑒𝑖2

𝑖 <=> 𝑆𝐶𝐸𝑅 = 𝐸′𝐸. 𝑎𝑣𝑒𝑐 𝐸 = 𝑌 − 𝑋�̂� , 𝑜𝑛 𝑎 ∶ 𝐸′ = 𝑌′ − �̂�′𝑋′ . Ces

relations impliquent 𝑆𝐶𝐸𝑅 = (𝑌′ − �̂�′𝑋′)(𝑌 − 𝑋�̂�) => 𝑆𝐶𝐸𝑅 = 𝑌′𝑌 − 𝑌′𝑋�̂� −

�̂�′𝑋′𝑌 + �̂�′𝑋′𝑋�̂�

𝑜𝑟 𝑋′𝑋�̂� = 𝑋′𝑌 alors �̂�′𝑋′𝑋�̂� = �̂�′𝑋′𝑌 , 𝑺𝑪𝑬𝑹 = 𝒀′𝒀 − 𝒀′𝑿�̂� .

2) Calcule de 𝑋′𝐸. 𝑋′𝐸 = 𝑋′(𝑌 − 𝑋�̂�) <=> 𝑋′𝐸 = 𝑋′𝑌 − 𝑋′𝑋�̂� . Avec 𝑋′𝑋�̂� = 𝑋′𝑌 , on

trouve que : 𝑋′𝐸 = 𝑋′𝑌 − 𝑋′𝑌. Au final : 𝑿′𝑬 = �⃗⃗� .

Ceci veut dire que

[

1𝑥11

𝑥12

⋮ 𝑥1𝑝

1𝑥21

𝑥22

⋮ 𝑥1𝑝

⋯…⋯

…

1𝑥𝑛1

𝑥𝑛2

⋮𝑥𝑛𝑝]

× [

𝑒1

𝑒2

⋮𝑒𝑛

] =

[ 000⋮0]

C’est equivalent à dire : {∑ 𝑒𝑖𝑖 = 0

∑ 𝒙𝒊𝒋𝒆𝒊𝒏𝒊=𝟏 = 𝟎, ∀𝒋 = 𝟏…𝒑.

Décomposition de la variabilité

SCER : Somme des Carrées des Ecarts due aux résidus ∑ 𝑒𝑖2

𝑖 avec 𝑒𝑖 = 𝑦𝑖 − �̂�𝑖 .

SCEM : Somme des Carrées des Ecarts due au Modèle . ∑ (�̂�𝑖 − �̅�)2𝑖

SCET : Somme des Carrées des Ecarts Totale . ∑ (𝑦𝑖 − �̅�)2𝑖

Propriété

SCET =SCEM +SCER

Cette propriété vient par le fait que : 𝑦𝑖 − �̅� = (�̂�𝑖 − �̅�) + (𝑦𝑖 − �̂�𝑖).

Maintenant nous allons voir un point tres important dans notre sujet. Il s’agit de tester

notre modele.

En premier lieu , nous allons tester globalement notre modele , ensuite faire des test

particulier.

Test global

Tester globalement le système revient à regarder si tous les prédicteurs sont sans effet sur le

modèle ou au moins l’un d’entre eux a un effet sur le modèle.

Hypothèse null (H0 ): Tous les 𝛽𝑗 , avec j=1…n, sont égaux à zéro.

Hypothèse non null (H1 ): Il existe au moins un 𝛽𝑗, avec j=1…n, différent de zéro .

Posons CMR (carrée moyen résiduel)=𝐒𝐂𝐄𝑹

𝑛−𝑃−1= �̂�2 et CMM ( carrée moyen due au modèle

)=𝐒𝐂𝐄𝑴

𝑃

Pour effectuer ce test, nous allons jouer sur la variabilité résiduelle et la variabilité due

modèle.

On sait que quelque soit l’hypothèse 𝐸(�̂�2) = 𝜎2.

Supposons maintenant que H0 soit vrai :

On aura ∑ (�̂�𝑖 − �̅�)2𝑖 = ∑ (�̂�𝑖 −

∑ 𝑦𝑗𝑗

𝑛)2

𝑖 => 𝑆𝐶𝐸𝑀 = ∑ (∑ (�̂�𝑖−𝑦𝑗 )𝑗

𝑛)2

𝑖

H0 vrai=> �̂�𝑖 = �̂�0 => 𝑆𝐶𝐸𝑀 = ∑ (∑ (�̂�0−𝑦𝑗 )𝑗

𝑛)2

𝑖

Ainsi lorsque H0 vrai , E(CMM)= 𝜎2.

Ceci nous montre que la non-influence des prédicteurs n’implique pas que 𝑆𝐶𝐸𝑀 soit nulle.

Puisque le test repose sur la comparaison de la variabilité résiduelle et la variabilité due au

modèle.

𝐹𝑜𝑏𝑠 =

𝑆𝐶𝐸𝑀𝑝

�̂�2 =

𝑆𝐶𝐸𝑀𝑝

𝑆𝐶𝐸𝑅𝑛−𝑝−1

=𝐶𝑀𝑀

𝐶𝑀𝑅.

Avec H0 vraie , on connait la distribution de 𝐹𝑜𝑏𝑠 : 𝑙𝑜𝑖(𝐹𝑜𝑏𝑠) = 𝐹𝑣2=𝑛−𝑝−1𝑣1=𝑝 .

Il est facile de voir lorsque H0 vraie, 𝐹𝑜𝑏𝑠 =𝐶𝑀𝑀

𝐶𝑀𝑅=

�̂�2

�̂�2 = 1.

Loi(𝐹𝑜𝑏𝑠)=𝐹𝑣2=𝑛−𝑝−1𝑣1=𝑝

.

Nous allons élaborer la règle de décision :

En prenant 𝛼(choisit à l’avance) comme étant le risque de première espèce, la limite de la

zone de rejet est définie par le 1 − 𝛼 quantile de la loi 𝐹𝑣2=𝑛−𝑝−1𝑣1=𝑝

.Si 𝐹𝑜𝑏𝑠>𝐹𝑣2=𝑛−𝑝−1𝑣1=𝑝 (1 − 𝛼)

on rejette l’hypothèse null. Sinon , on l’accepte.

Test de signification d’un coefficient de régression (𝜷𝒋 )

Nous venons de tester si notre modèle est significatif en testant regardant si tous les

variables explicatives n’ont aucune influence sur notre variable expliquée. Maintenant la

question que l’on peut se poser est : Peut-on voir si une variable prédictrice a une influence

sur notre variable expliquée ou pas ? Eh bien la réponse est oui. Nous mettre en place une

procédure de test.

Hypothèse null (H0 ): 𝛽𝑗 est égal à zéro.

Hypothèse non null (H1 ): 𝛽𝑗 différent de zéro .

Quel que soit l’hypothèse considérée, on a : 𝑬(�̂�𝒋) = 𝜷𝒋, la variance de �̂�𝒋 est la jeme ligne

et jeme colonne de 𝑽(�̂�) = 𝝈𝟐(𝑿′𝑿)−𝟏 c’est-a-dire (�̂�𝒋) = 𝝈𝟐(𝑿′𝑿)𝒋𝒋−𝟏 = 𝝈�̂�𝒋

𝟐 .

Selon notre hypothese : 𝑙𝑜𝑖(𝜀𝑗)=𝒩(0, 𝝈𝟐). De cette hypothese on deduit que 𝑙𝑜𝑖(�̂�𝑗) =

𝒩(𝜷𝒋,𝝈�̂�𝒋

𝟐 ).

Si on ne connait pas la variance 𝝈𝟐 , on peut l’estimer par : �̂�𝟐 = 𝑪𝑴𝑹 . En estimant 𝝈𝟐 , on peut

trouver l’estimateur �̂��̂�𝒋

𝟐 soit �̂��̂�𝒋

𝟐 = �̂�𝟐(𝑿′𝑿)𝒋𝒋−𝟏.

Le remplacement de 𝝈�̂�𝒋

𝟐 par son estimateur implique que 𝑙𝑜𝑖 (�̂�𝑗−𝛽𝑗

�̂��̂�𝒋

𝟐 ) = 𝑡𝑣=𝑛−𝑝−1.

Sous Hypothèse null (H0 ): 𝑙𝑜𝑖 (�̂�𝑗

�̂��̂�𝒋

𝟐 ) = 𝑡𝑣=𝑛−𝑝−1

C’est l’indicateur 𝑡𝑜𝑏𝑠 =�̂�𝑗

�̂��̂�𝒋

𝟐 qui nous fera dire si on doit rejeter H0 ou pas.

L’hypothese nulle est acceptée si |𝑡𝑜𝑏𝑠| ≤ 𝑡1−𝛼

2⁄

𝑣=𝑛−𝑝−1 sinon on la rejette.

Intervalle de confiance de 𝜷𝒋.

On se sert de la loi �̂�𝒋 standardisée : 𝑙𝑜𝑖 (�̂�𝑗−𝛽𝑗

�̂��̂�𝒋

𝟐 ) = 𝑡𝑣=𝑛−𝑝−1. On choisit notre risque de premiere

espece 𝛼. Les deux bornes de l’intervalle de confiance de �̂�𝒋 est alors : �̂�𝑗 ∓ 𝑡1−𝛼2⁄

𝑛−𝑝−1�̂��̂�𝒋

𝟐.

Prédiction de Y en un point x0

L’une des plus grandes utilités de la régression multiple est la prévision.

Supposons qu’on ait un ensemble de variable prédicatrices, représentées par un vecteur 𝑥0 =

(𝑥01, … , 𝑥0𝑝) 𝑒𝑡 �̃�0 = (1, 𝑥01, … , 𝑥0𝑝) , et qu’on veut trouver la valeur de la variable

expliquée notée Y. Quelle valeur de Y peut-on s’attendre en moyenne en ce point 𝑥0 ? C’est

la quête de cette valeur qui nous fait employer le mot prédiction.

𝑌(𝑥0) = �̃�0𝛽 + 𝜀0.

Notre objectif consiste à chercher la valeur 𝑌 qu’on attend en moyenne en 𝑥0 c’est-a-dire

𝐸(𝑌(𝑥0)). Par hypothèse 𝑙𝑜𝑖(𝜀𝑗) = 𝑁(0, 𝜎2) ce qui implique que 𝐸(𝑌(𝑥0)) = 𝐸(�̃�0𝛽 +

𝜀0) = �̃�0𝛽 <=> (𝑌(𝑥0)) = �̃�0𝛽 . Estimer la valeur 𝑌(𝑥0) attendue en moyenne revient à

estimer 𝛽 ce qui nous fait dire que 𝐸(𝑌(𝑥0))̂ = �̃�0�̂�. Cet estimateur est sans biais. Effet ,

𝐸(�̃�0�̂�) = 𝐸(�̂�0 + �̂�1 𝑥01 + …+ �̂�𝑝𝑥0𝑝) = 𝐸(�̂�0) + 𝐸(�̂�1) 𝑥01 + …+ 𝐸(�̂�𝑝)𝑥0𝑝

𝐸(�̃�0�̂�) = 𝛽0 + 𝛽1𝑥01 + …+ 𝛽𝑝 𝑥0𝑝

𝐸(�̃�0�̂�) = �̃�0𝛽 <=> 𝐸(�̃�0�̂�) = 𝐸(𝑌(𝑥0)) Ceci exprime que l’estimateur �̃�0�̂� est sans biais.

𝑉(�̃�0�̂�) = 𝑐𝑜𝑣𝑎𝑟(∑ �̂�𝑖𝑥0𝑖𝑝𝑖=0 , ∑ �̂�𝑗𝑥0𝑗

𝑝𝑗=0 ) <=> 𝑉(�̃�0�̂�) = ∑ ∑ 𝑥0𝑖𝑥0𝑗𝑐𝑜𝑣𝑎𝑟(�̂�𝑖, �̂�𝑗)

𝑝𝑗=0

𝑝𝑖=0 <=>

Or 𝑜𝑣𝑎𝑟(�̂�𝑖, �̂�𝑗) = ((𝑋′𝑋)−1

)𝑖𝑗𝜎2 . on a alors : 𝑉(�̃�0�̂�) = 𝜎2 ∑ ∑ 𝑥0𝑖 ((𝑋

′𝑋)−1

)𝑖𝑗𝑥0𝑗

𝑝𝑗=0

𝑝𝑖=0 <=>

𝑉(�̃�0�̂�) = 𝜎2�̃�′0 (𝑋′𝑋)−1

�̃�0 = 𝜎�̃�0�̂�2 .

En fin : 𝑙𝑜𝑖(�̃�0�̂�) = 𝑁(�̃�0𝛽, 𝜎�̃�0�̂�2 )

En générale, on ignore 𝜎2 , on l’estime par �̂�𝟐 = 𝑪𝑴𝑹=> �̂��̃�0�̂�2 = �̂�2�̃�′0(𝑋

′𝑋)−1�̃�0.

Déterminons les bornes de l’intervalle de confiance , comme d’habitude , a partir de la loi

student :

�̃�0�̂� ∓ 𝑡1−𝛼2⁄

𝑛−𝑝−1 �̂��̃�0�̂�

2

Exemple de manipulation de données

Nous nous trouvons dans une situation où l’on cherche à expliquer le chiffre d’affaire d’une

entreprise en fonction de la superficie et le nombre de salariés.

Sachant que la régression linéaire multiple nous permet d’expliquer une variable endogène

quantitative en fonction de plusieurs variables exogènes, nous allons utiliser ce modele pour

effectuer cette étude.

Tableau des variables

Variable à expliquer Variables explicatives

Y 𝑥1 𝑥2

Chiffre d’affaire Superficie Nombre de salariés

Le modèle s’écrit alors : 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + 𝜀.

Le problème qui se pose maintenant est d’estimer les paramètres𝛽0, 𝛽1 et 𝛽2.

Pour ce faire on a relevée 10 échantillons de données :

Les échantillons Superficie x1(m2

) Nbre de salariés x2 Chiffre d’affaire y

1 100 24 11

2 600 28 23

3 600 20 20

4 700 23 21

5 700 26 21

6 500 21 13

7 800 28 30

8 300 28 18

9 200 20 7

10 200 25 18

Maintenant nous allons manipuler ces données sur R afin de trouver une estimation de nos

paramètres 𝛽0, 𝛽1 et 𝛽2.

On entre les données :

> supef<-c(100,600,600,700,700,500,800,300,200,200)

> sala<-c(24,28,20,23,26,21,28,28,20,25)

> CA<-c(11,23,20,21,21,13,30,18,7,18)

Superf : pour superficie. Sala : pour nbre de salariés. CA : chiffre d’affaire.

Ensuite on utilise la fonction lm de R pour mettre en place notre modèle linéaire.

> reg.multiple<-lm(CA~supef+sala)

Voici les resultats founis dans R :

> summary(reg.multiple)

Call:

lm(formula = CA ~ supef + sala)

Residuals:

Min 1Q Median 3Q Max

-3.0140 -1.8737 -0.5193 1.6472 3.9668

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -14.218495 7.153199 -1.988 0.08718 .

supef 0.017989 0.003874 4.643 0.00236 **

sala 0.986153 0.299152 3.296 0.01318 *

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.832 on 7 degrees of freedom

Multiple R-squared: 0.8544, Adjusted R-squared: 0.8129

F-statistic: 20.55 on 2 and 7 DF, p-value: 0.001176

Les données présentés ci-dessus nous permet d’affirmer que l’estimation de :

�̂� = −14.218495 + 0.017989𝑥1 + 0.986153𝑥2.

SCER=2.832 avec 7ddl.

Ces données qu’on vient de recolter suffisent largement pour faire plus d’etude sur notre

modèle.

Voyons si notre modele est significatif :

On choisit 𝛼 =5% notre risque de premiere espece : le p-value associé à l’intercept est :

0.08718 est supérieur à 𝛼 ce qui veut dire l’intercept 𝛽0 peut etre omis du modèle.

Le p-value associé à la superficie est 0.00236< 𝛼 ce qui veut dire 𝛽1 est significatif.

Le p-value associé au nombre de salariés est 0.01318< 𝛼 ce qui veut dire 𝛽2 est significatif.

Le p-value globale du modèle est 0.001176< 𝛼 ce qui nous fait dire que le modele est

globalement significatif.

Prevision du model :

Supposons qu’on se trouve dans une entreprise ayant 100m2 de superficie et 24 salariés. A

quel chiffre d’affaire doit-on s’attendre en moyenne ?

La reponse : 𝐸(𝑌(𝑥0))̂ = �̃�0�̂� avec �̃�0 = (1,100,24)

�̃�0�̂� = (1,100,24) (−14.2184950.0179890.986153

) = 11.248077.

Documents

Regression lineaire Multiple (Autosaved) (Autosaved)