25
TECHNIQUES PRÉDICTIVES DU DATA MINING MODÈLES PARAMÉTRIQUES : RÉGRESSION LINÉAIRE MOHAMED HENY SELMI E COLE S UPÉRIEURE PR IVÉE D' I NGÉNIERIE ET DE T ECHNOLOGIES

Data mining régression linéaire

Embed Size (px)

Citation preview

TECHNIQUES PRÉDICTIVES DU DATA MINING

MODÈLES PARAMÉTRIQUES :

RÉGRESSION LINÉAIRE

MOHAMED HENY SELMI

ECO LE SU PÉRIEURE PR IVÉE D 'INGÉNIERIE ET DE TECH N OLOGIES

RAPPEL SUR LE PRINCIPE DES

TECHNIQUES PRÉDICTIVES

La prédiction consiste à estimer la valeur d’une variable continue (dite ≪ à expliquer ≫,≪ cible ≫,

en fonction de la valeur d’un certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou ≪ indépendantes ≫)

Cette variable ≪ cible ≫ peut être par exemple :

le poids (en fonction de la taille)

le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier)

la consommation d’électricité (en fonction de la température

extérieure et de l’épaisseur de l’isolation)

Mohamed Heny SELMI © ESPRIT [email protected]

BESOIN DE LA RÉGRESSION

LINÉAIRE

Pour estimer la relation entre une variable dépendante (Y ) quantitative

et plusieurs variables indépendantes (X1, X2, …)

Un modèle de régression d'une variable expliquée sur une ou plusieurs

variables explicatives dans lequel on fait l'hypothèse que la fonction qui

relie les variables explicatives à la variable expliquée est linéaire dans ses

paramètres.

Mohamed Heny SELMI © ESPRIT [email protected]

CADRE DU MODÈLE

LINÉAIRE

Dans le modèle linéaire simple : X et Y deux variables continues

Les valeurs xi de X sont contrôlées et sans erreur de mesure

On observe les valeurs correspondantes y1, …, yn de Y

Exemples :

X peut être le temps et Y une grandeur mesurée à différentes dates

Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour différentes valeurs de l’intensité X du courant

Mohamed Heny SELMI © ESPRIT [email protected]

L’ANALYSE DE LA

RÉGRESSION

L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes)

Régression linéaire simple: une variable indépendante

En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes.

Mohamed Heny SELMI © ESPRIT [email protected]

L’ANALYSE DE LA RÉGRESSION

Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts ...

),...,,,( 321 nXXXXfY

Coût du loyer Nombre de pièces

Services offerts (piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …

Mohamed Heny SELMI © ESPRIT [email protected]

TYPES DES ANALYSES DE

RÉGRESSION

SIMPLE

si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X))

MULTIPLE

si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi))

Mohamed Heny SELMI © ESPRIT [email protected]

RÉGRESSION LINÉAIRE

MULTIPLE

MODÈLE GAUSSIEN

Equation de régression multiple :

Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives :

Où β0, β 1, β 2, . . . , βp sont les paramètres et ε est un bruit aléatoire représentant le terme d’erreur.

PS: on suppose l’indépendance linéaire des Xi

Mohamed Heny SELMI © ESPRIT [email protected]

pp XXXY ...22110

LES TERMES DE

L’ÉQUATION

Mohamed Heny SELMI © ESPRIT [email protected]

ipipiii xxxy ...22110

ième observation

de Y

Terme constant

Influence de la

variable X1

Influence de

la variable Xp

Résidu de la ième

observation

ECRITURE MATRICIELLE DU

MODÈLE

Mohamed Heny SELMI © ESPRIT [email protected]

Xy

xx

xx

y

y

n

p

pnn

p

n

1

1

0

,,1

,11,11

1

1

LE PROCESSUS

D’ESTIMATION

Estimation des coefficients de régression / méthode des moindres carrés ordinaires :

Le principe de l’estimation des coefficients de régression :

Mohamed Heny SELMI © ESPRIT [email protected]

p,...,,, 210

n

i

ii

n

i

i yy1

2

1

2 )ˆ(

ESTIMATION DES

COEFFICIENTS DU MODÈLE

La méthode des moindres carrés donne pour résultat :

Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une

unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine : C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.

Mohamed Heny SELMI © ESPRIT [email protected]

YXXX TT 1ˆ

COEFFICIENTS DE

RÉGRESSION ET TESTS

Mohamed Heny SELMI © ESPRIT [email protected]

COEFFICIENTS DE

RÉGRESSION ET TESTS

Mohamed Heny SELMI © ESPRIT [email protected]

SOMME DES CARRÉS

Mohamed Heny SELMI © ESPRIT [email protected]

TEST GLOBAL DU MODÈLE

Mohamed Heny SELMI © ESPRIT [email protected]

COEFFICIENT DE

DÉTERMINATION

• R² = SCR / SCT

• R² = proportion de variation de la variable cible expliquée par toutes les variables explicatives

• Bon ajustement si R² proche de 1

• R² est biaisé (optimiste car croissant avec le nombre de

variables) et on lui substitue le R² ajusté :

Mohamed Heny SELMI © ESPRIT [email protected]

L’APPORT MARGINAL DE XJ

EST-IL SIGNIFICATIF ?

Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +

Test : H0 : j = 0 (On peut supprimer Xj)

H1 : j 0 (Il faut conserver Xj)

Exemple : indiquer les variables significatives du problème !

Mohamed Heny SELMI © ESPRIT [email protected]

Coefficientsa

3129.231641.3554.879.000

4.4231.5882.785.009

1.6763.291.509.614

-13.5268.305-1.629.114

-3.4106.569-.519.608

1.924.7782.474.019

8.5471.8264.679.000

1.4972.771.540.593

-.022.401-.054.958

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model

1

BStd. Error

Unstandardized

Coefficients

tSig.

Dependent Variable: VENTESa.

SÉLECTION DES VARIABLES

RÉGRESSION PAS À PAS DESCENDANTE

(BACKWARD)

i. On part du modèle complet.

ii. A chaque étape, on enlève la variable Xj ayant l’apport marginal le

plus faible à condition que cet apport soit non significatif

Mohamed Heny SELMI © ESPRIT [email protected]

EXEMPLE : CAS DE VENTES

SEMESTRIELLES

Variable à expliquer :

Y = Ventes semestrielles

Variables explicatives :

X1 = Marché total

X2 = Remises aux grossistes

X3 = Prix

X4 = Budget de Recherche

X5 = Investissement

X6 = Publicité

X7 = Frais de ventes

X8 = Total budget publicité de la branche

Mohamed Heny SELMI © ESPRIT [email protected]

PREMIÈRE

ÉTAPE

Mohamed Heny SELMI © ESPRIT [email protected]

Coefficientsa

3129.231 641.355 4.879 .000

4.423 1.588 2.785 .009

1.676 3.291 .509 .614

-13.526 8.305 -1.629 .114

-3.410 6.569 -.519 .608

1.924 .778 2.474 .019

8.547 1.826 4.679 .000

1.497 2.771 .540 .593

-2.15E-02 .401 -.054 .958

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model

1

B Std. Error

Unstandardized

Coefficients

t Sig.

Dependent Variable: VENTESa.

Mode l Summary

.898a .806 .752 256.29

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Total publicité de la branche,

Marché total, Remises aux grossistes, Budget de

recherche, Investissements, Publicité, Prix, Frais de

ventes

a.

TPUB = Total budget publicité de la branche

DEUXIÈME

ETAPE

Mohamed Heny SELMI © ESPRIT

[email protected]

Coefficientsa

3115.648 579.517 5.376 .000

4.426 1.561 2.836 .008

1.706 3.191 .535 .597

-13.445 8.029 -1.675 .104

-3.392 6.451 -.526 .603

1.931 .756 2.554 .016

8.558 1.784 4.798 .000

1.482 2.710 .547 .588

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

Model

1

B Std. Error

Unstandardized

Coefficients

t Sig.

Dependent Variable: VENTESa.

Model Summaryb

.898a .806 .760 251.99

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Frais de ventes, Remises aux

grossistes, Publicité, Investissements, Budget de

recherche, Prix , Marché total

a.

Dependent Variable: Ventesb.

BR = Budget de Recherche

TROISIÈME

ÉTAPE

Mohamed Heny SELMI © ESPRIT

[email protected]

Model Summaryb

.897a .804 .766 249.04

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Frais de ventes, Remises aux

grossistes, Publicité, Investissements, Prix , Marché

total

a.

Dependent Variable: Ventesb.

Coefficientsa

3137.547 571.233 5.493 .000

4.756 1.412 3.368 .002

1.705 3.153 .541 .593

-14.790 7.521 -1.966 .058

1.885 .742 2.539 .016

8.519 1.761 4.837 .000

.950 2.484 .382 .705

(Constant)

MT

RG

PRIX

INV

PUB

FV

Model

1

B Std. Error

Unstandardized

Coefficients

t Sig.

Dependent Variable: VENTESa.

FV = Frais de ventes

QUATRIÈME

ÉTAPE

Mohamed Heny SELMI © ESPRIT

[email protected]

Model Summaryb

.896a .803 .772 245.69

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Publicité, Remises aux

gross istes, Marché total, Investissements, Prix

a.

Dependent Variable: Ventesb.

Coefficientsa

3084.009 546.374 5.645 .000

5.222 .704 7.415 .000

1.700 3.111 .546 .589

-13.467 6.589 -2.044 .049

1.984 .686 2.893 .007

8.328 1.666 4.998 .000

(Constant)

MT

RG

PRIX

INV

PUB

Model

1

B Std. Error

Unstandardized

Coefficients

t Sig.

Dependent Variable: VENTESa.

RG = Remises aux grossistes

CONDITION D’ARRÊT

Mohamed Heny SELMI © ESPRIT

[email protected]

Coefficientsa

3084.009 546.374 5.645 .000

5.222 .704 7.415 .000

1.700 3.111 .546 .589

-13.467 6.589 -2.044 .049

1.984 .686 2.893 .007

8.328 1.666 4.998 .000

(Constant)

MT

RG

PRIX

INV

PUB

Model

1

B Std. Error

Unstandardized

Coefficients

t Sig.

Dependent Variable: VENTESa.

Toutes les « Signification » < 0.05