Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
2004/2005 1
METHODES QUANTITATIVES METHODES QUANTITATIVES DE LA GESTIONDE LA GESTION
Bertrand [email protected]
http://homepages.ulb.ac.be/~bmaresc/stateco.htm
2004/2005 2
2
2004/2005 3
Plan du coursPlan du cours1. Introduction
– Statistique, économétrie et aide à la décision
2. Méthodes économétriques (statistique avancée)– Régression multiple– Méthodes de prévision– Logiciels : Excel, SAS
3. Aide à la décision et optimisation (RO)– Aide à la décision multicritère et négociation– Optimisation linéaire– Logiciels : Decision Lab, Excel, MPL 4
4. Analyse de données5. Echantillonnage et sondages
2004/2005 4
1. Introduction1. Introduction
• Contexte• Historique• Prise de décision• Aide à la décision• Modélisation• Principaux outils• Exemples d’applications
3
2004/2005 5
ContexteContexte
Gestion
Statistique
Mathématique
InformatiqueApproche quantitative
en gestion
2004/2005 6
MQG MQG àà la SBSla SBS
BA1, BA2
Mathématique
Statistique
Informatique
BA3
Méthodes
quantitatives
de la gestion
MA
Cours avancés
Recherche opérationnelle
Econométrie
Mémoire
4
2004/2005 7
ContexteContexte• Augmentation de la taille et de la complexité
des organisations.• Division du travail, spécialisation, décentralisation
des responsabilités et de la gestion.• Nouveaux problèmes liés à la spécialisation :
– Plus grande autonomie des départementsau sein des organisations,
– Manque de coordination,– Objectifs conflictuels,– Difficulté d’allouer des ressources limitées aux
départements d’une façon globalement optimale.
2004/2005 8
5
2004/2005 9
2004/2005 10
HistoriqueHistorique22èème guerre mondialeme guerre mondiale
• Allocation de ressources limitées aux opérations militaires.
• Idée : approche scientifique (UK - USA).• “Research on Operations” par des équipes
multidisciplinaires de scientifiques(Cf. “Blackett’s Circus”, UK).
• Grand succès : amélioration de l’efficacité des opérations militaires complexes– déploiement des radars en Angleterre,– determination de la taille des convois,– logistique …
6
2004/2005 11
DDééploiement des radarsploiement des radars
2004/2005 12
DDééploiement des radarsploiement des radars
7
2004/2005 13
Protection des convoisProtection des convois
2004/2005 14
DDéébarquementbarquement
8
2004/2005 15
HistoriqueHistoriqueAprAprèèss--guerreguerre
• Succès des applications militaires.• Intérêt marqué des entreprises pour la RO.• Applications civiles, d’abord dans les grandes
entreprises industrielles :– Ex: industrie pétrolière - programmation linéaire
pour la gestion de la production
• Plus tard, resultats utilisés (à moindre coût) par des organisations plus petites.
• Facteur clé : développement de l’informatique.
2004/2005 16
Prise de DPrise de Déécisioncision
• Décrire la Réalité,• Comprendre la Réalité,• Gérer la Réalité.
2 Approches :• Approche Qualitative,• Approche Quantitative.
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
9
2004/2005 17
Aide Aide àà la Dla Déécisioncision
• Décisions possibles ?• Comment les comparer ?• Préférences, Objectifs ?
Modèle quantitatif
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
2004/2005 18
Aide Aide àà la Dla Déécisioncision
• Approximation de la réalité !Aide à la décision.
Modèle quantitatif
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
10
2004/2005 19
Quelques techniquesQuelques techniques
• Statistique• Programmation mathématique (optimisation)• Aide à la décision de type multicritère• Simulation• PERT/CPM• Gestion des stocks et de la production• Réseaux (transport)• Fiabilité des équipements
2004/2005 20
Quelques applications (1)Quelques applications (1)
• Police patrol officer scheduling in San Francisco– LP, GP, IP → M$11 saved per year, response times
improved by 20%
• Reducing fuel costs in the electric power industry– Probabilistic dynamic programming and simulation,
over M$ 125 savings in purchasing, inventory and shortage costs for 79 electric utilities.
• Gasoline blending at Texaco– NLP, over M$ 30 savings annually
11
2004/2005 21
Quelques applications (2)Quelques applications (2)
• Scheduling trucks at North American Van Lines– Network models and dynamic programming, better
service to customers and M$ 2.5 savings per year.
• Inventory management at Blue Bell– LP and probabilistic inventory models, average
inventory level reduced by 31%.
• Using LP to determine bond portfolios– Maximize expected return subject to constraints
on the level of risk and diversification in the portfolio.
2004/2005 22
Quelques applications (3)Quelques applications (3)
• Using LP to plan creamery production– LP, increased profitability by $ 48,000 per year.
• Equipment replacement at Phillips Petroleum– Equipment replacement models, $ 90,000 savings
per year.
• Where to locate a new airport (Mexico City) ?– Multicriteria model (cost, capacity, access time,
safety, social impacts, noise, environmental impacts).
12
2004/2005 23
StatistiqueStatistique
• Maîtriser les données :– Récolte : sondages– Synthèse : statistique descriptive– Analyse : inférence statistique
• Techniques avancées (économétrie) :– Régression multiple– Méthodes de prévision– Analyse des données– Data mining
2004/2005 24
SondagesSondagesElections aux USA : les sondages se suivent et ne se ressemblent pas RTL.be – 18/09/2004
A moins deux de deux mois des élections présidentielles aux Etats-Unis, les sondages d'opinion sensés donner une vision nette des intentions de vote des Américains se multiplient. Aujourd'hui, une enquête de l'institut Gallup, réalisée entre le 13 et le 15 septembre, donne 55 pour cent d'intentions de vote à l'actuel président républicain, contre
42 pour cent à son adversaire démocrate. Ce résultat marque, souligne Gallup, un "progrès significatif" de George W. Bush par rapport à un autre sondage réalisé juste avant le début de la convention républicaine le 30 août, qui lui donnait une avance de trois points (50 pc, contre 47 pc à John Kerry).
Ces conclusions contredisent deux autres sondages publiés hier et qui donnaient jeudi les deux candidats au coude à coude. Pew a sondé un échantillon des électeurs en deux entre le 8 et le 14 septembre. Ses résultats, explique l'institut, montrent un spectaculaire resserrement de l'écart entre MM. Bush et Kerry. Une nette majorité des électeurs inscrits (52 pc contre 40 pc) se disait prêts à voter Bush entre le 8 et le 10 septembre, quelques jours seulement après la fin de la convention républicaine. Mais quelques jours plus tard, entre le 11 et le 14 septembre, MM. Bush et Kerry étaient à égalité avec 46 pc des voix chacun.
Une troisième étude publiée par l'édition en ligne du Wall Street Journal accordait 48 pc des intentions de vote à M. Kerry, contre 47 pc pour M. Bush. Plusieurs autres sondages publiés depuis la fin de la convention républicaine le 2 septembre accordaient une confortable avance au président Bush, allant jusqu'à 11 points.
13
2004/2005 25
Plan du coursPlan du cours1. Introduction
– Statistique, économétrie et aide à la décision
2. Méthodes économétriques (statistique avancée)– Régression multiple– Méthodes de prévision– Logiciels : Excel, SAS
3. Aide à la décision et optimisation (RO)– Aide à la décision multicritère et négociation– Optimisation linéaire– Logiciels : Decision Lab, Excel, MPL 4
4. Analyse de données5. Echantillonnage et sondages
2004/2005 26
RRéégression multiplegression multiple
• Introduction – Objectifs• Rappels mathématiques• Modèle de régression multiple• Estimation des paramètres• Propriétés• Coefficient de détermination• Prévisions• Tests et intervalles de confiance• Modélisation
14
2004/2005 27
IntroductionIntroduction
• Objectifs– Expliquer : Mettre en relation une variable
dépendante et plusieurs variables explicatives.
– Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives.
• Modèle linéaire– Généralisation de la régression simple (une
seule variable explicative).
2004/2005 28
ModModèèlele
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• ε : terme d’erreur, perturbation.• Estimer les paramètres β1,…,βp à partir d’un
échantillon de n observations :
1 1 2 2 p py x x xβ β β ε= + + + +…
( )1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x xβ β β ε→ = + + + +… …
1,2, ,i n= …
15
2004/2005 29
Exemple 1 Exemple 1 –– MBAMBA
2004/2005 30
Exemple 2 Exemple 2 –– La La QuintaQuinta
16
2004/2005 31
Exemple 2 Exemple 2 (suite)(suite)
2004/2005 32
Rappels mathRappels mathéématiquesmatiques
• Variables aléatoires vectorielles
1
k
yy
y
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
( ) ( ) ( ),i i ii i ij i j
E y Var y Cov y yµ σ σ= = =
( )( )( )ij i i j jE y yσ µ µ= − −
17
2004/2005 33
Rappels mathRappels mathéématiquesmatiques
( )1
k
E yµ
µµ
⎛ ⎞⎜ ⎟= =⎜ ⎟⎜ ⎟⎝ ⎠
( )11 1
1
k
k kk
Cov yσ σ
σ σ
⎛ ⎞⎜ ⎟= = Σ⎜ ⎟⎜ ⎟⎝ ⎠
2004/2005 34
Rappels mathRappels mathéématiquesmatiques
• Matrice de corrélation de y
( )11 1
1
k
k kk
Corr yρ ρ
ρ ρ
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
1 1 1ij
ij ii ij
ii jj
σρ ρ ρ
σ σ= = − ≤ ≤ +
18
2004/2005 35
PropriPropriééttéés de s de ΣΣ
1.
2. Matrice symétrique3. Matrice semi-définie positive
( )( )( )E y yµ µ ′Σ = − −
ij jiσ σ ′= ⇒ Σ = Σ
( )( )( )( )( )( )2
:
0
kx x x E x y y x
E x y
µ µ
µ
′′ ′∀ ∈ Σ = − −
′= − ≥
2004/2005 36
RRèègles de calculgles de calcul
1. avec , kz a h y a h′= + ∈ ∈
( ) ( )( ) ( )( )
( )( )( )2
E z a h E y a hVar z E h y h
E h y y h
h h
µµ
µ µ
′ ′= + = +′ ′= −
′′= − −
′= Σ
19
2004/2005 37
RRèègles de calculgles de calcul
2. avec ,l l kz g Hy g H ×= + ∈ ∈
( ) ( )
( ) ( )( ) ( )( )( )( )( )( )
E z g H E y g H
Cov z E H y H y
E H y y H
H H
µ
µ µ
µ µ
= + = +
′= − −
′ ′= − −
′= Σ
2004/2005 38
ModModèèlele
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• ε : terme d’erreur, perturbation.• Estimer les paramètres β1,…,βp à partir d’un
échantillon de n observations :
1 1 2 2 p py x x xβ β β ε= + + + +…
( )1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x xβ β β ε→ = + + + +… …
1,2, ,i n= …
20
2004/2005 39
EcritureEcriture matriciellematricielle1 1 2 2 1, ,i i i p ip iy x x x i n
y X
β β β ε
β ε
= + + + + =
= +
… …
1 11 1
1
1 1
p
n n p
n n np
p n
p n
y x xy X
y x x
β εβ ε
β ε
×
⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟= ∈ = ∈⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟= ∈ = ∈⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠
Avec :
2004/2005 40
HypothHypothèèsesses
• H1:
• H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur ε.
• H3: Homoscédasticité :
( ) 0 1,2, ,iE i nε = = …
( ) ( )2 , 0 , 1,2, ,i i j
Var Cov i j nε σ ε ε= = = …
21
2004/2005 41
HypothHypothèèsesses
• H3 ⇒
• H4: La matrice X est de rang p
• H4 ⇒–– Les colonnes de X sont linéairement
indépendantes.–
( ) 2
nCov Iε σ=
n p≥
( ) 1: X X −′∃
2004/2005 42
ExemplesExemples
1. MBA
2. La Quinta
1 2 3 41MBA GPA GMAT Workβ β β β ε= × + × + × + × +
0.47 0.06 0.01 0.09MBA
GPA GMAT Work
↓
=+ × + × + ×
22
2004/2005 43
ExemplesExemples
• Cours d’une action :
1
2
cours au moment ˆtaux d'intéret
taux d'inflation
t
t
t
y tx
x
==
=
1 1 2 2 3log log logt t ty x xβ β β ε= + + +
1
1
log élasticitélog
t
t
yx
β ∂→ = =∂
2004/2005 44
ExemplesExemples
• Régression simple
• Régression polynomiale
1 2
1 2
21
py x
x x xβ β ε
=⇒ = + +
= =
2 1
1 2 1
p
p py x x xβ β β β ε−
−= + + + + +…
23
2004/2005 45
Variables indicatrices (0Variables indicatrices (0--1)1)
( )1
2
3
4
note moyenne en 2ème candi sexe 0 ,1note moyenne en 1ère candi
ˆ1 si age 20, 0 sinonˆ1 si age 22, 0 sinon
yxxxx
== = === ≤= >
1 1 2 2 3 3 4 4 5y x x x xβ β β β β ε→ = + + + + +
2004/2005 46
Estimation des paramEstimation des paramèètrestres
• Principe des moindres carrés (MC) :
• Sous forme matricielle :
( ) ( )( )2
1 1 2 21
min n
i i i p ipbi
Q b y b x b x b x=
= − + +∑ …
( ) ( ) ( )
( )2
Q b y Xb y Xb
y y Xb y b X Xb
′= − −
′′ ′ ′= − +
( )1 2, , ,
pb b b b ′= …
24
2004/2005 47
Estimation des paramEstimation des paramèètrestres( ) ( ) ( )
( )
2 2 0dQ b X y X X bdb
X X b X y
′ ′= − + =
′ ′=
( ) ( )
( )
2
2
1
2 définie positive
ˆ
d Q b X Xdb
X X X yβ −
′=
⇓
′ ′=
2004/2005 48
DDééfinitionsfinitions
• Résidus
• Estimateur de σ2
( )1 1 2 2
ˆ
ˆ ˆ ˆ
ˆ
i i i
i i i p ip
i i
r y x
y x x x
y y
β
β β β
′= −
= − + + +
= −
…
2 2
1
1ˆn
ii
rn p
σ=
=− ∑
Valeur observée Valeur ajustée
25
2004/2005 49
PropriPropriééttéés des estimateurs MCs des estimateurs MC
• Non biais :
• Variance-covariance :
( ) ( ) ( )( ) ( )( )
1
1
1
ˆ
E X X X E y
X X X E XX X X X
β
β εβ β
−
−
−
′ ′=
′ ′= +′ ′= =
( ) ( ) 12ˆCov X Xβ σ −′=
2004/2005 50
PropriPropriééttéés des estimateurs MCs des estimateurs MC
( ) ( )( ) ( )( )
1
1
1
ˆ ˆE X X X y
X X X XX X X
β β β
β ε βε
−
−
−
′ ′− = −
′ ′= + −′ ′=
( )( ) ( )( )( ) ( ) ( )
( )
1 1
12
ˆ ˆ ˆ ˆ ˆ( )
=
Cov E E E
X X X E X X XX X
β β β β β
εεσ
− −
−
⎛ ⎞′= − −⎜ ⎟⎝ ⎠′ ′ ′ ′=
′
26
2004/2005 51
• En particulier :
• Si :
L’estimateur MC est de variance minimum parmi les estimateurs convergents.
PropriPropriééttéés des estimateurs MCs des estimateurs MC
( ) ( ) ( ) 12ˆ ˆj jjjj
Var Cov X Xβ β σ −⎡ ⎤ ′= =⎣ ⎦
( )20,i Nε σ∼
2004/2005 52
• Estimateur sans biais de σ2 :
• Résidus :
PropriPropriééttéés des estimateurs MCs des estimateurs MC
( )2 2ˆE σ σ=
1
0 lorsque : 1n
i ii
r i x=
= ∃ ≡∑
27
2004/2005 53
• Comparaison de 2 modèles :
• Qualité du modèle M1 par rapport à M2 ?
Coefficient de dCoefficient de dééterminationtermination
1 1 2 2
1
1:2 :
i i i p i
i i
M y x xM y
β β εθ ε
β= + + + += +
…
2004/2005 54
• Ecart-type du terme d’erreur :
Coefficient de dCoefficient de dééterminationtermination
( )
( ) ( )
22
1 1 11
2
1
2 22
2 11 1
1 ˆ ˆˆ1:
1
1 1ˆˆ2 :1 1
n
i i pi
n
ii
n n
i ii i
M y xn p
rn p
M y y yn n
σ β β
σ θ
=
=
= =
= − − +−
=−
= − = −− −
∑
∑
∑ ∑
…
28
2004/2005 55
• Mesure de qualité de M1 par rapport à M2 :
• Coefficient de détermination corrigé(« adjusted R-square »)
Coefficient de dCoefficient de dééterminationtermination
2
21 21
222
1
1ˆ
1 1 1ˆ ( )1
n
ii
n
ii
rn p R
y yn
σσ
=
=
−− = − =−
−
∑
∑
2004/2005 56
• Interprétation :–
qualité M1 ≈ qualité M2
–
qualité M1 >> qualité M2
Coefficient de dCoefficient de dééterminationtermination
2 2 2
1 2ˆ ˆ0R σ σ≈ ⇒ ≈
2 2 2
1 2ˆ ˆ1R σ σ≈ ⇒
29
2004/2005 57
• Autre mesure :
• Interprétation plus intuitive :
Coefficient de dCoefficient de dééterminationtermination2
2 1
2
1
1( )
n
ii
n
ii
rR
y y=
=
= −−
∑
∑
2 2 2
1 1 1
ˆ ˆ ˆ( ) ( ) ( )n n n
i i i ii i i
y y y y y y= = =
− = − + −∑ ∑ ∑
( )( )
2
2 1
2
1
ˆ ˆ( ) ˆ
( )
n
iii
n
ii
i
y y Var yRVar yy y
=
=
−→ = =
−
∑
∑
2004/2005 58
• Problème :– R2 augmente lorsque l’on ajoute une variable,
même non pertinente, dans le modèle.
• Tableau d’analyse de variance (ANOVA) :
Coefficient de dCoefficient de dééterminationtermination
Total
Résidus
Variables ex.
Carrés moyensDegrés de liberté
Somme des carrés
Source
1p −
n p−
1n −
2
1
n
ii
r=∑ ( )2
1
n
ii
r n p=
−∑2
1
( )n
ii
y y=
−∑ ( )2
1
( ) 1n
ii
y y n=
− −∑
2
1
ˆ ˆ( )n
ii
y y=
−∑ ( )2
1
ˆ ˆ( ) 1n
ii
y y p=
− −∑
30
2004/2005 59
PrPréévisionvision
• Prévision de la variable endogène y pour un jeu de valeurs x0 :
• Modèle linéaire :
• Erreur de prévision :
( )0 01 02 0, , ,
px x x x ′= …
0 1 01 2 02 0 0ˆ ˆ ˆ ˆˆ
p py x x x xβ β β β′→ = + + + =…
( )2
0 0 0 0avec 0,y x Nβ ε ε σ′= + ∼
0 0y y−
2004/2005 60
Erreur de prErreur de préévisionvision
• Moyenne :
• Variance :
( ) ( )0 0 0 0 0
0 0
ˆˆ
0 0
E y y E x x
x x
β β ε
β β
′ ′− = − −
′ ′= − − =
( ) ( )( )( ) ( )
( )( )
0 0 0 0
0 0
2
0 0
12 2
0 0
ˆˆ
ˆ
ˆ
Var y y Var x
Var x Var
x Cov x
x X X x
β β ε
β β ε
β σ
σ σ−
⎛ ⎞′− = − +⎜ ⎟⎝ ⎠
′= − +
′= +
′ ′= +
31
2004/2005 61
Intervalle de prIntervalle de préévisionvision
• A 95%, approximativement :
• Pour la moyenne de y0, à 95% :
( )( )12
0 0 0ˆ ˆ2 1x x X X xβ σ −′ ′ ′± +
( ) 12
0 0 0ˆ ˆ2x x X X xβ σ −′ ′ ′→ ±
( ) ( )0 0 0 0E y E x xβ ε β′ ′= + =
2004/2005 62
Exemple Exemple –– La La QuintaQuinta
Number 3815Nearest 0,9Office space 476Enrollment 24,5Income 35Distance 11,2
Prévision 37,1
Intervalle de prévision25,448,8
Intervalle pour la moyenne33,041,2
Pas rentable !
32
2004/2005 63
Tests et intervalles de confianceTests et intervalles de confiance
• Hypothèse supplémentaire :
• Pour un paramètre :
( )iid
2
1 , , 0,n Nε ε σ… ∼
( ) 1
ˆ
ˆj j
j n p
jj
T tX X
β βσ
−−
−=
′∼
2004/2005 64
Tests et intervalles de confianceTests et intervalles de confiance
• Test de nullité de βj :
• Intervalle de confiance pour βj :
0 1: 0 : 0
j jH Hβ β= ≠
0 ;1 2 si ou si P-value
j n pRH T t α α
− −→ > ≤
( ) 1
;1 2ˆ ˆ
j n p jjt X Xαβ σ −
− −′±
33
2004/2005 65
Tests et intervalles de confianceTests et intervalles de confiance
• P-value :
2004/2005 66
Tests et intervalles de confianceTests et intervalles de confiance
• Test de l’ensemble du modèle :
• Test en F (ANOVA) :
0 1 2 1
1
: 0: au moins un 0
p
j
HH
β β ββ
−= = = =
≠…
( )( ) ( )
2
2
11
R pFR n p
−=
− −
0 1; ;1 si ou si P-value
p n pRH F F α α
− − −→ ≥ ≤
1p
x ≡
34
2004/2005 67
ModModéélisationlisation
• Vérification des hypothèses de base– Analyse des résidus– Analyse des valeurs extrêmes
• Sélection des variables explicatives– Comparaison de modèles– Méthodes de sélection
2004/2005 68
Analyse des rAnalyse des réésidussidus
• Idée : les résidus devraient ne présenter aucune structure particulière.
• Graphiques :– Normalité des résidus,– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables
explicatives,– Résidus en fonction du temps (séries
chronologiques).
35
2004/2005 69
Analyse des rAnalyse des réésidussidus
• Normalité du terme d’erreur ?– Représentation graphique de la distribution
des résidus :
2004/2005 70
Analyse des rAnalyse des réésidussidus• Linéarité de la relation entre y et les variables
explicatives ?– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables explicatives.
36
2004/2005 71
Analyse des rAnalyse des réésidussidus
• Homoscédasticité ?– Résidus en fonction des valeurs prédites.
– Remèdes :• Changement de variable (log y, …),• Moindres carrés pondérés…
Pas Ok : hétéroscédasticité Ok : homoscédasticité
2004/2005 72
Analyse des rAnalyse des réésidussidus
• Corrélation entre erreurs ?– Pour une série chronologique,
autocorrélation d’ordre 1 :
– Statistique de Durbin-Watson :
( )1 1,t tCorrρ ε ε+
=
1 0ρ > 1 0ρ <
( )1ˆ2 1DW ρ= −
37
2004/2005 73
Analyse des rAnalyse des réésidussidus
• En cas d’autocorrélation :– Introduire yt-1 comme variable explicative
(autorégression),– Prendre les différences :
– Modéliser le terme d’erreur :
( )1t t t t ty y y x β ε−
′∆ = − = ∆ +
1t t tε ρε δ−
= + ( )2,iid
t tN Oδ σ∼
2004/2005 74
Valeurs extrêmesValeurs extrêmes
• Valeur extrême (outlier) = observation qui ne suit pas le modèle → valeur très grande ou très petite…– Erreur d’encodage ?– Observation à ne pas inclure dans l’échantillon ?– Cas extrême mais normal ?
• Identification :– Graphiquement,– A l’aide des résidus.
38
2004/2005 75
Valeurs extrêmes vs influentesValeurs extrêmes vs influentes
• Valeurs influentes : ont une grande influence sur l’estimation des paramètres.
• Exemples :
outlier Avec et sans valeur influente
2004/2005 76
Exemples dExemples d’’AscombeAscombe
4
5
6
7
8
9
10
11
yA
2 4 6 8 10 12 14 16xA
Y = 3 + ,5 * X; R^2 = ,667
Graphe de régression
2
3
4
5
6
7
8
9
10
yB
2 4 6 8 10 12 14 16xB
Y = 3,001 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yC
2 4 6 8 10 12 14 16xC
Y = 3,002 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yD
6 8 10 12 14 16 18 20xD
Y = 3,002 + ,5 * X; R^2 = ,667
Graphe de régression
39
2004/2005 77
SSéélection des variableslection des variables
• Variables explicatives doivent être pertinentes.
• Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.
2004/2005 78
Exemple 3 Exemple 3 –– MaisonsMaisons
• Un agent immobilier veut essayer de prédire le prix de vente d’une maison.
• Variables explicatives potentielles :– Surface habitable,– Nombre de chambres,– Superficie du terrain.
• Données historiques sur 100 maisons vendues.
40
2004/2005 79
SSéélection de variableslection de variables
• Variables explicatives pertinentes :– Tests individuels sur les paramètres β.– Attention à la multicolinéarité.
• Principe de parcimonie :– Réduire le nombre de variables explicatives
le plus possible (interprétation du modèle).
• Méthodes de sélection.
2004/2005 80
MMééthodes de sthodes de séélectionlection• « Backward elimination »
– Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0.
• « Forward selection »– Introduire progressivement les variables explicatives
les plus corrélées (corrélation partielle significative) avec y.
• « Stepwise selection »– Méthode « pas à pas » : combine « forward » et
« backward ».
• Exemple : La Quinta