Download pdf - Choix du modèle - unistra.fr

Les critères de choixProcédures de sélection de variables

Deux variantes des méthodes précédentesProcédure de régression stagewise

Quelques conclusions

Choix du modèle

Frédéric Bertrand et Myriam Maumy1

1IRMA, Université Louis PasteurStrasbourg, France

Master 1ère Année 11-02-2008

Frédéric Bertrand et Myriam Maumy Choix du modèle




Critère du R2

Critère du R2 ajustéLe critère du Cp de MallowsLes critères AIC et AICcLe critère BIC

Il existe plusieurs critères pour sélectionner (p − 1)variables explicatives parmi k variables explicativesdisponibles.

Le critère du R2 se révèle le plus simple à définir.





Critère du R2


Un inconvénient majeur du R2 : Il augmente de façonmonotone avec l’introduction de nouvelles variables mêmesi celles-ci sont peu corrélées avec la variable expliquée.

Pour parer à cet inconvénient, il est conseillé de setourner vers l’utilisation des alternatives suivantes :

le R2 ajustéle Cp de Mallows qui est un autre critère relatif au biais.les critères AIC et AICc.le critère BIC.

Ces six critères vont être maintenant présentés.





Critère du R2


Le coefficient de détermination multiple R2 :

Il a déjà été introduit dans le cours portant sur le modèlelinéaire.

C’est une mesure qui permet d’évaluer le degréd’adéquation du modèle.

Lors de l’introduction du test F partiel : accroissement deR2 au fur et à mesure de l’introduction de variables dans lemodèle. Il atteint son maximum lorsque toutes lesvariables disponibles au départ sont incluses.





Critère du R2


Pour comparer deux modèles ayant le même nombrede variables explicatives : comparer les R2 obtenus etchoisir le modèle pour lequel R2 le plus grand.

Pour comparer un modèle avec (p − 1) variables avecun modèle (p − 1 + r) variables : utiliser le test du Fpartiel.

Que nous dit ce test ?Ce test dit si l’introduction des variables supplémentairesaugmente suffisamment le R2 ou non.





Critère du R2


Le coefficient de détermination multiple ajustéR2

aj :

Introduire un R2 qui concerne la population et non plusl’échantillon défini par :

R2pop = 1− σ2

σ2(Y ).

Estimer R2pop par :

R2aj = 1− s2

s2(Y )= 1− SCres

SCtot

n − 1n − p

.





Critère du R2


Propriété sur R2aj :

R2aj< R2 dès que p ≥ 2.

R2aj peut prendre des valeurs négatives.

Intérêts de R2aj :

R2aj n’augmente pas forcément lors de l’introduction de

variables supplémentaires dans le modèle.possibilité de comparer deux modèles n’ayant pas lemême nombre de variables à l’aide du R2

aj et choisir lemodèle pour lequel R2

aj est le plus grand.





Critère du R2


Le critère du Cp de Mallows

Le critère du Cp de Mallows est défini par :

Cp =SCres

σ̂2− (n − 2p)

Mais il y a un problème ! : Lequel ?On ne peut plus estimer σ2 par

s2 =SCres

n − p.

Pourquoi ?

Car Cp vaudrait toujours p et alors il ne serait plus intéressant.





Critère du R2


Que fait-on dans la pratique ?

On estime σ2 par le s2 du modèle qui fait intervenir toutesles k variables explicatives du modèle à disposition.

Pour ce modèle on a : Cp = p. Et pour les autres ? Cpprendra d’autres valeurs que p.

On choisit parmi les modèles le modèle où Cp de Mallowsest le plus proche de p.





Critère du R2


Le critère d’information d’Akaike (AIC)

Le critère AIC s’applique aux modèles estimés par uneméthode du maximum de vraisemblance : les analyses devariance, les régressions linéaires multiples, les régressionslogistiques et de Poisson peuvent rentrer dans ce cadre.

Le critère AIC est défini par :

AIC = −2 log L̃ + 2k

où L̃ est la vraisemblance maximisée et k le nombre deparamètres dans le modèle.Avec ce critère, la déviance du modèle −2 log (L̃) est pénaliséepar 2 fois le nombre de paramètres.





Critère du R2


L’AIC représente donc un compromis entre le biais, diminuantavec le nombre de paramètres, et la parcimonie, volonté dedécrire les données avec le plus petit nombre de paramètrespossibles.

La rigueur voudrait que tous les modèles comparésdérivent tous d’un même « complet » inclus dans la listedes modèles comparés.Il est nécessaire de vérifier que les conditionsd’utilisation du modèle complet et de celui sélectionnésont remplies.Le meilleur modèle est celui possédant l’AIC le plusfaible.





Critère du R2


Le critère d’information d’Akaike corrigé (AICc)

Lorsque le nombre de paramètres k est grand par rapport aunombre d’observations n, c’est-à-dire si N/k < 40, il estrecommandé d’utiliser l’AIC corrigé.Le critère d’information d’Akaike corrigé, AICc , est défini par :

AICc = AIC +2k(k + 1)

n − k − 1.

Hurvich, C. M. and Tsai, C.-L., 1995. Model selection forextended quasi-likelihood models in small samples. Biometrics51 : 1077-1084.





Critère du R2


Le critère BIC

Le Bayesian information criterion BIC est défini par :

BIC = −2 log (L̃) + k log (n).

Il est plus parcimonieux que le critère AIC puisqu’il pénaliseplus le nombre de variables présentent de le modèle.

Ripley, 2003, souligne que l’AIC a été introduit pour retenir desvariables pertinentes lors de prévisions, et que le critère BICvise la sélection de variables statistiquement significative dansle modèle.





Recherche exhaustiveLes méthodes de type pas à pasRecherche exhaustiveMéthode descendanteMéthode ascendanteProcédure stepwise

Plusieurs types de procédures de sélection devariables :

la recherche exhaustive

les méthodes de type pas à pas.

L’efficacité de ces méthodes n’est pas démentie mais il estimpossible de se fier aux résultats fournis par un programmeinformatique.






Quant à décider ou supprimer une variable dans un modèle, ilfaut conserver :

une part d’intuition

une part de déduction

une part de synthèse.

Surtout ne pas oublier l’objectif recherché !






Exemples :

Pour rendre l’équation utile à des fins de prévision, il estsouhaitable que le modèle contienne un maximum devariables explicatives afin d’en augmenter le pouvoirexplicatif.

En raison du coût élevé relatif à l’obtention d’informationspour un grand nombre de variables explicatives, l’analystesouhaite avoir un modèle avec un minimum de variablesexplicatives.






Pour obtenir un compromis entre ces deux extrêmes, lestatisticien dispose d’une gamme de méthodes :

la recherche exhaustivela méthode descendantela méthode ascendantela régression stepwisedeux variantes des quatre méthodes précédentesla régression stagewise.

Toutes ces procédures ne mènent pas forcément à la mêmesolution quand elles sont appliquées au même problème.






Lorsque le nombre k de variables explicatives à dispositionn’est pas trop élevé, il est envisageable de considérer tous lesmodèles possibles.

On aCr

k =k !

r !(k − r)!

modèles différents faisant intervenir r variablesexplicatives.Cela fait

k∑r=0

Crk = 2k

modèles possibles à considérer.On choisit ensuite le modèle pour lequel, par exemple, le R2

ajest le maximum.






Les méthodes de type pas à pas consistent à considérerd’abord un modèle faisant intervenir un certain nombre devariables explicatives. Puis on procède par élimination ou ajoutsuccessif de variables.

On parle de la méthode descendante lorsqu’on éliminedes variables (elle sera développée dans le paragraphe 4)On parle de la méthode ascendante lorsqu’on ajoute desvariables (elle sera développée dans le paragraphe 5).La méthode stepwise est une combinaison de ces deuxméthodes (elle sera développée dans le paragraphe 6).






La recherche exhaustive

est une méthode fastidieuse et difficile à utiliser sans unordinateur rapide.

Pourquoi ?

Il faut calculer toutes les régressions possibles impliquant unsous-ensemble des k variables explicatives à disposition, soitun total de 2k régressions.






Que fait-on ensuite ?

Ces équations sont réparties selon le nombre r devariables explicatives qu’elles contiennent.Chaque ensemble d’équations est ordonné selon le critèrechoisi, souvent le R2 ou l’AIC.Les meilleures équations de régression issues de ceclassement sont ensuite sélectionnées pour un examenplus détaillé.






Méthode descendante

(ou élimination en arrière) est une simplification de la méthodede la recherche exhaustive.

En quoi est-elle une simplification ?

Cette méthode examine non pas toutes les régressionspossibles mais uniquement une régression pour chaquenombre r de variables explicatives.






En pratique comment fait-on ?

Calculer la régression pour le modèle incluant toutes les kvariables explicatives à diposition.

Effectuer un test de Student pour chacune des variablesexplicatives. Deux cas se présentent :

Les variables sont trouvées significatives. Ce modèle estalors choisi. On stoppe là notre analyse.Éliminer la variable la moins significative du modèle.

Recommencer le processus avec une variable en moins.

Le modèle final est donc un modèle au sein duquel toutes lesvariables sont significatives.






Conclusions :

La méthode descendante est très satisfaisante pourl’utilisateur préférant avoir toutes les variables possiblesafin de ne rien ignorer.

C’est une procédure plus économique en terme de tempset d’interprétation

Mais il y a un inconvénient majeur. Il n’est plus possible deréintroduire une variable une fois qu’elle a été supprimée !






Méthode ascendante (ou sélection en avant) :

C’est également une simplification de la méthode de larecherche exhaustive.

Cette méthode procéde dans le sens inverse de laméthode descendante.

Cette méthode examine un modèle avec une seulevariable explicative puis introduction une à une d’autresvariables explicatives.






En pratique comment fait-on ?

Effectuer les k régressions possibles avec une seulevariable explicative. Pour chacune d’elles, effectuer le testde Student. Retenir le modèle pour lequel la variableexplicative est la plus significative.

Effectuer les (k − 1) régresions possibles avec deuxvariables explicatives. Pour chacune d’elles, effectuer letest de Student pour la nouvelle variable. Retenir lemodèle pour lequel la variable est la plus significative. Siaucune variable est retenue, alors on stoppe le processus.






SinonRéitérer le processus en effectuant les (k − 2) régressionspossibles avec trois variables explicatives. Pour chacuned’elles, effectuer le test de Student pour la nouvellevariable. Retenir le modèle pour lequel la variable est laplus significative. Si aucune variable est retenue, alors onstoppe le processus.

SinonRéitèrer le processus en effectuant les (k − 3) régressionspossibles avec quatre variables explicatives...

Le processus se termine lorsqu’on ne peut plus introduire desvariable significatives dans le modèle.






Parmi les méthodes présentées, la méthode ascendante estla plus économique.

Les avantages de la méthode ascendante :éviter de travailler avec plus de variables que nécessaire,améliorer l’équation à chaque étape.

L’inconvénient majeur de la méthode ascendante :une variable introduite dans le modèle ne peut plus êtreéliminée.

Le modèle final peut alors contenir des variables nonsignificatives.

Ce problème est alors résolu par la procèdure stepwise.






Procèdure stepwise :

amélioration de la méthode descendante.

Pourquoi ? À chaque étape, on réexamine toutes lesvariables introduites précédemment dans le modèle.

En effet, une variable considérée comme la plussignificative à une étape de l’algorithme peut à une étapeultérieure devenir non significative. Pourquoi cephénomène ?

En raison de ces corrélations avec d’autres variablesintroduites après coup dans le modèle.






Comment remédie-t-on à cela ?

La procédure stepwise propose après l’introduction d’unenouvelle variable dans le modèle :

réexaminer les tests de Student pour chaque variableexplicative anciennement admise dans le modèle,

après réexamen, si des variables ne sont plussignificatives, alors retirer du modèle la moinssignificative d’entre elles.

Le processus continue jusqu’à ce que plus aucune variable nepuisse être introduite ni retirée du modèle.






La procédure stepwise

semble être la meilleure procédure de sélection de variables.

Maisla procédure stepwise peut facilement abuser l’utilisateurqui a tendance à se focaliser exclusivement sur le résultatde la sélection automatique proposé par l’outilinformatique.

En effet, il faut se méfier de certaines situations : celles oùapparait un phénomène de multicolinéarité que nousétudierons dans un prochain chapitre.






Un exemple :

X1 et X2 expliquant significativement Y , sont fortementcorrélées entre elles.

L’introduction de X1 dans le modèle masquera le pouvoirexplicatif de X2.

En effet, l’introduction de X1 en premier va accroitre le R2 alorsque l’introduction ultérieure de X2 provoquera un faible effet.

Et réciproquement.





La première variante des méthodes précédentesLa seconde variante des méthodes précédentes

Premières remarques :

Les méthodes présentées jusqu’ici :ne sélectionnent pas nécessairement le meilleur modèleabsolu,

mais donnent généralement un modèle acceptable.

Des procédures alternatives et combinatoires sont apparues.On présentera très brièvement seulement deux méthodesdans ce cours.






La première méthode : effectuer d’abord la procédurestepwise.

Supposons que le modèle sélectionné contient r variablesexplicatives.Effectuer alors Cr

k régressions possibles utilisant rvariables.Choisir comme modèle final celui pour lequel R2 estmaximal.

D’un point de vue pratique, les améliorations apportées parcette procédure sont faibles...et nécessitent beaucoup decalculs.






La deuxième méthode : utiliser deux seuils designification différents lors de l’utilisation de la méthodestepwise :

un certain seuil (par exemple α = 0, 05) lors de laprocédure d’élimination de variables,

un seuil plus petit (par exemple α = 0, 01) lors de laprocédure d’introduction de variables.






On favorise l’introduction des variables les plus significatives,tout en acceptant de les maintenir dans le modèle si ellesdeviennent par la suite un peu moins significatives.

C’est intéressant d’utiliser cette méthode.

Pourquoi ?

Cette méthode propose un modèle alternatif au modèle donnépar la méthode stepwise tout en maintenant son pouvoirexplicatif.





La procédure de régresion stagewise

diffère des procédures présentées ci-dessus.

Pourquoi ?

La procédure de régresion stagewise n’aboutit pas toujoursà une équation obtenue par la méthode des moindres carrés.





Cette méthode se déroule de la façon suivante :

effectuer la régression avec la variable la plus corréléeavec Y.

Calculer les résidus obtenus avec cette régression.

Considérer ensuite ces résidus comme une nouvellevariable dépendante que l’on veut expliquer à l’aide desvariables explicatives restantes.





Sélectionner ainsi celle d’entre elles qui est la pluscorrélée avec les résidus.

Effectuer une nouvelle régression avec les résidus de lapremière régression dans le rôle de la variable expliquée.

Également calculer les résidus obtenus avec cettenouvelle régression.

Réitérer le processus avce des variables explicativesrestantes, jusquà ce que plus aucune d’entre elles ne soitcorrélée significativement avec les résidus.






D’un point de vue théorique, la recherche exhaustive estla meilleure.Pour les autres méthodes : Des résultats semblablessans nécessiter autant de calculs. Ces derniers dépendentdu choix des seuils de signification utilisés lors desdiverses procédures.Dans la pratique, la procédure stepwise et laprocédure descendante sont les plus utilisées.En cas de doute et si les conditions le permettent, toutesles régressions doivent être examinées.Les autres méthodes peuvent trouver leur utilisation dansdes applications plus spécifiques.