Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection

Validation de modèles paramétriques

Atelier de formation A09Plateforme de recherche clinique et évaluative

Anne-Sophie Julien, M.Sc., biostatistique

[email protected]

mailto:[email protected]

Objectifs d’apprentissage

1. Connaître les postulats et les sources de biaisdes principales analyses statistiquesparamétriques

2. Pouvoir vérifier si les résultats obtenus par un modèle d’ANOVA, de régression linéaire oulogistique sont fiables

1

Plan de la présentation1. Définitions et concepts2. Postulats3. Sources de biais statistique4. Pouvoir prédictif5. Exemple de validation d’une ANOVA6. Exemple de validation d’une régression linéaire7. Exemple de validation d’une régression

logistique2

Validation de modèles paramétriques– Postulats

• Hypothèses du modèle doivent être respectés– Sources de biais

• Sélection non aléatoire des sujets• Absence de randomisation• Hypothèses H0 & H1 mal spécifiées• Valeurs influentes• Multicolinéarité• Données manquantes• Sélection variables & observations

– Pouvoir prédictif du modèle• Pouvoir explicatif des variables explicatives• Validation des prédictions• Validation croisée

3

Sans validation, la conclusion d'uneanalyse pourraitêtre erronnée!

Résidus

• Résidu ordinaire: 𝑒𝑒𝑖𝑖 = 𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖• Où 𝑌𝑌𝑖𝑖 = valeur observée et �𝑌𝑌𝑖𝑖 = valeur prédite• Bon modèle: Résidus tous près de 0

• Résidu studentisé: 𝑒𝑒𝑖𝑖 divisé par son écart-type• Ramène les résidus sur une échelle connue: scores Z

4

Section 1: Postulats

Postulats

Fréquemment rencontrés:• Normalité des résidus• Homoscédasticité des résidus (variances égales)• Linéarité• Indépendance (absence d’auto-corrélation)

6

Normalité des résidus• Les modèles supposent que les résidus suivent une

distribution normale de moyenne 0 et de variance 𝜎𝜎2(homoscédasticité)

• Analyses robustes à une légère déviation de la normalité

• Résultats extrêmes moins affectés• Grand kurtosis → conservateur

• Test T, ANOVA, Régression linéaire, et plusieurs autres

• Validation graphique, par des statistiques ou des tests 7

Normalité des résidus

Vérification graphique• Diagrammes à moustaches (symétrique, moyenne

= médiane, peu de valeurs influentes, moustaches plus longues que la boîte)

• Histogramme (cloche)• QQ Plot / Droite de Henry (points sur la diagonale)

8

Normalité des résidusVérification graphique

9

Normalité des résidusStatistiques et Tests

• Moyenne ≈ Médiane• Coefficient d’asymétrie (« Skewness »)• Coefficient d’aplatissement (« Kurtosis »)• Tests de normalité (Shapiro-Wilk, Kolmogorov-Smirnov)

• H0: Distribution normale• H1: Distribution pas normale• On ne veut pas rejeter l’hypothèse nulle• Si P ≥ 0.01, distribution normale

*Regarder plusieurs critères avant de prendre une décision* 10

Normalité respectée si valeurs entre

-1 et 1

Normalité des résidusSources de non normalité• Données non continues, ordinales, qui manquent

de variabilité• Distribution asymétrique• Hétéroscédasticité• Concentrations logarithmiques

Impact• Estimation biaisée

11

Normalité des résidusSolutions

• Transformation de Box-Cox pour Y• Exemple: concentrations -> log

• Éliminer des données aberrantes (lorsque kurtosisélevé)

• Analyses pour données ordinales (lorsque asymétrie et manque de variabilité)

• Valider les résultats avec une analyse non paramétrique (lorsque possible)

12

Homogénéité des variances• Les modèles supposent que les résidus suivent une

distribution normale de moyenne 0 et de variance 𝜎𝜎2 (homoscédasticité)

• Lorsque la variance des résidus diffère selon les groupes ou la valeur de Y, il y a hétéroscédasticité

• Test T, ANOVA, Régression linéaire & logistique, et plusieurs autres

• Validation graphique ou par des tests13

Homogénéité des variancesVérification graphique

• Graphique des résidus studentisés en fonction des valeurs prédites

• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires en forme de rectangle• Positifs et négatifs

• Problème si:• Variabilité des résidus diffère selon la valeur prédite• Forme d’entonnoir• Tous positifs ou négatifs

14

Homogénéité des variances

1

ANOVA / Test T Régression linéaire

Homoscédasticité

Hétéroscédasticité

Homogénéité des variances

Test de Levene

• H0: Les variances sont égales• H1: Les variances sont inégales• On ne veut pas rejeter l’hypothèse nulle• Si P > 0,01 -> Ok, variances égales• Si P <= 0,01 -> Les variances sont inégales• Utiliser 0,01 plutôt que 0,05: ne pas se casser la tête si

le problème n’est pas sévère16

Homogénéité des variancesSources d’hétéroscédasticité• Groupe plus variable qu’un autre (anova + test T)• Données aberrantes• Non normalité• Précision varie selon le Y

Impact• Erreurs-type, intervalle de confiance, significativité

erronés 17

Homogénéité des variancesSolutions à l’hétéroscédasticité• Transformation de Box Cox• Régression pondérée• Modèles mixtes

NB: L’analyse non paramétrique n’est pas unesolution (Wilcoxon et Kruskall-Wallis supposentaussi l’homogénéité)

18

Linéarité• Le modèle de régression linéaire suppose qu’il existe une

relation linéaire entre VD et VI𝑉𝑉𝑉𝑉 = 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉

• Le modèle de régression logistique suppose une relation linéaire entre le logit de la probabilité de succès (π) et la VI

log𝜋𝜋

1 − 𝜋𝜋= 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉

• Si la relation n’est pas linéaire, le modèle ne sera pas un bon indicateur de la relation

• Vérification graphique ou par test d’ajout de termes de degrés supérieurs 19

LinéaritéVérification graphique

• Graphique des résidus en fonction des valeursprédites

• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires dans le rectangle

• Problèmes si:• Valeurs situées sur une courbe

20

Linéarité

21

Liné

aire

Non

Lin

éaire

LinéaritéSources de non linéarité• Relation de degré supérieur (quadratique,

cubique, etc.)• Forme exponentielle ou logarithmique• Présence d’interactions

Impact• Mauvaise caractérisation de la relation, estimation

biaisée 22

Linéarité

Solutions• Ajouter des termes de degrés supérieurs, des

interactions• Transformation de Box-Cox pour la VD• Autre famille de modèle

23

Non corrélation des résidus

• Les modèles supposent que les résidus ne sont pas corrélés: 𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒𝑖𝑖 , 𝑒𝑒𝑗𝑗 = 0, 𝑖𝑖 ≠ 𝑗𝑗

• Lorsque ce n’est pas le cas, il y a auto-corrélation, oudépendance entre les observations

• Supposée par tous les modèles présentés dansl’atelier 2, sauf les analyses pour données pairées (Mc Nemar, T Pairé, Wilcoxon rangs signés)

• Vérification graphique ou par test 24

Non corrélation des résidusVérification graphique

• Graphique des résidus en fonction des numérosd’observations

• Pas de problème si:• Résidus négatifs suivis par des résidus positifs

• Problème si:• Résidus négatifs succèdent à plusieurs résidus négatifs

et vice versa 25

Non corrélation des résidus

26

Présence d’auto-corrélation

Absence d’auto-corrélation

Auto-corrélation des résidus

Test de Durbin Watson• 0 <= D-W <= 4• ≈ 2 : Pas d’autocorrélation• Près de 0: Autocorrélation positive • Supérieur à 2: Autocorrélation négative

• Attention si D-W <1• Tests et tables disponibles pour obtenir une valeur p

27

Non corrélation des résidusSources d’auto-corrélation• Dépendance spatielle ou temporelle entre les

observations• Facilement évitable en préparant adéquatement

la collecte

Impact• Mauvaise estimation de la variance, largeur de

l'intervalle de confiance, significativité erronée 28

Auto-corrélation des résidus

Solutions• Ajouter une variable explicative pour expliquer la

dépendance• Modèle mixte• Modèle pour séries chronologiques

29

Section 2: Sources de biais statistique

Valeurs influentes

31

Valeur aberranteObservations ayantune combinaison de valeurs (VI, VD) trèsdifférente du restedes observations

-> impact léger

LevierObservation ayant

une valeur de VI loin de la moyenne des

VI

-> impact léger

Valeur influente Observation avec levier et valeur VD différente des

autres avec même VI

-> impact sur paramètres estimés et prédiction

Valeurs influentesStatistiques

• Levier (LEV): Distance avec le centre des VI• Résidus studentisés supprimés (SDR): Résidu basé sur

l’échantillon sans la ie valeur• DFFITS (DFF): Influence sur la valeur prédite• Distance de Cook (COO) et DFBETAS (DFB_): Influence sur

l’estimation des coefficients de régression• COVRATIO (COV): Influence sur la variance des

estimateurs

32

Valeurs influentesIdentification• LEV se démarquant des autres• SDR se démarquant ou en dehors de [-3, 3]. • DFF se démarquant ou en dehors de [-2,2]. • COO se démarquant ou supérieur à 4/n• DFB_ se démarquant ou supérieur à 2/racine(n) en valeur

absolue• COV près de 0 ou très élevés, entre autres ceux inférieurs à 1-

3p/n et ceux supérieurs à 1+3p/n, où p = # paramètres dans le modèle

*Regarder plusieurs critères avant de prendre une décision* 33

Valeurs influentes

Solutions• Corriger la valeur s’il s’agit d’erreur de saisie• Supprimer l’observation si elle ne fait pas partie

de la population cible• Analyse de sensibilité (avec et sans l’observation)

si elle fait partie de la population cible

34

Multicolinéarité

• Problème survenant lorsque des observations apportent de l’information redondante, lorsqu’une des VI est obtenue par unecombinaison linéaire des autres VI

• Impact sur les variances, la sélection de variables, les variables significatives

35

Multicolinéarité

36

Z

Z Z

Z

MulticolinéaritéVérification• Tolérance

• % de variation d’une VI qui n’est pas expliqué par les autres VI• Valeurs supérieures à 10% -> ok

• Facteur d’inflation de variance • VIF = 1/TOL = 1 / (1-𝑅𝑅2𝑗𝑗 )• Coefficient multipliant la variance de β• Valeurs inférieures à 10 -> ok

• Index de condition• Valeurs inférieures à 30 -> ok

• Proportion de variance• Proportion de variance de β expliqué par la dépendance linéaire• Les variables problématiques ont un PV > 60% sur la ligne de CI >30

37

Multicolinéarité

Solutions• Supprimer une des variables problématiques• Combiner les variables problématiques• Transformation non-linéaire d’une des variables• Autre méthode d’estimation

38

Données manquantes

Scénarios• MCAR: Missing completely at random• MAR: Missing at random -> attention!• MNAR: Missing not at random -> danger!

Solutions (lorsque conditions respectées)• Imputation (plusieurs méthodes existent)• Méthode d’estimation plus complexe

39

Sélection des variables & observations• Variables confondantes• Omission de variables importantes• Observations non sélectionnées aléatoirement

ou absence de randomisation aléatoire• Taille d'échantillon insuffisante• Plan d'expérience (ou méthode de sélection)

non incorporé dans l'analyse• Mauvaises hypothèses H0 et H1

40

Section 3: Pouvoir prédictif

Pouvoir prédictif (Rég. Linéaire)

• Examiner résidus bruts: est-ce que les différences sontacceptables?

• R2 = Coefficient de détermination– % de la variabilité de VD expliqué par les VI– Près de 1: les VI sont des bons prédicteurs de VD

• Validation croisée, RMSE42

Pouvoir prédictif (Rég. Logistique)• R2 généralisé = Équivalent du coefficient de détermination

– N’est pas un % de variabilité– Plusieurs formules: Cox & Snell, Nagelkerke, Tjur,

McFadden– Le maximum n’est pas toujours 1– Utile pour comparer des modèles

• Test d’ajustement de Hosmer & Lemeshow– H0: Le modèle s’ajuste bien aux données– H1: Le modèle s’ajuste mal aux données– Grande valeur p souhaitée– Mauvais ajustement: ajouter des interactions, degrés

supérieurs, etc. 43

Pouvoir prédictif (Rég. Logistique)• Courbe ROC

– Variable quantitative = Probabilité prédite par le modèle– Variable d’état = VD– Impact de différents points de coupure sur la prédiction

de VD– Aire sous la courbe: 50% ->pas mieux que le hazard.

100% -> très bon modèle• Classification des prédictions

– Choisir un point de coupure pour classifier les observations selon la probabilité prédite

– Tableau croisé avec la VD– % d’observations correctement classées 44

Section 4: Validation d’une ANOVA

Exemple de données

Excel: DonnéesSPSS.xlsxContexte: Décès chez des patients atteints de cancer

46

Variable Valeurs

Décès 0: Vivant, 1: Mort

Sexe Femme, Homme

Fumeur 0: Non Fumeur, 1: Occasionnel, 2: Régulier

Diabète Oui, Non

IMC Nombre

Diamètre Nombre (mm)

Suivi Durée de suivi jusqu’au décès ou la fin de suivi (semaines)

Id Numéro d’identification

Étapes SPSS

– Analyse -> Modèle linéaire général -> Univarié• Variable dépendante = VD continue• Facteur(s) fixe(s) = VI nominale• Enregistrer: Prévisions non standardisés et Résidus

De Student• Options: Tests d’homogénéité, Tracé résiduel

NB: Les étapes sont aussi valides pour un test T, qui est un cas particulier de l’ANOVA

47

Étapes SPSS

– Graphiques-> Générateur de graphiques• Diagramme de dispersion superposé• Y = SRE, X = PRE, Couleur définie = Fumeur

– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = Résidu de Student pour IMC• Tracés-> Histogramme, Tracés de répartition gaussiens

avec tests

48

Résultats

49

> 0,01Variances égales

Résultats

50

Résultats

51>1% : normal <1% : ≠ normal

Entre -1 et 1: normal

Presque égales: normal

Section 5: Validation d’une régression linéaire

Étapes SPSS• Analyse -> Régression -> Linéaire

• Dépendant -> Suivi• Variables indépendantes: IMC, Diamètre• Statistiques: Tests de colinéarité, Durbin-Watson,

Diagnostic des observations• Enregistrer: Prévisions non standardisés, Résidus non

standardisés, de Student et De Student supprimés, Distance de Cook, Valeurs influentes, DfBêta(s), Différence de prévision, Rapport de covariance

53

Étapes SPSS– Graphiques -> Générateur de graphiques

• Diagramme de dispersion simple, libellé ID de point: Id• Y = SRE, X = PRE (homogénéité)• Y = RES, X = PRE (linéarité)• Y = RES, X = # d’observation (autocorrélation)

– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = SRE • Diagrammes -> Histogramme, Graphes de répartition gaussiens avec

tests (normalité)

– Graphiques -> Générateur de graphiques• Diagramme de dispersion simple, libellé ID de point: Id• Y = LEV / SDR / DFF / COO / DFB_ / COV, X = ID• Ajouter une ligne de référence aux seuils spécifiés

54

Résultats

55

DW ≈ 2Pas d’autocorrélation

TOL > 10%VIF < 10Pas de multicolinéarité

Si le VIF était >10• Identifier ligne où IC > 30• Variables problématiques

auraient PV >0,60

Résultats

56

→ Disposition aléatoire→ Pas d’entonnoir ni de courbe→ Pas de points en dehors des limites acceptables→ Pas de tendance visible

Résultats

57

→ Normalité ok• Coefficients [-1,1]• Tests p > 0,01• Beaux graphiques

Résultats

58

• LEV: #62, #64 se démarquent des autres• SDR: Aucune observation ne se démarque ou en dehors de [-3, 3]

59

• DFF: #62, #64 supérieurs à 2; #92, #100, inférieurs à 2• COO: 7 valeurs supérieures à 4/n = 4/100 = 0,04

Résultats

Résultats

60

• DFB: Toutes les observations sont dans l’intervalle [-2/√n, 2/√n] = [-0.20, 0.20]

• #62, #64, #66, #92, #100 se démarquent

61

• COVRATIO #20, #62, #64, #85 en dehors de l’intervalle [1-3p/n, 1+3p/n] = [1-3*3/100, 1+3*3/100] = [0.91, 1.09]

Résultats

62

• Observations identifiées par les statistiques sont aux limites ou endehors du nuage de point principal

• Présence de leviers, mais pas de valeur influente• Pourrait faire une analyse de sensibilité pour #64, #66, #92, #100

Résultats

Section 6: Validation d’une régression logistique

Étapes SPSSAnalyse -> Régression -> Logistique Binaire

– Dépendant -> Décès– Covariables: Diamètre– Enregistrer: Probabilités, Cook, Valeurs Influentes,

DfBêta(s), Résidus de Student– Options: Qualité d’ajustement d’Hosmer-Lemeshow, Liste

des résidus par observation

NB.: Validation de la multicolinéarité dans “Régression linéaire” s’il y a plusieurs variables explicatives

64

Étapes SPSS• Analyse -> Courbe ROC

– Variable à tester: PRE (Probabilité prédite)– Variable d’état: Décès– Valeur de la variable d’état: 1– Affichage de: Courbe ROC, Avec diagonale de référence, Erreur

standard et int. de confiance, Coordonnées de la courbe ROC• Graphiques -> Générateur de graphiques

– Diag. de disp. simple, Libellé de point: ID, Couleur définie : Décès– Y = LEV (Valeurs influentes), X = ID – Y = SRE, X = PRE– Y = DFB (DFBeta), X = ID – Y = Absolu[SRE], X = LEV– Y = COO (Statistiques … Cook), X = ID 65

Résultats (pouvoir prédictif)

66

R2 généraliséÉquivalents du R2 en régression linéaireInterprétation semblable

P > 0,05Le modèle s’ajuste bien aux données

Pourcentage d’observationscorrectement prédites par le modèle

Résultats (pouvoir prédictif)

67

C = aire sous la courbe = 71%

Résultats (résidus)

68

Cinq résidus supérieurs à 2, mais rien de catastrophique

69

• Levier: #20, #62, #85, #100 se démarquent• Cook: #20, #92 se démarquent

Résultats

70

• DFBETA: Aucune observation ne se démarque des autres

Résultats

71

• ABS(SRE)*LEV: On ne veut pas de valeur élevée pour les 2 variables (#100?)

• SRE*PRE: Aucune observation ne se démarque• Pourrait faire une analyse de sensibilité, mais rien de majeur

Résultats

Conclusion

• Importance de la validation• Validation parfois arbitraire• Plusieurs aspects à regarder• Analyses de sensibilité

• Ne pas interpréter les résultats d'un test statistique sans avoir procéder à cesvérifications! 72

73

Références• Myers, R.H. (2000). Classical and Modern Regression With

Applications, 2nd Edition. Belmont, CA: Duxbury Press. • Hosmer, D.W. et Lemeshow, S. (2000). Applied Logistic

Regression. New York: John Wiley & Sons, Inc., 2nd edition.• Allison, Paul D. 2012. Logistic Regression Using SAS: Theory

and Application, 2nd edition. Cary, NC: SAS Institute Inc.• Rosner, Bernard (2010). Fundamentals of Biostatistics, 7th

edition. Cengage Learning. 888 pages.• http://rce.crchudequebec.ulaval.ca/nos-services/soutien-

méthodologique-et-biostatistique/documentation

Documents

Validation de modèles paramétriques · Validation de modèles paramétriques – Postulats • Hypothèses du modèle doivent être respectés – Sources de biais • Sélection