Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Validation de modèles paramétriques
Atelier de formation A09Plateforme de recherche clinique et évaluative
Anne-Sophie Julien, M.Sc., biostatistique
Objectifs d’apprentissage
1. Connaître les postulats et les sources de biaisdes principales analyses statistiquesparamétriques
2. Pouvoir vérifier si les résultats obtenus par un modèle d’ANOVA, de régression linéaire oulogistique sont fiables
1
Plan de la présentation1. Définitions et concepts2. Postulats3. Sources de biais statistique4. Pouvoir prédictif5. Exemple de validation d’une ANOVA6. Exemple de validation d’une régression linéaire7. Exemple de validation d’une régression
logistique2
Validation de modèles paramétriques– Postulats
• Hypothèses du modèle doivent être respectés– Sources de biais
• Sélection non aléatoire des sujets• Absence de randomisation• Hypothèses H0 & H1 mal spécifiées• Valeurs influentes• Multicolinéarité• Données manquantes• Sélection variables & observations
– Pouvoir prédictif du modèle• Pouvoir explicatif des variables explicatives• Validation des prédictions• Validation croisée
3
Sans validation, la conclusion d'uneanalyse pourraitêtre erronnée!
Résidus
• Résidu ordinaire: 𝑒𝑒𝑖𝑖 = 𝑌𝑌𝑖𝑖 − �𝑌𝑌𝑖𝑖• Où 𝑌𝑌𝑖𝑖 = valeur observée et �𝑌𝑌𝑖𝑖 = valeur prédite• Bon modèle: Résidus tous près de 0
• Résidu studentisé: 𝑒𝑒𝑖𝑖 divisé par son écart-type• Ramène les résidus sur une échelle connue: scores Z
4
Section 1: Postulats
Postulats
Fréquemment rencontrés:• Normalité des résidus• Homoscédasticité des résidus (variances égales)• Linéarité• Indépendance (absence d’auto-corrélation)
6
Normalité des résidus• Les modèles supposent que les résidus suivent une
distribution normale de moyenne 0 et de variance 𝜎𝜎2(homoscédasticité)
• Analyses robustes à une légère déviation de la normalité
• Résultats extrêmes moins affectés• Grand kurtosis → conservateur
• Test T, ANOVA, Régression linéaire, et plusieurs autres
• Validation graphique, par des statistiques ou des tests 7
Normalité des résidus
Vérification graphique• Diagrammes à moustaches (symétrique, moyenne
= médiane, peu de valeurs influentes, moustaches plus longues que la boîte)
• Histogramme (cloche)• QQ Plot / Droite de Henry (points sur la diagonale)
8
Normalité des résidusVérification graphique
9
Normalité des résidusStatistiques et Tests
• Moyenne ≈ Médiane• Coefficient d’asymétrie (« Skewness »)• Coefficient d’aplatissement (« Kurtosis »)• Tests de normalité (Shapiro-Wilk, Kolmogorov-Smirnov)
• H0: Distribution normale• H1: Distribution pas normale• On ne veut pas rejeter l’hypothèse nulle• Si P ≥ 0.01, distribution normale
*Regarder plusieurs critères avant de prendre une décision* 10
Normalité respectée si valeurs entre
-1 et 1
Normalité des résidusSources de non normalité• Données non continues, ordinales, qui manquent
de variabilité• Distribution asymétrique• Hétéroscédasticité• Concentrations logarithmiques
Impact• Estimation biaisée
11
Normalité des résidusSolutions
• Transformation de Box-Cox pour Y• Exemple: concentrations -> log
• Éliminer des données aberrantes (lorsque kurtosisélevé)
• Analyses pour données ordinales (lorsque asymétrie et manque de variabilité)
• Valider les résultats avec une analyse non paramétrique (lorsque possible)
12
Homogénéité des variances• Les modèles supposent que les résidus suivent une
distribution normale de moyenne 0 et de variance 𝜎𝜎2 (homoscédasticité)
• Lorsque la variance des résidus diffère selon les groupes ou la valeur de Y, il y a hétéroscédasticité
• Test T, ANOVA, Régression linéaire & logistique, et plusieurs autres
• Validation graphique ou par des tests13
Homogénéité des variancesVérification graphique
• Graphique des résidus studentisés en fonction des valeurs prédites
• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires en forme de rectangle• Positifs et négatifs
• Problème si:• Variabilité des résidus diffère selon la valeur prédite• Forme d’entonnoir• Tous positifs ou négatifs
14
Homogénéité des variances
1
ANOVA / Test T Régression linéaire
Homoscédasticité
Hétéroscédasticité
Homogénéité des variances
Test de Levene
• H0: Les variances sont égales• H1: Les variances sont inégales• On ne veut pas rejeter l’hypothèse nulle• Si P > 0,01 -> Ok, variances égales• Si P <= 0,01 -> Les variances sont inégales• Utiliser 0,01 plutôt que 0,05: ne pas se casser la tête si
le problème n’est pas sévère16
Homogénéité des variancesSources d’hétéroscédasticité• Groupe plus variable qu’un autre (anova + test T)• Données aberrantes• Non normalité• Précision varie selon le Y
Impact• Erreurs-type, intervalle de confiance, significativité
erronés 17
Homogénéité des variancesSolutions à l’hétéroscédasticité• Transformation de Box Cox• Régression pondérée• Modèles mixtes
NB: L’analyse non paramétrique n’est pas unesolution (Wilcoxon et Kruskall-Wallis supposentaussi l’homogénéité)
18
Linéarité• Le modèle de régression linéaire suppose qu’il existe une
relation linéaire entre VD et VI𝑉𝑉𝑉𝑉 = 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉
• Le modèle de régression logistique suppose une relation linéaire entre le logit de la probabilité de succès (π) et la VI
log𝜋𝜋
1 − 𝜋𝜋= 𝛽𝛽0 + 𝛽𝛽1𝑉𝑉𝑉𝑉
• Si la relation n’est pas linéaire, le modèle ne sera pas un bon indicateur de la relation
• Vérification graphique ou par test d’ajout de termes de degrés supérieurs 19
LinéaritéVérification graphique
• Graphique des résidus en fonction des valeursprédites
• Pas de problème si:• Valeurs entre [-3,3], limites à 99% d’une loi normale• Valeurs aléatoires dans le rectangle
• Problèmes si:• Valeurs situées sur une courbe
20
Linéarité
21
Liné
aire
Non
Lin
éaire
LinéaritéSources de non linéarité• Relation de degré supérieur (quadratique,
cubique, etc.)• Forme exponentielle ou logarithmique• Présence d’interactions
Impact• Mauvaise caractérisation de la relation, estimation
biaisée 22
Linéarité
Solutions• Ajouter des termes de degrés supérieurs, des
interactions• Transformation de Box-Cox pour la VD• Autre famille de modèle
23
Non corrélation des résidus
• Les modèles supposent que les résidus ne sont pas corrélés: 𝐶𝐶𝐶𝐶𝐶𝐶 𝑒𝑒𝑖𝑖 , 𝑒𝑒𝑗𝑗 = 0, 𝑖𝑖 ≠ 𝑗𝑗
• Lorsque ce n’est pas le cas, il y a auto-corrélation, oudépendance entre les observations
• Supposée par tous les modèles présentés dansl’atelier 2, sauf les analyses pour données pairées (Mc Nemar, T Pairé, Wilcoxon rangs signés)
• Vérification graphique ou par test 24
Non corrélation des résidusVérification graphique
• Graphique des résidus en fonction des numérosd’observations
• Pas de problème si:• Résidus négatifs suivis par des résidus positifs
• Problème si:• Résidus négatifs succèdent à plusieurs résidus négatifs
et vice versa 25
Non corrélation des résidus
26
Présence d’auto-corrélation
Absence d’auto-corrélation
Auto-corrélation des résidus
Test de Durbin Watson• 0 <= D-W <= 4• ≈ 2 : Pas d’autocorrélation• Près de 0: Autocorrélation positive • Supérieur à 2: Autocorrélation négative
• Attention si D-W <1• Tests et tables disponibles pour obtenir une valeur p
27
Non corrélation des résidusSources d’auto-corrélation• Dépendance spatielle ou temporelle entre les
observations• Facilement évitable en préparant adéquatement
la collecte
Impact• Mauvaise estimation de la variance, largeur de
l'intervalle de confiance, significativité erronée 28
Auto-corrélation des résidus
Solutions• Ajouter une variable explicative pour expliquer la
dépendance• Modèle mixte• Modèle pour séries chronologiques
29
Section 2: Sources de biais statistique
Valeurs influentes
31
Valeur aberranteObservations ayantune combinaison de valeurs (VI, VD) trèsdifférente du restedes observations
-> impact léger
LevierObservation ayant
une valeur de VI loin de la moyenne des
VI
-> impact léger
Valeur influente Observation avec levier et valeur VD différente des
autres avec même VI
-> impact sur paramètres estimés et prédiction
Valeurs influentesStatistiques
• Levier (LEV): Distance avec le centre des VI• Résidus studentisés supprimés (SDR): Résidu basé sur
l’échantillon sans la ie valeur• DFFITS (DFF): Influence sur la valeur prédite• Distance de Cook (COO) et DFBETAS (DFB_): Influence sur
l’estimation des coefficients de régression• COVRATIO (COV): Influence sur la variance des
estimateurs
32
Valeurs influentesIdentification• LEV se démarquant des autres• SDR se démarquant ou en dehors de [-3, 3]. • DFF se démarquant ou en dehors de [-2,2]. • COO se démarquant ou supérieur à 4/n• DFB_ se démarquant ou supérieur à 2/racine(n) en valeur
absolue• COV près de 0 ou très élevés, entre autres ceux inférieurs à 1-
3p/n et ceux supérieurs à 1+3p/n, où p = # paramètres dans le modèle
*Regarder plusieurs critères avant de prendre une décision* 33
Valeurs influentes
Solutions• Corriger la valeur s’il s’agit d’erreur de saisie• Supprimer l’observation si elle ne fait pas partie
de la population cible• Analyse de sensibilité (avec et sans l’observation)
si elle fait partie de la population cible
34
Multicolinéarité
• Problème survenant lorsque des observations apportent de l’information redondante, lorsqu’une des VI est obtenue par unecombinaison linéaire des autres VI
• Impact sur les variances, la sélection de variables, les variables significatives
35
Multicolinéarité
36
Z
Z Z
Z
MulticolinéaritéVérification• Tolérance
• % de variation d’une VI qui n’est pas expliqué par les autres VI• Valeurs supérieures à 10% -> ok
• Facteur d’inflation de variance • VIF = 1/TOL = 1 / (1-𝑅𝑅2𝑗𝑗 )• Coefficient multipliant la variance de β• Valeurs inférieures à 10 -> ok
• Index de condition• Valeurs inférieures à 30 -> ok
• Proportion de variance• Proportion de variance de β expliqué par la dépendance linéaire• Les variables problématiques ont un PV > 60% sur la ligne de CI >30
37
Multicolinéarité
Solutions• Supprimer une des variables problématiques• Combiner les variables problématiques• Transformation non-linéaire d’une des variables• Autre méthode d’estimation
38
Données manquantes
Scénarios• MCAR: Missing completely at random• MAR: Missing at random -> attention!• MNAR: Missing not at random -> danger!
Solutions (lorsque conditions respectées)• Imputation (plusieurs méthodes existent)• Méthode d’estimation plus complexe
39
Sélection des variables & observations• Variables confondantes• Omission de variables importantes• Observations non sélectionnées aléatoirement
ou absence de randomisation aléatoire• Taille d'échantillon insuffisante• Plan d'expérience (ou méthode de sélection)
non incorporé dans l'analyse• Mauvaises hypothèses H0 et H1
40
Section 3: Pouvoir prédictif
Pouvoir prédictif (Rég. Linéaire)
• Examiner résidus bruts: est-ce que les différences sontacceptables?
• R2 = Coefficient de détermination– % de la variabilité de VD expliqué par les VI– Près de 1: les VI sont des bons prédicteurs de VD
• Validation croisée, RMSE42
Pouvoir prédictif (Rég. Logistique)• R2 généralisé = Équivalent du coefficient de détermination
– N’est pas un % de variabilité– Plusieurs formules: Cox & Snell, Nagelkerke, Tjur,
McFadden– Le maximum n’est pas toujours 1– Utile pour comparer des modèles
• Test d’ajustement de Hosmer & Lemeshow– H0: Le modèle s’ajuste bien aux données– H1: Le modèle s’ajuste mal aux données– Grande valeur p souhaitée– Mauvais ajustement: ajouter des interactions, degrés
supérieurs, etc. 43
Pouvoir prédictif (Rég. Logistique)• Courbe ROC
– Variable quantitative = Probabilité prédite par le modèle– Variable d’état = VD– Impact de différents points de coupure sur la prédiction
de VD– Aire sous la courbe: 50% ->pas mieux que le hazard.
100% -> très bon modèle• Classification des prédictions
– Choisir un point de coupure pour classifier les observations selon la probabilité prédite
– Tableau croisé avec la VD– % d’observations correctement classées 44
Section 4: Validation d’une ANOVA
Exemple de données
Excel: DonnéesSPSS.xlsxContexte: Décès chez des patients atteints de cancer
46
Variable Valeurs
Décès 0: Vivant, 1: Mort
Sexe Femme, Homme
Fumeur 0: Non Fumeur, 1: Occasionnel, 2: Régulier
Diabète Oui, Non
IMC Nombre
Diamètre Nombre (mm)
Suivi Durée de suivi jusqu’au décès ou la fin de suivi (semaines)
Id Numéro d’identification
Étapes SPSS
– Analyse -> Modèle linéaire général -> Univarié• Variable dépendante = VD continue• Facteur(s) fixe(s) = VI nominale• Enregistrer: Prévisions non standardisés et Résidus
De Student• Options: Tests d’homogénéité, Tracé résiduel
NB: Les étapes sont aussi valides pour un test T, qui est un cas particulier de l’ANOVA
47
Étapes SPSS
– Graphiques-> Générateur de graphiques• Diagramme de dispersion superposé• Y = SRE, X = PRE, Couleur définie = Fumeur
– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = Résidu de Student pour IMC• Tracés-> Histogramme, Tracés de répartition gaussiens
avec tests
48
Résultats
49
> 0,01Variances égales
Résultats
50
Résultats
51>1% : normal <1% : ≠ normal
Entre -1 et 1: normal
Presque égales: normal
Section 5: Validation d’une régression linéaire
Étapes SPSS• Analyse -> Régression -> Linéaire
• Dépendant -> Suivi• Variables indépendantes: IMC, Diamètre• Statistiques: Tests de colinéarité, Durbin-Watson,
Diagnostic des observations• Enregistrer: Prévisions non standardisés, Résidus non
standardisés, de Student et De Student supprimés, Distance de Cook, Valeurs influentes, DfBêta(s), Différence de prévision, Rapport de covariance
53
Étapes SPSS– Graphiques -> Générateur de graphiques
• Diagramme de dispersion simple, libellé ID de point: Id• Y = SRE, X = PRE (homogénéité)• Y = RES, X = PRE (linéarité)• Y = RES, X = # d’observation (autocorrélation)
– Analyse -> Statistiques descriptives -> Explorer• Variables dépendantes = SRE • Diagrammes -> Histogramme, Graphes de répartition gaussiens avec
tests (normalité)
– Graphiques -> Générateur de graphiques• Diagramme de dispersion simple, libellé ID de point: Id• Y = LEV / SDR / DFF / COO / DFB_ / COV, X = ID• Ajouter une ligne de référence aux seuils spécifiés
54
Résultats
55
DW ≈ 2Pas d’autocorrélation
TOL > 10%VIF < 10Pas de multicolinéarité
Si le VIF était >10• Identifier ligne où IC > 30• Variables problématiques
auraient PV >0,60
Résultats
56
→ Disposition aléatoire→ Pas d’entonnoir ni de courbe→ Pas de points en dehors des limites acceptables→ Pas de tendance visible
Résultats
57
→ Normalité ok• Coefficients [-1,1]• Tests p > 0,01• Beaux graphiques
Résultats
58
• LEV: #62, #64 se démarquent des autres• SDR: Aucune observation ne se démarque ou en dehors de [-3, 3]
59
• DFF: #62, #64 supérieurs à 2; #92, #100, inférieurs à 2• COO: 7 valeurs supérieures à 4/n = 4/100 = 0,04
Résultats
Résultats
60
• DFB: Toutes les observations sont dans l’intervalle [-2/√n, 2/√n] = [-0.20, 0.20]
• #62, #64, #66, #92, #100 se démarquent
61
• COVRATIO #20, #62, #64, #85 en dehors de l’intervalle [1-3p/n, 1+3p/n] = [1-3*3/100, 1+3*3/100] = [0.91, 1.09]
Résultats
62
• Observations identifiées par les statistiques sont aux limites ou endehors du nuage de point principal
• Présence de leviers, mais pas de valeur influente• Pourrait faire une analyse de sensibilité pour #64, #66, #92, #100
Résultats
Section 6: Validation d’une régression logistique
Étapes SPSSAnalyse -> Régression -> Logistique Binaire
– Dépendant -> Décès– Covariables: Diamètre– Enregistrer: Probabilités, Cook, Valeurs Influentes,
DfBêta(s), Résidus de Student– Options: Qualité d’ajustement d’Hosmer-Lemeshow, Liste
des résidus par observation
NB.: Validation de la multicolinéarité dans “Régression linéaire” s’il y a plusieurs variables explicatives
64
Étapes SPSS• Analyse -> Courbe ROC
– Variable à tester: PRE (Probabilité prédite)– Variable d’état: Décès– Valeur de la variable d’état: 1– Affichage de: Courbe ROC, Avec diagonale de référence, Erreur
standard et int. de confiance, Coordonnées de la courbe ROC• Graphiques -> Générateur de graphiques
– Diag. de disp. simple, Libellé de point: ID, Couleur définie : Décès– Y = LEV (Valeurs influentes), X = ID – Y = SRE, X = PRE– Y = DFB (DFBeta), X = ID – Y = Absolu[SRE], X = LEV– Y = COO (Statistiques … Cook), X = ID 65
Résultats (pouvoir prédictif)
66
R2 généraliséÉquivalents du R2 en régression linéaireInterprétation semblable
P > 0,05Le modèle s’ajuste bien aux données
Pourcentage d’observationscorrectement prédites par le modèle
Résultats (pouvoir prédictif)
67
C = aire sous la courbe = 71%
Résultats (résidus)
68
Cinq résidus supérieurs à 2, mais rien de catastrophique
69
• Levier: #20, #62, #85, #100 se démarquent• Cook: #20, #92 se démarquent
Résultats
70
• DFBETA: Aucune observation ne se démarque des autres
Résultats
71
• ABS(SRE)*LEV: On ne veut pas de valeur élevée pour les 2 variables (#100?)
• SRE*PRE: Aucune observation ne se démarque• Pourrait faire une analyse de sensibilité, mais rien de majeur
Résultats
Conclusion
• Importance de la validation• Validation parfois arbitraire• Plusieurs aspects à regarder• Analyses de sensibilité
• Ne pas interpréter les résultats d'un test statistique sans avoir procéder à cesvérifications! 72
73
Références• Myers, R.H. (2000). Classical and Modern Regression With
Applications, 2nd Edition. Belmont, CA: Duxbury Press. • Hosmer, D.W. et Lemeshow, S. (2000). Applied Logistic
Regression. New York: John Wiley & Sons, Inc., 2nd edition.• Allison, Paul D. 2012. Logistic Regression Using SAS: Theory
and Application, 2nd edition. Cary, NC: SAS Institute Inc.• Rosner, Bernard (2010). Fundamentals of Biostatistics, 7th
edition. Cengage Learning. 888 pages.• http://rce.crchudequebec.ulaval.ca/nos-services/soutien-
méthodologique-et-biostatistique/documentation