View
109
Download
0
Category
Preview:
Citation preview
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
1
CorrélationCorrélation
Principe fondamental d’une analyse de corrélation
Mesure de la force d’une corrélation
Conditions d’application
Tests d’hypothèses et intervalles de confiance
Comparaisons de corrélations
Corrélations non-paramétriques
La puissance d’une analyse de corrélation
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
2
Principe fondamental d’une analyse de Principe fondamental d’une analyse de corrélationcorrélation
• La corrélation mesure l’association linéaire entre deux variables continues
• Ce n’est pas une relation causale, il n’y a donc pas de distinction entre la variable dépendante et indépendante
X1
X2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
3
Utilisation de la Utilisation de la corrélationcorrélation
• Utiliser pour estimer le degré d’association entre deux variables
• Ne pas utiliser si on veut prédire la valeur de X pour un Y donné et vice versa.
X1
X2
X
Y
Régression
Corrélation
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
4
Corrélation linéaire simple versus Corrélation linéaire simple versus régression linéaire simplerégression linéaire simple
• les calculs sont les mêmes.
• dans l’analyse de corrélation, X et Y doivent être échantillonnés au hasard
• la corrélation mesure l’association (importance)
• la régression vise à quantifier l’effet d’une variable sur une autre (intensité)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
5
Exemple: longueur et poids chez Exemple: longueur et poids chez l’esturgeonl’esturgeon
• Les deux variables ne sont pas reliées (cause-effet), alors utiliser la corrélation afin de mesurer le degré d’association entre les deux variables.
0 10 20 30 40 50RDWGHT
20
30
40
50
60
FK
LNG
TH
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
6
Régression: longueur et âge chez Régression: longueur et âge chez l’esturgeonl’esturgeon
• Relation causale entre les deux.
• La relation entre les deux donne une estimation du taux de croissance...
• …et on peut se servir de cette relation afin de prédire la taille d’un esturgeon d’un âge donné.
0 10 20 30 40 50AGE
20
30
40
50
60
FK
LNG
TH
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
7
Mesure de la corrélationMesure de la corrélation
• Le coefficient de corrélation, r, entre deux variables avec n paires d’observations est calculé comme:
r
X X Y Y
X X Y Y
Cov X Y
i ii
N
ii
N
ii
N
X Y
( )( )
( ) ( )
( , )
1
2
1
2
1
X1
X2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
8
Mesure de la Mesure de la corrélationcorrélation
• r se situe toujours entre -1 et 1.
• r2 est le coefficient de détermination qui mesure la proportion de la variabilité d’une variable qui peut être “expliquée” par l’autre.
X1
X2
X2
X2
r = 0.9
r = 0.5
r = 0 r = 0
r = -0.5
r = -0.9
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
9
Hypothèses implicites I: Hypothèses implicites I: distribution binormaledistribution binormale
• Pour chaque valeur de X1, les valeurs de X2 sont normalement disribuées et vice versa.
r = 0.8
r = 0
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
10
Hypothèses implicites II: Hypothèses implicites II: HomoscédasticitéHomoscédasticité
• La variance de X1 est indépendante de celle de X2 et vice versa.
• Mais les variances de X1 et X2 ne sont pas nécessairement égales.
X2
X1
X2
Homoscédastique
Hétéroscédastique
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
11
Hypothèses implicites III: Hypothèses implicites III: LinéaritéLinéarité
• La relation entre X1 et X2 est linéaire.
X2
Linéaire
X1
X2
Non-linéaire
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
12
0 10 20 30 40 50AGE
20
30
40
50
60
FK
LNG
TH
Violation des conditions d’application: Violation des conditions d’application: longueur et âge chez l’esturgeonlongueur et âge chez l’esturgeon
• La relation entre la longueur et l’âge semble non-linéaire.
• La variance de la longueur semble augmenter avec l’âge.
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
13
Si les conditions d’application ne sont Si les conditions d’application ne sont pas respectées...pas respectées...
• Transformer les données (ex: log).
• Essayer une analyse de corrélation non-paramétrique.
0.5 1.0 1.5 2.0LAGE
1.3
1.4
1.5
1.6
1.7
1.8
LFK
L
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
14
Intervalles de confiance Intervalles de confiance pour les coefficients de pour les coefficients de corrélationcorrélation
• L’intervalle de confiance de la corrélation transformée (z) est calculée par:
• Convertir en unités standards par:
z t z z N / , ,2
13
re
e
z
z
2
2
1
1
X2
X2
X1
X2
Petit IC
Grand IC
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
15
Tests d’hypothèses Tests d’hypothèses II
• H0: = 0• l’erreur-type du coefficient de
corrélation :
• calculer
• … et comparer à la distribution du t de Student avec N - 2 dl
sr
Nr
12
2
t r sr /
X2
Rejeter H0
X2
Accepter H0
X1
X2
ObservéesAttendues
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
16
Tests d’hypothèses IITests d’hypothèses II
• H0: r = • transformer r et :
• calculer
• … et comparer à la distribution Z avec N - 3 dl.
zr
r
LNMOQP
LNMOQP05
1
105
1
1. ln , . ln
Zz
Nzz
,
1
3
X2
Rejeter H0
X2
X1
X2
Accepter H0
ObservéesAttendues
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
17
Comparaison de Comparaison de deux corrélationsdeux corrélations
• H0: r1 = r
• transformer r1 et r :
• calculer
• … et comparer à la distribution Z.
zr
rz
r
r11
12
2
2
051
105
1
1
LNMOQP
LNMOQP. ln , . ln
X2
Rejeter H0
X2
X1
X2
Accepter H0Z
z z
N N
1 2
1 2
13
13
r1
r2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
18
Comparaisons de Comparaisons de plusieurs corrélationsplusieurs corrélations
• H0: ri = rj = rk= … avec ni, nj, nk…observations
• transformer tous les ri en zi et calculer
• … et comparer à la distribution de 2 avec dl = k -1.
X2
Rejeter H0
X2
X1
X2
Accepter H0
2 2
2
1
2
1
33
3
LNM
OQP
( )( )
( )n z
n z
ni i
i ii
ii
ki
k
r1
r2
r3
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
19
Calcul d’une Calcul d’une corrélation communecorrélation commune
• Si H0: ri = rj = rk= … est acceptée, alors, chaque ri estime le même coefficient (population).
• Pour calculer , on doit dabord calculer le score Z pondéré zw: • Ensuite, retransformer afin
d’obtenir
X2
X1
X2
Accepter H0
r1
r2
r3
zn z
nw
i ii
k
ii
k
( )
( )
3
3
1
1
zw
z
z
ee
w
w
LNMOQP
051
1
2
2
11
. ln
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
20
Corrélations non-Corrélations non-paramétrquesparamétrques
• Utiliser si une ou plusieurs des conditions d’application ne sont pas respectées.
• C’est une corrélation de rang.• La méthode la plus
commune: corrélation de rang de Spearman.
X2
X1 Rang X1
Ra
ng
X2
rR R
N NS
X Xi
N
16
1 22
13
( )
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
21
La puissance et la La puissance et la taille de l’effectiftaille de l’effectif
• Si on veut tester H0: = 0 avec une taille d’échantillon n, on peut déterminer 1 - en utilisant la transformation Z pour les valeurs critiques (pour un donné) pour (z) de la vraie corrélationet r (zr) de la corrélation de l’échantillon.
X1
X2
Z
r
Z z z nr ( ) ( )1 3
ZrZ
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
22
La puissance et la La puissance et la taille de l’effectiftaille de l’effectif
• Une fois Z(1) déterminé, on peut calculer la probabilité d’obtenir une valeur Z de cette taille ou plus grande, c’est-à-dire .
• La puissance est 1-.
X1
X2
Z
r
Z z z nr ( ) ( )1 3
ZrZ
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
23
La puissance et la La puissance et la taille de l’effectif: taille de l’effectif: exempleexemple• La corrélation entre la longueur
des ailes et la longueur de la queue d’un échantillon de 12 oiseaux.
• alors 1 - = .98
n r
z rr
12 10 870
1333 57605 2 10
, , .
. , .. ( ),
Ailes (cm) Queue (cm)
10.4 10.7 7.4 7.4
10.8 10.5 7.6 7.2
11.1 10.8 7.9 7.8
10.2 11.2 7.2 7.7
10.3 10.6 7.4 7.8
10.2 11.4 7.1 8.37 .4
z
zr
LNM
OQP
LNM
OQP
051 576
1 576656
051 87
1 871333
. ln.
..
. ln.
..
Z z z nr ( ) ( )
( . . ) .
1 3
1333 656 12 3 2 03
P Z( . ) . 2 03 0212
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
24
Taille de l’effectif Taille de l’effectif minimumminimum
• Pour une puissance 1 - donnée, quelle est la taille de l’effectif requise afin de rejeter H0: = 0 si elle est fausse avec un spécifié
• Calculer:
nZ Z
zmin( )
FHG
IKJ
1
0
3
z00
0
0511
FHG
IKJ. ln
X2
Rejeter H0?
X2
X1
X2
Rejecter H0?
ObservéesAttendues
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
25
Taille d’effectif minimum: exempleTaille d’effectif minimum: exemple
• On veut rejeter H0: = 0 99% des fois quand |>
0.5et(2)= .05• Alors (1) = .01 et
• pour r = .50, on a...
• Alors
• Alors, la taille de l’échantillon devra être supérieure ou égale à 64.
Z
Z
( ) .
.1 2326
196
zr FH IK051 51 5
549. ln..
.
nZ Z
zmin( ) .
FHG
IKJ 1
0
3 639
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
26
Puissance d’une Puissance d’une comparaison de deux comparaison de deux corrélationscorrélations
• La puissance d’un test de la différence entre deux coefficients de corrélation est 1- , où est une probabilité unilatérale:
X2
Rejeter H0
X2
X1
X2
Accepter H0
r1
r2
Zz z
Z
n n
z z
z z
( )
| |1
1 2
1 2
1 2
1 2
13
13
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
27
ExempleExemple
• Quelle est la puissance de la comparaison de ces deux corrélations?
• On peut ensuite trouver dans un tableau de distribution normale :
• La puissance = 0.22
Statistique Éch. 1 Éch. 2
r .78 .84
n 98 95
z 1.045 1.221
z z1 20146 .
Z Z
Zz z
Z
a
z z
. ( )
( )
.
| |.
05 2
11 2
196
0 761 2
P Z
P Z
( . )
( . ) .
0 76
1 0 76 78
Recommended