27
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 22-06-26 15:21 1 Corrélation Corrélation Principe fondamental d’une analyse de corrélation Mesure de la force d’une corrélation Conditions d’application Tests d’hypothèses et intervalles de confiance Comparaisons de corrélations Corrélations non-paramétriques La puissance d’une analyse de corrélation

Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Embed Size (px)

Citation preview

Page 1: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

1

CorrélationCorrélation

Principe fondamental d’une analyse de corrélation

Mesure de la force d’une corrélation

Conditions d’application

Tests d’hypothèses et intervalles de confiance

Comparaisons de corrélations

Corrélations non-paramétriques

La puissance d’une analyse de corrélation

Page 2: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

2

Principe fondamental d’une analyse de Principe fondamental d’une analyse de corrélationcorrélation

• La corrélation mesure l’association linéaire entre deux variables continues

• Ce n’est pas une relation causale, il n’y a donc pas de distinction entre la variable dépendante et indépendante

X1

X2

Page 3: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

3

Utilisation de la Utilisation de la corrélationcorrélation

• Utiliser pour estimer le degré d’association entre deux variables

• Ne pas utiliser si on veut prédire la valeur de X pour un Y donné et vice versa.

X1

X2

X

Y

Régression

Corrélation

Page 4: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

4

Corrélation linéaire simple versus Corrélation linéaire simple versus régression linéaire simplerégression linéaire simple

• les calculs sont les mêmes.

• dans l’analyse de corrélation, X et Y doivent être échantillonnés au hasard

• la corrélation mesure l’association (importance)

• la régression vise à quantifier l’effet d’une variable sur une autre (intensité)

Page 5: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

5

Exemple: longueur et poids chez Exemple: longueur et poids chez l’esturgeonl’esturgeon

• Les deux variables ne sont pas reliées (cause-effet), alors utiliser la corrélation afin de mesurer le degré d’association entre les deux variables.

0 10 20 30 40 50RDWGHT

20

30

40

50

60

FK

LNG

TH

Page 6: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

6

Régression: longueur et âge chez Régression: longueur et âge chez l’esturgeonl’esturgeon

• Relation causale entre les deux.

• La relation entre les deux donne une estimation du taux de croissance...

• …et on peut se servir de cette relation afin de prédire la taille d’un esturgeon d’un âge donné.

0 10 20 30 40 50AGE

20

30

40

50

60

FK

LNG

TH

Page 7: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

7

Mesure de la corrélationMesure de la corrélation

• Le coefficient de corrélation, r, entre deux variables avec n paires d’observations est calculé comme:

r

X X Y Y

X X Y Y

Cov X Y

i ii

N

ii

N

ii

N

X Y

( )( )

( ) ( )

( , )

1

2

1

2

1

X1

X2

Page 8: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

8

Mesure de la Mesure de la corrélationcorrélation

• r se situe toujours entre -1 et 1.

• r2 est le coefficient de détermination qui mesure la proportion de la variabilité d’une variable qui peut être “expliquée” par l’autre.

X1

X2

X2

X2

r = 0.9

r = 0.5

r = 0 r = 0

r = -0.5

r = -0.9

Page 9: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

9

Hypothèses implicites I: Hypothèses implicites I: distribution binormaledistribution binormale

• Pour chaque valeur de X1, les valeurs de X2 sont normalement disribuées et vice versa.

r = 0.8

r = 0

Page 10: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

10

Hypothèses implicites II: Hypothèses implicites II: HomoscédasticitéHomoscédasticité

• La variance de X1 est indépendante de celle de X2 et vice versa.

• Mais les variances de X1 et X2 ne sont pas nécessairement égales.

X2

X1

X2

Homoscédastique

Hétéroscédastique

Page 11: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

11

Hypothèses implicites III: Hypothèses implicites III: LinéaritéLinéarité

• La relation entre X1 et X2 est linéaire.

X2

Linéaire

X1

X2

Non-linéaire

Page 12: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

12

0 10 20 30 40 50AGE

20

30

40

50

60

FK

LNG

TH

Violation des conditions d’application: Violation des conditions d’application: longueur et âge chez l’esturgeonlongueur et âge chez l’esturgeon

• La relation entre la longueur et l’âge semble non-linéaire.

• La variance de la longueur semble augmenter avec l’âge.

Page 13: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

13

Si les conditions d’application ne sont Si les conditions d’application ne sont pas respectées...pas respectées...

• Transformer les données (ex: log).

• Essayer une analyse de corrélation non-paramétrique.

0.5 1.0 1.5 2.0LAGE

1.3

1.4

1.5

1.6

1.7

1.8

LFK

L

Page 14: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

14

Intervalles de confiance Intervalles de confiance pour les coefficients de pour les coefficients de corrélationcorrélation

• L’intervalle de confiance de la corrélation transformée (z) est calculée par:

• Convertir en unités standards par:

z t z z N / , ,2

13

re

e

z

z

2

2

1

1

X2

X2

X1

X2

Petit IC

Grand IC

Page 15: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

15

Tests d’hypothèses Tests d’hypothèses II

• H0: = 0• l’erreur-type du coefficient de

corrélation :

• calculer

• … et comparer à la distribution du t de Student avec N - 2 dl

sr

Nr

12

2

t r sr /

X2

Rejeter H0

X2

Accepter H0

X1

X2

ObservéesAttendues

Page 16: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

16

Tests d’hypothèses IITests d’hypothèses II

• H0: r = • transformer r et :

• calculer

• … et comparer à la distribution Z avec N - 3 dl.

zr

r

LNMOQP

LNMOQP05

1

105

1

1. ln , . ln

Zz

Nzz

,

1

3

X2

Rejeter H0

X2

X1

X2

Accepter H0

ObservéesAttendues

Page 17: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

17

Comparaison de Comparaison de deux corrélationsdeux corrélations

• H0: r1 = r

• transformer r1 et r :

• calculer

• … et comparer à la distribution Z.

zr

rz

r

r11

12

2

2

051

105

1

1

LNMOQP

LNMOQP. ln , . ln

X2

Rejeter H0

X2

X1

X2

Accepter H0Z

z z

N N

1 2

1 2

13

13

r1

r2

Page 18: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

18

Comparaisons de Comparaisons de plusieurs corrélationsplusieurs corrélations

• H0: ri = rj = rk= … avec ni, nj, nk…observations

• transformer tous les ri en zi et calculer

• … et comparer à la distribution de 2 avec dl = k -1.

X2

Rejeter H0

X2

X1

X2

Accepter H0

2 2

2

1

2

1

33

3

LNM

OQP

( )( )

( )n z

n z

ni i

i ii

ii

ki

k

r1

r2

r3

Page 19: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

19

Calcul d’une Calcul d’une corrélation communecorrélation commune

• Si H0: ri = rj = rk= … est acceptée, alors, chaque ri estime le même coefficient (population).

• Pour calculer , on doit dabord calculer le score Z pondéré zw: • Ensuite, retransformer afin

d’obtenir

X2

X1

X2

Accepter H0

r1

r2

r3

zn z

nw

i ii

k

ii

k

( )

( )

3

3

1

1

zw

z

z

ee

w

w

LNMOQP

051

1

2

2

11

. ln

Page 20: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

20

Corrélations non-Corrélations non-paramétrquesparamétrques

• Utiliser si une ou plusieurs des conditions d’application ne sont pas respectées.

• C’est une corrélation de rang.• La méthode la plus

commune: corrélation de rang de Spearman.

X2

X1 Rang X1

Ra

ng

X2

rR R

N NS

X Xi

N

16

1 22

13

( )

Page 21: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

21

La puissance et la La puissance et la taille de l’effectiftaille de l’effectif

• Si on veut tester H0: = 0 avec une taille d’échantillon n, on peut déterminer 1 - en utilisant la transformation Z pour les valeurs critiques (pour un donné) pour (z) de la vraie corrélationet r (zr) de la corrélation de l’échantillon.

X1

X2

Z

r

Z z z nr ( ) ( )1 3

ZrZ

Page 22: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

22

La puissance et la La puissance et la taille de l’effectiftaille de l’effectif

• Une fois Z(1) déterminé, on peut calculer la probabilité d’obtenir une valeur Z de cette taille ou plus grande, c’est-à-dire .

• La puissance est 1-.

X1

X2

Z

r

Z z z nr ( ) ( )1 3

ZrZ

Page 23: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

23

La puissance et la La puissance et la taille de l’effectif: taille de l’effectif: exempleexemple• La corrélation entre la longueur

des ailes et la longueur de la queue d’un échantillon de 12 oiseaux.

• alors 1 - = .98

n r

z rr

12 10 870

1333 57605 2 10

, , .

. , .. ( ),

Ailes (cm) Queue (cm)

10.4 10.7 7.4 7.4

10.8 10.5 7.6 7.2

11.1 10.8 7.9 7.8

10.2 11.2 7.2 7.7

10.3 10.6 7.4 7.8

10.2 11.4 7.1 8.37 .4

z

zr

LNM

OQP

LNM

OQP

051 576

1 576656

051 87

1 871333

. ln.

..

. ln.

..

Z z z nr ( ) ( )

( . . ) .

1 3

1333 656 12 3 2 03

P Z( . ) . 2 03 0212

Page 24: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

24

Taille de l’effectif Taille de l’effectif minimumminimum

• Pour une puissance 1 - donnée, quelle est la taille de l’effectif requise afin de rejeter H0: = 0 si elle est fausse avec un spécifié

• Calculer:

nZ Z

zmin( )

FHG

IKJ

1

0

3

z00

0

0511

FHG

IKJ. ln

X2

Rejeter H0?

X2

X1

X2

Rejecter H0?

ObservéesAttendues

Page 25: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

25

Taille d’effectif minimum: exempleTaille d’effectif minimum: exemple

• On veut rejeter H0: = 0 99% des fois quand |>

0.5et(2)= .05• Alors (1) = .01 et

• pour r = .50, on a...

• Alors

• Alors, la taille de l’échantillon devra être supérieure ou égale à 64.

Z

Z

( ) .

.1 2326

196

zr FH IK051 51 5

549. ln..

.

nZ Z

zmin( ) .

FHG

IKJ 1

0

3 639

Page 26: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

26

Puissance d’une Puissance d’une comparaison de deux comparaison de deux corrélationscorrélations

• La puissance d’un test de la différence entre deux coefficients de corrélation est 1- , où est une probabilité unilatérale:

X2

Rejeter H0

X2

X1

X2

Accepter H0

r1

r2

Zz z

Z

n n

z z

z z

( )

| |1

1 2

1 2

1 2

1 2

13

13

Page 27: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Corrélation Principe fondamental dune analyse

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

27

ExempleExemple

• Quelle est la puissance de la comparaison de ces deux corrélations?

• On peut ensuite trouver dans un tableau de distribution normale :

• La puissance = 0.22

Statistique Éch. 1 Éch. 2

r .78 .84

n 98 95

z 1.045 1.221

z z1 20146 .

Z Z

Zz z

Z

a

z z

. ( )

( )

.

| |.

05 2

11 2

196

0 761 2

P Z

P Z

( . )

( . ) .

0 76

1 0 76 78