14
1 Corrélation • Position du problème On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement Si les variables sont indépendantes y i doit avoir, en moyenne, la même valeur quelque soit x i et inversement. Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y • Définition r = covariance (X,Y) var(X) * var (Y) Le coefficient de corrélation mesure l’association linéaire entre X et Y Il fait jouer un rôle symétrique à X et Y Il reste identique si on

1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

Embed Size (px)

Citation preview

Page 1: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

1

Corrélation• Position du problème

– On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement

– Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement.

– Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y

• Définition

r = covariance (X,Y)

var(X) * var (Y)

• Le coefficient de corrélation mesure l’association linéaire entre X et Y

• Il fait jouer un rôle symétrique à X et Y• Il reste identique si on change d’unité ou

d’origine

Page 2: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

2

Corrélation

• Tableau des valeurs :

• Représentation graphique Nuage de points

• Paramètres :Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation

Éléments nécessaires :Nombre de couples : NTotal des produits X*YTotal des X et des YTotal des carrés des X et des Y

Poids Taille70 18060 17550 16070 18055 160

Poids\Taille 160 175 18050 155 160 170 2

Poids et Taille

155

160

165

170

175

180

185

0 20 40 60 80

Page 3: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

3

Corrélation

• Calculs :

• Effectifs N (nombre de couple)• Total des valeurs (somme) Tx et Ty

• Total des carrés des valeurs Ux et Uy

• Total des produits Txy

SCEx = Ux - Tx

2

N

Sx =SCEx

N

Nx- 1

• Covariance cov (x,y) = (x - x)*(y - y)

N

=Txy -

Tx *Ty

NN

x =SCEx^

Page 4: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

4

Corrélation

• Régression et corrélation :– x et y sont deux variables aléatoires : x en

fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation

– y est explicable par x (action /dose) => régression

• Droite de régression des moindres carrés

y

x

••

d1

d2

y = a + b X

Droite de régression de y en xMinimise la somme des d1i

[yi - y(x)] = ( yi - a - b * xi)2 2

Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b

Droite de régression de x en yMinimise la somme des d2i

Page 5: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

5

Corrélation• Calcul du coefficient de

corrélation

r = cov(x,y)

Sx2

*Sx

Sy

=cov(x,y)

Sx * Sy

= Txy -

Tx *Ty

N

SCEx * SCEy

• r varie de -1 à + 1• si r = 0 pas de liaison• si r = 1 (ou -1) la connaissance de x

(ou de y) donne toute l'information. Il est alors inutile de mesurer l'autre variable.

• Test du coefficient de corrélation contre 0• Hypothèse nulle

• x et y sont indépendants. r fluctue autour de 0 du fait du hasard.

• Hypothèses alternatives

• Test bilatéral x et y sont liés. r est différent de 0

Page 6: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

6

Corrélation• Conditions d'applications

– Si N est petit pour une valeur de x donnée, la distribution des y (distribution liée) est normale et de variance constante (et réciproquement).Le modèle linéaire a un sens

• Utilisation de la table du coefficient de corrélation (N<100)

• Calcul d'une statistique t de Student

• Recherche dans la table (r ou t) de la valeur

correspondant à alpha choisi.• Si r ou t > r ou t alpha on rejette H0 : les deux

variables sont liées• Si r ou t < r ou t alpha on ne peut pas rejeter H0.

Les deux variables sont indépendantes mais ATTENTION au risque beta.

r

2t = N - 2 DDL = N - 2

1-r

Si il y a une liaison, dans le cas où la distribution (xy) est normale, r mesure la force de la liaison

Page 7: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

7

Divers types de résultats• Importance de la visualisation du nuage de points

2

3

4

5

6

7

8

9

10

2 3 4 5 6 7 8 -9

-8

-7

-6

-5

-4

-3

-2

2 3 4 5 6 7

456789

1011121314151617

2 4 6 8 -9-8-7-6-5-4-3-2-1012345

0 2 4 6 8

4

5

6

2 3 4 5 6 7

4,8

5

5,2

5,4

5,6

5,8

6

6,2

4,5 5 5,5 6 6,5

« Amande à petit ventre »

Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9

« Amande à gros ventre »

Faible corrélation positive Faible corrélation négative

Pas de corrélation r voisin de 0

Page 8: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

8

Coefficient de corrélation de rang de Spearman

• Si condition d'application pour le coefficient de corrélation usuelle ne sont pas remplies, on calcul le coefficient de corrélation non pas entre les valeurs mais entre leur rang.

• Coefficient de corrélation Rs :

rs = 1 - ________ di

2

i=1

n

di = xi - yi

6

2N(N - 1)

• Test du rs Spearman utilisation de table

ou calcul d’un t de Student

Page 9: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

9

Régression linéaire• Situation du problème :

– Étude da l’association de deux variables quantitatives X et Y telle que X explique Y. Cela revient à étudier la distribution de Y pour chaque valeur de X.

– S’il y a une association entre X et Y la distribution conditionnelle de Y varie selon les valeurs de X. La moyenne et la variance conditionnelle de Y dépendent de X. Ici on ne va s'intéresser qu’à la variation de la moyenne mY/X.

– La fonction de régression de Y en X est la fonction f décrivant la variation de la moyenne conditionnelle de Y par rapport à X :

– f(x) = E(Y/X)

– Exemple : Poids de naissance en fonction du terme de la grossesse, Baisse de la tension artérielle en fonction de la dose d’anti-hypertenseur...

• Tableau des valeurs :Terme Poids moyen Ecart type estimé27 1146 437,4628 1292 371,0229 1694 617,39....

Page 10: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

10

Représentation des données

• Exemple– Poids de naissance / Terme

• Pour chaque valeur du terme on a la moyenne et l’écart type du poids de naissance. On trace le nuage de points.

• On envisage des fonctions simples entre lesquelles on essaie de choisir : droite, exponentielle, parabole. En pratique, par transformation de variable, on se ramène à une droite :

• E(Y/x) = f(x) = a + bx

Si l’on se ramène aux valeurs individuelles on a :y = a + by + e

ou e est l’écart entre la valeur individuelle y de chaque sujet et la moyenne de y pour une valeur e x donnée.

semaines Poids27 114628 129229 169430 189231 198632 200033 211834 229035 231036 280037 301938 321039 345040 347541 355342 358243 3604

Poids de Naissance / Age gest.

1000

1500

2000

2500

3000

3500

4000

4500

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Semaines

Gra

mm

es

Page 11: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

11

Régression linéaire

• Droite de régression– Estimation par le méthode des

moindres carrés :• Chaque sujet de la population est

représenté par un couple de valeur (x,y) sur le graphique.

• La droite de régression est parmi toutes les droites possible celle qui résume le mieux le nuage de points.

• Le critère retenu pour mesurer la distance d’un point à la droite est la distance verticale entre le point xiyi et la droite.

• La distance de la droite à l’ensemble des points est par définition la somme des carrés des distances. La droite de régression est celle qui minimise cette distance.

Page 12: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

12

Régression linéaire• Estimation des paramètres de la

droite– Données nécessaires

Y = a + bX

N = Nombre de couple

Tx = Xi

Ty = Yi

Txy = XiYi

Ux = Xi

i=1

N

i=1

N

i=1

N

i=1

N 2

b = Txy -

Tx*TyN

Ux - Tx2

N

a = b *Ty Tx

N N

Page 13: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

13

Régression linéaire• Test de la pente de la droite de

régression– Hypothèses

• Hypothèse nulle :– b = 0 : il n’y a pas d'association entre X

et Y

• Hypothèse alternative :– b différent de 0 (test bilatéral)

– Conditions :• La régression doit être linéaire

• Pour X fixé, les valeurs de Y doivent être indépendantes de distribution normale et de variance constante

– Écart type de la pente :

b2^ =

y^

x^

2

b2

N - 2

Page 14: 1 Corrélation Position du problème –On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes

14

Régression linéaire

• Test de la pente de la droite de régression– Statistique : t de Student

t = b

b^

DDL = N-2

- Décision :Si t est supérieur à t alpha on rejette H0. Il existe une relation entre les variation de X et de Y : Pour chaque valeur de X, Y augment en moyenne de b.Sinon, la pente peut être considérée comme nulle : les valeurs de Y sont indépendantes de X

- Prédiction :S’il pente est différente de 0, on peut prédire la valeur de Y à partir de celle de X.On ne doit pas extrapoler en dehors des valeurs de X que l’on a observé.On peut calculer un intervalle de confiance pour les valeurs prédites