Upload
hamien
View
222
Download
0
Embed Size (px)
Citation preview
cours réalisé par Benjamin Putois 08/12/2008
1
Corrélation
Cas: échelle numérique
Coefficient de corrélation de Bravais-Pearson
i.e. coefficient de corrélation linéaire
Cours réalisé par Benjamin PutoisNovembre [email protected]
couple A B C D E F G H I J
FEMME 18 21 22 19 30 20 19 19 32 30
HOMME 38 24 26 20 28 26 24 20 24 20
Existe-t-il une corrélation entre l’âge de mariage des hommes et celui des femmes?Nous avons interrogé 10 couples sur leur âge au moment du mariage:
cours réalisé par Benjamin Putois 08/12/2008
2
âge A B C D E F G H I J MOYENNE
FEMME 18 21 22 19 30 20 19 19 32 30 23
HOMME 38 24 26 20 28 26 24 20 24 20 25
Etape 1: hyp
H0: pas de corrélationH1: corrélation
Etape 2: calcul de la covariance
Etape 2.1: calcul de la moyenne
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
Moyenne
cours réalisé par Benjamin Putois 08/12/2008
3
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
Moyenne
X-Mx
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
Moyenne
X-Mx
Y-My
cours réalisé par Benjamin Putois 08/12/2008
4
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
Moyenne
X-Mx
Y-My(X-Mx)*(Y-My)
Rappel: la surface d’un rectangle
A
B
A*B
cours réalisé par Benjamin Putois 08/12/2008
5
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
Moyenne
X-Mx
Y-My(X-Mx)*(Y-My)
Covariance des dispersions = Est-ce
que les variables varient dans le même sens?
Dispersion de Y
Dispersion de X
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
(X-Mx)*(Y-My)
Deux dimensions
Une dimension
Une dimension
cours réalisé par Benjamin Putois 08/12/2008
6
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
cours réalisé par Benjamin Putois 08/12/2008
7
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
cours réalisé par Benjamin Putois 08/12/2008
8
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
cours réalisé par Benjamin Putois 08/12/2008
9
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
cours réalisé par Benjamin Putois 08/12/2008
10
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
∑(xi-Mx)(yi-My)
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
∑(xi-Mx)(yi-My)/N = Cov(x,y)
cours réalisé par Benjamin Putois 08/12/2008
11
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
∑(xi-Mx)(yi-My)/N = Cov(x,y)La covariance est la moyenne
des surfaces des distances des points par rapport à la
moyenne
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
positif
négatif
négatif
positif
Remarque sur la covariance:
cours réalisé par Benjamin Putois 08/12/2008
12
Remarque sur la covariance:
20212223242526272829303132333435363738
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
ÂG
E H
OM
ME
ÂGE FEMME
positif
négatif
négatif
positif
covariance positivecovariance négative
Remarque sur la covariance:La covariance permet d'estimer le sens de la variation entre deuxvariables numériques :
Les variables varient dans le même sens (ou covarient) : les sujetsqui ont des valeurs fortes (au dessus de la moyenne) sur unevariable, présentent également des valeurs élevées sur l'autrevariable. Autrement dit, les sujets les plus grands sont les sujets lesplus lourds et, inversement, les sujets plus petits sont les plus légers :dans ce cas, la covariance est de signe positif (+66,831)
► Les variables varient en sens inverse : les sujets qui ont des valeursfortes sur une des deux variables auront tendance à avoir des notesfaibles sur l'autre variable. La valeur de la covariance sera alors designe négatif
► Les variables ne covarient pas : Parmi les sujets présentant desvaleurs fortes sur une variable, on peut observer que, sur l'autrevariable, ces mêmes sujets obtiennent des notes fortes, faibles oumoyennes. La valeur de la covariance est proche de la valeur 0.
cours réalisé par Benjamin Putois 08/12/2008
13
âge A B C D E F G H I J MOYENNE sdFEMME 18 21 22 19 27 27 19 19 21 19 21,2 3,29309041HOMME 19 20 23 20 28 26 18 20 24 20 21,8 3,29309041moyenne F 21 21 21 21 21 21 21 21 21 21 21,2moyenne H 22 22 22 22 22 22 22 22 22 22 21,8X-moy -3 -0 1 -2 6 6 -2 -2 -0 -2Y-moy -3 -2 1 -2 6 4 -4 -2 2 -2 SOMMEX-moy*Y-moy 9 0 1 4 36 24 8 4 -0 4 90,4
SOMME / N9,04
cov 9,04R 0,83360656
15
20
25
30
15 17 19 21 23 25 27 29
HO
MM
E
FEMME
Corrélation positive et forte
âge A B C D E F G H I J MOYENNE sdFEMME 18 38 27 53 27 27 50 67 36 80 42,3 19,8776815HOMME 42 20 23 20 60 26 18 20 24 20 27,3 13,4002488moyenne F 42 42 42 42 42 42 42 42 42 42 42,3moyenne H 27 27 27 27 27 27 27 27 27 27 27,3X-moy -24 -4 ## 11 ## ## 8 25 -6 38Y-moy 15 -7 -4 -7 33 -1 -9 -7 -3 -7 SOMMEX-moy*Y-moy ## 31 66 ## ## 20 ## ## 21 ### -1324,9
SOMME / N-132,49
cov -132,49R -0,49739
1520253035404550556065707580
15 25 35 45 55 65 75 85
HO
MM
E
FEMME
Corrélation négative et
moyenne
cours réalisé par Benjamin Putois 08/12/2008
14
âge A B C D E F G H I J Moyenne
FEMME 18 21 22 19 30 20 19 19 32 30 23
HOMME 38 24 26 20 28 26 24 20 24 20 25
X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=
7
Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=
-5
Etape 2.2: calcul des distances aux moyennes
âge A B C D E F G H I J Moyenne
FEMME 18 21 22 19 30 20 19 19 32 30 23
HOMME 38 24 26 20 28 26 24 20 24 20 25
X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=
7
Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=
-5
Etape 1.3: produit des distances
(X-Mx)*(Y-My) -65 2 -1 20 21 -3 4 20 -97*-5=
-35
cours réalisé par Benjamin Putois 08/12/2008
15
âge A B C D E F G H I J Moyenne
FEMME 18 21 22 19 30 20 19 19 32 30 23
HOMME 38 24 26 20 28 26 24 20 24 20 25
X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=
7
Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=
-5
Etape 2.3: moyenne des produits des distances
(X-Mx)*(Y-My) -65 2 -1 20 21 -3 4 20 -97*-5=
-35∑=-46
Etape 3: calcul du coef. de corr.Etape 3.1: calcul des écart-types de chaque variable
Etape 3.2: calcul du rcalculé
σ x σy=5.44 =5.35
Pourquoi divise-t-on par le produit des écarts-types?
cours réalisé par Benjamin Putois 08/12/2008
16
•On pondère la covariance par les produits des dispersions pour donner une valeur, un indice compris entre -1 et 1.
•La covariance (i.e. la dispersion en 2D) est pondérée par la dispersion de chaque variable (i.e. le produit des écarts-types)
Etape 4 : seuil de significativité et ddlα=.05ddl= N – nombre de variable = 10-2= 8Etape 5 : recherche du rthéorique
rthéorique= 0,632
cours réalisé par Benjamin Putois 08/12/2008
17
Etape 5: comparaison entre |rcalculé| et rthéorique
|rcalculé|=- 0,158 rthéorique= = 0,632
|rcalculé| < rthéorique
Si rcalculé ≥ rthéorique alors on rejette l’hypothèse nulle et accepte H1: les deux distributions sont statistiquement liées. On peutl’affirmer avec un risque d’erreur < 5%.Si rcalculé < rthéorique alors on ne rejette pas l’hypothèse nulle : on nepeut pas dire que les deux distributions sont statistiquementliées. Mais attention : cela ne veut pas dire que l’on accepte Ho
Etape 6: conclusionOn ne rejette pas H0
Remarque sur le coef. de corr.:
•Si le coefficient de corrélation est proche de 1 ou de –1, cela signifie que les variables x et y sont très fortementliées (par une relation de la forme y = ax + b).•S’il est proche de 0, cela signifie que le lien est faible.•Un signe positif indique que x et y varient dans le mêmesens.
cours réalisé par Benjamin Putois 08/12/2008
18
Formules :
« Dispersion » de Y par rapport à la moyenne de Y
« Dispersion » de X par rapport à la moyenne de X
Produit des dispersion (surface ou vecteur ou aire)
Moyenne des produits des dispersions
Pondération
Formules :
« Dispersion » de Y par rapport à la moyenne de Y
« Dispersion » de X par rapport à la moyenne de X
Produit des dispersion (surface ou vecteur ou aire)
Moyenne des produits des dispersions
Pondération
cours réalisé par Benjamin Putois 08/12/2008
19
Droite de régression linéaire :
La corrélation linéaire entre ces deux variables peut être symbolisée par une droite…
15
20
25
30
15 17 19 21 23 25 27 29
HO
MM
E
FEMME
Droite de régression linéaire :
La corrélation linéaire entre ces deux variables peut être symbolisée par une droite:
15
20
25
30
15 17 19 21 23 25 27 29
HO
MM
E
FEMME
Cette droite est trouvée par laméthode des moindres carrés.C’est-à-dire que pour lacalculer, on cherche à minimiserla distance de chaque point parrapport à une droite
cours réalisé par Benjamin Putois 08/12/2008
20
Droite de régression linéaire :
La corrélation linéaire entre ces deux variables peut être symbolisée par une droite:
15
20
25
30
15 17 19 21 23 25 27 29
HO
MM
E
FEMME
L’intérêt d’une telle droite estqu’elle permet de nous donnerdes prédictions.
Par exemple:Si une femme se marie à l’âge de25 ans, alors notre corrélationnous permet de prédire que sonconjoint aura 25 ans.
Droite de régression linéaire :
15
20
25
30
15 20 25 30
HO
MM
E
FEMME
Attention cette droite permet de prédirel’âge de l’homme à partir de l’âge de lafemme.Et non l’inverse !
Celle-ci permet de prédire l’âge de lafemme à partir de l’âge de l’homme.
���� Nous pouvons donc faire deux droitesde régression linéaire
15
20
25
30
15 20 25 30
FEM
ME
HOMME
cours réalisé par Benjamin Putois 08/12/2008
21
Droite de régression linéaire :
A partir de l’âge des femmes, onprédit l’âge des hommes.y=(a*x )+ ba=cov(HOMME,FEMME)/varFEMME
b=MHOMME-(a*MFEMME)
15
17
19
21
23
25
27
29
15 17 19 21 23 25 27 29
FEM
ME
HOMME
15
20
25
30
15 17 19 21 23 25 27 29
HO
MM
E
FEMME
A partir de l’âge des hommes, onprédit l’âge des femmesy=(a*x )+ ba=cov(FEMME,HOMME)/varHOMME
b=MFEMME-(a*MHOMME)
Y= 0,93X + 2,16
Y= 0,93X + 1,01
Rappel: qu’est ce qu’une droite?
Une droite se définie par la formule: y=ax+b•Une pente : l’inclinaison de la droite, noté a•L’ordonnée à l’origine : la valeur de Y si X est nul, noté b
Rappel: qu’est ce que l’ordonnée à l’origine?
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
L’ordonnée à l’origine est la valeur de Y quand X est égal à
zéro. C’est l’endroit où la droite sectionne l’ordonnée, d’où son
nom!
cours réalisé par Benjamin Putois 08/12/2008
22
Rappel: qu’est ce qu’une pente?
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
•Plus la pente est forte plus la croissance (ou la décroissance) est forte.
•La pente de (a) sera plus grande que la pente de (b)
et cette dernière plus grande que celle de (c)
a b
c
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
•Une pente positive indique une croissance.
•Une pente nulle indique une constance.
•Une pente négative indique une décroissance.
D’où son nom!
Rappel: qu’est ce qu’une pente?
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Exemple de pente:droite a: y=4x
J’avance de 10,je monte de 40.
Donc a=40/10=4
a
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Exemple de pente:droite b: y=1x
J’avance de 10, je monte de 10.
Donc a=10/10=4
b
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Exemple de pente:droite c: y=1/5xJ’avance de 50, je monte de 10.
Donc a=10/50=1/5
c
cours réalisé par Benjamin Putois 08/12/2008
23
Entraînement:
Trouvez les formules de ces droites:
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Y = 15L’ordonnée à l’origine est 15.
La pente est nulle.Équivaut à
Y= 0*X + 15
Y = XL’ordonnée à l’origine est nulle.
La pente est égale à 1.Équivaut à Y= 1*X+0
Entraînement:
Trouvez les formules de ces droites:
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Y = 35L’ordonnée à l’origine est 35.
La pente est nulle.Équivaut à
Y= 0*X + 35
Y = -X+50L’ordonnée à l’origine est 50.
La pente est égale à -1.Équivaut à Y= -1*X+50
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Y = 4X+10L’ordonnée à l’origine est 10.
La pente est égale à 4.Équivaut à Y= 4*X+10
cours réalisé par Benjamin Putois 08/12/2008
24
Entraînement:
Trouvez les formules de ces droites:
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Y = -0,5X+40L’ordonnée à l’origine est 40.
La pente est -0,5.Équivaut à
Y= -0,5*X + 40
Y = 0,5X+20L’ordonnée à l’origine est 20.
La pente est égale à 0,5.Équivaut à
Y= 0,5*X+20
0
10
20
30
40
50
0 10 20 30 40 50
Y
X
Y = 0,33X+10L’ordonnée à l’origine est 10.
La pente est égale à 0,33.Équivaut à
Y= 0,33*X+10
Droite de régression linéaire :Entrainez-vous avec ce nouvel exemple:
âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20
cours réalisé par Benjamin Putois 08/12/2008
25
Droite de régression linéaire :
Moyenne FEMME= 42,3Moyenne HOMME= 27,3Variance FEMME= 355,61Variance HOMME= 161,61Ecart-type FEMME= 18,86Ecart-type HOMME= 12,71
Cov(FEMME;HOMME)=….rcalculé=….ddl=….rthéorique=….
âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20
Droite de régression linéaire :
Moyenne FEMME= 42,3Moyenne HOMME= 27,3Variance FEMME= 355,61Variance HOMME= 161,61Ecart-type FEMME= 18,86Ecart-type HOMME= 12,71
Cov(FEMME;HOMME)=-132,89rcalculé=-0,55ddl=10-2=8rthéorique=0,632 (si alpha=.05) � on ne peut pas rejeter H0!
âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20
cours réalisé par Benjamin Putois 08/12/2008
26
Droite de régression de HOMME sur FEMME:
0
10
20
30
40
50
60
70
80
0 20 40 60 80 100
HO
MM
E
FEMME
HOMME= a * FEMME + ba= cov / var(FEMME)a=-132,89 / 365,61a=-0,37
b=MHOMME-(a*MFEMME)b=27,3 – (-0,37*42,3)b=43,06
HOMME= -0,37 * FEMME + 43,06
Attention aux interpolations !•Premièrement à un seuil de .05, il n’y a pas de corrélation•Deuxièmement, on peut prédire qu’une femme qui vient de naître (zéro ans) se marie avec un homme de 43 ans!
Droite de régression de FEMME sur HOMME:
0
10
20
30
40
50
60
70
80
90
0 20 40 60 80
FEM
ME
HOMME
FEMME= a * HOMME + ba= cov / var(HOMME)a=-132,89 / 161,61a=-0,82
b=MFEMME-(a*MHOMME)b=42,3 – (-0,82*27,3)b=64,68
FEMME= -0,82* HOMME + 64,68
Attention aux interpolations !•Premièrement à un seuil de .05, il n’y a pas de corrélation•Deuxièmement, on peut prédire qu’un homme qui vient de naître (zéro ans) se marie avec une femme de 64,68 ans!