42
- 1 - STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES En statistique sociale, des composantes importantes d’un modèle peuvent ne pas être observées directement. La définition même de ces variables pose problème. Elles sont souvent des construits théoriques qui ne sont pas mesurables directement et dont l’« existence » est postulée à partir d’un raisonnement abstrait propre au domaine d’applications. On les observe de façon indirecte en notant leur influence sur des variables mesurées, telles des tests d’aptitude ou des réponses à un questionnaire. Comment mesure-t-on l’attitude d’une personne face à un enjeu social? Comment définir le milieu socio-économique d’un étudiant? On évalue ces variables non-observables à l’aide de questions indirectes. Ainsi l’« intelligence » d’un sujet est mesurée à l’aide de tests d’aptitude. La « détresse psychologique » d’une personne atteinte d’une maladie grave est déduite de son attitude face à des activités quotidiennes. La formulation de questions pour mesurer un concept latent est un art en soi. Les variables latentes sont également utilisées en dehors des sciences sociales, pour combiner des variables et mesurer des relations de « causes à effets » dans différents domaines scientifiques.

STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

  • Upload
    others

  • View
    18

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 1 -

STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE

VARIABLES LATENTES En statistique sociale, des composantes importantes d’un modèle peuvent ne pas être observées directement. La définition même de ces variables pose problème. Elles sont souvent des construits théoriques qui ne sont pas mesurables directement et dont l’« existence » est postulée à partir d’un raisonnement abstrait propre au domaine d’applications. On les observe de façon indirecte en notant leur influence sur des variables mesurées, telles des tests d’aptitude ou des réponses à un questionnaire. Comment mesure-t-on l’attitude d’une personne face à un enjeu social? Comment définir le milieu socio-économique d’un étudiant? On évalue ces variables non-observables à l’aide de questions indirectes. Ainsi l’« intelligence » d’un sujet est mesurée à l’aide de tests d’aptitude. La « détresse psychologique » d’une personne atteinte d’une maladie grave est déduite de son attitude face à des activités quotidiennes. La formulation de questions pour mesurer un concept latent est un art en soi. Les variables latentes sont également utilisées en dehors des sciences sociales, pour combiner des variables et mesurer des relations de « causes à effets » dans différents domaines scientifiques.

Page 2: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 2 -

En analyse factorielle exploratoire, les données sont des réponses à un ensemble de questions par un échantillon d’unités. Il y a souvent beaucoup de questions; l’objectif de l’analyse est d’identifier un petit nombre de variables latentes sous jacentes aux réponses à ces questions et d’interpréter ces construits, de leur donner un sens. Le mot exploratoire signifie que (i) les construits latents ne sont pas déterminés a priori et (ii) au départ les variables observées ne sont pas associées à un construit latent. Lorsque le questionnaire est construit dans le but de mesurer des construits latents prédéfinis, ajuster un modèle d’analyse factorielle exploratoire fait une validation empirique du questionnaire. La construction postule un certain regroupement des questions; ces liens hypothétiques sont-ils conformes à ceux observés lors de l’analyse statistique? Un des objectifs de l’analyse est également d’interpréter les construits et de leur donner un sens à partir des variables qui y sont le plus étroitement associées. La théorie psychométrique suppose souvent que ces facteurs latents non observables « existent » vraiment et qu’ils sont les « causes » des valeurs prises par les variables mesurées. Les statisticiens sont souvent sceptiques face à cette profession de foi envers des variables non-observables.

Page 3: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 3 -

Données : Une matrice nxd contenant les réponses numériques de n sujets à d questions associées au phénomène étudié. Exemple : Les données portent sur n=103 officiers de police qui ont été évalués par leurs superviseurs selon d=13 critères (scores entre 1 et 9 moyennes de 6-7, +=positif). Les 13 variables sont

1. CommunicationSkills 2. InterpersonalSensitivity 3. ProblemSolving 4. DesireforSelfImprovement 5. LearningAbility 6. Appearance 7. JudgmentUnderPressure 8. Dependability 9. ObservationalSkills 10. PhysicalAbility 11. WillingnesstoConfrontProblems 12. Integrity 13. InterestinPeople

Les 8 premières lignes du fichier de données sont

CommSk ProbSol LearnAbi JudgmentPObserSkWillConProbIntPeopInterPersoSe DesiSelfImAppearDependPhysAbil Inegrety2 6 8 3 8 8 5 3 8 7 9 8 67 4 7 5 8 8 7 6 8 5 7 6 65 6 7 5 7 8 6 3 7 7 5 8 76 7 8 6 9 7 7 7 9 8 8 9 99 9 9 9 7 7 9 8 8 7 8 8 88 9 8 9 7 8 9 9 8 8 8 7 98 9 9 9 9 8 8 9 8 9 9 7 9

Page 4: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 4 -

Évaluation des policiers Ces 13 questions mesurent différentes facettes de l’attitude du policier dans son emploi. Certaines portent sur les relations interpersonnelles ; d’autres sur l’attitude personnelle du policier. Combien de facteurs sont nécessaires pour bien décrire ces 13 questions. Les corrélations entre les variables données à la page suivante sont toutes positives. Ceci suggère un effet « taille », fréquent dans ce genre de données. Un modèle avec un seul facteur « attitude » pourrait peut-être expliquer l’ensemble des résultats. La variable latente mesurerait l’attitude du policier face à son travail et un score élevé serait associé à des scores élevés pour les 13 questions. La première étape de l’analyse de ce modèle est de déterminer le nombre de facteurs nécessaires pour bien décrire les corrélations calculées entre les 13 items. Pour ce faire il faut en présenter les aspects un peu plus formels. Notation : yi est le vecteur dx1 des réponses pour le policier i, i=1,..,n. On suppose que les yi forment un échantillon d’une Nd(). Le paramètre d’intérêt est la matrice de variances covariances théoriques .

Page 5: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 5 -

Matrice de corrélations pour les données sur les policiers Will Prob Learn Judgment Obser Con CommSk Sol Abi P Sk Prob CommSk 1.0000 0.6280 0.5546 0.5538 0.5381 0.5265 ProbSol 0.6280 1.0000 0.5690 0.6195 0.4284 0.5015 LearnAbi 0.5546 0.5690 1.0000 0.4892 0.6230 0.5245 JudgmentP 0.5538 0.6195 0.4892 1.0000 0.3733 0.4004 ObserSk 0.5381 0.4284 0.6230 0.3733 1.0000 0.7300 WillConProb 0.5265 0.5015 0.5245 0.4004 0.7300 1.0000 IntPeop 0.4391 0.3972 0.2735 0.6226 0.2616 0.2233 InterPersoSe 0.5030 0.4398 0.1855 0.6134 0.1655 0.1291 DesiSelfIm 0.5642 0.4090 0.5737 0.4826 0.5985 0.5307 Appear 0.4913 0.3873 0.3988 0.2266 0.4177 0.4825 Depend 0.5471 0.4546 0.5110 0.5471 0.5626 0.4870 PhysAbil 0.2192 0.3201 0.2269 0.3476 0.4274 0.4872 Inegrety 0.5081 0.3846 0.3142 0.5883 0.3906 0.3260 Int Perso Desi Phys Peop Se SelfIm Appear Depend Abil Inegrety CommSk 0.4391 0.5030 0.5642 0.4913 0.5471 0.2192 0.5081 ProbSol 0.3972 0.4398 0.4090 0.3873 0.4546 0.3201 0.3846 LearnAbi 0.2735 0.1855 0.5737 0.3988 0.5110 0.2269 0.3142 JudgmentP 0.6226 0.6134 0.4826 0.2266 0.5471 0.3476 0.5883 ObserSk 0.2616 0.1655 0.5985 0.4177 0.5626 0.4274 0.3906 WillConProb 0.2233 0.1291 0.5307 0.4825 0.4870 0.4872 0.3260 IntPeop 1.0000 0.8051 0.4857 0.2679 0.6074 0.3768 0.7452 InterPersoSe 0.8051 1.0000 0.3713 0.2600 0.5408 0.2182 0.6920 DesiSelfIm 0.4857 0.3713 1.0000 0.4474 0.5981 0.3752 0.5664 Appear 0.2679 0.2600 0.4474 1.0000 0.5089 0.3820 0.4135 Depend 0.6074 0.5408 0.5981 0.5089 1.0000 0.4461 0.6536 PhysAbil 0.3768 0.2182 0.3752 0.3820 0.4461 1.0000 0.3810 Inegrety 0.7452 0.6920 0.5664 0.4135 0.6536 0.3810 1.0000

Note : Un modèle factoriel décrit la relation entre les variables. On ajuste un tel modèle seulement si les variables mesurées sont corrélées entre elles.

Page 6: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 6 -

Modèle avec une seule variable latente.

Un facteur latent continu z détermine les réponses aux d questions. Ainsi

yj=jjz+j, pour j=1,…,d où j est le paramètre de la régression de yj sur z (c’est le loading) et j est une erreur de mesure distribuée selon une loi N(0,j). Sous forme matricielle,

1 1 1 1

2 2 2 2

... ... ... ...

d d d d

yy

z

y

En analyse factorielle classique, on suppose que z suit une distribution N(0,1) et que les erreurs j sont indépendantes de loi N(0,i) . Ainsi,

( , ' )dy N , où dR est un vecteur de paramètres inconnus et diag( )j est une matrice diagonale de variances inconnues. Ce modèle postule une forme particulière pour la matrice de variances covariances des données, ( , ) '

Page 7: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 7 -

Modèle avec une seule variable latente.

Si d=4,

21 1 1 2 1 3 1 4

22 1 2 2 2 3 2 4

23 1 3 2 3 3 3 4

24 1 4 2 4 3 4 4

( , ) '

Le modèle yj=jjz+j, pour j=1,…,d

est semblable à une régression linéaire simple sauf que la variable « explicative » z n’est pas observée. Comme en régression linéaire on décompose la variance 2

j de yj en deux parties : d’une part 2

j la variance expliquée par la variable latente (la « communality ») et j la variance résiduelle (la « specific variance » ou « unique variance »). On peut définir un R2 pour la jième variable par 2 2 2/j j jR . Un modèle est bon dans la mesure où les R2 pour les d variables sont assez grands. Nb de paramètres : Ce modèle a d variance j et d composante au vecteur soient 2d paramètres. En général, d(d+1)/2 paramètres sont associés à une matrice de variances covariances quelconque.

Page 8: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 8 -

Modèle avec une seule variable latente. La matrice de corrélation associée à est,

1 2 1 3 1 42 2 2 2 2 2

2 2 1 1 3 3 1 1 4 4 1 1

2 1 2 3 2 42 2 2 2 2 2

1 1 2 2 3 3 2 2 4 4 2 2

3 1 3 2 3 42 2 2 2 2 2

1 1 3 3 2 2 3 3 4 4 3 3

4 12

1 1 4

1( )( ) ( )( ) ( )( )

1( )( ) ( )( ) ( )( )

1( )( ) ( )( ) ( )( )

( )(

4 2 4 3

2 2 2 2 24 2 2 4 4 3 3 4 4

1) ( )( ) ( )( )

En fait si 2/sj j j ,

1 2 1 3 1 4

2 1 2 3 2 4

3 1 3 2 3 4

4 1 4 2 4 3

11

11

s s s s s s

s s s s s s

s s s s s s

s s s s s s

.

Le loading standardisé sj donne la corrélation entre la jième variable et la variable

latente. Il indique l’importance de la variable j dans la définition de la variable latente.

Page 9: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 9 -

Estimation des paramètres : Il n’y pas de formes explicites pour les estimateurs du maximum de vraisemblance des paramètres j et j. Pour les calculer on utilise souvent un algorithme itératif qui cherche à maximiser la log-vraisemblance des données,

11( , ) log | | log | ( , ) | tr( ( , ) )2

n S S d

où S est la matrice de variances covariances empiriques. Lors des itérations successives, il est possible d’obtenir des ˆi négatifs. Ce phénomène est connu comme un « Haywood case », du nom du premier statisticien à observer ce problème en 1931. Tests d’ajustement : Si le modèle à un facteur s’ajuste bien la statistique

2 1ˆ ˆˆ ˆ( 1) log | | log | ( , ) | tr( ( , ) )obs n S S d

suit une loi chi-deux à d(d-3)/2 degrés de liberté si d>3. Le seuil observé d’un test pour l’ajustement du modèle est 2 2

( 3)/2d d obsP . On peut augmenter le nombre de facteurs si le seuil observé est trop petit. Note : d(d-3)/2=nb de variables dans S (d(d+1)/2) moins le nombre de paramètres du modèle (2d).

Page 10: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 10 -

Analyse du modèle à un facteur (sortie PRELIS) Les données sont-elles normales? Univariate Summary Statistics for Continuous Variables

Variable Mean St. Dev. Skewness Kurtosis Minimum Freq. Maximum Freq. CommSk 6.650 1.764 -0.927 0.874 1.000 1 9.000 14 ProbSol 6.631 1.590 -0.759 0.858 1.000 1 9.000 11 LearnAbi 6.990 1.339 -0.831 1.352 2.000 1 9.000 11 Judgment 6.738 1.732 -0.879 0.206 2.000 2 9.000 12 ObserSk 6.932 1.762 -1.047 0.975 1.000 1 9.000 19 WillConP 7.291 1.525 -1.251 1.602 2.000 1 9.000 21 IntPeop 6.709 1.892 -1.296 1.652 1.000 4 9.000 13 InterPer 6.621 1.761 -0.942 1.036 1.000 2 9.000 12 DesiSelf 6.573 1.730 -0.890 0.439 1.000 1 9.000 8 Appear 7.000 1.799 -1.041 1.088 1.000 2 9.000 24 Depend 6.825 1.917 -0.972 0.530 1.000 2 9.000 20 PhysAbil 7.204 1.555 -1.352 2.654 1.000 1 9.000 20 Inegrety 7.214 1.845 -1.648 3.196 1.000 4 9.000 27

Page 11: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 11 -

Les coefficients d’asymétrie sont négatifs. Regardons les histogrammes de quelques variables pour comprendre ce qui se passe variable: Inegrety

FREQUENCY PERCENTAGE

LOWER CLASS LIMIT

4 3.9 1.000 0 0.0 1.800 1 1.0 2.600 3 2.9 3.400 4 3.9 4.200 0 0.0 5.000

14 13.6 5.800 23 22.3 6.600 27 26.2 7.400 27 26.2 8.200

variable: InterPer FREQUENC

Y PERCENTA

GE LOWER CLASS

LIMIT2 1.9 1.000 1 1.0 1.800 4 3.9 2.600 2 1.9 3.400 0 0.0 4.200

14 13.6 5.000 22 21.4 5.800 20 19.4 6.600 26 25.2 7.400 12 11.7 8.200

Page 12: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 12 -

Analyse du modèle à un facteur (sortie SAS, PROC FACTOR) (Dans les analyses qui suivent la transformation des données ne change pas vraiment les résultats) proc factor data=jobratings; method=ML n=1;run; Convergence criterion satisfied. Significance Tests Based on 103 Observations Pr > Test DF Chi-Square ChiSq H0: No common factors 78 852.5129 <.0001 HA: At least one common factor H0: 1 Factor is sufficient 65 291.1636 <.0001 HA: More factors are needed Chi-Square without Bartlett's Correction 308.82516

On a d=13 variables il y donc 13x14/2=91 degrés de liberté pour estimer On ajuste d’abord un modèle avec aucun facteur, qui suppose l’indépendance entre

les 13 variables. Il y a 91-13=78 degrés de liberté pour la statistique chi-deux du

Page 13: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 13 -

modèle d’indépendance. Cette statistique est très grande ; l’hypothèse d’indépendance entre les 13 variables est rejetée.

Pour le modèle à un facteur on a d(d-3)/2=65 degrés de liberté et la statistique du chi-deux est très grande. Ceci indique un mauvais ajustement.

En fait la vraie statistique du chi-deux est 308.83. SAS incorpore dans son test d’ajustement la correction de Bartlett qui améliore la qualité de l’approximation chi-deux comme distribution de la statistique du test.

2 11 2 2 13 11 21 1 .9346 3 6 103 3 103

dCn n

Cette correction n’apparaît pas dans les statistiques du chi-deux pour les modèles plus complexes d’équations structurelles qu’on va rencontrer plus loin. Pour juger du mauvais ajustement du modèle à un facteur, on utilise souvent

2 / 308.83 / 65 4.75obs dl . Une valeur voisine de 1 est associée à un bon ajustement.

Page 14: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 14 -

ASPECTS NUMERIQUES Lorsque l’on ajuste des modèles statistiques standards (régression linéaire, analyse discriminante, régression logistique, modèle linéaire mixte) les problèmes numériques sont rares. En analyse factorielle et en équations structurelles, il peut arriver que la matrice de variance covariance n’ait pas une forme compatible avec le modèle postulé. Par exemple

'2 1 2 1 1 1 0 01 2 2 1 1 0 1 02 2 3 2 2 0 0 1

est une matrice de variance covariance (elle est définie positive) qui est incompatible avec un modèle à un facteur, car le paramètre 3=-1 est négatif. Si on essaie d’ajuster un modèle à un facteur à des données provenant d’une N3(), on risque d’obtenir une estimation de 3 négative, ce qui est impossible pour une variance. Il s’agit d’un « Haywood case », du nom du statisticien qui a mis ce phénomène en lumière. Dans des modèles d’équations structurelles complexes, lorsque la vraie matrice est incompatible avec le modèle postulé, l’algorithme de maximisation de la vraisemblance risque de ne pas converger. Les problèmes numériques sont très fréquents !

Page 15: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 15 -

Modèle à m<d facteurs. Dans un modèle factoriel général, à m facteurs, on a y f ε où est la matrice dxm des loadings, (0, )mN If est le vecteur des facteurs et (0, )dN ε est le vecteur des erreurs. Sous forme matricielle,

1 1 11 1 11

2 2 21 2 2

1

...

......

... ... ... ... ... ......

m

m

md d d dm d

yf

y

fy

On suppose que f et sont indépendants. C’est un modèle semblable à un modèle de régression multiple, sauf que les variables explicatives ne sont pas observées. Dans ce cas,

( , )Tdy N .

En fait, 1

m

j ji i ji

y f

. Ainsi 2 2

1

Var( )ji

m

j j ji

y

et 1

Cov( , )m

j k ji kii

y y

.

On appelle souvent 2

1ji

m

ii

h

la « communality » et i la « specific variance ».

Page 16: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 16 -

Modèle à m<d facteurs.

Pour interpréter les résultats, on travaille surtout avec la matrice de corrélation. Cette

matrice a aussi la forme ( )s s T s avec 2

1

diag /ji

ms

j ji

et

1 1

2 2

2 211 1 1 1

1 1

11 12 2

21 2 21 2 2 21 1

1

2 21

1 1

/ ... /

...

... / ... /... ... ...

... ... ......

/ ... /

i i

i i

di di

m m

mi is s

m m ms s

s m mi i

s sd dm

m m

d d dm di i

En fait 1 sj est égal au R2 de la régression de yj sur les variables latentes. C’est un bon

indicateur de la contribution de cette variable au modèle. Les loadings standardisés sji

sont indépendants des unités de mesures des d variables. De plus sji est la corrélation

entre la jième variable observée et la ième variable latente.

Page 17: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 17 -

ROTATION DES FACTEURS Note : Les facteurs ne sont pas définis de façon unique. En effet, pour toute matrice de rotation R mxm, on a

1 1 11 1 11

2 2 21 2 2

1

...

......

... ... ... ... ... ......

m

m T

md d d dm d

yf

yRR

fy

,

où RT représente la transposée de R et RRT=I la matrice identité. Sous forme vectorielle,

T *y RR R f ε f ε , où * (0, )mN If . Ainsi et R donnent des modèles équivalents pour tout matrice de rotation R. Ceci fait en sorte que l’on va disposer de d2/2-dm-d/2+m(m-1)/2=(d-m)2-(d+m)/2 degré de liberté pour tester l’ajustement du modèle. Ceci complique le problème mathématique de maximiser la vraisemblance. Notons que la matrice des loadings standardisés correspondant à R est sR. A la fin d’une analyse on va multiplier la matrice ̂ par une rotation R qui en facilitera l’interprétation. Plusieurs critères de construction pour R sont disponibles. Le critère varimax de Kaiser (1956) est beaucoup utilisé.

Page 18: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 18 -

COMMENT CHOISIR LE NOMBRE DE FACTEURS LATENTS m?

On peut regarder les valeurs propres de la matrice de corrélation. Une règle simple est de prendre le nombre de valeurs propres supérieures à 1. Dans l’exemple des policiers, Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 6.54740242 4.77468744 0.5036 0.5036 2 1.77271499 0.76747933 0.1364 0.6400 3 1.00523565 0.26209665 0.0773 0.7173 4 0.74313901 0.06479499 0.0572 0.7745 5 0.67834402 0.22696368 0.0522 0.8267 6 0.45138034 0.06922167 0.0347 0.8614 7 0.38215866 0.08432613 0.0294 0.8908 8 0.29783254 0.02340663 0.0229 0.9137 9 0.27442591 0.01208809 0.0211 0.9348 10 0.26233782 0.01778332 0.0202 0.9550 11 0.24455450 0.04677622 0.0188 0.9738 12 0.19777828 0.05508241 0.0152 0.9890 13 0.14269586 0.0110 1.0000

La règle précédente donne m=3. On note tout de même une baisse importante de la cinquième à la sixième valeur propre. Ceci suggère m=5 (il y a des problèmes de convergence à m=5); prenons m=4. Pr > Test DF Chi-Square ChiSq H0: 3 Factors are sufficient 42 63.3931 0.0181 Chi-Square without Bartlett's Correction 68.18380 H0:4 Factors are sufficient 32 40.0813 0.1544 Chi-Square without Bartlett's Correction 43.41555

Page 19: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 19 -

La formule générale de la correction de Bartlett

2 11 2 2 13 11 2 31 1 .9216 3 6 103 3 103d mC

n n

Lorsque m=3, la correction vaut .921 et la statistique corrigée est .921 x 68.184= 62.78 (SAS utilise sans doute une formule un peu différente pour calculer la correction). Note : Utiliser les tests d’ajustement du chi-deux calculés avec les estimateurs du maximum de vraisemblance pour déterminer le nombre de facteurs dans le modèle n’est pas conseillé. En effet cette procédure donne en général un nombre de facteurs trop grand. Il n’y a pas de critères objectifs fiables pour déterminer le nombre de facteurs dans une analyse factoriel exploratoire. Il s’agit d’une décision subjective. Ceci met en lumière le besoin de faire une analyse confirmatoire pour valider les résultats obtenus.

Page 20: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 20 -

Variable Communality (m=4) Communality (m=3) CommSk 0.64391778 0.61738108 ProbSol 0.85591425 0.74637038 LearnAbi 0.61034395 0.58134448 JudgmentP 0.62017374 0.63230061 ObserSk 0.74131204 0.73933084 WillConProb 0.67550914 0.67696521 IntPeop 0.82059941 0.81852117 InterPersoSe 0.83448666 0.83215412 DesiSelfIm 0.61403172 0.59206011 Appear 0.35255083 0.34864210 Depend 0.66105061 0.66468760 PhysAbil 0.96094246 0.31143644 Inegrety 0.72497294 0.73322027

On a les communality standardisées (c'est-à-dire les 13 R2) lorsque respectivement 4 et 3 facteurs sont conservés. L’ajout du 4ième facteur est bénéfique pour expliquer PhysAbil et ProbSol. Même avec 4 facteurs, Appear n’est pas bien représenté La méthode varimax (Kaiser ,1956) maximise une somme pondérée des variances des m loadings pour déterminer la rotation R.

Page 21: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 21 -

Exemple : Rotation des axes de l’analyse précédente proc factor data=jobratings(drop=Overall) method=ML scree rotate=varimax ;

L’option varimax permet de multiplier les facteurs par la rotation donnée ici. Les loadings standardisés des facteurs après rotation sont données à la page suivante. Notons

que la rotation ne change pas les communalities, 2 2

1 1

ˆ ˆ( )ji ji

m mrot

i i

et les R2.

Pour interpréter les facteurs il faut fixer un seuil au-delà duquel un loading est considéré comme étant important. On utilise un seuil de .5. Les deux rotations R, pour m=4 et m=3 sont

Orthogonal Transformation Matrix

1 2 3 41 0.492 0.493 0.264 0.6662 0.177 0.585 0.355 -0.7063 -0.672 0.627 -0.353 0.1724 0.523 0.142 -0.823 -0.165

Orthogonal Transformation Matrix 1 2 3

1 0.546 0.718 0.4292 0.703 -0.672 0.2303 0.454 0.176 -0.873

Page 22: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 22 -

Interprétation des facteurs : 1. Observation+Apprentissage 2. Relation humaine 3. Communication

La solution à 4 facteurs est présentée à la page suivante. Elle isole les variables ProbSol et PhysAbil.

Rotated Factor Pattern

Factor

1Factor

2Factor

3CommSk 0.4540 0.3564 0.5331ProbSol 0.3021 0.2565 0.7677LearnAbi 0.5870 0.0876 0.4785JudgmenPress. 0.2683 0.5543 0.5030ObserSk 0.8247 0.0875 0.2267WillConProb 0.7565 0.0331 0.3218IntPeop 0.1862 0.8728 0.1481InterPersoSe 0.0129 0.8675 0.2816DesiSelfIm 0.6440 0.3765 0.1885Appear 0.5150 0.2107 0.1973Depend 0.5734 0.5479 0.1886PhysAbil 0.4877 0.2652 0.0565Integrety 0.3719 0.7646 0.1011

Page 23: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 23 -

Varimax-Rotated Factor Loadings

Factor 1 Factor 2 Factor 3 Factor 4 Unique Var

CommSk -0.057 0.400 0.556 0.413 0.356

ProbSol 0.114 0.263 0.359 0.803 0.144

LearnAbi -0.022 0.128 0.683 0.357 0.390

Judgment 0.122 0.570 0.302 0.436 0.380

ObserSk 0.176 0.114 0.828 0.106 0.259

WillConP 0.276 0.047 0.734 0.240 0.324

IntPeop 0.162 0.871 0.144 0.122 0.179

InterPer 0.012 0.879 0.030 0.247 0.166

DesiSelf 0.108 0.403 0.659 0.073 0.386

Appear 0.202 0.217 0.492 0.149 0.647

Depend 0.183 0.560 0.549 0.111 0.339

PhysAbil 0.912 0.206 0.284 0.075 0.039

Inegrety 0.136 0.769 0.336 0.053 0.275

Page 24: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 24 -

Si on retire Physical Ability et Appearance, les deux facteurs du modèle avec m=2 sont très très semblable aux deux premier facteurs du modèle avec m=4. Pour ce modèle, 2

34 66.3 avec un seuil observe de 0.0008 Ce modèle est-il acceptable ? Note : Pour essayer d’interpréter les facteurs on peut aussi travailler avec des transformations obliques qui ne sont plus des rotations. Cette approche crée des facteurs latents corrélés.

Rotated Factor Pattern Factor1 Factor2

CommSk 0.5989 0.4564 ProbSol 0.5337 0.4018 LearnAbi 0.7300 0.1784 JudgmentP 0.4109 0.6375 ObserSk 0.8426 0.1275 WillConProb 0.8030 0.0951 IntPeop 0.1649 0.8784 InterPersoSe 0.0592 0.9079 DesiSelfIm 0.6395 0.4022 Depend 0.5483 0.5706 Inegrety 0.3179 0.7597

Page 25: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 25 -

Note : si on ajuste deux modèles à un facteur à chacun des 2 groupes de variables, en enlevant ProbSol on obtient le diagramme ci contre pour les variables standardisées: Unrotated Factor Loadings (Facteur 1)

Note : Unique Var = 1-R2 de la régression de la variable sur le facteur . Ajustement 2

5 10.57 (s.o.=6%). Avec ProbSol, 2

9 32.85 seuil observé = 10-4. En analyse factorielle, on considère que les variables latentes « causent » les variables mesurées ce qui motive la direction des flèches, des variables latentes aux variables mesurées.

Factor 1 Unique Var CommSk 0.684 0.533 LearnAbi 0.733 0.463 ObserSk 0.859 0.262 WillConP 0.791 0.375 DesiSelf 0.723 0.477

Page 26: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 26 -

Pour le deuxième groupe de variables Unrotated Factor Loadings (Facteur 2)

Ajustement 25 9.7 seuil observé =

8.4%. On a identifié 2 facteurs, associés aux aptitudes personnelles et relationnelles. Dans les représentations graphiques des deux analyses factorielles, les variables latentes sont représentées par des ellipses. On retrouve, pour chaque variable le loading standardisé et le 1-R2.

Factor 1 Unique VarJudgment 0.707 0.501

IntPeop 0.909 0.174InterPer 0.861 0.260Depend 0.692 0.521Inegrety 0.829 0.313

Page 27: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 27 -

Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien 226 34.94

Varimax-Rotated Factor Loadings

Factor 1 Factor 2 Unique VarCommSk 0.457 0.575 0.460LearnAbi 0.187 0.708 0.464Judgment 0.639 0.382 0.446ObserSk 0.134 0.862 0.239WillConP 0.103 0.797 0.353IntPeop 0.886 0.159 0.190InterPer 0.901 0.048 0.186DesiSelf 0.414 0.644 0.415Depend 0.580 0.551 0.361Inegrety 0.768 0.321 0.307

Facteur 1 : Relations interpersonnelles Facteur 2 : Habilités individuelles Certaines variables sont clairement identifiées à un facteur (ObserSk, WillConP, LearnAbi, IntPeop, InterPer) alors que les 5 autres contribuent aux deux facteurs ( s

ji supérieur à .3).

Page 28: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 28 -

Test de normalité multivariée

Test of Multivariate Normality for Continuous Variables (données non transformées)

Skewness Kurtosis Skewness and Kurtosis Value Z-Score P-Value Value Z-Score P-Value Chi-Square P-Value

31.245 10.915 0.000 150.220 6.275 0.000 158.514 0.000 Test of Multivariate Normality for Continuous Variables (données transformées)

Skewness Kurtosis Skewness and Kurtosis Value Z-Score P-Value Value Z-Score P-Value Chi-Square P-Value

18.844 4.347 0.000 129.727 3.169 0.002 28.934 0.000

La transformation par les scores normaux rend les données plus normales. Note la valeur théorique pour la « kurtosis » multivariée est de d(d+2) si les données sont normales (120 dans l’exemple).

Page 29: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 29 -

QUELLE EST LA CONCLUSION DE CETTE ANALYSE ?

Dans les analyses de régression réalisées dans la partie un des notes, les conclusions étaient claires. Il y a des relations significatives entre la mortalité et certaines variables, qui semblent pouvoir s’interpréter comme des relations de cause à effet. Dans l’analyse factorielle exploratoire, on a isolé deux variables latentes sous jacentes à 10 variables observées. On a procédé par essai et erreur. La relative complexité de la démarche fait en sorte qu’il est difficile de distinguer le signal du bruit dans cette analyse. Ces deux variables latentes se manifesteraient-elles de la même façon si on réutiliserait le questionnaire pour évaluer un nouvel ensemble de policiers ? Peut-être… Pour confirmer les résultats de cette analyse if faudrait les valider sur un nouvel ensemble de données. L’analyse factorielle exploratoire a été critiquée parce que lors d’expériences par simulations selon le schème

le modèle estimé était souvent différent du modèle initial (Seber, 1977, Multivariate Observations)

Page 30: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 30 -

ANALYSE EN COMPOSANTES PRINCIPALES VERSUS ANALYSE FACTORIELLE

En ACP l’objectif de l’analyse est de déterminer les sources de variations importantes dans les données. L’analyse est simple ; on effectue une décomposition en valeurs propres de la matrice de variances covariances ou de la matrice de corrélations. En analyse factorielle l’objectif est d’expliquer les corrélations entre les variables. Il est donc important de s’assurer au préalable que les variables observées sont corrélées entre elles avec le test d’indépendance du chi-deux (ou en examinant les corrélations). Une méthode d’estimation approximative appelée Principal factor analysis estime d’abord la specific variance j à l’aide de la variance résiduelle de la régression de la jième variable sur les d-1 autres variables. Les facteurs sont ensuite déterminées en faisant une ACP de

ˆS (option priors=smc dans SAS). Cette méthode non itérative peut être utilisée pour ajuster un modèle d’analyse factorielle lorsque l’algorithme de calcul pour l’estimateur du maximum de vraisemblance ne converge pas.

Page 31: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 31 -

METHODE DE CALCUL DES ESTIMATEURS DES PARAMETRES DU MODELE AFE

La méthode du maximum de vraisemblance (ML) maximise l’expression suivante :

11( , ) log | | log | ( , ) | tr( ( , ) )2

n S S d ;

un algorithme itératif est requis pour faire les calculs. Le principal factor analysis est une méthode approximative qui fonctionne à tous les coups. Une autre méthode intéressante est la méthode des moindres carrés non pondérés (ULS pour unweighted least squares). Elle minimise

2( , ) tr [ ( , )]f S Cette méthode est implantée par PRELIS pour faire de l’analyse factorielle exploratoire sous le nom MINRES. La méthode ULS est également disponible, sur LISREL, pour estimer un modèle d’équations structurelles arbitraire. Elle est particulièrement utile lorsque la méthode du maximum de vraisemblance ne converge pas. Contrairement à la méthode ML, l’ULS n’est pas invariant à un changement d’échelle.

Page 32: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 32 -

LE COEFFICIENT ALPHA DE CRONBACH

Pour déterminer si un ensemble de questions définit bien un construit latent, on utilise souvent le coefficient alpha de Cronbach (1951). C’est une mesure d’homogénéité ou de cohérence interne entre les items d’un questionnaire (mesurés sur une échelle de Likert) associés au même construit (une dimension de l’instrument de mesure).

Comment le calcule-t-on ?

Il existe deux versions au coefficient alpha αde Cronbach, celui obtenu à partir des scores brutes aux items ( s ) et celui obtenu à partir des scores standardisés (

s ).

Chacun d’eux se calcule comme suit :

2

121 et

1 1 ( 1)

p

jj m

b sT m

sprp

p s p r

Page 33: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 33 -

Où p = Nbre d’items pour la dimension à l’étude de l’instrument, 2

js Variance de l’item j, j=1,…, p et 2

Ts Variance du score total de la dimension;

mr corrélation moyenne entre tous les p(p-1)/2 couples d’items.

Dans la pratique, on utilisera b

si les items sont mesurés sur la même échelle et s

si les

items sont mesurés sur des échelles différentes.

Interprétation : Le coefficient alpha varie entre 0 et 1. Plus grand est ce coefficient, meilleure est la cohérence interne. En pratique, Nunnally (1978) a suggéré une valeur de 0.70 comme une valeur acceptable.

Page 34: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 34 -

Exemple de calcul :

Sujets Item1 Item2 Item3 Score total 1 2 3 2 72 1 1 2 43 2 2 2 64 3 3 3 95 1 1 1 3s2 0.7 1 0.5 5.7

Dans cet exemple, la valeur prise par αb ,le coefficient α de Cronbach brut, est

23 0.7 1 0.511 1 0.92121 2 5.7

ps

jp jb p s

T

.

Pour le calcul de αs,le coefficient de Cronbach standardisé, les corrélations entre tous les couples d’items sont les suivantes:

Page 35: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 35 -

Pearson Correlation Coefficients, N = 5

x1 x2 x3

x1 1.00000 0.89642 0.84515 x2 0.89642 1.00000 0.70711 x3 0.84515 0.70711 1.00000

La moyenne des corrélations inter-items est mr = (0.89642 + 0.84515 + 0.70711)/3 = 0.8162275. Ainsi, la valeur prise par le coefficient αs de Cronbach est

3(0.8162275) 0.93021 ( 1) 1 2(0.8162275)

prm

s p rm

Page 36: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 36 -

Programmation SAS : data lecture; input sujet x1 x2 x3; datalines; 1 2 3 2 2 1 1 2 3 2 2 2 4 3 3 3 5 1 1 1; proc corr data=lecture alpha; var x1 x2 x3; run; Cronbach Coefficient Alpha

Variables Alpha ---------------------------------

Raw 0.921053 Sandardized 0.930190

Cronbach Coefficient Alpha with Deleted Variable

Raw Variables Standardized

variables Deleted Corr with Corr with Var. Alpha Total Alpha Total -------------------------------------------------- x1 0.944 0.800 0.942 0.828 x2 0.842 0.909 0.830 0.916 x3 0.790 0.937 0.797 0.945

Programmation R : library(psy) x <- matrix(c(2,3,2,1,1,2,2,2,2,3,3,3,1,1,1), nrow=5, ncol=3, byrow=TRUE, dimnames = list(c("id1", "id2","id3", "id4", "id5"), c("item1", "item2", "item3"))) cronbach(x) $sample.size [1] 5 $number.of.items [1] 3 $alpha[1] 0.9210526

Page 37: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 37 -

Programme SAS pour calculer les coefficients pour les deux groupes de variables identifié plus haut proc corr data=jobratings alpha; var CommSk LearnAbi ObserSk WillConProb DesiSelfIm; run;

Cronbach Coefficient Alpha Variables Alpha Raw 0.868604 Standardized 0.871839

proc corr data=jobratings alpha; var JudgmentP IntPeop InterPersoSe Depend Inegrety; run;

Cronbach Coefficient Alpha Variables Alpha Raw 0.899208 Standardized 0.899491

Page 38: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 38 -

Les deux coefficients sont élevés. L’ajout de ProbSol au premier groupe de variables ne change pas vraiment l’analyse :

Cronbach Coefficient Alpha Variables Alpha Raw 0.878801 Standardized 0.881405

Ainsi le coefficient de Cronbach est un outil beaucoup moins sensible que l’analyse factorielle pour déterminer si un ensemble de variables défini bien un construit latent. Un coefficient de Cronbach trop élevé (>.9) signifie que les questions ne sont pas suffisamment différenciées. Elles mesurent alors des variables très semblables. Le de Cronbach est pratique pour juger de la cohérence de plusieurs questions en vue d’en faire la somme pour décrire un certain phénomène. Cependant est-il vraiment utile pour juger de la pertinence d’une certaine variable latente dans un modèle factoriel ?

Page 39: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 39 -

TRANSFORMATION DES DONNÉES Si l’hypothèse de normalité est en doute, on peut transformer les données. Lorsque les données sont ordinales les variables prennent des valeurs entières, avec un espacement de 1 entre deux modalités successives. Ce codage, avec espacement de 1, est arbitraire. On peut refaire ce codage en changeant l’espacement entre les choix de réponses pour rendre les données plus normales. On peut par exemple augmenter l’espacement d’une modalité avec ses voisines si cette dernière a une fréquence élevée. Les « normal scores » calculés par PRELIS à partir des rangs des données, permettent de faire ce travail. Pour IntPeop 5→4.655, 7→6.613, 6→5.485, 9→9.896, 8→7.94.

La transformation crée un espacement plus grand entre les catégories avec des effectifs élevés. Elle normalise les données sans changer les 2 premiers moments. Algorithme

1. On remplace chaque score par son rang moyen divisé par n+1 (n=103 dans l’exemple), Xi→Ri/(n+1)

2. On évalue -1(Ri/(n+1)) où -1 est l’inverse de la fonction de répartition normale standardisé

Page 40: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 40 -

3. 1 / ( 1)i x iY X s R n qui crée une nouvelle variable avec les mêmes moments que l’originale mais avec des espacements différents (PRELIS construit les scores selon une formule un peu différente).

Cette transformation normalise les données. Dans l’exemple sur les policiers, le tableau suivant, qui porte sur les données transformées, montre des petites valeurs pour l’asymétrie et l’aplatissement. Variable Mean St. Dev. T-Value Skewn. Kurtosis Minimum Freq Maximum Freq

CommSk 6.651 1.764 38.258 -0.142 -0.325 1.828 1 9.544 14 ProbSol 6.631 1.590 42.317 -0.104 -0.255 2.284 1 9.432 11 LearnAbi 6.990 1.339 52.972 -0.117 -0.212 3.302 1 9.366 11 Judgment 6.738 1.732 39.484 -0.135 -0.319 2.423 2 9.722 12 ObserSk 6.932 1.762 39.935 -0.197 -0.424 2.079 1 9.552 19 WillConP 7.291 1.525 48.517 -0.236 -0.390 3.056 1 9.491 21 IntPeop 6.709 1.892 35.982 -0.124 -0.394 2.504 4 9.896 13 IntPersS 6.621 1.761 38.164 -0.121 -0.321 2.244 2 9.648 12 DesiSelI 6.573 1.730 38.564 -0.122 -0.181 1.841 1 9.884 8 Appear 7.000 1.799 39.498 -0.252 -0.549 2.476 2 9.442 24 Depend 6.825 1.917 36.134 -0.215 -0.477 2.029 2 9.618 20 PhysAbil 7.204 1.555 47.012 -0.220 -0.382 2.900 1 9.482 20 Integret 7.214 1.845 39.675 -0.277 -0.637 3.043 4 9.606 27

Cependant la transformation ne change pas de façon importante les résultats de l’analyse factorielle. On va travailler avec les données originales même si certains indicateurs de normalité ne sont pas respectés.

Page 41: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 41 -

AFE pour les données sur le SATS (PréHomme) La sortie SAS (PROC FACTOR) Enoncé SAS Data D2 (type=cov) ; input _type_ $ _name_ $ V1-V9; label V1='PA1' V2='PA2' V3='PC1' V4='PC2' V5='PV1' V6='PV2' V7='PV3' V8='PD1' V9='PD2'; cards; N . 1705 1705 1705 1705 1705 1705 1705 1705 1705 cov V1 0.98 . . . . . . . . cov V2 0.66 0.99 . . . . . . . cov V3 0.59 0.69 0.98 . . . . . . cov V4 0.61 0.71 0.71 0.97 . . . . . cov V5 0.41 0.41 0.37 0.45 0.89 . . . . cov V6 0.37 0.35 0.44 0.45 0.62 0.94 . . . cov V7 0.45 0.43 0.42 0.50 0.66 0.75 1.05 . . cov V8 0.33 0.32 0.24 0.33 0.12 0.09 0.12 0.63 . cov V9 0.31 0.32 0.26 0.31 0.10 0.06 0.11 0.36 0.49; proc factor data=D2 (type=cov) n=4 method=ML heywood rotate=varimax; proc factor data=D2 (type=cov) n=4 method=ML heywood rotate=promax;run;

Significance Tests Based on 1705 Observations

Test DF Chi-SquarePr >

ChiSq H0: No common factors 36 9094.8655 <.0001 HA: At least one common factor H0: 4 Factors are sufficient 6 10.8895 0.0919 HA: More factors are needed

Page 42: STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE VARIABLES LATENTES

- 42 -

En faisant une rotation des facteurs, on note que les facteurs A (Affect) et C (Cognitive competence) ne sont pas bien différenciés car ils n’apparaissent pas sur des facteurs séparés. Ceci est sans doute associé à la forte corrélation observée entre ces deux variables latentes dans les travaux du groupe SATS.

Final Communality Estimates and Variable Weights

Total Communality: Weighted = 20.696065 Unweighted = 6.603297

Variable Communality WeightV1 0.58912707 2.43384219V2 0.80198287 5.05000740V3 1.00000000 InftyV4 0.70571304 3.39801022V5 0.63098461 2.70991375V6 0.79616827 4.90608570V7 0.74675116 3.94869591V8 0.73387325 3.75763862V9 0.59869718 2.49187054

Varimax Rotated Factor Pattern Factor1 Factor2 Factor3 Factor4

V1 PA1 0.32629 0.36267 0.54462 0.23350V2 PA2 0.25985 0.30926 0.75168 0.27165V3 PC1 0.26892 0.19623 0.46095 0.82262V4 PC2 0.38260 0.34553 0.55127 0.36884V5 PV1 0.73973 0.07840 0.26970 0.06996V6 PV2 0.85994 0.03216 0.09010 0.21801V7 PV3 0.82841 0.07307 0.21491 0.09465V8 PD1 0.06700 0.83894 0.14461 0.06825V9 PD2 0.02426 0.71441 0.26705 0.12811