Upload
arthur-charpentier
View
443
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Arthur CHARPENTIER - Analyse des donnees
Analyse des donnees (3)
L’Analyse Factorielle des Correspondances
(multiples) ACM
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Universite Rennes 1
1
Arthur CHARPENTIER - Analyse des donnees
De l’AFC a l’ACM
Ici, on cherchera des correspondances entre des modalites pour plus de deuxvariables.
Dans l’AFC, nous avions projete les modalites, mais pas les individus. Ceci serapossible dans l’ACM.
2
Arthur CHARPENTIER - Analyse des donnees
Exemple introductif
Au lieu d’avoir un tableau de contingence comme auparavant, avec des effectifs,on suppose avoir la description de l’ensemble de la population.
Considerons les donnees relatives au naufrage du Titanic (ou comment tester lavalidite du precept les femmes et les enfants d’abord).
Nous disposons, pour 2201 personnes presentes sur le Titanic lors de sonnaufrage en pleine mer, de leur age (adulte ou enfant), du sexe et de la classe(premire, deuxime, troisime ou equipage). Nous savons aussi s’ils ont etenaufrages (1490) ou rescapes (711) de cet accident.
Cette base, TIT.csv, est telechargeables sur ma page internet.
Parmi les variables• pclass correspond a la classe (1ere, 2nde, 3eme ou Crew)• age correspond a l’age (1 pour les adultes et 0 pour les enfants)• sex correspond au sexe de la personne (1 pour les hommes)• survived indiquant si la personne a survecu (1 si elles survivent)
3
Arthur CHARPENTIER - Analyse des donnees
Accessoirement, on a egalement le nom, le lieu d’Embarquement (Southampton,Cherbourg ou Queenstown), le numero de la chambre (pour ceux qui en avaientune... etc).
On peut commencer par analyser des tris croises, e.g.• la proportion de femmes qui ont survecu : 344/470 = 73.19%• la proportion de femmes parmi les survivants : 344/711 = 48.38%• la proportion d’enfants qui ont survecu : 52/109 = 47.70%• la proportion d’enfants parmi les survivants : 52/711 =7.3%Afin de traiter ce jeu de donnees, l’idee est de recoder ces variables sous la formed’indicatrices. On peut alors faire une analyse multivariee de ces donnees,
> TIT=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/TIT.csv",sep=";",header=TRUE)
> names(TIT)=c("class","age","sex","survived")
> library(ade4)
> acm <- dudi.acm(TIT)
4
Arthur CHARPENTIER - Analyse des donnees
d = 0.5
1
2
3
CREW
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●
●●●●● ●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●● ●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●
d = 0.5
FEMME HOMME
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●
●●●●● ●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●● ●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●
d = 0.5
ADULTE
ENFANT
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●
●●●●● ●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●● ●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●
d = 0.5
MORT
SURVIVANT
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●
●●●●● ●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●● ●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●
5
Arthur CHARPENTIER - Analyse des donnees
class
age
sex
survived
Premier facteur
Rapport de correlation
0.0 0.2 0.4 0.6 0.8 1.0
class
age
sex
survived
Deuxieme facteur
Rapport de correlation
0.0 0.2 0.4 0.6 0.8 1.0
−1 0 1 2 3
−1
01
23
score
scor
e 1
2
3
CREW
class
−1 0 1 2 3
−1
01
23
score
scor
e
ADULTE
ENFANT
age
−1 0 1 2 3
−1
01
23
scor
e
FEMME
HOMME
sex
−1 0 1 2 3
−1
01
23
scor
e
MORT
SURVIVANT
survived
Une autre piste est de faire l’analyse sans la variables survived, et de la traitercomme “variable supplementaire” afin de voir comment elle se projette sur lesaxes.
6
Arthur CHARPENTIER - Analyse des donnees
Remarque Formellement, si le but est d’expliquer une des variables (icisurvived), il conviendrait de faire une regression (e.g. logisitique)
> summary(glm(survived~class+age+sex,data=TIT,family=binomial(link = "logit")))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.0438 0.1679 12.171 < 2e-16 ***
class2 -1.0181 0.1960 -5.194 2.05e-07 ***
class3 -1.7778 0.1716 -10.362 < 2e-16 ***
classCREW -0.8577 0.1573 -5.451 5.00e-08 ***
ageENFANT 1.0615 0.2440 4.350 1.36e-05 ***
sexHOMME -2.4201 0.1404 -17.236 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
7
Arthur CHARPENTIER - Analyse des donnees
L’AFC comme un cas particulier ?
L’idee avait ete de passer d’un tableau de contingence a un tableau disjonctif. Surl’exemple des donnees HairEyeColor, au lieu d’avoir une variable X (i.e. eye)prenant les modalites Black, Brown, Red et Blond, on cree 4 variables indicatrices.Aussi On a le tableau de donnees individuelles suivant
Z X1 X2 X3 X4
1 Black 1 0 0 0
2 Black 1 0 0 0
3 Red 0 0 1 0
4 Blond 0 0 0 1
5 Black 1 0 0 0
6 Blond 0 0 0 1
7 Brown 0 1 0 0
On note X la matrice du tableau disjontif, i.e. une matrice n× (I + J). Letableau des profils lignes est simple car la somme sur chaque ligne vaut 2 (on a 2
variables). Aussi L =12X. La somme sur chaque colonne correspond aux effectifs
de chaque modalite. Le tableau des profils colonnes est alors XD−1 ou
8
Arthur CHARPENTIER - Analyse des donnees
D = diag(DX , DY ).
Ici
> d <- c(apply(X,2,sum),apply(X,1,sum))
Brown Blue Hazel Green Black Brown Red Blond
122 114 46 31 52 143 37 81
> diag(D)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 122 0 0 0 0 0 0 0
[2,] 0 114 0 0 0 0 0 0
[3,] 0 0 46 0 0 0 0 0
[4,] 0 0 0 31 0 0 0 0
[5,] 0 0 0 0 52 0 0 0
[6,] 0 0 0 0 0 143 0 0
[7,] 0 0 0 0 0 0 37 0
[8,] 0 0 0 0 0 0 0 81
Pour faire une AFC, on cherche les composantes de l’ACP en colonnes, i.e. lesvecteurs propres de
(XD)−1 12X =
12D−1X′X.
9
Arthur CHARPENTIER - Analyse des donnees
or
X′X =
X ′X X ′Y
Y ′X Y ′Y
=
DX K
K ′ DY
On cherche alors les valeurs propres de
12D−1X′X =
12
I D−1X K
D−1Y K ′ I
On cherche alors (u,v) qui soit valeur propre, i.e. I D−1
X K
D−1Y K ′ I
u
v
= 2µ
u
v
,
i.e. D−1X Kv = (2µ− 1)u
D−1Y K ′u = (2µ− 1)v
10
Arthur CHARPENTIER - Analyse des donnees
ce qui redonne les resultats que nous avions vu en AFC, a savoir D−1Y K ′D−1
X Kv = (2µ− 1)2v
D−1X KD−1
Y K ′u = (2µ− 1)2u
i.e. on retrouve la dualite deja mentionnee.
Attention a priori on a I + J − 1 valeurs propres non nulles, car pour tout λ, ily a 2 µ possibles,
µ =1±√λ
2associe a la valeur propre
u
±v
Commes les valeurs propres sont comprises entre 0 et 1, on peut se contenter desvaleurs propres strictement superieures a 1/2.
11
Arthur CHARPENTIER - Analyse des donnees
Calcul(s) sur un petit exemple
Considerons 50 individus de la base INSEE participation culturelle et sportive.> head(BD.acm,10)
VELO PETA TELE LECT
1 1 1 1 2
2 1 1 1 1
3 1 1 1 2
4 2 2 2 2
5 1 1 1 1
6 1 1 3 1
7 3 1 1 4
8 1 1 3 2
9 3 3 2 2
10 3 3 1 4
A partir de cette base complete, on construit deux tableaux,
• le tableau disjonctif complet, obtenu en recodant les variables, pour n’avoirplus que des variables binaires 0/1
• le tableau de Burt, correspondant a un super tableau de contingence, ou ici
12
Arthur CHARPENTIER - Analyse des donnees
6× 6 = 36 tableaux de contingence sont juxtaposes.> TDISJ=acm.disjonctif(BD.acm)
> head(DISJ)
VELO.1 VELO.2 VELO.3 PETA.1 PETA.2 PETA.3 TELE.1 TELE.2 TELE.3 LECT.1 LECT.2 LECT.3 LECT.4
1 1 0 0 1 0 0 1 0 0 0 1 0 0
2 1 0 0 1 0 0 1 0 0 1 0 0 0
3 1 0 0 1 0 0 1 0 0 0 1 0 0
4 0 1 0 0 1 0 0 1 0 0 1 0 0
5 1 0 0 1 0 0 1 0 0 1 0 0 0
6 1 0 0 1 0 0 0 0 1 1 0 0 0
> BURT=t(DISJ)%*%as.matrix(DISJ)
> BURT
VELO.1 VELO.2 VELO.3 PETA.1 PETA.2 PETA.3 TELE.1 TELE.2 TELE.3 LECT.1 LECT.2 LECT.3 LECT.4
VELO.1 23 0 0 22 0 1 13 4 6 6 10 4 3
VELO.2 0 14 0 5 6 3 10 4 0 2 4 3 5
VELO.3 0 0 13 7 2 4 8 4 1 2 4 5 2
PETA.1 22 5 7 34 0 0 20 7 7 8 11 10 5
PETA.2 0 6 2 0 8 0 4 4 0 1 3 2 2
PETA.3 1 3 4 0 0 8 7 1 0 1 4 0 3
TELE.1 13 10 8 20 4 7 31 0 0 6 8 9 8
TELE.2 4 4 4 7 4 1 0 12 0 2 6 2 2
13
Arthur CHARPENTIER - Analyse des donnees
TELE.3 6 0 1 7 0 0 0 0 7 2 4 1 0
LECT.1 6 2 2 8 1 1 6 2 2 10 0 0 0
LECT.2 10 4 4 11 3 4 8 6 4 0 18 0 0
LECT.3 4 3 5 10 2 0 9 2 1 0 0 12 0
LECT.4 3 5 2 5 2 3 8 2 0 0 0 0 10
Pour l’analyse du tableau disjonctif, rappelons que nous avons n = 50 lignes(individus).
La premiere colonnnes est composee de 23 fois la valeur 1 et 27 fois la valeur 0.Pour calculer le profil de cette colonne, il convient de normer, i.e. on divise par 23.
• la contribution d’un individu 1 vaut 50×(
123− 1
50
)2
=272
50× 232
• la contribution d’un individu 1 vaut 50×(
0− 150
)2
=150
La distance entre le profil de la premiere colonne, et le profil marginal est donneepar
d1 = 23× 272
50× 232+ 27× 1
50=
2723
=n0
n1
14
Arthur CHARPENTIER - Analyse des donnees
Plus une modalite est rare (peu de 1), plus la distance entre le colonne et le profilmoyen sera grande.
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
CA factor map
Dim 1 (21.67%)
Dim
2 (
14.9
9%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
Lors de l’analyse factorielle, notons que les valeurs propres verifient λi ≤ 1, et lepourcentage associe a chaque valeur propre est faible. On utilise la regle du coude
15
Arthur CHARPENTIER - Analyse des donnees
pour selectionner le nombre d’axes principaux.
> M$eig
eigenvalue percentage of variance cumulative percentage of variance
dim 1 4.874995e-01 2.166664e+01 21.66664
dim 2 3.372231e-01 1.498770e+01 36.65434
dim 3 3.100147e-01 1.377843e+01 50.43277
dim 4 2.965840e-01 1.318151e+01 63.61428
dim 5 2.361011e-01 1.049338e+01 74.10766
dim 6 1.985567e-01 8.824742e+00 82.93241
dim 7 1.767959e-01 7.857595e+00 90.79000
dim 8 1.220429e-01 5.424129e+00 96.21413
dim 9 8.518205e-02 3.785869e+00 100.00000
dim 10 7.417704e-33 3.296757e-31 100.00000
dim 11 3.948060e-33 1.754693e-31 100.00000
dim 12 2.178325e-33 9.681444e-32 100.00000
dim 13 1.500532e-33 6.669029e-32 100.00000
Notons que la moyenne des coordonnees d’unne variable est toujours nulle.
Theoriquement, les modalites d’une meme variables s’excluent mutuellement. Sideux modalites d’une meme variable sont proches, c’est que la distinction et la
16
Arthur CHARPENTIER - Analyse des donnees
separation est inutile.
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.5
−1.0
−0.5
0.00.5
1.01.5
CA factor map
Dim 1 (21.67%)
Dim 2
(14.99
%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.5
−1.0
−0.5
0.00.5
1.01.5
CA factor map
Dim 1 (21.67%)
Dim 2
(14.99
%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.5
−1.0
−0.5
0.00.5
1.01.5
CA factor map
Dim 1 (21.67%)
Dim 2
(14.99
%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.5
−1.0
−0.5
0.00.5
1.01.5
CA factor map
Dim 1 (21.67%)
Dim 2
(14.99
%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
> M$col
$coord
17
Arthur CHARPENTIER - Analyse des donnees
Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
VELO.1 -0.84824941 0.01924502 0.188010374 -0.29984498 -0.16679161
VELO.2 1.08178997 0.34872181 0.027702695 -0.74442533 -0.16308903
VELO.3 0.33574437 -0.40959544 -0.362467409 1.33218377 0.47072718
PETA.1 -0.53143820 -0.05182022 -0.209219290 -0.10723850 -0.07426725
PETA.2 1.34176617 1.32050859 -0.416667552 -0.29818487 0.09771710
PETA.3 0.91684618 -1.10027264 1.305849532 0.75394848 0.21791870
TELE.1 0.20348997 -0.57718001 -0.113024207 -0.19994655 -0.09451845
TELE.2 0.38455044 1.21709819 0.011854050 0.49891384 0.41619383
TELE.3 -1.56039921 0.46962888 0.480214548 0.03019673 -0.29489342
LECT.1 -0.56611479 -0.08318577 -0.008351104 -0.62637089 1.77798589
LECT.2 -0.19133774 0.55780193 0.763890378 0.53931719 -0.47162300
LECT.3 -0.00523195 -0.26101914 -1.532960511 0.35241579 -0.50482278
LECT.4 0.91680106 -0.60763474 0.472901036 -0.76729899 -0.32327717
Deux individus sont proches s’ils prennent a peu pret les memes modalites auxdifferentes variables,
Deux variables sont proches si ce sont les memes individus qui prennent lesmodalites identiques
Visuellement, trois groupes semblent se detacher.
18
Arthur CHARPENTIER - Analyse des donnees
Au niveau de l’interpretation, on notera que la pratique de la lecture et lapratique des sports petanque et velo sont associees, contrairement a la television :les sportifs lisent mais ne regardent pas la tele.
Pour l’interpretation des axes, on que le poids total vaut 1, et plus precisement,1/4 pour chaque variable (quel que soit le nombre de modalites), 4 etant lenombre de variables.
Pour obtenir un R2 permettant de juger la contribution d’une variable j a unaxe, on calcule
R2j = 4
∑k
ωkC2k
ou ωk est le poid de chaque modalite k et Ck la projection sur l’axe.
Ici, l’axe 1 est plutot lie au pratique sportives, nettement moins a la lecture.
On peut aussi mener une analyse a partir du tableau de Burt. On utilise uneanalyse factorielle (simple) de ce tableau.
L’analyse des variables donne les memes resultats, sauf qu’on n’a plus d’individusdans le tableau de Burt : ce n’est que le tableau de contingence.
19
Arthur CHARPENTIER - Analyse des donnees
> CA(DISJ)
> CA(BURT)
●
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
CA factor map
Dim 1 (21.67%)
Dim
2 (
14.9
9%)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
192021
22
23
24
25
2627 28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
4748
49 50
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
●
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
CA factor map
Dim 1 (34.74%)D
im 2
(16
.63%
)
●
●
●
●
●
●
●
●
●
●
●
●
●
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
VELO.1
VELO.2
VELO.3
PETA.1
PETA.2
PETA.3
TELE.1
TELE.2
TELE.3
LECT.1
LECT.2
LECT.3
LECT.4
> CA(BURT)$col
$coord
Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
VELO.1 -0.592257601 0.01117576 0.104682234 -0.16329417 -0.08104443
20
Arthur CHARPENTIER - Analyse des donnees
VELO.2 0.755318337 0.20250595 0.015424574 -0.40541054 -0.07924533
VELO.3 0.234420623 -0.23785583 -0.201818109 0.72550102 0.22872742
PETA.1 -0.371056331 -0.03009248 -0.116491139 -0.05840158 -0.03608663
PETA.2 0.936836739 0.76683145 -0.231996189 -0.16239008 0.04748097
PETA.3 0.640152668 -0.63893841 0.727083531 0.41059680 0.10588720
TELE.1 0.142079067 -0.33517373 -0.062930711 -0.10888995 -0.04592673
TELE.2 0.268497589 0.70678008 0.006600212 0.27170613 0.20222954
TELE.3 -1.089488877 0.27271779 0.267378500 0.01644500 -0.14328939
LECT.1 -0.395267932 -0.04830674 -0.004649809 -0.34111864 0.86392745
LECT.2 -0.133594233 0.32392069 0.425326272 0.29370961 -0.22916270
LECT.3 -0.003653009 -0.15157621 -0.853536578 0.19192398 -0.24529455
LECT.4 0.640121162 -0.35285906 0.263306412 -0.41786743 -0.15708112
> CA(DISJ)$col
$coord
Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
VELO.1 -0.84824941 0.01924502 0.188010374 -0.29984498 -0.16679161
VELO.2 1.08178997 0.34872181 0.027702695 -0.74442533 -0.16308903
VELO.3 0.33574437 -0.40959544 -0.362467409 1.33218377 0.47072718
PETA.1 -0.53143820 -0.05182022 -0.209219290 -0.10723850 -0.07426725
PETA.2 1.34176617 1.32050859 -0.416667552 -0.29818487 0.09771710
PETA.3 0.91684618 -1.10027264 1.305849532 0.75394848 0.21791870
21
Arthur CHARPENTIER - Analyse des donnees
TELE.1 0.20348997 -0.57718001 -0.113024207 -0.19994655 -0.09451845
TELE.2 0.38455044 1.21709819 0.011854050 0.49891384 0.41619383
TELE.3 -1.56039921 0.46962888 0.480214548 0.03019673 -0.29489342
LECT.1 -0.56611479 -0.08318577 -0.008351104 -0.62637089 1.77798589
LECT.2 -0.19133774 0.55780193 0.763890378 0.53931719 -0.47162300
LECT.3 -0.00523195 -0.26101914 -1.532960511 0.35241579 -0.50482278
LECT.4 0.91680106 -0.60763474 0.472901036 -0.76729899 -0.32327717
Les valeurs propres sont ici> CA(BURT)$eig[1,1]
[1] 0.2376557
> CA(DISJ)$eig[1,1]^2
[1] 0.2376557
> CA(DISJ)$eig
eigenvalue percentage of variance cumulative percentage of variance
dim 1 4.874995e-01 2.166664e+01 21.66664
dim 2 3.372231e-01 1.498770e+01 36.65434
dim 3 3.100147e-01 1.377843e+01 50.43277
dim 4 2.965840e-01 1.318151e+01 63.61428
dim 5 2.361011e-01 1.049338e+01 74.10766
> CA(BURT)$eig
22
Arthur CHARPENTIER - Analyse des donnees
eigenvalue percentage of variance cumulative percentage of variance
dim 1 2.376557e-01 3.474387e+01 34.74387
dim 2 1.137194e-01 1.662511e+01 51.36898
dim 3 9.610914e-02 1.405059e+01 65.41957
dim 4 8.796209e-02 1.285954e+01 78.27911
dim 5 5.574371e-02 8.149401e+00 86.42851
L’analyse du tableau disjonctif et du tableau de Burt ne donne pas les memesresultats, mais on peut passer de l’un a l’autre par une simple dilatation. Si onnote dα (k) la coordonnee sur l’axe α de la modalite k, via l’analyse du tableaudisjonctif, et bα (k) la coordonnee via l’analyse du tableau de Burt, et si λα et µαdesignent les valeurs propres respectives, alors λα =
√µα (comme note).
Aussi dα (k) =bα (k)√λα
=bα (k)√√
µα=bα (k)
µ1/4α
> CA(BURT)$col$coord[1,1]/(CA(BURT)$eig[1,1])^.25
[1] -0.8482494
> CA(DISJ)$col$coord[1,1]
[1] -0.8482494
Les valeurs propres sont egales au carre des valeurs propres associees au tableau
23
Arthur CHARPENTIER - Analyse des donnees
disjonctif complet.
Par symmetrie du tableau, on obtient que les coordonnees des lignes et descolonnes sont identiques.
Considerons une analyse des methodes de tri des dechets. Le tableau disjonctifmontre pour 640 individus leurs pratiques de tri (ou non) du verre, du papier, despiles et du plastique.> tri.Burt
nom verre pas.verre papier pas.papier piles pas.piles plast pas.plast
1 verre 640 0 326 314 192 448 192 448
2 pas.verre 0 360 34 326 48 312 8 352
3 papier 326 34 360 0 162 198 130 230
4 pas.papier 314 326 0 640 78 562 70 570
5 piles 192 48 162 78 240 0 82 158
6 pas.piles 448 312 198 562 0 760 118 642
7 plast 192 8 130 70 82 118 200 0
8 pas.plast 448 352 230 570 158 642 0 800
Le premier axe explique ici plus de 50% de l’information contenue dans le tableau.> CA(BURT)$eig
24
Arthur CHARPENTIER - Analyse des donnees
eigenvalue percentage of variance cumulative percentage of variance
dim 1 2.291586e-01 7.091317e+01 70.91317
dim 2 4.603023e-02 1.424406e+01 85.15724
dim 3 3.055328e-02 9.454719e+00 94.61195
dim 4 1.741168e-02 5.388046e+00 100.00000
dim 5 5.786104e-33 1.790511e-30 100.00000
dim 6 8.527746e-34 2.638912e-31 100.00000
dim 7 2.475267e-34 7.659718e-32 100.00000
Comme auparavant, on peut faire une analyse des R2 afin de comprendre laliaison entre les variables et les axes
axe 1 2 3
verre 0, 51 0, 14 0, 18
papier 0, 61 0, 02 0, 08
piles 0, 36 0, 51 0, 04
plastique 0, 42 0, 18 0, 39
L’axe 1 est l’axe du verre et du papier, l’axe 2 est ainsi l’axe du tri des piles, l’axe
25
Arthur CHARPENTIER - Analyse des donnees
3 est davantage lie au plastique (pour resumer schematiquement).
●
−0.5 0.0 0.5 1.0
−0.5
0.00.5
1.0CA factor map
Dim 1 (70.91%)
Dim
2 (14
.24%
)
●
●
●
●
●
●
●
●
1
2
3
4
5
6
7
8
verre
pas.verre
papier
pas.papier
piles
pas.piles
plast
pas.plast
●
−0.5 0.0 0.5 1.0
−0.5
0.00.5
1.0
CA factor map
Dim 1 (70.91%)
Dim
2 (14
.24%
)
●
●
●
●
●
●
●
●
1
2
3
4
5
6
7
8
verre
pas.verre
papier
pas.papier
piles
pas.piles
plast
pas.plast
●
−0.5 0.0 0.5 1.0
−0.5
0.00.5
1.0
CA factor map
Dim 1 (70.91%)
Dim
3 (9.4
55%
)
●
●
●
●
●
●
●
●
1
2
3
45
6
7
8 verre
pas.verre
papier
pas.papierpiles
pas.piles
plast
pas.plast●
−0.4 −0.2 0.0 0.2 0.4 0.6
−0.2
0.00.2
0.40.6
CA factor map
Dim 2 (14.24%)
Dim
3 (9.4
55%
)
●
●
●
●
●
●
●
●
1
2
3
4
5
6
7
8verre
pas.verre
papier
pas.papier
piles
pas.piles
plast
pas.plast
26
Arthur CHARPENTIER - Analyse des donnees
Un autre exemple
Considerons la base Etudiants-ville.csv sur le logement etudiant• Habitez-vous (variable “mode d’occupation”) : seul (Seul), colocataires (Coloc),
en couple (Couple), chez les parents (Parents) ou non reponse (NR1)• Quel type d’habitation occupez-vous ? (variable “type d’habitation”) : cite
universitaire (Cite), studio (Studio), appartement (Appart), chambre chez unparticulier (Chambre), autre (Autre) ou non reponse (NR2)
• Si vous vivez en dehors du foyer familial, depuis combien de temps ? (variable“anciennete”) moins de 1 an (¡ 1 an), 1 a 3 ans (1-3 ans), plus de 3 ans (> 3
ans), non applicable (NA) ou non reponse (NR3)• A quelle distance approximative de la Fac vivez-vous ? (variable
“eloignement”) moins de 1 km (¡ 1 km), de 1 a 5 km (1 a 5 km), plus de 5 km(¿
5 km) ou non reponse ((NR4).• Quelle est la superficie de votre logement ? (variable “superficie”) moins de 10
m2 (< 10 m2), de 10 a 20 m2 (10 a 20 m2), de 20 a 30 m2 (20 a 30 m2), plusde 30 m2 (> 30 m2) ou non reponse (NR5)
27
Arthur CHARPENTIER - Analyse des donnees
> library(FactoMineR)
> Etudiants-ville <- read.table(’’Etudiants-ville.csv’’)
> etudiants.MCA <- MCA(etudiants.proto, ncp=3)
Les valeurs propres et l’inertie de chaque axe sont donnees par etudiants.MCA$eig
et les resultats relatifs aux variables : coordonnees, contributions, qualites derepresentation, valeurs test sont dans etudiants.MCA$var.
28
Arthur CHARPENTIER - Analyse des donnees
d = 0.5
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
19
20
21
22
23
24
25 26
27
28 29 30 31 32 33 34 35 36 37 38 39 40 41
42
43 44
45
46
47
48 49 50
51
52
53
54 55
56 57 58 59
60
61
62
63 64
65 66 67 68
69 70 71 72
73
74 75
76 77
78
79
80
81
82
83 84 85 86 87
88
89
90 91
92
93 94 95
96 97
98
99 100
101 102
103
104
105
106
107
108
109 110
111
112
113
114
115
116
117
118
119
120 121
122
123 124
125
126
127 128
129
130
131
132
133
134 135 136
137
138 139 140
141 142
143 144
145
146
147
148 149
150
151 152 153 154
155
156
157 158
159
160
161
162
163
164
165
166
167
168
169
170 171
172
173
174
175
176
177
178
179
180
181
182
183 184
185
186
187
188
189
190
191
192
193
194 195 196
197
198
199
200
201
202
203
204
205
206 207
208 209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254 255
256
257
258
259
260
261
262
263
264
265
266 267
268
269
270
271
272
273 274
275 276
277
278
279
280
281
282
283
284 285
286
287 288
289
290
291
292 293
294
295 296
297
298
299
300
301
302
303 304
305
306
307
308
309
310 311
312
313
314
315
316
317 318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339 340
341 342
343 344
345
346
347 348
349 350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366 367
368
369
370
371
372 373
374
375
376 377
378
379
380
381
382
383
d = 0.5
Coloc
Couple
Par_NR
Seul
●
●
●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●
●●●●●●●●●●●●●●
●
●●
●
●
●
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●●●●
●●
●●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
29
Arthur CHARPENTIER - Analyse des donnees
d = 0.5
Appart
Autre
Chamb
Cite
NR2
Studio ●
●
●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●
●●●●●●●●●●●●●●
●
●●
●
●
●
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●●●●
●●
●●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
d = 0.5
de_1_3ans
moins_1an
NA_NR
plus_3ans
●
●
●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●
●●●●●●●●●●●●●●
●
●●
●
●
●
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●●●●
●●
●●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
30
Arthur CHARPENTIER - Analyse des donnees
d = 0.5
de_1_5km moins_1km
plus_5km_NR ●
●
●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●
●●●●●●●●●●●●●●
●
●●
●
●
●
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●●●●
●●
●●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
d = 0.5
de_10_20m
de_20_30m
moins_10m
NR5
plus_30m
●
●
●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●●
●
●●●●●●●●●●●●●●
●
●●
●
●
●
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●●●●
●●
●●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
31
Arthur CHARPENTIER - Analyse des donnees
Retour sur la methodologie de l’ACM
Sous R, plusieurs fonctions permettent de faire des ACM• dans library(ade4), la fonction dudi.coa, qui permet simplement de centrer et
reduire les variables.• dans library(FactoMineR), la fonction MCA
32
Arthur CHARPENTIER - Analyse des donnees
Travaux diriges
Le TD portera sur la base de donnees culture.sav telechargeables sur ma pageinternet (ou culture.xls pour les refractaires a R).
L’importation de la base de donnees sous R se fait a l’aide des commandessuivantes> library(Hmisc)
> culture=spss.get("http://perso.univ-rennes1.fr/arthur.charpentier/Culture.sav")
Cette base est issue d’une enquete du Ministere de la Culture, faite en 1997aupres de 3002 individus “representatifs”.
6 questions sont associes a leurs loisirs,• Q1 intitulee leisure activity, dont les modalitees detaillent avec qui les activites
de loisir sont effectuee, i.e. alone, partner, friends ou family
• Q2 intitulee free time, dont les modalitees sont lack time (pas assez de tempspour faire ce qu’on veut), always something to do (on trouve toujours quelquechose a faire), nothing to do (parfois on ne sait pas quoi faire) ou do nothing in
particular (parfois on ne fait rien)
33
Arthur CHARPENTIER - Analyse des donnees
• Q3 intitulee more time, cherchant a savoir ce que les individus feraient s’ilsavaient plus de loisirs, dont les modalitees sont rest (repos=, courses (suivre descours), physical activities, artistic activities, general knowledge, care family
(s’occuper de sa famille) ou home DIY (i.e. do-it-yourself, jardinage,bricolage...)
• Q4 intitulee go out sur les sorties en soiree, dont les modalitees sont alone, with
partner, with family, with friends, with a group (club, travail), ou don’t go
• Q5 intitulee TV sur le temps passe devant la tele, par semaine, dont lesmodalitees sont never, less than 10 hrs, 10-19 hrs, 20-29 hrs ou over 30h
• Q6 intitulee books sur le nombre de livres lus au court des 12 derniers mois,dont les modalitees sont no books, 1-4 books, 5-12 books, 13-39 books ou 40
books or more.Notons que les deux dernieres categories sont ordonnees, alors que les autres non.
Quelques variables ont ete rajoutees pour mieux comprendre qui etaient cesindividus,• QS1 intitulee sex, dont les modalitees sont woman ou man,• QS2 intitulee education, dont les modalitees sont CEP, CAP-BEP, BEPC, no
34
Arthur CHARPENTIER - Analyse des donnees
degree, >Bac+2 , Bac, <Bac+2 ou Students
• QS3 intitulee age, dont les modalitees sont <18 years, 18-25 years, 26-35 years,36-45 years, 46-55 years, 55-65 years ou >65 years
• QS4 est un produit cartesien des modalites precedantes(et quelques autres variables).
35