35
Arthur CHARPENTIER - Analyse des donn´ ees Analyse des donn´ ees (3) L’Analyse Factorielle des Correspondances (multiples) ACM Arthur Charpentier http ://perso.univ-rennes1.fr/arthur.charpentier/ blog.univ-rennes1.fr/arthur.charpentier/ Master 2, Universit´ e Rennes 1 1

Cours add-r1-part3

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Analyse des donnees (3)

L’Analyse Factorielle des Correspondances

(multiples) ACM

Arthur Charpentier

http ://perso.univ-rennes1.fr/arthur.charpentier/

blog.univ-rennes1.fr/arthur.charpentier/

Master 2, Universite Rennes 1

1

Page 2: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

De l’AFC a l’ACM

Ici, on cherchera des correspondances entre des modalites pour plus de deuxvariables.

Dans l’AFC, nous avions projete les modalites, mais pas les individus. Ceci serapossible dans l’ACM.

2

Page 3: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Exemple introductif

Au lieu d’avoir un tableau de contingence comme auparavant, avec des effectifs,on suppose avoir la description de l’ensemble de la population.

Considerons les donnees relatives au naufrage du Titanic (ou comment tester lavalidite du precept les femmes et les enfants d’abord).

Nous disposons, pour 2201 personnes presentes sur le Titanic lors de sonnaufrage en pleine mer, de leur age (adulte ou enfant), du sexe et de la classe(premire, deuxime, troisime ou equipage). Nous savons aussi s’ils ont etenaufrages (1490) ou rescapes (711) de cet accident.

Cette base, TIT.csv, est telechargeables sur ma page internet.

Parmi les variables• pclass correspond a la classe (1ere, 2nde, 3eme ou Crew)• age correspond a l’age (1 pour les adultes et 0 pour les enfants)• sex correspond au sexe de la personne (1 pour les hommes)• survived indiquant si la personne a survecu (1 si elles survivent)

3

Page 4: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Accessoirement, on a egalement le nom, le lieu d’Embarquement (Southampton,Cherbourg ou Queenstown), le numero de la chambre (pour ceux qui en avaientune... etc).

On peut commencer par analyser des tris croises, e.g.• la proportion de femmes qui ont survecu : 344/470 = 73.19%• la proportion de femmes parmi les survivants : 344/711 = 48.38%• la proportion d’enfants qui ont survecu : 52/109 = 47.70%• la proportion d’enfants parmi les survivants : 52/711 =7.3%Afin de traiter ce jeu de donnees, l’idee est de recoder ces variables sous la formed’indicatrices. On peut alors faire une analyse multivariee de ces donnees,

> TIT=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/TIT.csv",sep=";",header=TRUE)

> names(TIT)=c("class","age","sex","survived")

> library(ade4)

> acm <- dudi.acm(TIT)

4

Page 5: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

d = 0.5

1

2

3

CREW

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●

●●●●● ●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●● ●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●

d = 0.5

FEMME HOMME

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●

●●●●● ●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●● ●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●

d = 0.5

ADULTE

ENFANT

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●

●●●●● ●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●● ●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●

d = 0.5

MORT

SURVIVANT

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●

●●●●● ●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●● ●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●

●●●

5

Page 6: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

class

age

sex

survived

Premier facteur

Rapport de correlation

0.0 0.2 0.4 0.6 0.8 1.0

class

age

sex

survived

Deuxieme facteur

Rapport de correlation

0.0 0.2 0.4 0.6 0.8 1.0

−1 0 1 2 3

−1

01

23

score

scor

e 1

2

3

CREW

class

−1 0 1 2 3

−1

01

23

score

scor

e

ADULTE

ENFANT

age

−1 0 1 2 3

−1

01

23

scor

e

FEMME

HOMME

sex

−1 0 1 2 3

−1

01

23

scor

e

MORT

SURVIVANT

survived

Une autre piste est de faire l’analyse sans la variables survived, et de la traitercomme “variable supplementaire” afin de voir comment elle se projette sur lesaxes.

6

Page 7: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Remarque Formellement, si le but est d’expliquer une des variables (icisurvived), il conviendrait de faire une regression (e.g. logisitique)

> summary(glm(survived~class+age+sex,data=TIT,family=binomial(link = "logit")))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 2.0438 0.1679 12.171 < 2e-16 ***

class2 -1.0181 0.1960 -5.194 2.05e-07 ***

class3 -1.7778 0.1716 -10.362 < 2e-16 ***

classCREW -0.8577 0.1573 -5.451 5.00e-08 ***

ageENFANT 1.0615 0.2440 4.350 1.36e-05 ***

sexHOMME -2.4201 0.1404 -17.236 < 2e-16 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for binomial family taken to be 1)

7

Page 8: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

L’AFC comme un cas particulier ?

L’idee avait ete de passer d’un tableau de contingence a un tableau disjonctif. Surl’exemple des donnees HairEyeColor, au lieu d’avoir une variable X (i.e. eye)prenant les modalites Black, Brown, Red et Blond, on cree 4 variables indicatrices.Aussi On a le tableau de donnees individuelles suivant

Z X1 X2 X3 X4

1 Black 1 0 0 0

2 Black 1 0 0 0

3 Red 0 0 1 0

4 Blond 0 0 0 1

5 Black 1 0 0 0

6 Blond 0 0 0 1

7 Brown 0 1 0 0

On note X la matrice du tableau disjontif, i.e. une matrice n× (I + J). Letableau des profils lignes est simple car la somme sur chaque ligne vaut 2 (on a 2

variables). Aussi L =12X. La somme sur chaque colonne correspond aux effectifs

de chaque modalite. Le tableau des profils colonnes est alors XD−1 ou

8

Page 9: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

D = diag(DX , DY ).

Ici

> d <- c(apply(X,2,sum),apply(X,1,sum))

Brown Blue Hazel Green Black Brown Red Blond

122 114 46 31 52 143 37 81

> diag(D)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

[1,] 122 0 0 0 0 0 0 0

[2,] 0 114 0 0 0 0 0 0

[3,] 0 0 46 0 0 0 0 0

[4,] 0 0 0 31 0 0 0 0

[5,] 0 0 0 0 52 0 0 0

[6,] 0 0 0 0 0 143 0 0

[7,] 0 0 0 0 0 0 37 0

[8,] 0 0 0 0 0 0 0 81

Pour faire une AFC, on cherche les composantes de l’ACP en colonnes, i.e. lesvecteurs propres de

(XD)−1 12X =

12D−1X′X.

9

Page 10: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

or

X′X =

X ′X X ′Y

Y ′X Y ′Y

=

DX K

K ′ DY

On cherche alors les valeurs propres de

12D−1X′X =

12

I D−1X K

D−1Y K ′ I

On cherche alors (u,v) qui soit valeur propre, i.e. I D−1

X K

D−1Y K ′ I

u

v

= 2µ

u

v

,

i.e. D−1X Kv = (2µ− 1)u

D−1Y K ′u = (2µ− 1)v

10

Page 11: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

ce qui redonne les resultats que nous avions vu en AFC, a savoir D−1Y K ′D−1

X Kv = (2µ− 1)2v

D−1X KD−1

Y K ′u = (2µ− 1)2u

i.e. on retrouve la dualite deja mentionnee.

Attention a priori on a I + J − 1 valeurs propres non nulles, car pour tout λ, ily a 2 µ possibles,

µ =1±√λ

2associe a la valeur propre

u

±v

Commes les valeurs propres sont comprises entre 0 et 1, on peut se contenter desvaleurs propres strictement superieures a 1/2.

11

Page 12: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Calcul(s) sur un petit exemple

Considerons 50 individus de la base INSEE participation culturelle et sportive.> head(BD.acm,10)

VELO PETA TELE LECT

1 1 1 1 2

2 1 1 1 1

3 1 1 1 2

4 2 2 2 2

5 1 1 1 1

6 1 1 3 1

7 3 1 1 4

8 1 1 3 2

9 3 3 2 2

10 3 3 1 4

A partir de cette base complete, on construit deux tableaux,

• le tableau disjonctif complet, obtenu en recodant les variables, pour n’avoirplus que des variables binaires 0/1

• le tableau de Burt, correspondant a un super tableau de contingence, ou ici

12

Page 13: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

6× 6 = 36 tableaux de contingence sont juxtaposes.> TDISJ=acm.disjonctif(BD.acm)

> head(DISJ)

VELO.1 VELO.2 VELO.3 PETA.1 PETA.2 PETA.3 TELE.1 TELE.2 TELE.3 LECT.1 LECT.2 LECT.3 LECT.4

1 1 0 0 1 0 0 1 0 0 0 1 0 0

2 1 0 0 1 0 0 1 0 0 1 0 0 0

3 1 0 0 1 0 0 1 0 0 0 1 0 0

4 0 1 0 0 1 0 0 1 0 0 1 0 0

5 1 0 0 1 0 0 1 0 0 1 0 0 0

6 1 0 0 1 0 0 0 0 1 1 0 0 0

> BURT=t(DISJ)%*%as.matrix(DISJ)

> BURT

VELO.1 VELO.2 VELO.3 PETA.1 PETA.2 PETA.3 TELE.1 TELE.2 TELE.3 LECT.1 LECT.2 LECT.3 LECT.4

VELO.1 23 0 0 22 0 1 13 4 6 6 10 4 3

VELO.2 0 14 0 5 6 3 10 4 0 2 4 3 5

VELO.3 0 0 13 7 2 4 8 4 1 2 4 5 2

PETA.1 22 5 7 34 0 0 20 7 7 8 11 10 5

PETA.2 0 6 2 0 8 0 4 4 0 1 3 2 2

PETA.3 1 3 4 0 0 8 7 1 0 1 4 0 3

TELE.1 13 10 8 20 4 7 31 0 0 6 8 9 8

TELE.2 4 4 4 7 4 1 0 12 0 2 6 2 2

13

Page 14: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

TELE.3 6 0 1 7 0 0 0 0 7 2 4 1 0

LECT.1 6 2 2 8 1 1 6 2 2 10 0 0 0

LECT.2 10 4 4 11 3 4 8 6 4 0 18 0 0

LECT.3 4 3 5 10 2 0 9 2 1 0 0 12 0

LECT.4 3 5 2 5 2 3 8 2 0 0 0 0 10

Pour l’analyse du tableau disjonctif, rappelons que nous avons n = 50 lignes(individus).

La premiere colonnnes est composee de 23 fois la valeur 1 et 27 fois la valeur 0.Pour calculer le profil de cette colonne, il convient de normer, i.e. on divise par 23.

• la contribution d’un individu 1 vaut 50×(

123− 1

50

)2

=272

50× 232

• la contribution d’un individu 1 vaut 50×(

0− 150

)2

=150

La distance entre le profil de la premiere colonne, et le profil marginal est donneepar

d1 = 23× 272

50× 232+ 27× 1

50=

2723

=n0

n1

14

Page 15: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Plus une modalite est rare (peu de 1), plus la distance entre le colonne et le profilmoyen sera grande.

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

CA factor map

Dim 1 (21.67%)

Dim

2 (

14.9

9%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

Lors de l’analyse factorielle, notons que les valeurs propres verifient λi ≤ 1, et lepourcentage associe a chaque valeur propre est faible. On utilise la regle du coude

15

Page 16: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

pour selectionner le nombre d’axes principaux.

> M$eig

eigenvalue percentage of variance cumulative percentage of variance

dim 1 4.874995e-01 2.166664e+01 21.66664

dim 2 3.372231e-01 1.498770e+01 36.65434

dim 3 3.100147e-01 1.377843e+01 50.43277

dim 4 2.965840e-01 1.318151e+01 63.61428

dim 5 2.361011e-01 1.049338e+01 74.10766

dim 6 1.985567e-01 8.824742e+00 82.93241

dim 7 1.767959e-01 7.857595e+00 90.79000

dim 8 1.220429e-01 5.424129e+00 96.21413

dim 9 8.518205e-02 3.785869e+00 100.00000

dim 10 7.417704e-33 3.296757e-31 100.00000

dim 11 3.948060e-33 1.754693e-31 100.00000

dim 12 2.178325e-33 9.681444e-32 100.00000

dim 13 1.500532e-33 6.669029e-32 100.00000

Notons que la moyenne des coordonnees d’unne variable est toujours nulle.

Theoriquement, les modalites d’une meme variables s’excluent mutuellement. Sideux modalites d’une meme variable sont proches, c’est que la distinction et la

16

Page 17: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

separation est inutile.

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5

−1.0

−0.5

0.00.5

1.01.5

CA factor map

Dim 1 (21.67%)

Dim 2

(14.99

%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5

−1.0

−0.5

0.00.5

1.01.5

CA factor map

Dim 1 (21.67%)

Dim 2

(14.99

%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5

−1.0

−0.5

0.00.5

1.01.5

CA factor map

Dim 1 (21.67%)

Dim 2

(14.99

%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5

−1.0

−0.5

0.00.5

1.01.5

CA factor map

Dim 1 (21.67%)

Dim 2

(14.99

%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

> M$col

$coord

17

Page 18: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Dim 1 Dim 2 Dim 3 Dim 4 Dim 5

VELO.1 -0.84824941 0.01924502 0.188010374 -0.29984498 -0.16679161

VELO.2 1.08178997 0.34872181 0.027702695 -0.74442533 -0.16308903

VELO.3 0.33574437 -0.40959544 -0.362467409 1.33218377 0.47072718

PETA.1 -0.53143820 -0.05182022 -0.209219290 -0.10723850 -0.07426725

PETA.2 1.34176617 1.32050859 -0.416667552 -0.29818487 0.09771710

PETA.3 0.91684618 -1.10027264 1.305849532 0.75394848 0.21791870

TELE.1 0.20348997 -0.57718001 -0.113024207 -0.19994655 -0.09451845

TELE.2 0.38455044 1.21709819 0.011854050 0.49891384 0.41619383

TELE.3 -1.56039921 0.46962888 0.480214548 0.03019673 -0.29489342

LECT.1 -0.56611479 -0.08318577 -0.008351104 -0.62637089 1.77798589

LECT.2 -0.19133774 0.55780193 0.763890378 0.53931719 -0.47162300

LECT.3 -0.00523195 -0.26101914 -1.532960511 0.35241579 -0.50482278

LECT.4 0.91680106 -0.60763474 0.472901036 -0.76729899 -0.32327717

Deux individus sont proches s’ils prennent a peu pret les memes modalites auxdifferentes variables,

Deux variables sont proches si ce sont les memes individus qui prennent lesmodalites identiques

Visuellement, trois groupes semblent se detacher.

18

Page 19: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Au niveau de l’interpretation, on notera que la pratique de la lecture et lapratique des sports petanque et velo sont associees, contrairement a la television :les sportifs lisent mais ne regardent pas la tele.

Pour l’interpretation des axes, on que le poids total vaut 1, et plus precisement,1/4 pour chaque variable (quel que soit le nombre de modalites), 4 etant lenombre de variables.

Pour obtenir un R2 permettant de juger la contribution d’une variable j a unaxe, on calcule

R2j = 4

∑k

ωkC2k

ou ωk est le poid de chaque modalite k et Ck la projection sur l’axe.

Ici, l’axe 1 est plutot lie au pratique sportives, nettement moins a la lecture.

On peut aussi mener une analyse a partir du tableau de Burt. On utilise uneanalyse factorielle (simple) de ce tableau.

L’analyse des variables donne les memes resultats, sauf qu’on n’a plus d’individusdans le tableau de Burt : ce n’est que le tableau de contingence.

19

Page 20: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

> CA(DISJ)

> CA(BURT)

−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

CA factor map

Dim 1 (21.67%)

Dim

2 (

14.9

9%)

●●

●●

●●

●●

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

192021

22

23

24

25

2627 28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

4748

49 50

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

CA factor map

Dim 1 (34.74%)D

im 2

(16

.63%

)

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

VELO.1

VELO.2

VELO.3

PETA.1

PETA.2

PETA.3

TELE.1

TELE.2

TELE.3

LECT.1

LECT.2

LECT.3

LECT.4

> CA(BURT)$col

$coord

Dim 1 Dim 2 Dim 3 Dim 4 Dim 5

VELO.1 -0.592257601 0.01117576 0.104682234 -0.16329417 -0.08104443

20

Page 21: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

VELO.2 0.755318337 0.20250595 0.015424574 -0.40541054 -0.07924533

VELO.3 0.234420623 -0.23785583 -0.201818109 0.72550102 0.22872742

PETA.1 -0.371056331 -0.03009248 -0.116491139 -0.05840158 -0.03608663

PETA.2 0.936836739 0.76683145 -0.231996189 -0.16239008 0.04748097

PETA.3 0.640152668 -0.63893841 0.727083531 0.41059680 0.10588720

TELE.1 0.142079067 -0.33517373 -0.062930711 -0.10888995 -0.04592673

TELE.2 0.268497589 0.70678008 0.006600212 0.27170613 0.20222954

TELE.3 -1.089488877 0.27271779 0.267378500 0.01644500 -0.14328939

LECT.1 -0.395267932 -0.04830674 -0.004649809 -0.34111864 0.86392745

LECT.2 -0.133594233 0.32392069 0.425326272 0.29370961 -0.22916270

LECT.3 -0.003653009 -0.15157621 -0.853536578 0.19192398 -0.24529455

LECT.4 0.640121162 -0.35285906 0.263306412 -0.41786743 -0.15708112

> CA(DISJ)$col

$coord

Dim 1 Dim 2 Dim 3 Dim 4 Dim 5

VELO.1 -0.84824941 0.01924502 0.188010374 -0.29984498 -0.16679161

VELO.2 1.08178997 0.34872181 0.027702695 -0.74442533 -0.16308903

VELO.3 0.33574437 -0.40959544 -0.362467409 1.33218377 0.47072718

PETA.1 -0.53143820 -0.05182022 -0.209219290 -0.10723850 -0.07426725

PETA.2 1.34176617 1.32050859 -0.416667552 -0.29818487 0.09771710

PETA.3 0.91684618 -1.10027264 1.305849532 0.75394848 0.21791870

21

Page 22: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

TELE.1 0.20348997 -0.57718001 -0.113024207 -0.19994655 -0.09451845

TELE.2 0.38455044 1.21709819 0.011854050 0.49891384 0.41619383

TELE.3 -1.56039921 0.46962888 0.480214548 0.03019673 -0.29489342

LECT.1 -0.56611479 -0.08318577 -0.008351104 -0.62637089 1.77798589

LECT.2 -0.19133774 0.55780193 0.763890378 0.53931719 -0.47162300

LECT.3 -0.00523195 -0.26101914 -1.532960511 0.35241579 -0.50482278

LECT.4 0.91680106 -0.60763474 0.472901036 -0.76729899 -0.32327717

Les valeurs propres sont ici> CA(BURT)$eig[1,1]

[1] 0.2376557

> CA(DISJ)$eig[1,1]^2

[1] 0.2376557

> CA(DISJ)$eig

eigenvalue percentage of variance cumulative percentage of variance

dim 1 4.874995e-01 2.166664e+01 21.66664

dim 2 3.372231e-01 1.498770e+01 36.65434

dim 3 3.100147e-01 1.377843e+01 50.43277

dim 4 2.965840e-01 1.318151e+01 63.61428

dim 5 2.361011e-01 1.049338e+01 74.10766

> CA(BURT)$eig

22

Page 23: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

eigenvalue percentage of variance cumulative percentage of variance

dim 1 2.376557e-01 3.474387e+01 34.74387

dim 2 1.137194e-01 1.662511e+01 51.36898

dim 3 9.610914e-02 1.405059e+01 65.41957

dim 4 8.796209e-02 1.285954e+01 78.27911

dim 5 5.574371e-02 8.149401e+00 86.42851

L’analyse du tableau disjonctif et du tableau de Burt ne donne pas les memesresultats, mais on peut passer de l’un a l’autre par une simple dilatation. Si onnote dα (k) la coordonnee sur l’axe α de la modalite k, via l’analyse du tableaudisjonctif, et bα (k) la coordonnee via l’analyse du tableau de Burt, et si λα et µαdesignent les valeurs propres respectives, alors λα =

√µα (comme note).

Aussi dα (k) =bα (k)√λα

=bα (k)√√

µα=bα (k)

µ1/4α

> CA(BURT)$col$coord[1,1]/(CA(BURT)$eig[1,1])^.25

[1] -0.8482494

> CA(DISJ)$col$coord[1,1]

[1] -0.8482494

Les valeurs propres sont egales au carre des valeurs propres associees au tableau

23

Page 24: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

disjonctif complet.

Par symmetrie du tableau, on obtient que les coordonnees des lignes et descolonnes sont identiques.

Considerons une analyse des methodes de tri des dechets. Le tableau disjonctifmontre pour 640 individus leurs pratiques de tri (ou non) du verre, du papier, despiles et du plastique.> tri.Burt

nom verre pas.verre papier pas.papier piles pas.piles plast pas.plast

1 verre 640 0 326 314 192 448 192 448

2 pas.verre 0 360 34 326 48 312 8 352

3 papier 326 34 360 0 162 198 130 230

4 pas.papier 314 326 0 640 78 562 70 570

5 piles 192 48 162 78 240 0 82 158

6 pas.piles 448 312 198 562 0 760 118 642

7 plast 192 8 130 70 82 118 200 0

8 pas.plast 448 352 230 570 158 642 0 800

Le premier axe explique ici plus de 50% de l’information contenue dans le tableau.> CA(BURT)$eig

24

Page 25: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

eigenvalue percentage of variance cumulative percentage of variance

dim 1 2.291586e-01 7.091317e+01 70.91317

dim 2 4.603023e-02 1.424406e+01 85.15724

dim 3 3.055328e-02 9.454719e+00 94.61195

dim 4 1.741168e-02 5.388046e+00 100.00000

dim 5 5.786104e-33 1.790511e-30 100.00000

dim 6 8.527746e-34 2.638912e-31 100.00000

dim 7 2.475267e-34 7.659718e-32 100.00000

Comme auparavant, on peut faire une analyse des R2 afin de comprendre laliaison entre les variables et les axes

axe 1 2 3

verre 0, 51 0, 14 0, 18

papier 0, 61 0, 02 0, 08

piles 0, 36 0, 51 0, 04

plastique 0, 42 0, 18 0, 39

L’axe 1 est l’axe du verre et du papier, l’axe 2 est ainsi l’axe du tri des piles, l’axe

25

Page 26: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

3 est davantage lie au plastique (pour resumer schematiquement).

−0.5 0.0 0.5 1.0

−0.5

0.00.5

1.0CA factor map

Dim 1 (70.91%)

Dim

2 (14

.24%

)

1

2

3

4

5

6

7

8

verre

pas.verre

papier

pas.papier

piles

pas.piles

plast

pas.plast

−0.5 0.0 0.5 1.0

−0.5

0.00.5

1.0

CA factor map

Dim 1 (70.91%)

Dim

2 (14

.24%

)

1

2

3

4

5

6

7

8

verre

pas.verre

papier

pas.papier

piles

pas.piles

plast

pas.plast

−0.5 0.0 0.5 1.0

−0.5

0.00.5

1.0

CA factor map

Dim 1 (70.91%)

Dim

3 (9.4

55%

)

1

2

3

45

6

7

8 verre

pas.verre

papier

pas.papierpiles

pas.piles

plast

pas.plast●

−0.4 −0.2 0.0 0.2 0.4 0.6

−0.2

0.00.2

0.40.6

CA factor map

Dim 2 (14.24%)

Dim

3 (9.4

55%

)

1

2

3

4

5

6

7

8verre

pas.verre

papier

pas.papier

piles

pas.piles

plast

pas.plast

26

Page 27: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Un autre exemple

Considerons la base Etudiants-ville.csv sur le logement etudiant• Habitez-vous (variable “mode d’occupation”) : seul (Seul), colocataires (Coloc),

en couple (Couple), chez les parents (Parents) ou non reponse (NR1)• Quel type d’habitation occupez-vous ? (variable “type d’habitation”) : cite

universitaire (Cite), studio (Studio), appartement (Appart), chambre chez unparticulier (Chambre), autre (Autre) ou non reponse (NR2)

• Si vous vivez en dehors du foyer familial, depuis combien de temps ? (variable“anciennete”) moins de 1 an (¡ 1 an), 1 a 3 ans (1-3 ans), plus de 3 ans (> 3

ans), non applicable (NA) ou non reponse (NR3)• A quelle distance approximative de la Fac vivez-vous ? (variable

“eloignement”) moins de 1 km (¡ 1 km), de 1 a 5 km (1 a 5 km), plus de 5 km(¿

5 km) ou non reponse ((NR4).• Quelle est la superficie de votre logement ? (variable “superficie”) moins de 10

m2 (< 10 m2), de 10 a 20 m2 (10 a 20 m2), de 20 a 30 m2 (20 a 30 m2), plusde 30 m2 (> 30 m2) ou non reponse (NR5)

27

Page 28: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

> library(FactoMineR)

> Etudiants-ville <- read.table(’’Etudiants-ville.csv’’)

> etudiants.MCA <- MCA(etudiants.proto, ncp=3)

Les valeurs propres et l’inertie de chaque axe sont donnees par etudiants.MCA$eig

et les resultats relatifs aux variables : coordonnees, contributions, qualites derepresentation, valeurs test sont dans etudiants.MCA$var.

28

Page 29: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

d = 0.5

1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

19

20

21

22

23

24

25 26

27

28 29 30 31 32 33 34 35 36 37 38 39 40 41

42

43 44

45

46

47

48 49 50

51

52

53

54 55

56 57 58 59

60

61

62

63 64

65 66 67 68

69 70 71 72

73

74 75

76 77

78

79

80

81

82

83 84 85 86 87

88

89

90 91

92

93 94 95

96 97

98

99 100

101 102

103

104

105

106

107

108

109 110

111

112

113

114

115

116

117

118

119

120 121

122

123 124

125

126

127 128

129

130

131

132

133

134 135 136

137

138 139 140

141 142

143 144

145

146

147

148 149

150

151 152 153 154

155

156

157 158

159

160

161

162

163

164

165

166

167

168

169

170 171

172

173

174

175

176

177

178

179

180

181

182

183 184

185

186

187

188

189

190

191

192

193

194 195 196

197

198

199

200

201

202

203

204

205

206 207

208 209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254 255

256

257

258

259

260

261

262

263

264

265

266 267

268

269

270

271

272

273 274

275 276

277

278

279

280

281

282

283

284 285

286

287 288

289

290

291

292 293

294

295 296

297

298

299

300

301

302

303 304

305

306

307

308

309

310 311

312

313

314

315

316

317 318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339 340

341 342

343 344

345

346

347 348

349 350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366 367

368

369

370

371

372 373

374

375

376 377

378

379

380

381

382

383

d = 0.5

Coloc

Couple

Par_NR

Seul

●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

29

Page 30: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

d = 0.5

Appart

Autre

Chamb

Cite

NR2

Studio ●

●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

d = 0.5

de_1_3ans

moins_1an

NA_NR

plus_3ans

●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

30

Page 31: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

d = 0.5

de_1_5km moins_1km

plus_5km_NR ●

●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

d = 0.5

de_10_20m

de_20_30m

moins_10m

NR5

plus_30m

●●●●●●●●●●●●●●●●

●●

●●●●●●●●●●●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

31

Page 32: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Retour sur la methodologie de l’ACM

Sous R, plusieurs fonctions permettent de faire des ACM• dans library(ade4), la fonction dudi.coa, qui permet simplement de centrer et

reduire les variables.• dans library(FactoMineR), la fonction MCA

32

Page 33: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

Travaux diriges

Le TD portera sur la base de donnees culture.sav telechargeables sur ma pageinternet (ou culture.xls pour les refractaires a R).

L’importation de la base de donnees sous R se fait a l’aide des commandessuivantes> library(Hmisc)

> culture=spss.get("http://perso.univ-rennes1.fr/arthur.charpentier/Culture.sav")

Cette base est issue d’une enquete du Ministere de la Culture, faite en 1997aupres de 3002 individus “representatifs”.

6 questions sont associes a leurs loisirs,• Q1 intitulee leisure activity, dont les modalitees detaillent avec qui les activites

de loisir sont effectuee, i.e. alone, partner, friends ou family

• Q2 intitulee free time, dont les modalitees sont lack time (pas assez de tempspour faire ce qu’on veut), always something to do (on trouve toujours quelquechose a faire), nothing to do (parfois on ne sait pas quoi faire) ou do nothing in

particular (parfois on ne fait rien)

33

Page 34: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

• Q3 intitulee more time, cherchant a savoir ce que les individus feraient s’ilsavaient plus de loisirs, dont les modalitees sont rest (repos=, courses (suivre descours), physical activities, artistic activities, general knowledge, care family

(s’occuper de sa famille) ou home DIY (i.e. do-it-yourself, jardinage,bricolage...)

• Q4 intitulee go out sur les sorties en soiree, dont les modalitees sont alone, with

partner, with family, with friends, with a group (club, travail), ou don’t go

• Q5 intitulee TV sur le temps passe devant la tele, par semaine, dont lesmodalitees sont never, less than 10 hrs, 10-19 hrs, 20-29 hrs ou over 30h

• Q6 intitulee books sur le nombre de livres lus au court des 12 derniers mois,dont les modalitees sont no books, 1-4 books, 5-12 books, 13-39 books ou 40

books or more.Notons que les deux dernieres categories sont ordonnees, alors que les autres non.

Quelques variables ont ete rajoutees pour mieux comprendre qui etaient cesindividus,• QS1 intitulee sex, dont les modalitees sont woman ou man,• QS2 intitulee education, dont les modalitees sont CEP, CAP-BEP, BEPC, no

34

Page 35: Cours add-r1-part3

Arthur CHARPENTIER - Analyse des donnees

degree, >Bac+2 , Bac, <Bac+2 ou Students

• QS3 intitulee age, dont les modalitees sont <18 years, 18-25 years, 26-35 years,36-45 years, 46-55 years, 55-65 years ou >65 years

• QS4 est un produit cartesien des modalites precedantes(et quelques autres variables).

35