Upload
arthur-charpentier
View
435
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Arthur CHARPENTIER - Analyse des donnees
Analyse des donnees (4)
La Classification (Ascendante) Hieracrchique
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Universite Rennes 1
1
Arthur CHARPENTIER - Analyse des donnees
La classification, une introduction
Ici on cherche a regrouper des objects presentant des similitudes. De maniereintuitive, on voit que le choix de la distance ne sera pas neutre.
L’idee est de constituer des groupes homogenes. Il existe des methodes• non hierarchique ou dites de partitionnement• hierarchique ou on cherche a construire des suites de partitions emboıtees,
contenant n, puis n− 1, puis n− 2, · · · classes, en regroupant a chaque etapedeux parties.
Remarque rappelons que le nombre de partitions en k classes de n elements estde l’ordre de kn/k! et donc le nombre total de partitions d’un ensemble de n
element vaut1e
∑k≥1
kn
k!. Aussi, avec n = 10 individus, il y a un peu plus de
100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards.
=⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitionspossibles.
Pour des variables continues, on utilise une distance euclidienne pour mesurer la
2
Arthur CHARPENTIER - Analyse des donnees
distance entre deux individus,
d2(i1, i2) =∑
j
(Yi1,j − Yi2,j)2 .
Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurerla distance entre deux individus, i.e. entre deux profils lignes
d2(i1, i2) =∑
j
(ni1,j
ni1,·− ni1,j
ni2,·
)2
.
3
Arthur CHARPENTIER - Analyse des donnees
Exemple introductif, sur donnees continues
Considerons l’exmple au decathlon, en athletisme> library(ade4)
> data(olympic)
> head(olympic$tab)
100 long poid haut 400 110 disq perc jave 1500
1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95
2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02
3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20
4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11
5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64
6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07
Afin de comparer “proprement” les variables, on commence• par centrer et reduire (afin de rendre comparable)• par transformer certaines variables car elles ne s’interprete pas de la meme
manier : un score eleve en haut signifie que la personne a saute haut en saut enhauteur (ce qui est bon), mais un score eleve en 100 signifie que la personne amis un temps long pour courrir le 100 metre (ce qui est mauvais)
4
Arthur CHARPENTIER - Analyse des donnees
On pose alors Yi,j = ±Xi,j −Xj
sj, avec un signe − pour les sports de course.
> Y=scale(olympic$tab, center=TRUE,scale=TRUE)
> Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)]
> distY=dist(Y, center=TRUE,scale=TRUE)
> distY
1 2 3 4 5 6
2 4.363550
3 4.108952 1.887325
4 4.183513 2.168189 3.185110
5 5.193806 2.385945 2.190279 3.979429
6 4.280036 2.937114 3.666441 3.346085 2.968765
7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930
5
Arthur CHARPENTIER - Analyse des donnees
Fig. 1 – Constitution de classes : regrouper des individus (et des classes).
6
Arthur CHARPENTIER - Analyse des donnees
Fig. 2 – Constitution de classes : regrouper des individus (et des classes).
7
Arthur CHARPENTIER - Analyse des donnees
Fig. 3 – Constitution de classes : regrouper des individus (et des classes).
8
Arthur CHARPENTIER - Analyse des donnees
Fig. 4 – Constitution de classes : regrouper des individus (et des classes).
9
Arthur CHARPENTIER - Analyse des donnees
Retour sur le decathlon
20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27
05
1015
20
Cluster Dendrogram
hclust (*, "ward")
Fig. 5 – Constitution de classes sur les sportifs du decathlon.
10
Arthur CHARPENTIER - Analyse des donnees
Retour sur le decathlon
−0.2 0.0 0.2 0.4
−0.
20.
00.
20.
4
Comp.1
Com
p.2
1
1 1
2
1
1
2
1
1
22
1
1
113
4
2
3
2
33
3
3
3
33
4
3
4
4
4
3
−4 −2 0 2 4 6 8
−4
−2
02
46
8
100long
poid
haut
400
110
disq
perc
jave
1500
Fig. 6 – ACP avec les classes des sportifs du decathlon.
11
Arthur CHARPENTIER - Analyse des donnees
Retour sur le decathlon
−3 −2 −1 0 1 2 3 4
−2
02
4
Component 1
Com
pone
nt 2
These two components explain 57.84 % of the point variability.
●
●●
●
●
●
●
●
●
●●
1
2
3
4
Fig. 7 – ACP avec les classes des sportifs du decathlon.
12
Arthur CHARPENTIER - Analyse des donnees
Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper lesvariables.
> distY=dist(t(Y))
> distY
100 long poid haut 400 110 disq perc jave
long 5.428413
poid 7.119673 7.410709
haut 7.393370 6.820509 7.495809
400 5.022220 5.569466 8.369785 7.641971
110 4.810911 5.779988 6.713726 6.661003 5.390198
disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075
perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676
jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316
1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637
> hc <- hclust(distY, "ave")
> plot(hc)
> plot(hc, hang = -1)
13
Arthur CHARPENTIER - Analyse des donnees
jave
poid
disq
haut
400
1500
perc
long
100
110
34
56
7
Cluster Dendrogram
hclust (*, "average")distY
Hei
ght
jave
poid
disq
haut
400
1500
perc
long 100
110
34
56
78
Cluster Dendrogram
hclust (*, "average")distY
Hei
ght
Fig. 8 – Regroupement des sports du decathlon
14
Arthur CHARPENTIER - Analyse des donnees
Notons que l’on peut aussi changer de distance, ou la methode de regroupement,par exemple,
> distY=dist(t(Y),method = "euclidean")
> hc <- hclust(distY, "average")
> plot(hc)
> distY=dist(t(Y),method = "canberra")
> hc <- hclust(distY, "single")
> plot(hc)
15
Arthur CHARPENTIER - Analyse des donnees
jave
poid
disq
haut
400
1500
perc
long
100
110
34
56
7Cluster Dendrogram
hclust (*, "average")distY
Hei
ght
haut
jave
poid
disq
perc
long
1500
400
100
110
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Cluster Dendrogram
hclust (*, "single")distY
Hei
ght
jave
poid
disq
400
1500
haut
perc
long
100
110
24
68
1012
14
Cluster Dendrogram
hclust (*, "ward")distY
Hei
ght
400
1500
jave
poid
disq
haut
perc
long
100
110
34
56
78
9
Cluster Dendrogram
hclust (*, "complete")distY
Hei
ght
jave
poid
disq
haut
400
1500
perc
long
100
110
34
56
7Cluster Dendrogram
hclust (*, "average")distY
Hei
ght
1500
400
long
disq
jave
poid
haut
100
110
perc
2530
3540
4550
5560
Cluster Dendrogram
hclust (*, "single")distY
Hei
ght
Fig. 9 – Regroupement(s) des sports du decathlon 16
Arthur CHARPENTIER - Analyse des donnees
Exemple introductif, sur donnees qualitatives
On peut utiliser cette methode pour etudier des regroupements de modalites, voirquelles modalitees sont proches : classification sur un tableau de contingence.
Pour cela, on utilise une distance du chi-deux pour mesurer la proximite entredes modalites. Par exemple sur le liens entre la CSP et la nationalite, on peutetudier des regroupements de lignes (i.e. de CSP),
> CSPnat=read.table("D:\\CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
ou de colonnes
> CSPnat=read.table("D:\\CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
17
Arthur CHARPENTIER - Analyse des donnees
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
18
Arthur CHARPENTIER - Analyse des donnees
Com
mer
cant
sE
mpl
oyes
Com
mer
cIn
actD
ivA
ncE
mpl
oyeO
uvr
Art
isan
sC
ontr
emai
tres
Agr
icul
teur
sA
ncA
gric
ulte
urs
Che
fsE
ntre
pris
eP
rofL
ibér
ales
Cad
resP
ublic
Cad
resE
ntre
prE
mpl
oyes
Pub
licT
echn
icie
nsE
mpl
oyes
Ent
repr
Anc
Art
isan
sP
rofIn
tPub
licP
rofIn
tEnt
repr
Anc
Cad
reP
rofIn
tC
hom
eurs
Jam
Tra
vO
uvrie
rsA
gric
olP
erso
nnel
sSer
vO
uvrie
rsQ
ualif
Ouv
riers
Non
Qua
l
0.0
0.5
1.0
1.5
2.0
Cluster Dendrogram
hclust (*, "ward")distY
Hei
ght
Por
tuga
is
Aut
res
Alg
erie
n
Tun
isie
n
Mar
ocai
n
Tur
c
Esp
agno
l
Italie
n Aut
resU
E
Fra
ncai
sNai
ssan
ce
Fra
ncai
sacq
uis0.
00.
51.
01.
52.
0
Cluster Dendrogram
hclust (*, "ward")distY
Hei
ght
Fig. 10 – Regroupement(s) des sports du decathlon
19
Arthur CHARPENTIER - Analyse des donnees
Une autre piste, pour classer des individus, est d’utiliser des methodes declassification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et deconsiderer les coordonnees des individus sur les axes factoriels comme denouvelles variables.
> library(FactoMineR)
> afc=CA(mymat, ncp = 5)
> base=CA(mymat, ncp = 5)$row$coord
> hc <- hclust(dist(base), "ave")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
Ici on utilise une distance euclidienne (classique) sur les projections sur les axesprincipaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphiqueci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10.
20
Arthur CHARPENTIER - Analyse des donnees
Agr
icul
teur
sA
ncA
gric
ulte
urs
Pro
fIntP
ublic
Cad
resP
ublic
Cad
resE
ntre
prE
mpl
oyes
Pub
licC
hefs
Ent
repr
ise
Pro
fLib
éral
esP
rofIn
tEnt
repr
Tec
hnic
iens
Em
ploy
esE
ntre
prA
ncA
rtis
ans
Anc
Cad
reP
rofIn
tIn
actD
ivC
omm
erca
nts
Em
ploy
esC
omm
erc
Art
isan
sC
ontr
emai
tres
Anc
Em
ploy
eOuv
rO
uvrie
rsA
gric
olC
hom
eurs
Jam
Tra
vP
erso
nnel
sSer
vO
uvrie
rsQ
ualif
Ouv
riers
Non
Qua
l
0.0
0.1
0.2
0.3
0.4
0.5
Cluster Dendrogram
hclust (*, "average")dist(base)
Hei
ght
Cho
meu
rsJa
mT
rav
Ouv
riers
Agr
icol
Anc
Em
ploy
eOuv
rA
rtis
ans
Con
trem
aitr
esA
gric
ulte
urs
Anc
Agr
icul
teur
sC
hefs
Ent
repr
ise
Cad
resE
ntre
prP
rofL
ibér
ales
Cad
resP
ublic
Em
ploy
esP
ublic
Pro
fIntP
ublic
Pro
fIntE
ntre
prT
echn
icie
nsE
mpl
oyes
Ent
repr
Anc
Art
isan
sA
ncC
adre
Pro
fInt
Com
mer
cant
sE
mpl
oyes
Com
mer
cIn
actD
ivP
erso
nnel
sSer
vO
uvrie
rsQ
ualif
Ouv
riers
Non
Qua
l
0.0
0.2
0.4
0.6
Cluster Dendrogram
hclust (*, "average")dist(base)
Hei
ght
21
Arthur CHARPENTIER - Analyse des donnees
Agric
ulteu
rsAn
cAgr
iculte
urs
Prof
IntP
ublic
Cadr
esPu
blic
Cadr
esEn
trepr
Emplo
yesP
ublic
Chef
sEnt
repr
isePr
ofLib
érale
sPr
ofIn
tEnt
repr
Tech
nicien
sEm
ploye
sEnt
repr
AncA
rtisa
nsAn
cCad
rePr
ofIn
tIn
actD
ivCo
mm
erca
nts
Emplo
yesC
omm
erc Ar
tisan
sCo
ntre
mait
res
AncE
mplo
yeOu
vrOu
vrier
sAgr
icol
Chom
eurs
Jam
Trav
Pers
onne
lsSer
vOu
vrier
sQua
lifOu
vrier
sNon
Qual
0.0
0.1
0.2
0.3
0.4
0.5
Cluster Dendrogram
hclust (*, "average")dist(base)
Heigh
t
Chom
eurs
Jam
Trav
Ouvr
iersA
grico
lAn
cEm
ploye
Ouvr
Artis
ans
Cont
rem
aitre
sAg
ricult
eurs
AncA
gricu
lteur
sAn
cArti
sans
Cadr
esEn
trepr
Prof
Libér
ales
Cadr
esPu
blic
Emplo
yesP
ublic
Tech
nicien
sEm
ploye
sEnt
repr
Chef
sEnt
repr
isePr
ofIn
tEnt
repr
Prof
IntP
ublic
AncC
adre
Prof
Int
Inac
tDiv
Com
mer
cant
sEm
ploye
sCom
mer
cPe
rson
nelsS
erv
Ouvr
iersQ
ualif
Ouvr
iersN
onQu
al
0.0
0.2
0.4
0.6
Cluster Dendrogram
hclust (*, "average")dist(base)
Heigh
t
Chom
eurs
Jam
Trav
Ouvr
iersA
grico
lAn
cEm
ploye
Ouvr
Artis
ans
Cont
rem
aitre
sAg
ricult
eurs
AncA
gricu
lteur
sCh
efsE
ntre
prise
Cadr
esEn
trepr
Prof
Libér
ales
Cadr
esPu
blic
Emplo
yesP
ublic
Prof
IntP
ublic
Prof
IntE
ntre
prTe
chnic
iens
Emplo
yesE
ntre
prAn
cArti
sans
AncC
adre
Prof
Int
Com
mer
cant
sEm
ploye
sCom
mer
cIn
actD
ivPe
rson
nelsS
erv
Ouvr
iersQ
ualif
Ouvr
iersN
onQu
al
0.0
0.2
0.4
0.6
Cluster Dendrogram
hclust (*, "average")dist(base)
Heigh
t
Chom
eurs
Jam
Trav
Ouvr
iersA
grico
lAg
ricult
eurs
AncA
gricu
lteur
sCh
efsE
ntre
prise
Prof
Libér
ales
Cadr
esPu
blic
Cadr
esEn
trepr
AncA
rtisa
nsEm
ploye
sPub
licTe
chnic
iens
Emplo
yesE
ntre
prPr
ofIn
tPub
licPr
ofIn
tEnt
repr
AncC
adre
Prof
Int
Com
mer
cant
sEm
ploye
sCom
mer
cIn
actD
ivAn
cEm
ploye
Ouvr
Artis
ans
Cont
rem
aitre
sPe
rson
nelsS
erv
Ouvr
iersQ
ualif
Ouvr
iersN
onQu
al
0.0
0.2
0.4
0.6
Cluster Dendrogram
hclust (*, "average")dist(base)
Heigh
t
22
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance euclidienne, d(a, b) =√
(a1 − b1)2 + (a2 − b2)2.
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance euclidienne
●
●
12 ++ 12 == 2
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance euclidienne
barycentre
●
●plus proches
voisins
●
●
plus lointainsvoisins
23
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}.
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance maximale
●
●
max{|1−0|,|1−0|}=1
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance maximale
●
●
plus prochesvoisins
●
●
plus lointainsvoisins
24
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance de Manhantan, d(a, b) = |a1 − b1|+ |a2 − b2|.
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance de Manhattan
●
●
|1−0|+|1−0|=2
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance de Manhattan
●
●plus proches
voisins
●
●
plus lointainsvoisins
25
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance de Camberra, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance de Canberra
●
●
1 −− 0
1 ++ 0++
1 −− 0
1 ++ 0== 1
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance de Canberra
●
●plus proches
voisins●
●
plus lointainsvoisins
26
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance de Minkowski, d'ordre 3
●
●
((13 ++ 13))13 == 2
13
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance de Minkowski, d'ordre 3
●
●plus proches
voisins
●
●
plus lointainsvoisins
27
Arthur CHARPENTIER - Analyse des donnees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Distance de Minkowski, d'ordre 1/2
●
●
((112 ++ 1
12))2 == 4
1
1
●
●
●
●
●
●
●
−2 −1 0 1 2−
2−
10
12
Distance de Minkowski, d'ordre 1/2
●
●
plus prochesvoisins
●
●
plus lointainsvoisins
28
Arthur CHARPENTIER - Analyse des donnees
Distance entre points, distance entre groupes
Strategie barycentrique, d(A,B) est la distance entre les barycentre des deuxgroupes. On peut aussi ponderer la distance par les effectifs,
d(A,B) =ωAωBωA + ωB
d(xA, xB),
on parle alors de distance de Ward.
29
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
30
Arthur CHARPENTIER - Analyse des donnees
Distance entre points, distance entre groupes
La distance entre deux groupes A et B est le maximum des distances entre unelement de A et un element de B,
d(A,B) = maxi∈A,j∈B
{δ(i, j)},
on parle alors de complete linkage.
31
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
●
●
32
Arthur CHARPENTIER - Analyse des donnees
Distance entre points, distance entre groupes
La distance entre deux groupes A et B est le minimum des distances entre unelement de A et un element de B,
d(A,B) = mini∈A,j∈B
{δ(i, j)},
on parle alors de single linkage.
33
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
●
●
34
Arthur CHARPENTIER - Analyse des donnees
La distance entre deux groupes A et B est la moyenne des distances entre unelement de A et un element de B,
d(A,B) =∑
i ∈ A, j ∈ Bωi,j{δ(i, j)},
on parle alors de group average linkage.
35
Arthur CHARPENTIER - Analyse des donnees
Visualisation graphique
Le dendrogramme est un arbre binaire presentant les agregrations successives,jusqu’a reunion en une classe unique. La hauteur d’une branche estproportionnelle a la distance entre les objects regroupes. Pour la distance deWard, la distance est simplement la perte de variance inter-classes.
36
Arthur CHARPENTIER - Analyse des donnees
Decomposition de l’inertie
37
Arthur CHARPENTIER - Analyse des donnees
Arbre de classification
Deux familles de classification (ou segmentation) entre variables qualitativesexistent• les methodes hierarchiques ou agglomeratives• les methodes convergentesLa methodologie de la classification ascendante hierarchique est simple
1. on commence par un repartition en n classes, la plus fine qui soit, puis onaggrege iterativement : a chaque etape, les objets les plus ressemblants (auvue de la mesure de dssimilarite) sont rassemblees, jusqua obtenir une uniqueclasse. On parle parfois d’algorithme de Lance & Williams,
2. on coupe dans l’arbre de classification (on parle aussi parfois dedendrogramme.
Malheureusement, le critere d’aggrgation peut beaucoup influencer laclassification. Et il n’existe pas de methode permettant de connaıtre la meilleurmethode d’agregation. Parmi les methodes de liaisons les plus classiques,rappelons
38
Arthur CHARPENTIER - Analyse des donnees
• la liaison simple : pour chaque couple de groupes, on calcule la distance entreles individus les plus proches, et on fusionne alors les groupes les plus proches.Cette methode cree souvent des gros groupes heterogenes,
• la liaison complete : pour chaque couple de groupes, on calcule la distanceentre les individus les plus eloignes,
• la liaison moyenne : pour chaque couple de groupes, on calcule la distancemoyenne entre les individus,
• la liaison centree : pour chaque couple de groupes, on calcule la distance entreles moyenne des groupes,
• la liaison de Ward : on clacule la variance de chaque groupe, puis celle dechaque groupe si on les fusionnait. On fusionne les groupes pour lesquels ladistance entre la variance du couple et la somme des variance est la plus petite.
Par exemple, sur la base des athletes du Decathlon, en utilisant 5 distances, et 4criteres de regroupes, on obtient les classes suivantes
39
Arthur CHARPENTIER - Analyse des donnees
33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32
12
34
56
Cluster Dendrogram
hclust (*, "average")dist(Y, method = "euclidean")
Hei
ght
20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27
05
1015
20
Cluster Dendrogram
hclust (*, "ward")dist(Y, method = "euclidean")
Hei
ght
17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Cluster Dendrogram
hclust (*, "single")dist(Y, method = "euclidean")
Hei
ght
17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23
12
34
56
78
Cluster Dendrogram
hclust (*, "complete")dist(Y, method = "euclidean")
Hei
ght
40
Arthur CHARPENTIER - Analyse des donnees
17 33 19 27 26 29 21 22 23 24 25 32 30 28 31 18 20 1 6 7 10 5 13 4 11 8 9 16 12 15 14 2 3
24
68
1012
1416
Cluster Dendrogram
hclust (*, "average")dist(Y, method = "manhattan")
Hei
ght
6 5 13 7 10 8 9 16 4 11 1 12 15 14 2 3 19 27 26 29 33 21 22 23 24 25 28 31 30 32 17 18 20
010
2030
4050
60
Cluster Dendrogram
hclust (*, "ward")dist(Y, method = "manhattan")
Hei
ght
33 17 32 1 6 20 30 18 7 11 10 25 24 19 27 26 29 21 22 4 14 5 13 23 8 2 3 9 16 12 15 28 31
34
56
78
910
Cluster Dendrogram
hclust (*, "single")dist(Y, method = "manhattan")
Hei
ght
17 1 18 20 4 11 14 2 3 12 15 8 9 16 7 10 6 5 13 32 28 31 33 19 27 26 29 21 22 30 23 24 25
05
1015
20
Cluster Dendrogram
hclust (*, "complete")dist(Y, method = "manhattan")
Hei
ght
41
Arthur CHARPENTIER - Analyse des donnees
20 7 11 14 16 8 9 17 18 23 28 31 4 10 2 3 15 1 12 22 24 21 32 33 19 6 5 13 25 27 26 29 30
010
2030
4050
60Cluster Dendrogram
hclust (*, "average")dist(Y, method = "canberra")
Hei
ght
4 10 2 3 15 1 12 14 8 9 20 7 11 28 31 17 18 16 23 19 6 5 13 21 32 33 27 26 29 30 25 22 24
010
020
030
040
0
Cluster Dendrogram
hclust (*, "ward")dist(Y, method = "canberra")
Hei
ght
25 26 14 20 27 21 7 6 5 13 11 16 8 9 15 1 4 10 12 2 3 17 18 23 19 33 32 29 30 28 31 22 24
24
68
10
Cluster Dendrogram
hclust (*, "single")dist(Y, method = "canberra")
Hei
ght
8 9 20 7 11 16 23 14 19 28 31 17 18 2 3 15 1 12 25 4 10 22 24 21 32 33 6 5 13 27 26 29 30
020
040
060
080
010
00
Cluster Dendrogram
hclust (*, "complete")dist(Y, method = "canberra")
Hei
ght
42
Arthur CHARPENTIER - Analyse des donnees
33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32
12
34
56
Cluster Dendrogram
hclust (*, "average")dist(Y, method = "minkowski")
Hei
ght
20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27
05
1015
20
Cluster Dendrogram
hclust (*, "ward")dist(Y, method = "minkowski")
Hei
ght
17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Cluster Dendrogram
hclust (*, "single")dist(Y, method = "minkowski")
Hei
ght
17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23
12
34
56
78
Cluster Dendrogram
hclust (*, "complete")dist(Y, method = "minkowski")
Hei
ght
43
Arthur CHARPENTIER - Analyse des donnees
7 10 18 21 22 23 8 9 14 12 15 26 25 16 24 6 3 5 13 20 11 2 4 33 19 27 29 28 30 31 32 1 17
0.5
1.0
1.5
2.0
2.5
3.0
Cluster Dendrogram
hclust (*, "average")dist(Y, method = "maximum")
Hei
ght
21 22 25 16 24 33 27 29 19 26 31 32 23 28 30 20 14 12 15 11 2 4 8 9 3 5 13 1 6 17 7 10 18
02
46
810
Cluster Dendrogram
hclust (*, "ward")dist(Y, method = "maximum")
Hei
ght
17 33 31 1 32 28 7 20 30 6 23 11 5 13 14 3 12 15 8 9 2 4 25 21 22 16 24 26 19 27 29 10 18
0.5
1.0
1.5
2.0
Cluster Dendrogram
hclust (*, "single")dist(Y, method = "maximum")
Hei
ght
1 6 17 7 10 18 31 32 33 19 27 29 20 14 12 15 2 4 8 9 3 5 13 28 30 11 23 21 22 16 24 25 26
01
23
45
Cluster Dendrogram
hclust (*, "complete")dist(Y, method = "maximum")
Hei
ght
44
Arthur CHARPENTIER - Analyse des donnees
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
45
Arthur CHARPENTIER - Analyse des donnees
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.00.5
1.0
●
●●
●
●
●●
●
46
Arthur CHARPENTIER - Analyse des donnees
Methodes de partitionnement
Parmi les methodes de partitionnement, on retiendra la methode dite desk-means, des centres mobiles ou encore des nuees dynamiques.
1. on choisit (au hasard, eventuellement) k individus de reference, appelesnoyaux,
2. on rattache tous individus au noyau dont ils sont les plus proches,
3. on calcule les centres des classes (barycentres), qui deviendront les nouveauxnoyaux,
4. on repete jusqu’a convergence (qui arrive souvent assez vite)
47
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●
48
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
● ●
●● ●
●
49
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
50
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
51
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
52
Arthur CHARPENTIER - Analyse des donnees
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
53
Arthur CHARPENTIER - Analyse des donnees
Exemple pratique, departements et votes
Reprenons la base etudiees lors de l’analyse en composantes principales, donnantles pourcentages des differents candidats a l’election presidentielle, et essayons deregrouper les regions proches.
CO
RR
EZ
EV
EN
DE
EA
LPE
S−
MA
RIT
IME
SV
AR
MO
SE
LLE
BA
S−
RH
INH
AU
T−
RH
INH
AU
TE
−S
AV
OIE
MA
INE
−E
T−
LOIR
ELO
ZE
RE
MA
NC
HE
MA
YE
NN
EA
RIE
GE
AU
DE
NIE
VR
EH
AU
TE
−G
AR
ON
NE
GIR
ON
DE
TA
RN
CO
TE
S−
D−
AR
MO
RH
AU
TE
S−
PY
RE
NE
ES
LAN
DE
SC
HA
RE
NT
EG
ER
SP
AS
−D
E−
CA
LAIS
ALP
ES
−D
E−
HA
UT
E−
PR
OV
EN
CE
SO
MM
EN
OR
DS
EIN
E−
MA
RIT
IME
TE
RR
ITO
IRE
−D
E−
BE
LFO
RT
PY
RE
NE
ES
−O
RIE
NT
ALE
SA
ISN
EH
ER
AU
LTIS
ER
ED
RO
ME
AR
DE
NN
ES
ME
UR
TH
E−
ET
−M
OS
ELL
ELO
IRE
VA
UC
LUS
EB
OU
CH
ES
−D
U−
RH
ON
EG
AR
DO
ISE
SE
INE
−E
T−
MA
RN
EE
UR
EA
UB
EM
AR
NE
YO
NN
ELO
IRE
TS
AV
OIE
HA
UT
E−
MA
RN
EV
OS
GE
SE
UR
E−
ET
−LO
IRA
INM
EU
SE
RH
ON
EH
AU
TE
−LO
IRE
OR
NE
YV
ELI
NE
SH
AU
TS
−D
E−
SE
INE
AV
EY
RO
NIL
LE−
ET
−V
ILA
INE
FIN
IST
ER
EP
YR
EN
EE
S−
AT
LAN
TIQ
UE
SD
EU
X−
SE
VR
ES
LOIR
E−
AT
LAN
TIQ
UE
CH
AR
EN
TE
−M
AR
ITIM
EV
IEN
NE
JUR
AA
RD
EC
HE
LOIR
−E
T−
CH
ER
MO
RB
IHA
NH
AU
TE
S−
ALP
ES
CA
LVA
DO
SIN
DR
E−
ET
−LO
IRE
SA
RT
HE
TA
RN
−E
T−
GA
RO
NN
EH
AU
TE
−S
AO
NE
CO
TE
−D
−O
RD
OU
BS
SA
ON
E−
ET
−LO
IRE
IND
RE
LOT
−E
T−
GA
RO
NN
EP
UY
−D
E−
DO
ME
ES
SO
NN
ES
EIN
E−
SA
INT
−D
EN
ISA
LLIE
RC
HE
RC
AN
TA
LC
RE
US
EH
AU
TE
−V
IEN
NE
DO
RD
OG
NE
LOT PA
RIS
CO
RS
E−
DU
−S
UD
HA
UT
E−
CO
RS
E05
1020
30
Cluster Dendrogram
hclust (*, "average")dist(base)
Hei
ght
54
Arthur CHARPENTIER - Analyse des donnees
CORR
EZE
VEND
EEAL
PES−
MAR
ITIM
ES VAR
MOS
ELLE
BAS−
RHIN
HAUT
−RHI
NHA
UTE−
SAVO
IEM
AINE
−ET−
LOIR
ELO
ZERE
MAN
CHE
MAY
ENNE
ARIE
GEAU
DENI
EVRE
HAUT
E−GA
RONN
EGI
ROND
ETA
RNCO
TES−
D−AR
MOR
HAUT
ES−P
YREN
EES
LAND
ESCH
AREN
TEGE
RSPA
S−DE
−CAL
AIS
ALPE
S−DE
−HAU
TE−P
ROVE
NCE
SOM
ME
NORD
SEIN
E−M
ARIT
IME
TERR
ITOI
RE−D
E−BE
LFOR
TPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
ISER
EDR
OME
ARDE
NNES
MEU
RTHE
−ET−
MOS
ELLE
LOIR
EVA
UCLU
SEBO
UCHE
S−DU
−RHO
NEGA
RD OISE
SEIN
E−ET
−MAR
NEEU
REAU
BEM
ARNE
YONN
ELO
IRET
SAVO
IEHA
UTE−
MAR
NEVO
SGES
EURE
−ET−
LOIR AIN
MEU
SERH
ONE
HAUT
E−LO
IRE
ORNE
YVEL
INES
HAUT
S−DE
−SEI
NEAV
EYRO
NIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
DEUX
−SEV
RES
LOIR
E−AT
LANT
IQUE
CHAR
ENTE
−MAR
ITIM
EVI
ENNE
JURA
ARDE
CHE
LOIR
−ET−
CHER
MOR
BIHA
NHA
UTES
−ALP
ESCA
LVAD
OSIN
DRE−
ET−L
OIRE
SART
HETA
RN−E
T−GA
RONN
EHA
UTE−
SAON
ECO
TE−D
−OR
DOUB
SSA
ONE−
ET−L
OIRE
INDR
ELO
T−ET
−GAR
ONNE
PUY−
DE−D
OME
ESSO
NNE
SEIN
E−SA
INT−
DENI
SAL
LIER
CHER
CANT
ALCR
EUSE
HAUT
E−VI
ENNE
DORD
OGNE LO
T PARI
SCO
RSE−
DU−S
UDHA
UTE−
CORS
E05
1020
30
Cluster Dendrogram
hclust (*, "average")dist(base)
Heigh
t
BOUC
HES−
DU−R
HONE
GARD
SEIN
E−SA
INT−
DENI
SOI
SESE
INE−
ET−M
ARNE
PAS−
DE−C
ALAI
SAL
PES−
DE−H
AUTE
−PRO
VENC
ESO
MM
ENO
RDSE
INE−
MAR
ITIM
EPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
ARDE
NNES
MEU
RTHE
−ET−
MOS
ELLE
DROM
EIS
ERE
HAUT
E−SA
VOIE
HAUT
E−LO
IRE
ORNE
EURE
AUBE
MAR
NEYO
NNE
LOIR
ETSA
VOIE
HAUT
E−M
ARNE
VOSG
ESM
EUSE
RHON
EAI
NEU
RE−E
T−LO
IRBA
S−RH
INHA
UT−R
HIN
ALPE
S−M
ARIT
IMES VA
RM
OSEL
LELO
IRE
VAUC
LUSE
CORR
EZE
CANT
ALCR
EUSE
HAUT
E−VI
ENNE
DORD
OGNE LO
TAV
EYRO
NYV
ELIN
ESHA
UTS−
DE−S
EINE
PARI
SCO
RSE−
DU−S
UDHA
UTE−
CORS
EAR
IEGE
AUDE
NIEV
REHA
UTE−
GARO
NNE
GIRO
NDE
TARN
COTE
S−D−
ARM
ORHA
UTES
−PYR
ENEE
SLA
NDES
CHAR
ENTE
GERS
ALLI
ERCH
ERSA
ONE−
ET−L
OIRE
CHAR
ENTE
−MAR
ITIM
EVI
ENNE
INDR
ELO
T−ET
−GAR
ONNE
PUY−
DE−D
OME
ESSO
NNE
HAUT
E−SA
ONE
COTE
−D−O
RDO
UBS
TARN
−ET−
GARO
NNE
TERR
ITOI
RE−D
E−BE
LFOR
TJU
RAAR
DECH
ELO
IR−E
T−CH
ERM
ORBI
HAN
HAUT
ES−A
LPES
CALV
ADOS
INDR
E−ET
−LOI
RESA
RTHE VE
NDEE
MAI
NE−E
T−LO
IRE
LOZE
REM
ANCH
EM
AYEN
NEIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
LOIR
E−AT
LANT
IQUE
DEUX
−SEV
RES
050
100
150
Cluster Dendrogram
hclust (*, "ward")dist(base)
Heigh
t
55
Arthur CHARPENTIER - Analyse des donnees
CORR
EZE
VEND
EECA
NTAL
PARI
SCR
EUSE
HAUT
E−CO
RSE
HAUT
E−VI
ENNE
DORD
OGNE LO
TCO
RSE−
DU−S
UDSE
INE−
SAIN
T−DE
NIS
BAS−
RHIN
HAUT
−RHI
NHA
UTE−
SAVO
IEM
AINE
−ET−
LOIR
EDE
UX−S
EVRE
SM
OSEL
LELO
ZERE
MAN
CHE
MAY
ENNE
HAUT
E−GA
RONN
EAR
IEGE
ALPE
S−M
ARIT
IMES VA
RAU
DENI
EVRE
COTE
S−D−
ARM
ORHA
UTES
−PYR
ENEE
SAV
EYRO
NIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
YVEL
INES
HAUT
S−DE
−SEI
NESE
INE−
ET−M
ARNE
ALLI
ERLO
IRE−
ATLA
NTIQ
UEES
SONN
ETE
RRIT
OIRE
−DE−
BELF
ORT
TARN
−ET−
GARO
NNE
HAUT
E−SA
ONE
COTE
−D−O
RDO
UBS
PAS−
DE−C
ALAI
SLA
NDES
CHAR
ENTE
GERS
GIRO
NDE
TARN
MOR
BIHA
NCH
ERHA
UTES
−ALP
ESCA
LVAD
OSIN
DRE−
ET−L
OIRE
SART
HEPU
Y−DE
−DOM
ECH
AREN
TE−M
ARIT
IME
VIEN
NEBO
UCHE
S−DU
−RHO
NEGA
RDIS
ERE
DROM
EM
EURT
HE−E
T−M
OSEL
LEAR
DENN
ESPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
NORD
SEIN
E−M
ARIT
IME
SAON
E−ET
−LOI
REIN
DRE
LOT−
ET−G
ARON
NEAL
PES−
DE−H
AUTE
−PRO
VENC
ESO
MM
E OISE
HAUT
E−LO
IRE
ORNE
JURA
EURE
−ET−
LOIR
HAUT
E−M
ARNE
VOSG
ES AIN
MEU
SERH
ONE
SAVO
IEEU
REAU
BELO
IRET
MAR
NEYO
NNE
LOIR
EVA
UCLU
SEAR
DECH
ELO
IR−E
T−CH
ER02
46
810
14
Cluster Dendrogram
hclust (*, "single")dist(base)
Heigh
t
CORR
EZE
PARI
SCA
NTAL
CREU
SEYV
ELIN
ESHA
UTS−
DE−S
EINE
CORS
E−DU
−SUD
HAUT
E−CO
RSE
LOZE
REM
ANCH
EM
AYEN
NEAV
EYRO
NIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
MAI
NE−E
T−LO
IRE
LOIR
E−AT
LANT
IQUE
DEUX
−SEV
RES
PAS−
DE−C
ALAI
SAL
PES−
DE−H
AUTE
−PRO
VENC
ESO
MM
ENO
RDSE
INE−
MAR
ITIM
EPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
TERR
ITOI
RE−D
E−BE
LFOR
TAR
DENN
ESM
EURT
HE−E
T−M
OSEL
LEDR
OME
ISER
EBO
UCHE
S−DU
−RHO
NEGA
RDSE
INE−
SAIN
T−DE
NIS
OISE
SEIN
E−ET
−MAR
NEAL
LIER
CHER
JURA
ARDE
CHE
LOIR
−ET−
CHER
MOR
BIHA
NHA
UTES
−ALP
ESCA
LVAD
OSIN
DRE−
ET−L
OIRE
SART
HEIN
DRE
LOT−
ET−G
ARON
NEPU
Y−DE
−DOM
EES
SONN
ESA
ONE−
ET−L
OIRE
CHAR
ENTE
−MAR
ITIM
EVI
ENNE
HAUT
E−SA
ONE
COTE
−D−O
RDO
UBS
TARN
−ET−
GARO
NNE
GIRO
NDE
TARN
HAUT
E−VI
ENNE
DORD
OGNE LO
THA
UTE−
GARO
NNE
ARIE
GEAU
DENI
EVRE
COTE
S−D−
ARM
ORHA
UTES
−PYR
ENEE
SLA
NDES
CHAR
ENTE
GERS
VEND
EEEU
REAU
BEM
ARNE
YONN
ELO
IRET
SAVO
IEHA
UTE−
MAR
NEVO
SGES
MEU
SERH
ONE AIN
EURE
−ET−
LOIR
HAUT
E−SA
VOIE
HAUT
E−LO
IRE
ORNE
BAS−
RHIN
HAUT
−RHI
NAL
PES−
MAR
ITIM
ES VAR
MOS
ELLE
LOIR
EVA
UCLU
SE
010
2030
40
Cluster Dendrogram
hclust (*, "complete")dist(base)
Heigh
t
56
Arthur CHARPENTIER - Analyse des donnees
CORR
EZE
VEND
EECA
NTAL
CREU
SEPA
RIS
CORS
E−DU
−SUD
HAUT
E−CO
RSE
BAS−
RHIN
HAUT
−RHI
NAL
PES−
MAR
ITIM
ESM
OSEL
LE VAR
LOZE
REM
ANCH
EM
AYEN
NEM
AINE
−ET−
LOIR
EDE
UX−S
EVRE
SAV
EYRO
NIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
MOR
BIHA
NSA
ONE−
ET−L
OIRE
INDR
E−ET
−LOI
REHA
UTES
−ALP
ESCA
LVAD
OSSA
RTHE
LOIR
−ET−
CHER
ARDE
CHE
JURA
ESSO
NNE
INDR
ELO
T−ET
−GAR
ONNE
CHAR
ENTE
−MAR
ITIM
ELO
IRE−
ATLA
NTIQ
UEGI
ROND
ETA
RNPU
Y−DE
−DOM
EVI
ENNE
HAUT
E−SA
VOIE
HAUT
E−LO
IRE
ORNE
YVEL
INES
HAUT
S−DE
−SEI
NESE
INE−
SAIN
T−DE
NIS
SEIN
E−ET
−MAR
NETE
RRIT
OIRE
−DE−
BELF
ORT
TARN
−ET−
GARO
NNE
HAUT
E−SA
ONE
COTE
−D−O
RDO
UBS AIN
MEU
SERH
ONE
LOIR
ETEU
REAU
BEM
ARNE
YONN
EEU
RE−E
T−LO
IRSA
VOIE OISE
HAUT
E−M
ARNE
VOSG
ESLO
IRE
VAUC
LUSE
BOUC
HES−
DU−R
HONE
GARD
PAS−
DE−C
ALAI
SSO
MM
EAL
PES−
DE−H
AUTE
−PRO
VENC
ESE
INE−
MAR
ITIM
EIS
ERE
DROM
EAR
DENN
ESM
EURT
HE−E
T−M
OSEL
LENO
RDPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
ARIE
GEAU
DENI
EVRE
HAUT
E−GA
RONN
ECO
TES−
D−AR
MOR
HAUT
ES−P
YREN
EES
LAND
ESCH
AREN
TEGE
RSAL
LIER
CHER LO
TDO
RDOG
NEHA
UTE−
VIEN
NE
05
1015
2025
30
Cluster Dendrogram
hclust (*, "average")dist(base, "maximum")
Heigh
t
EURE
AUBE
MAR
NEYO
NNE
LOIR
ETEU
RE−E
T−LO
IRSA
VOIE
HAUT
E−SA
VOIE
AIN
MEU
SERH
ONE
BAS−
RHIN
HAUT
−RHI
NHA
UTE−
MAR
NEVO
SGES
OISE
SEIN
E−ET
−MAR
NEAL
PES−
MAR
ITIM
ESLO
IRE
VAUC
LUSE
MOS
ELLE VA
RES
SONN
EIN
DRE
LOT−
ET−G
ARON
NEPA
S−DE
−CAL
AIS
ALPE
S−DE
−HAU
TE−P
ROVE
NCE
SEIN
E−M
ARIT
IME
ALLI
ERCH
ERSO
MM
ESE
INE−
SAIN
T−DE
NIS
BOUC
HES−
DU−R
HONE
GARD
NORD
PYRE
NEES
−ORI
ENTA
LES
AISN
EHE
RAUL
TIS
ERE
DROM
EAR
DENN
ESM
EURT
HE−E
T−M
OSEL
LEHA
UTE−
SAON
ECO
TE−D
−OR
DOUB
STA
RN−E
T−GA
RONN
ETE
RRIT
OIRE
−DE−
BELF
ORT
CORR
EZE
LOT
DORD
OGNE
HAUT
E−VI
ENNE
CANT
ALCR
EUSE
PARI
SCO
RSE−
DU−S
UDHA
UTE−
CORS
EAR
IEGE
AUDE
NIEV
RECO
TES−
D−AR
MOR
HAUT
ES−P
YREN
EES
CHAR
ENTE
GERS
HAUT
E−GA
RONN
ELA
NDES VE
NDEE
HAUT
E−LO
IRE
ORNE
YVEL
INES
HAUT
S−DE
−SEI
NEM
AINE
−ET−
LOIR
ELO
ZERE
MAN
CHE
MAY
ENNE
ARDE
CHE
JURA
LOIR
−ET−
CHER
SAON
E−ET
−LOI
REHA
UTES
−ALP
ESCA
LVAD
OSSA
RTHE
INDR
E−ET
−LOI
REM
ORBI
HAN
AVEY
RON
ILLE
−ET−
VILA
INE
FINI
STER
EPY
RENE
ES−A
TLAN
TIQU
ESGI
ROND
ETA
RNPU
Y−DE
−DOM
EVI
ENNE
DEUX
−SEV
RES
CHAR
ENTE
−MAR
ITIM
ELO
IRE−
ATLA
NTIQ
UE
020
6010
014
0
Cluster Dendrogram
hclust (*, "ward")dist(base, "maximum")
Heigh
t
57
Arthur CHARPENTIER - Analyse des donnees
VEND
EECO
RREZ
ECA
NTAL
CREU
SEPA
RIS
HAUT
E−CO
RSE
SEIN
E−SA
INT−
DENI
SBA
S−RH
INHA
UT−R
HIN
CORS
E−DU
−SUD
LOZE
REM
ANCH
EM
AYEN
NEM
AINE
−ET−
LOIR
EAL
PES−
MAR
ITIM
ESHA
UTE−
GARO
NNE
HAUT
E−SA
VOIE
DEUX
−SEV
RES
ARIE
GESE
INE−
ET−M
ARNE
AVEY
RON
YVEL
INES
HAUT
S−DE
−SEI
NEM
OSEL
LE VAR
COTE
S−D−
ARM
ORHA
UTES
−PYR
ENEE
SAU
DENI
EVRE
ILLE
−ET−
VILA
INE
FINI
STER
EPY
RENE
ES−A
TLAN
TIQU
ESPA
S−DE
−CAL
AIS
GIRO
NDE
TARN AL
LIER
OISE
MOR
BIHA
NTE
RRIT
OIRE
−DE−
BELF
ORT
TARN
−ET−
GARO
NNE
BOUC
HES−
DU−R
HONE
GARD
HAUT
E−LO
IRE
ORNE
VAUC
LUSE
VIEN
NECH
AREN
TE−M
ARIT
IME
LOIR
E−AT
LANT
IQUE
SAON
E−ET
−LOI
REIN
DRE−
ET−L
OIRE
HAUT
ES−A
LPES
CALV
ADOS
SART
HEPU
Y−DE
−DOM
ELO
IR−E
T−CH
ERHA
UTE−
SAON
ECO
TE−D
−OR
DOUB
SLO
IRE
CHER
ESSO
NNE
INDR
ELO
T−ET
−GAR
ONNE
SOM
ME
ARDE
CHE
ALPE
S−DE
−HAU
TE−P
ROVE
NCE
SEIN
E−M
ARIT
IME
ISER
ENO
RDDR
OME
ARDE
NNES
MEU
RTHE
−ET−
MOS
ELLE
PYRE
NEES
−ORI
ENTA
LES
AISN
EHE
RAUL
THA
UTE−
MAR
NEVO
SGES JURA
AIN
MEU
SERH
ONE
EURE
LOIR
ETAU
BEM
ARNE
YONN
EEU
RE−E
T−LO
IRSA
VOIE
LAND
ESCH
AREN
TEGE
RSLO
TDO
RDOG
NEHA
UTE−
VIEN
NE
02
46
810
12
Cluster Dendrogram
hclust (*, "single")dist(base, "maximum")
Heigh
t
CORR
EZE
CANT
ALCR
EUSE PA
RIS
CORS
E−DU
−SUD
HAUT
E−CO
RSE
VEND
EEBA
S−RH
INHA
UT−R
HIN
ALPE
S−M
ARIT
IMES
MOS
ELLE VA
ROI
SELO
IRE
VAUC
LUSE
HAUT
E−SA
VOIE
HAUT
ES−A
LPES
CALV
ADOS
SART
HEIN
DRE−
ET−L
OIRE
MOR
BIHA
NAR
DECH
EJU
RALO
IR−E
T−CH
ERSA
ONE−
ET−L
OIRE
MAI
NE−E
T−LO
IRE
DEUX
−SEV
RES
CHAR
ENTE
−MAR
ITIM
ELO
IRE−
ATLA
NTIQ
UEHA
UTE−
LOIR
EOR
NEYV
ELIN
ESHA
UTS−
DE−S
EINE
LOZE
REM
ANCH
EM
AYEN
NEAV
EYRO
NIL
LE−E
T−VI
LAIN
EFI
NIST
ERE
PYRE
NEES
−ATL
ANTI
QUES
TERR
ITOI
RE−D
E−BE
LFOR
TIS
ERE
DROM
EAR
DENN
ESM
EURT
HE−E
T−M
OSEL
LEBO
UCHE
S−DU
−RHO
NEGA
RDNO
RDPY
RENE
ES−O
RIEN
TALE
SAI
SNE
HERA
ULT
AIN
MEU
SERH
ONE
LOIR
ETEU
RE−E
T−LO
IRSA
VOIE
EURE
AUBE
MAR
NEYO
NNE
TARN
−ET−
GARO
NNE
HAUT
E−SA
ONE
COTE
−D−O
RDO
UBS
SEIN
E−ET
−MAR
NEHA
UTE−
MAR
NEVO
SGES
ALLI
ERCH
ERPA
S−DE
−CAL
AIS
SOM
ME
ALPE
S−DE
−HAU
TE−P
ROVE
NCE
SEIN
E−M
ARIT
IME
SEIN
E−SA
INT−
DENI
SES
SONN
EIN
DRE
LOT−
ET−G
ARON
NE LOT
DORD
OGNE
HAUT
E−VI
ENNE
GIRO
NDE
TARN
PUY−
DE−D
OME
VIEN
NECH
AREN
TEGE
RSCO
TES−
D−AR
MOR
HAUT
ES−P
YREN
EES
HAUT
E−GA
RONN
ELA
NDES
ARIE
GEAU
DENI
EVRE
05
1020
30
Cluster Dendrogram
hclust (*, "complete")dist(base, "maximum")
Heigh
t
58
Arthur CHARPENTIER - Analyse des donnees
La classification avec R
R propose un grand nombre d’outils et methodes pour partitionner, enparticulier clara, qui marche tres bien sur les tres grosses bases de donnees, daisy
pour construire des matrices de dissimilarite (pour des variables qualitatives ouquantitatives), dist pour construire des matrices de dissimilarite (pour desvariables quantitatives seulement).
59
Arthur CHARPENTIER - Analyse des donnees
Travaux diriges
Le TD portera sur la base de donnees departement.xls (dont une codification estdonne dans le fichier code-departement.xls) telechargeables sur ma page internet.
60