60
Arthur CHARPENTIER - Analyse des donn´ ees Analyse des donn´ ees (4) La Classification (Ascendante) Hi´ eracrchique Arthur Charpentier http ://perso.univ-rennes1.fr/arthur.charpentier/ blog.univ-rennes1.fr/arthur.charpentier/ Master 2, Universit´ e Rennes 1 1

Cours add-r1-part4

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Analyse des donnees (4)

La Classification (Ascendante) Hieracrchique

Arthur Charpentier

http ://perso.univ-rennes1.fr/arthur.charpentier/

blog.univ-rennes1.fr/arthur.charpentier/

Master 2, Universite Rennes 1

1

Page 2: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

La classification, une introduction

Ici on cherche a regrouper des objects presentant des similitudes. De maniereintuitive, on voit que le choix de la distance ne sera pas neutre.

L’idee est de constituer des groupes homogenes. Il existe des methodes• non hierarchique ou dites de partitionnement• hierarchique ou on cherche a construire des suites de partitions emboıtees,

contenant n, puis n− 1, puis n− 2, · · · classes, en regroupant a chaque etapedeux parties.

Remarque rappelons que le nombre de partitions en k classes de n elements estde l’ordre de kn/k! et donc le nombre total de partitions d’un ensemble de n

element vaut1e

∑k≥1

kn

k!. Aussi, avec n = 10 individus, il y a un peu plus de

100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards.

=⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitionspossibles.

Pour des variables continues, on utilise une distance euclidienne pour mesurer la

2

Page 3: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

distance entre deux individus,

d2(i1, i2) =∑

j

(Yi1,j − Yi2,j)2 .

Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurerla distance entre deux individus, i.e. entre deux profils lignes

d2(i1, i2) =∑

j

(ni1,j

ni1,·− ni1,j

ni2,·

)2

.

3

Page 4: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Exemple introductif, sur donnees continues

Considerons l’exmple au decathlon, en athletisme> library(ade4)

> data(olympic)

> head(olympic$tab)

100 long poid haut 400 110 disq perc jave 1500

1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95

2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02

3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20

4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11

5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64

6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07

Afin de comparer “proprement” les variables, on commence• par centrer et reduire (afin de rendre comparable)• par transformer certaines variables car elles ne s’interprete pas de la meme

manier : un score eleve en haut signifie que la personne a saute haut en saut enhauteur (ce qui est bon), mais un score eleve en 100 signifie que la personne amis un temps long pour courrir le 100 metre (ce qui est mauvais)

4

Page 5: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

On pose alors Yi,j = ±Xi,j −Xj

sj, avec un signe − pour les sports de course.

> Y=scale(olympic$tab, center=TRUE,scale=TRUE)

> Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)]

> distY=dist(Y, center=TRUE,scale=TRUE)

> distY

1 2 3 4 5 6

2 4.363550

3 4.108952 1.887325

4 4.183513 2.168189 3.185110

5 5.193806 2.385945 2.190279 3.979429

6 4.280036 2.937114 3.666441 3.346085 2.968765

7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930

5

Page 6: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Fig. 1 – Constitution de classes : regrouper des individus (et des classes).

6

Page 7: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Fig. 2 – Constitution de classes : regrouper des individus (et des classes).

7

Page 8: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Fig. 3 – Constitution de classes : regrouper des individus (et des classes).

8

Page 9: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Fig. 4 – Constitution de classes : regrouper des individus (et des classes).

9

Page 10: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Retour sur le decathlon

20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27

05

1015

20

Cluster Dendrogram

hclust (*, "ward")

Fig. 5 – Constitution de classes sur les sportifs du decathlon.

10

Page 11: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Retour sur le decathlon

−0.2 0.0 0.2 0.4

−0.

20.

00.

20.

4

Comp.1

Com

p.2

1

1 1

2

1

1

2

1

1

22

1

1

113

4

2

3

2

33

3

3

3

33

4

3

4

4

4

3

−4 −2 0 2 4 6 8

−4

−2

02

46

8

100long

poid

haut

400

110

disq

perc

jave

1500

Fig. 6 – ACP avec les classes des sportifs du decathlon.

11

Page 12: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Retour sur le decathlon

−3 −2 −1 0 1 2 3 4

−2

02

4

Component 1

Com

pone

nt 2

These two components explain 57.84 % of the point variability.

●●

●●

1

2

3

4

Fig. 7 – ACP avec les classes des sportifs du decathlon.

12

Page 13: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper lesvariables.

> distY=dist(t(Y))

> distY

100 long poid haut 400 110 disq perc jave

long 5.428413

poid 7.119673 7.410709

haut 7.393370 6.820509 7.495809

400 5.022220 5.569466 8.369785 7.641971

110 4.810911 5.779988 6.713726 6.661003 5.390198

disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075

perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676

jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316

1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637

> hc <- hclust(distY, "ave")

> plot(hc)

> plot(hc, hang = -1)

13

Page 14: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

jave

poid

disq

haut

400

1500

perc

long

100

110

34

56

7

Cluster Dendrogram

hclust (*, "average")distY

Hei

ght

jave

poid

disq

haut

400

1500

perc

long 100

110

34

56

78

Cluster Dendrogram

hclust (*, "average")distY

Hei

ght

Fig. 8 – Regroupement des sports du decathlon

14

Page 15: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Notons que l’on peut aussi changer de distance, ou la methode de regroupement,par exemple,

> distY=dist(t(Y),method = "euclidean")

> hc <- hclust(distY, "average")

> plot(hc)

> distY=dist(t(Y),method = "canberra")

> hc <- hclust(distY, "single")

> plot(hc)

15

Page 16: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

jave

poid

disq

haut

400

1500

perc

long

100

110

34

56

7Cluster Dendrogram

hclust (*, "average")distY

Hei

ght

haut

jave

poid

disq

perc

long

1500

400

100

110

3.5

4.0

4.5

5.0

5.5

6.0

6.5

Cluster Dendrogram

hclust (*, "single")distY

Hei

ght

jave

poid

disq

400

1500

haut

perc

long

100

110

24

68

1012

14

Cluster Dendrogram

hclust (*, "ward")distY

Hei

ght

400

1500

jave

poid

disq

haut

perc

long

100

110

34

56

78

9

Cluster Dendrogram

hclust (*, "complete")distY

Hei

ght

jave

poid

disq

haut

400

1500

perc

long

100

110

34

56

7Cluster Dendrogram

hclust (*, "average")distY

Hei

ght

1500

400

long

disq

jave

poid

haut

100

110

perc

2530

3540

4550

5560

Cluster Dendrogram

hclust (*, "single")distY

Hei

ght

Fig. 9 – Regroupement(s) des sports du decathlon 16

Page 17: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Exemple introductif, sur donnees qualitatives

On peut utiliser cette methode pour etudier des regroupements de modalites, voirquelles modalitees sont proches : classification sur un tableau de contingence.

Pour cela, on utilise une distance du chi-deux pour mesurer la proximite entredes modalites. Par exemple sur le liens entre la CSP et la nationalite, on peutetudier des regroupements de lignes (i.e. de CSP),

> CSPnat=read.table("D:\\CSP-nat.txt",head=TRUE)

> mymat=CSPnat[,2:ncol(CSPnat)]

> mydf <- as.data.frame(mymat)

> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)

> distY=dist.dudi(mydf.coa, amongrow = TRUE)

> hc <- hclust(distY, "ward")

> hc$labels=as.character(CSPnat$CS)

> plot(hc)

ou de colonnes

> CSPnat=read.table("D:\\CSP-nat.txt",head=TRUE)

> mymat=CSPnat[,2:ncol(CSPnat)]

17

Page 18: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

> mydf <- as.data.frame(mymat)

> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)

> distY=dist.dudi(mydf.coa, amongrow = TRUE)

> hc <- hclust(distY, "ward")

> hc$labels=as.character(CSPnat$CS)

> plot(hc)

18

Page 19: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Com

mer

cant

sE

mpl

oyes

Com

mer

cIn

actD

ivA

ncE

mpl

oyeO

uvr

Art

isan

sC

ontr

emai

tres

Agr

icul

teur

sA

ncA

gric

ulte

urs

Che

fsE

ntre

pris

eP

rofL

ibér

ales

Cad

resP

ublic

Cad

resE

ntre

prE

mpl

oyes

Pub

licT

echn

icie

nsE

mpl

oyes

Ent

repr

Anc

Art

isan

sP

rofIn

tPub

licP

rofIn

tEnt

repr

Anc

Cad

reP

rofIn

tC

hom

eurs

Jam

Tra

vO

uvrie

rsA

gric

olP

erso

nnel

sSer

vO

uvrie

rsQ

ualif

Ouv

riers

Non

Qua

l

0.0

0.5

1.0

1.5

2.0

Cluster Dendrogram

hclust (*, "ward")distY

Hei

ght

Por

tuga

is

Aut

res

Alg

erie

n

Tun

isie

n

Mar

ocai

n

Tur

c

Esp

agno

l

Italie

n Aut

resU

E

Fra

ncai

sNai

ssan

ce

Fra

ncai

sacq

uis0.

00.

51.

01.

52.

0

Cluster Dendrogram

hclust (*, "ward")distY

Hei

ght

Fig. 10 – Regroupement(s) des sports du decathlon

19

Page 20: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Une autre piste, pour classer des individus, est d’utiliser des methodes declassification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et deconsiderer les coordonnees des individus sur les axes factoriels comme denouvelles variables.

> library(FactoMineR)

> afc=CA(mymat, ncp = 5)

> base=CA(mymat, ncp = 5)$row$coord

> hc <- hclust(dist(base), "ave")

> hc$labels=as.character(CSPnat$CS)

> plot(hc)

Ici on utilise une distance euclidienne (classique) sur les projections sur les axesprincipaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphiqueci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10.

20

Page 21: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Agr

icul

teur

sA

ncA

gric

ulte

urs

Pro

fIntP

ublic

Cad

resP

ublic

Cad

resE

ntre

prE

mpl

oyes

Pub

licC

hefs

Ent

repr

ise

Pro

fLib

éral

esP

rofIn

tEnt

repr

Tec

hnic

iens

Em

ploy

esE

ntre

prA

ncA

rtis

ans

Anc

Cad

reP

rofIn

tIn

actD

ivC

omm

erca

nts

Em

ploy

esC

omm

erc

Art

isan

sC

ontr

emai

tres

Anc

Em

ploy

eOuv

rO

uvrie

rsA

gric

olC

hom

eurs

Jam

Tra

vP

erso

nnel

sSer

vO

uvrie

rsQ

ualif

Ouv

riers

Non

Qua

l

0.0

0.1

0.2

0.3

0.4

0.5

Cluster Dendrogram

hclust (*, "average")dist(base)

Hei

ght

Cho

meu

rsJa

mT

rav

Ouv

riers

Agr

icol

Anc

Em

ploy

eOuv

rA

rtis

ans

Con

trem

aitr

esA

gric

ulte

urs

Anc

Agr

icul

teur

sC

hefs

Ent

repr

ise

Cad

resE

ntre

prP

rofL

ibér

ales

Cad

resP

ublic

Em

ploy

esP

ublic

Pro

fIntP

ublic

Pro

fIntE

ntre

prT

echn

icie

nsE

mpl

oyes

Ent

repr

Anc

Art

isan

sA

ncC

adre

Pro

fInt

Com

mer

cant

sE

mpl

oyes

Com

mer

cIn

actD

ivP

erso

nnel

sSer

vO

uvrie

rsQ

ualif

Ouv

riers

Non

Qua

l

0.0

0.2

0.4

0.6

Cluster Dendrogram

hclust (*, "average")dist(base)

Hei

ght

21

Page 22: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Agric

ulteu

rsAn

cAgr

iculte

urs

Prof

IntP

ublic

Cadr

esPu

blic

Cadr

esEn

trepr

Emplo

yesP

ublic

Chef

sEnt

repr

isePr

ofLib

érale

sPr

ofIn

tEnt

repr

Tech

nicien

sEm

ploye

sEnt

repr

AncA

rtisa

nsAn

cCad

rePr

ofIn

tIn

actD

ivCo

mm

erca

nts

Emplo

yesC

omm

erc Ar

tisan

sCo

ntre

mait

res

AncE

mplo

yeOu

vrOu

vrier

sAgr

icol

Chom

eurs

Jam

Trav

Pers

onne

lsSer

vOu

vrier

sQua

lifOu

vrier

sNon

Qual

0.0

0.1

0.2

0.3

0.4

0.5

Cluster Dendrogram

hclust (*, "average")dist(base)

Heigh

t

Chom

eurs

Jam

Trav

Ouvr

iersA

grico

lAn

cEm

ploye

Ouvr

Artis

ans

Cont

rem

aitre

sAg

ricult

eurs

AncA

gricu

lteur

sAn

cArti

sans

Cadr

esEn

trepr

Prof

Libér

ales

Cadr

esPu

blic

Emplo

yesP

ublic

Tech

nicien

sEm

ploye

sEnt

repr

Chef

sEnt

repr

isePr

ofIn

tEnt

repr

Prof

IntP

ublic

AncC

adre

Prof

Int

Inac

tDiv

Com

mer

cant

sEm

ploye

sCom

mer

cPe

rson

nelsS

erv

Ouvr

iersQ

ualif

Ouvr

iersN

onQu

al

0.0

0.2

0.4

0.6

Cluster Dendrogram

hclust (*, "average")dist(base)

Heigh

t

Chom

eurs

Jam

Trav

Ouvr

iersA

grico

lAn

cEm

ploye

Ouvr

Artis

ans

Cont

rem

aitre

sAg

ricult

eurs

AncA

gricu

lteur

sCh

efsE

ntre

prise

Cadr

esEn

trepr

Prof

Libér

ales

Cadr

esPu

blic

Emplo

yesP

ublic

Prof

IntP

ublic

Prof

IntE

ntre

prTe

chnic

iens

Emplo

yesE

ntre

prAn

cArti

sans

AncC

adre

Prof

Int

Com

mer

cant

sEm

ploye

sCom

mer

cIn

actD

ivPe

rson

nelsS

erv

Ouvr

iersQ

ualif

Ouvr

iersN

onQu

al

0.0

0.2

0.4

0.6

Cluster Dendrogram

hclust (*, "average")dist(base)

Heigh

t

Chom

eurs

Jam

Trav

Ouvr

iersA

grico

lAg

ricult

eurs

AncA

gricu

lteur

sCh

efsE

ntre

prise

Prof

Libér

ales

Cadr

esPu

blic

Cadr

esEn

trepr

AncA

rtisa

nsEm

ploye

sPub

licTe

chnic

iens

Emplo

yesE

ntre

prPr

ofIn

tPub

licPr

ofIn

tEnt

repr

AncC

adre

Prof

Int

Com

mer

cant

sEm

ploye

sCom

mer

cIn

actD

ivAn

cEm

ploye

Ouvr

Artis

ans

Cont

rem

aitre

sPe

rson

nelsS

erv

Ouvr

iersQ

ualif

Ouvr

iersN

onQu

al

0.0

0.2

0.4

0.6

Cluster Dendrogram

hclust (*, "average")dist(base)

Heigh

t

22

Page 23: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance euclidienne, d(a, b) =√

(a1 − b1)2 + (a2 − b2)2.

−2 −1 0 1 2

−2

−1

01

2

Distance euclidienne

12 ++ 12 == 2

1

1

−2 −1 0 1 2−

2−

10

12

Distance euclidienne

barycentre

●plus proches

voisins

plus lointainsvoisins

23

Page 24: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}.

−2 −1 0 1 2

−2

−1

01

2

Distance maximale

max{|1−0|,|1−0|}=1

1

1

−2 −1 0 1 2−

2−

10

12

Distance maximale

plus prochesvoisins

plus lointainsvoisins

24

Page 25: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance de Manhantan, d(a, b) = |a1 − b1|+ |a2 − b2|.

−2 −1 0 1 2

−2

−1

01

2

Distance de Manhattan

|1−0|+|1−0|=2

1

1

−2 −1 0 1 2−

2−

10

12

Distance de Manhattan

●plus proches

voisins

plus lointainsvoisins

25

Page 26: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance de Camberra, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .

−2 −1 0 1 2

−2

−1

01

2

Distance de Canberra

1 −− 0

1 ++ 0++

1 −− 0

1 ++ 0== 1

1

1

−2 −1 0 1 2−

2−

10

12

Distance de Canberra

●plus proches

voisins●

plus lointainsvoisins

26

Page 27: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .

−2 −1 0 1 2

−2

−1

01

2

Distance de Minkowski, d'ordre 3

((13 ++ 13))13 == 2

13

1

1

−2 −1 0 1 2−

2−

10

12

Distance de Minkowski, d'ordre 3

●plus proches

voisins

plus lointainsvoisins

27

Page 28: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

De l’importance du choix de la distance, dans R2

Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p)1p .

−2 −1 0 1 2

−2

−1

01

2

Distance de Minkowski, d'ordre 1/2

((112 ++ 1

12))2 == 4

1

1

−2 −1 0 1 2−

2−

10

12

Distance de Minkowski, d'ordre 1/2

plus prochesvoisins

plus lointainsvoisins

28

Page 29: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Distance entre points, distance entre groupes

Strategie barycentrique, d(A,B) est la distance entre les barycentre des deuxgroupes. On peut aussi ponderer la distance par les effectifs,

d(A,B) =ωAωBωA + ωB

d(xA, xB),

on parle alors de distance de Ward.

29

Page 30: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

● ●

−2 −1 0 1 2

−2

−1

01

2

30

Page 31: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Distance entre points, distance entre groupes

La distance entre deux groupes A et B est le maximum des distances entre unelement de A et un element de B,

d(A,B) = maxi∈A,j∈B

{δ(i, j)},

on parle alors de complete linkage.

31

Page 32: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

● ●

−2 −1 0 1 2

−2

−1

01

2

●●

●●

● ●

● ●

−2 −1 0 1 2

−2

−1

01

2

32

Page 33: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Distance entre points, distance entre groupes

La distance entre deux groupes A et B est le minimum des distances entre unelement de A et un element de B,

d(A,B) = mini∈A,j∈B

{δ(i, j)},

on parle alors de single linkage.

33

Page 34: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

● ●

−2 −1 0 1 2

−2

−1

01

2

●●

●●

● ●

● ●

−2 −1 0 1 2

−2

−1

01

2

34

Page 35: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

La distance entre deux groupes A et B est la moyenne des distances entre unelement de A et un element de B,

d(A,B) =∑

i ∈ A, j ∈ Bωi,j{δ(i, j)},

on parle alors de group average linkage.

35

Page 36: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Visualisation graphique

Le dendrogramme est un arbre binaire presentant les agregrations successives,jusqu’a reunion en une classe unique. La hauteur d’une branche estproportionnelle a la distance entre les objects regroupes. Pour la distance deWard, la distance est simplement la perte de variance inter-classes.

36

Page 37: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Decomposition de l’inertie

37

Page 38: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Arbre de classification

Deux familles de classification (ou segmentation) entre variables qualitativesexistent• les methodes hierarchiques ou agglomeratives• les methodes convergentesLa methodologie de la classification ascendante hierarchique est simple

1. on commence par un repartition en n classes, la plus fine qui soit, puis onaggrege iterativement : a chaque etape, les objets les plus ressemblants (auvue de la mesure de dssimilarite) sont rassemblees, jusqua obtenir une uniqueclasse. On parle parfois d’algorithme de Lance & Williams,

2. on coupe dans l’arbre de classification (on parle aussi parfois dedendrogramme.

Malheureusement, le critere d’aggrgation peut beaucoup influencer laclassification. Et il n’existe pas de methode permettant de connaıtre la meilleurmethode d’agregation. Parmi les methodes de liaisons les plus classiques,rappelons

38

Page 39: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

• la liaison simple : pour chaque couple de groupes, on calcule la distance entreles individus les plus proches, et on fusionne alors les groupes les plus proches.Cette methode cree souvent des gros groupes heterogenes,

• la liaison complete : pour chaque couple de groupes, on calcule la distanceentre les individus les plus eloignes,

• la liaison moyenne : pour chaque couple de groupes, on calcule la distancemoyenne entre les individus,

• la liaison centree : pour chaque couple de groupes, on calcule la distance entreles moyenne des groupes,

• la liaison de Ward : on clacule la variance de chaque groupe, puis celle dechaque groupe si on les fusionnait. On fusionne les groupes pour lesquels ladistance entre la variance du couple et la somme des variance est la plus petite.

Par exemple, sur la base des athletes du Decathlon, en utilisant 5 distances, et 4criteres de regroupes, on obtient les classes suivantes

39

Page 40: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32

12

34

56

Cluster Dendrogram

hclust (*, "average")dist(Y, method = "euclidean")

Hei

ght

20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27

05

1015

20

Cluster Dendrogram

hclust (*, "ward")dist(Y, method = "euclidean")

Hei

ght

17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Cluster Dendrogram

hclust (*, "single")dist(Y, method = "euclidean")

Hei

ght

17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23

12

34

56

78

Cluster Dendrogram

hclust (*, "complete")dist(Y, method = "euclidean")

Hei

ght

40

Page 41: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

17 33 19 27 26 29 21 22 23 24 25 32 30 28 31 18 20 1 6 7 10 5 13 4 11 8 9 16 12 15 14 2 3

24

68

1012

1416

Cluster Dendrogram

hclust (*, "average")dist(Y, method = "manhattan")

Hei

ght

6 5 13 7 10 8 9 16 4 11 1 12 15 14 2 3 19 27 26 29 33 21 22 23 24 25 28 31 30 32 17 18 20

010

2030

4050

60

Cluster Dendrogram

hclust (*, "ward")dist(Y, method = "manhattan")

Hei

ght

33 17 32 1 6 20 30 18 7 11 10 25 24 19 27 26 29 21 22 4 14 5 13 23 8 2 3 9 16 12 15 28 31

34

56

78

910

Cluster Dendrogram

hclust (*, "single")dist(Y, method = "manhattan")

Hei

ght

17 1 18 20 4 11 14 2 3 12 15 8 9 16 7 10 6 5 13 32 28 31 33 19 27 26 29 21 22 30 23 24 25

05

1015

20

Cluster Dendrogram

hclust (*, "complete")dist(Y, method = "manhattan")

Hei

ght

41

Page 42: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

20 7 11 14 16 8 9 17 18 23 28 31 4 10 2 3 15 1 12 22 24 21 32 33 19 6 5 13 25 27 26 29 30

010

2030

4050

60Cluster Dendrogram

hclust (*, "average")dist(Y, method = "canberra")

Hei

ght

4 10 2 3 15 1 12 14 8 9 20 7 11 28 31 17 18 16 23 19 6 5 13 21 32 33 27 26 29 30 25 22 24

010

020

030

040

0

Cluster Dendrogram

hclust (*, "ward")dist(Y, method = "canberra")

Hei

ght

25 26 14 20 27 21 7 6 5 13 11 16 8 9 15 1 4 10 12 2 3 17 18 23 19 33 32 29 30 28 31 22 24

24

68

10

Cluster Dendrogram

hclust (*, "single")dist(Y, method = "canberra")

Hei

ght

8 9 20 7 11 16 23 14 19 28 31 17 18 2 3 15 1 12 25 4 10 22 24 21 32 33 6 5 13 27 26 29 30

020

040

060

080

010

00

Cluster Dendrogram

hclust (*, "complete")dist(Y, method = "canberra")

Hei

ght

42

Page 43: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32

12

34

56

Cluster Dendrogram

hclust (*, "average")dist(Y, method = "minkowski")

Hei

ght

20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27

05

1015

20

Cluster Dendrogram

hclust (*, "ward")dist(Y, method = "minkowski")

Hei

ght

17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Cluster Dendrogram

hclust (*, "single")dist(Y, method = "minkowski")

Hei

ght

17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23

12

34

56

78

Cluster Dendrogram

hclust (*, "complete")dist(Y, method = "minkowski")

Hei

ght

43

Page 44: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

7 10 18 21 22 23 8 9 14 12 15 26 25 16 24 6 3 5 13 20 11 2 4 33 19 27 29 28 30 31 32 1 17

0.5

1.0

1.5

2.0

2.5

3.0

Cluster Dendrogram

hclust (*, "average")dist(Y, method = "maximum")

Hei

ght

21 22 25 16 24 33 27 29 19 26 31 32 23 28 30 20 14 12 15 11 2 4 8 9 3 5 13 1 6 17 7 10 18

02

46

810

Cluster Dendrogram

hclust (*, "ward")dist(Y, method = "maximum")

Hei

ght

17 33 31 1 32 28 7 20 30 6 23 11 5 13 14 3 12 15 8 9 2 4 25 21 22 16 24 26 19 27 29 10 18

0.5

1.0

1.5

2.0

Cluster Dendrogram

hclust (*, "single")dist(Y, method = "maximum")

Hei

ght

1 6 17 7 10 18 31 32 33 19 27 29 20 14 12 15 2 4 8 9 3 5 13 28 30 11 23 21 22 16 24 25 26

01

23

45

Cluster Dendrogram

hclust (*, "complete")dist(Y, method = "maximum")

Hei

ght

44

Page 45: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

45

Page 46: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.00.5

1.0

●●

●●

46

Page 47: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Methodes de partitionnement

Parmi les methodes de partitionnement, on retiendra la methode dite desk-means, des centres mobiles ou encore des nuees dynamiques.

1. on choisit (au hasard, eventuellement) k individus de reference, appelesnoyaux,

2. on rattache tous individus au noyau dont ils sont les plus proches,

3. on calcule les centres des classes (barycentres), qui deviendront les nouveauxnoyaux,

4. on repete jusqu’a convergence (qui arrive souvent assez vite)

47

Page 48: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

48

Page 49: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

●●

●●

●●

●●●

●●

●● ●

●●

●●● ●

●●

●●

●●

●●

●●

● ●

●● ●

49

Page 50: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

●●

●●

● ●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

50

Page 51: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

●●

● ●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

51

Page 52: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

●●

● ●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

52

Page 53: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

●●

●●

● ●

●●

●●

● ●

●●●

●●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

●●

● ●

●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●

●●

●●

●●

53

Page 54: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Exemple pratique, departements et votes

Reprenons la base etudiees lors de l’analyse en composantes principales, donnantles pourcentages des differents candidats a l’election presidentielle, et essayons deregrouper les regions proches.

CO

RR

EZ

EV

EN

DE

EA

LPE

S−

MA

RIT

IME

SV

AR

MO

SE

LLE

BA

S−

RH

INH

AU

T−

RH

INH

AU

TE

−S

AV

OIE

MA

INE

−E

T−

LOIR

ELO

ZE

RE

MA

NC

HE

MA

YE

NN

EA

RIE

GE

AU

DE

NIE

VR

EH

AU

TE

−G

AR

ON

NE

GIR

ON

DE

TA

RN

CO

TE

S−

D−

AR

MO

RH

AU

TE

S−

PY

RE

NE

ES

LAN

DE

SC

HA

RE

NT

EG

ER

SP

AS

−D

E−

CA

LAIS

ALP

ES

−D

E−

HA

UT

E−

PR

OV

EN

CE

SO

MM

EN

OR

DS

EIN

E−

MA

RIT

IME

TE

RR

ITO

IRE

−D

E−

BE

LFO

RT

PY

RE

NE

ES

−O

RIE

NT

ALE

SA

ISN

EH

ER

AU

LTIS

ER

ED

RO

ME

AR

DE

NN

ES

ME

UR

TH

E−

ET

−M

OS

ELL

ELO

IRE

VA

UC

LUS

EB

OU

CH

ES

−D

U−

RH

ON

EG

AR

DO

ISE

SE

INE

−E

T−

MA

RN

EE

UR

EA

UB

EM

AR

NE

YO

NN

ELO

IRE

TS

AV

OIE

HA

UT

E−

MA

RN

EV

OS

GE

SE

UR

E−

ET

−LO

IRA

INM

EU

SE

RH

ON

EH

AU

TE

−LO

IRE

OR

NE

YV

ELI

NE

SH

AU

TS

−D

E−

SE

INE

AV

EY

RO

NIL

LE−

ET

−V

ILA

INE

FIN

IST

ER

EP

YR

EN

EE

S−

AT

LAN

TIQ

UE

SD

EU

X−

SE

VR

ES

LOIR

E−

AT

LAN

TIQ

UE

CH

AR

EN

TE

−M

AR

ITIM

EV

IEN

NE

JUR

AA

RD

EC

HE

LOIR

−E

T−

CH

ER

MO

RB

IHA

NH

AU

TE

S−

ALP

ES

CA

LVA

DO

SIN

DR

E−

ET

−LO

IRE

SA

RT

HE

TA

RN

−E

T−

GA

RO

NN

EH

AU

TE

−S

AO

NE

CO

TE

−D

−O

RD

OU

BS

SA

ON

E−

ET

−LO

IRE

IND

RE

LOT

−E

T−

GA

RO

NN

EP

UY

−D

E−

DO

ME

ES

SO

NN

ES

EIN

E−

SA

INT

−D

EN

ISA

LLIE

RC

HE

RC

AN

TA

LC

RE

US

EH

AU

TE

−V

IEN

NE

DO

RD

OG

NE

LOT PA

RIS

CO

RS

E−

DU

−S

UD

HA

UT

E−

CO

RS

E05

1020

30

Cluster Dendrogram

hclust (*, "average")dist(base)

Hei

ght

54

Page 55: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

CORR

EZE

VEND

EEAL

PES−

MAR

ITIM

ES VAR

MOS

ELLE

BAS−

RHIN

HAUT

−RHI

NHA

UTE−

SAVO

IEM

AINE

−ET−

LOIR

ELO

ZERE

MAN

CHE

MAY

ENNE

ARIE

GEAU

DENI

EVRE

HAUT

E−GA

RONN

EGI

ROND

ETA

RNCO

TES−

D−AR

MOR

HAUT

ES−P

YREN

EES

LAND

ESCH

AREN

TEGE

RSPA

S−DE

−CAL

AIS

ALPE

S−DE

−HAU

TE−P

ROVE

NCE

SOM

ME

NORD

SEIN

E−M

ARIT

IME

TERR

ITOI

RE−D

E−BE

LFOR

TPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

ISER

EDR

OME

ARDE

NNES

MEU

RTHE

−ET−

MOS

ELLE

LOIR

EVA

UCLU

SEBO

UCHE

S−DU

−RHO

NEGA

RD OISE

SEIN

E−ET

−MAR

NEEU

REAU

BEM

ARNE

YONN

ELO

IRET

SAVO

IEHA

UTE−

MAR

NEVO

SGES

EURE

−ET−

LOIR AIN

MEU

SERH

ONE

HAUT

E−LO

IRE

ORNE

YVEL

INES

HAUT

S−DE

−SEI

NEAV

EYRO

NIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

DEUX

−SEV

RES

LOIR

E−AT

LANT

IQUE

CHAR

ENTE

−MAR

ITIM

EVI

ENNE

JURA

ARDE

CHE

LOIR

−ET−

CHER

MOR

BIHA

NHA

UTES

−ALP

ESCA

LVAD

OSIN

DRE−

ET−L

OIRE

SART

HETA

RN−E

T−GA

RONN

EHA

UTE−

SAON

ECO

TE−D

−OR

DOUB

SSA

ONE−

ET−L

OIRE

INDR

ELO

T−ET

−GAR

ONNE

PUY−

DE−D

OME

ESSO

NNE

SEIN

E−SA

INT−

DENI

SAL

LIER

CHER

CANT

ALCR

EUSE

HAUT

E−VI

ENNE

DORD

OGNE LO

T PARI

SCO

RSE−

DU−S

UDHA

UTE−

CORS

E05

1020

30

Cluster Dendrogram

hclust (*, "average")dist(base)

Heigh

t

BOUC

HES−

DU−R

HONE

GARD

SEIN

E−SA

INT−

DENI

SOI

SESE

INE−

ET−M

ARNE

PAS−

DE−C

ALAI

SAL

PES−

DE−H

AUTE

−PRO

VENC

ESO

MM

ENO

RDSE

INE−

MAR

ITIM

EPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

ARDE

NNES

MEU

RTHE

−ET−

MOS

ELLE

DROM

EIS

ERE

HAUT

E−SA

VOIE

HAUT

E−LO

IRE

ORNE

EURE

AUBE

MAR

NEYO

NNE

LOIR

ETSA

VOIE

HAUT

E−M

ARNE

VOSG

ESM

EUSE

RHON

EAI

NEU

RE−E

T−LO

IRBA

S−RH

INHA

UT−R

HIN

ALPE

S−M

ARIT

IMES VA

RM

OSEL

LELO

IRE

VAUC

LUSE

CORR

EZE

CANT

ALCR

EUSE

HAUT

E−VI

ENNE

DORD

OGNE LO

TAV

EYRO

NYV

ELIN

ESHA

UTS−

DE−S

EINE

PARI

SCO

RSE−

DU−S

UDHA

UTE−

CORS

EAR

IEGE

AUDE

NIEV

REHA

UTE−

GARO

NNE

GIRO

NDE

TARN

COTE

S−D−

ARM

ORHA

UTES

−PYR

ENEE

SLA

NDES

CHAR

ENTE

GERS

ALLI

ERCH

ERSA

ONE−

ET−L

OIRE

CHAR

ENTE

−MAR

ITIM

EVI

ENNE

INDR

ELO

T−ET

−GAR

ONNE

PUY−

DE−D

OME

ESSO

NNE

HAUT

E−SA

ONE

COTE

−D−O

RDO

UBS

TARN

−ET−

GARO

NNE

TERR

ITOI

RE−D

E−BE

LFOR

TJU

RAAR

DECH

ELO

IR−E

T−CH

ERM

ORBI

HAN

HAUT

ES−A

LPES

CALV

ADOS

INDR

E−ET

−LOI

RESA

RTHE VE

NDEE

MAI

NE−E

T−LO

IRE

LOZE

REM

ANCH

EM

AYEN

NEIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

LOIR

E−AT

LANT

IQUE

DEUX

−SEV

RES

050

100

150

Cluster Dendrogram

hclust (*, "ward")dist(base)

Heigh

t

55

Page 56: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

CORR

EZE

VEND

EECA

NTAL

PARI

SCR

EUSE

HAUT

E−CO

RSE

HAUT

E−VI

ENNE

DORD

OGNE LO

TCO

RSE−

DU−S

UDSE

INE−

SAIN

T−DE

NIS

BAS−

RHIN

HAUT

−RHI

NHA

UTE−

SAVO

IEM

AINE

−ET−

LOIR

EDE

UX−S

EVRE

SM

OSEL

LELO

ZERE

MAN

CHE

MAY

ENNE

HAUT

E−GA

RONN

EAR

IEGE

ALPE

S−M

ARIT

IMES VA

RAU

DENI

EVRE

COTE

S−D−

ARM

ORHA

UTES

−PYR

ENEE

SAV

EYRO

NIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

YVEL

INES

HAUT

S−DE

−SEI

NESE

INE−

ET−M

ARNE

ALLI

ERLO

IRE−

ATLA

NTIQ

UEES

SONN

ETE

RRIT

OIRE

−DE−

BELF

ORT

TARN

−ET−

GARO

NNE

HAUT

E−SA

ONE

COTE

−D−O

RDO

UBS

PAS−

DE−C

ALAI

SLA

NDES

CHAR

ENTE

GERS

GIRO

NDE

TARN

MOR

BIHA

NCH

ERHA

UTES

−ALP

ESCA

LVAD

OSIN

DRE−

ET−L

OIRE

SART

HEPU

Y−DE

−DOM

ECH

AREN

TE−M

ARIT

IME

VIEN

NEBO

UCHE

S−DU

−RHO

NEGA

RDIS

ERE

DROM

EM

EURT

HE−E

T−M

OSEL

LEAR

DENN

ESPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

NORD

SEIN

E−M

ARIT

IME

SAON

E−ET

−LOI

REIN

DRE

LOT−

ET−G

ARON

NEAL

PES−

DE−H

AUTE

−PRO

VENC

ESO

MM

E OISE

HAUT

E−LO

IRE

ORNE

JURA

EURE

−ET−

LOIR

HAUT

E−M

ARNE

VOSG

ES AIN

MEU

SERH

ONE

SAVO

IEEU

REAU

BELO

IRET

MAR

NEYO

NNE

LOIR

EVA

UCLU

SEAR

DECH

ELO

IR−E

T−CH

ER02

46

810

14

Cluster Dendrogram

hclust (*, "single")dist(base)

Heigh

t

CORR

EZE

PARI

SCA

NTAL

CREU

SEYV

ELIN

ESHA

UTS−

DE−S

EINE

CORS

E−DU

−SUD

HAUT

E−CO

RSE

LOZE

REM

ANCH

EM

AYEN

NEAV

EYRO

NIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

MAI

NE−E

T−LO

IRE

LOIR

E−AT

LANT

IQUE

DEUX

−SEV

RES

PAS−

DE−C

ALAI

SAL

PES−

DE−H

AUTE

−PRO

VENC

ESO

MM

ENO

RDSE

INE−

MAR

ITIM

EPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

TERR

ITOI

RE−D

E−BE

LFOR

TAR

DENN

ESM

EURT

HE−E

T−M

OSEL

LEDR

OME

ISER

EBO

UCHE

S−DU

−RHO

NEGA

RDSE

INE−

SAIN

T−DE

NIS

OISE

SEIN

E−ET

−MAR

NEAL

LIER

CHER

JURA

ARDE

CHE

LOIR

−ET−

CHER

MOR

BIHA

NHA

UTES

−ALP

ESCA

LVAD

OSIN

DRE−

ET−L

OIRE

SART

HEIN

DRE

LOT−

ET−G

ARON

NEPU

Y−DE

−DOM

EES

SONN

ESA

ONE−

ET−L

OIRE

CHAR

ENTE

−MAR

ITIM

EVI

ENNE

HAUT

E−SA

ONE

COTE

−D−O

RDO

UBS

TARN

−ET−

GARO

NNE

GIRO

NDE

TARN

HAUT

E−VI

ENNE

DORD

OGNE LO

THA

UTE−

GARO

NNE

ARIE

GEAU

DENI

EVRE

COTE

S−D−

ARM

ORHA

UTES

−PYR

ENEE

SLA

NDES

CHAR

ENTE

GERS

VEND

EEEU

REAU

BEM

ARNE

YONN

ELO

IRET

SAVO

IEHA

UTE−

MAR

NEVO

SGES

MEU

SERH

ONE AIN

EURE

−ET−

LOIR

HAUT

E−SA

VOIE

HAUT

E−LO

IRE

ORNE

BAS−

RHIN

HAUT

−RHI

NAL

PES−

MAR

ITIM

ES VAR

MOS

ELLE

LOIR

EVA

UCLU

SE

010

2030

40

Cluster Dendrogram

hclust (*, "complete")dist(base)

Heigh

t

56

Page 57: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

CORR

EZE

VEND

EECA

NTAL

CREU

SEPA

RIS

CORS

E−DU

−SUD

HAUT

E−CO

RSE

BAS−

RHIN

HAUT

−RHI

NAL

PES−

MAR

ITIM

ESM

OSEL

LE VAR

LOZE

REM

ANCH

EM

AYEN

NEM

AINE

−ET−

LOIR

EDE

UX−S

EVRE

SAV

EYRO

NIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

MOR

BIHA

NSA

ONE−

ET−L

OIRE

INDR

E−ET

−LOI

REHA

UTES

−ALP

ESCA

LVAD

OSSA

RTHE

LOIR

−ET−

CHER

ARDE

CHE

JURA

ESSO

NNE

INDR

ELO

T−ET

−GAR

ONNE

CHAR

ENTE

−MAR

ITIM

ELO

IRE−

ATLA

NTIQ

UEGI

ROND

ETA

RNPU

Y−DE

−DOM

EVI

ENNE

HAUT

E−SA

VOIE

HAUT

E−LO

IRE

ORNE

YVEL

INES

HAUT

S−DE

−SEI

NESE

INE−

SAIN

T−DE

NIS

SEIN

E−ET

−MAR

NETE

RRIT

OIRE

−DE−

BELF

ORT

TARN

−ET−

GARO

NNE

HAUT

E−SA

ONE

COTE

−D−O

RDO

UBS AIN

MEU

SERH

ONE

LOIR

ETEU

REAU

BEM

ARNE

YONN

EEU

RE−E

T−LO

IRSA

VOIE OISE

HAUT

E−M

ARNE

VOSG

ESLO

IRE

VAUC

LUSE

BOUC

HES−

DU−R

HONE

GARD

PAS−

DE−C

ALAI

SSO

MM

EAL

PES−

DE−H

AUTE

−PRO

VENC

ESE

INE−

MAR

ITIM

EIS

ERE

DROM

EAR

DENN

ESM

EURT

HE−E

T−M

OSEL

LENO

RDPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

ARIE

GEAU

DENI

EVRE

HAUT

E−GA

RONN

ECO

TES−

D−AR

MOR

HAUT

ES−P

YREN

EES

LAND

ESCH

AREN

TEGE

RSAL

LIER

CHER LO

TDO

RDOG

NEHA

UTE−

VIEN

NE

05

1015

2025

30

Cluster Dendrogram

hclust (*, "average")dist(base, "maximum")

Heigh

t

EURE

AUBE

MAR

NEYO

NNE

LOIR

ETEU

RE−E

T−LO

IRSA

VOIE

HAUT

E−SA

VOIE

AIN

MEU

SERH

ONE

BAS−

RHIN

HAUT

−RHI

NHA

UTE−

MAR

NEVO

SGES

OISE

SEIN

E−ET

−MAR

NEAL

PES−

MAR

ITIM

ESLO

IRE

VAUC

LUSE

MOS

ELLE VA

RES

SONN

EIN

DRE

LOT−

ET−G

ARON

NEPA

S−DE

−CAL

AIS

ALPE

S−DE

−HAU

TE−P

ROVE

NCE

SEIN

E−M

ARIT

IME

ALLI

ERCH

ERSO

MM

ESE

INE−

SAIN

T−DE

NIS

BOUC

HES−

DU−R

HONE

GARD

NORD

PYRE

NEES

−ORI

ENTA

LES

AISN

EHE

RAUL

TIS

ERE

DROM

EAR

DENN

ESM

EURT

HE−E

T−M

OSEL

LEHA

UTE−

SAON

ECO

TE−D

−OR

DOUB

STA

RN−E

T−GA

RONN

ETE

RRIT

OIRE

−DE−

BELF

ORT

CORR

EZE

LOT

DORD

OGNE

HAUT

E−VI

ENNE

CANT

ALCR

EUSE

PARI

SCO

RSE−

DU−S

UDHA

UTE−

CORS

EAR

IEGE

AUDE

NIEV

RECO

TES−

D−AR

MOR

HAUT

ES−P

YREN

EES

CHAR

ENTE

GERS

HAUT

E−GA

RONN

ELA

NDES VE

NDEE

HAUT

E−LO

IRE

ORNE

YVEL

INES

HAUT

S−DE

−SEI

NEM

AINE

−ET−

LOIR

ELO

ZERE

MAN

CHE

MAY

ENNE

ARDE

CHE

JURA

LOIR

−ET−

CHER

SAON

E−ET

−LOI

REHA

UTES

−ALP

ESCA

LVAD

OSSA

RTHE

INDR

E−ET

−LOI

REM

ORBI

HAN

AVEY

RON

ILLE

−ET−

VILA

INE

FINI

STER

EPY

RENE

ES−A

TLAN

TIQU

ESGI

ROND

ETA

RNPU

Y−DE

−DOM

EVI

ENNE

DEUX

−SEV

RES

CHAR

ENTE

−MAR

ITIM

ELO

IRE−

ATLA

NTIQ

UE

020

6010

014

0

Cluster Dendrogram

hclust (*, "ward")dist(base, "maximum")

Heigh

t

57

Page 58: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

VEND

EECO

RREZ

ECA

NTAL

CREU

SEPA

RIS

HAUT

E−CO

RSE

SEIN

E−SA

INT−

DENI

SBA

S−RH

INHA

UT−R

HIN

CORS

E−DU

−SUD

LOZE

REM

ANCH

EM

AYEN

NEM

AINE

−ET−

LOIR

EAL

PES−

MAR

ITIM

ESHA

UTE−

GARO

NNE

HAUT

E−SA

VOIE

DEUX

−SEV

RES

ARIE

GESE

INE−

ET−M

ARNE

AVEY

RON

YVEL

INES

HAUT

S−DE

−SEI

NEM

OSEL

LE VAR

COTE

S−D−

ARM

ORHA

UTES

−PYR

ENEE

SAU

DENI

EVRE

ILLE

−ET−

VILA

INE

FINI

STER

EPY

RENE

ES−A

TLAN

TIQU

ESPA

S−DE

−CAL

AIS

GIRO

NDE

TARN AL

LIER

OISE

MOR

BIHA

NTE

RRIT

OIRE

−DE−

BELF

ORT

TARN

−ET−

GARO

NNE

BOUC

HES−

DU−R

HONE

GARD

HAUT

E−LO

IRE

ORNE

VAUC

LUSE

VIEN

NECH

AREN

TE−M

ARIT

IME

LOIR

E−AT

LANT

IQUE

SAON

E−ET

−LOI

REIN

DRE−

ET−L

OIRE

HAUT

ES−A

LPES

CALV

ADOS

SART

HEPU

Y−DE

−DOM

ELO

IR−E

T−CH

ERHA

UTE−

SAON

ECO

TE−D

−OR

DOUB

SLO

IRE

CHER

ESSO

NNE

INDR

ELO

T−ET

−GAR

ONNE

SOM

ME

ARDE

CHE

ALPE

S−DE

−HAU

TE−P

ROVE

NCE

SEIN

E−M

ARIT

IME

ISER

ENO

RDDR

OME

ARDE

NNES

MEU

RTHE

−ET−

MOS

ELLE

PYRE

NEES

−ORI

ENTA

LES

AISN

EHE

RAUL

THA

UTE−

MAR

NEVO

SGES JURA

AIN

MEU

SERH

ONE

EURE

LOIR

ETAU

BEM

ARNE

YONN

EEU

RE−E

T−LO

IRSA

VOIE

LAND

ESCH

AREN

TEGE

RSLO

TDO

RDOG

NEHA

UTE−

VIEN

NE

02

46

810

12

Cluster Dendrogram

hclust (*, "single")dist(base, "maximum")

Heigh

t

CORR

EZE

CANT

ALCR

EUSE PA

RIS

CORS

E−DU

−SUD

HAUT

E−CO

RSE

VEND

EEBA

S−RH

INHA

UT−R

HIN

ALPE

S−M

ARIT

IMES

MOS

ELLE VA

ROI

SELO

IRE

VAUC

LUSE

HAUT

E−SA

VOIE

HAUT

ES−A

LPES

CALV

ADOS

SART

HEIN

DRE−

ET−L

OIRE

MOR

BIHA

NAR

DECH

EJU

RALO

IR−E

T−CH

ERSA

ONE−

ET−L

OIRE

MAI

NE−E

T−LO

IRE

DEUX

−SEV

RES

CHAR

ENTE

−MAR

ITIM

ELO

IRE−

ATLA

NTIQ

UEHA

UTE−

LOIR

EOR

NEYV

ELIN

ESHA

UTS−

DE−S

EINE

LOZE

REM

ANCH

EM

AYEN

NEAV

EYRO

NIL

LE−E

T−VI

LAIN

EFI

NIST

ERE

PYRE

NEES

−ATL

ANTI

QUES

TERR

ITOI

RE−D

E−BE

LFOR

TIS

ERE

DROM

EAR

DENN

ESM

EURT

HE−E

T−M

OSEL

LEBO

UCHE

S−DU

−RHO

NEGA

RDNO

RDPY

RENE

ES−O

RIEN

TALE

SAI

SNE

HERA

ULT

AIN

MEU

SERH

ONE

LOIR

ETEU

RE−E

T−LO

IRSA

VOIE

EURE

AUBE

MAR

NEYO

NNE

TARN

−ET−

GARO

NNE

HAUT

E−SA

ONE

COTE

−D−O

RDO

UBS

SEIN

E−ET

−MAR

NEHA

UTE−

MAR

NEVO

SGES

ALLI

ERCH

ERPA

S−DE

−CAL

AIS

SOM

ME

ALPE

S−DE

−HAU

TE−P

ROVE

NCE

SEIN

E−M

ARIT

IME

SEIN

E−SA

INT−

DENI

SES

SONN

EIN

DRE

LOT−

ET−G

ARON

NE LOT

DORD

OGNE

HAUT

E−VI

ENNE

GIRO

NDE

TARN

PUY−

DE−D

OME

VIEN

NECH

AREN

TEGE

RSCO

TES−

D−AR

MOR

HAUT

ES−P

YREN

EES

HAUT

E−GA

RONN

ELA

NDES

ARIE

GEAU

DENI

EVRE

05

1020

30

Cluster Dendrogram

hclust (*, "complete")dist(base, "maximum")

Heigh

t

58

Page 59: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

La classification avec R

R propose un grand nombre d’outils et methodes pour partitionner, enparticulier clara, qui marche tres bien sur les tres grosses bases de donnees, daisy

pour construire des matrices de dissimilarite (pour des variables qualitatives ouquantitatives), dist pour construire des matrices de dissimilarite (pour desvariables quantitatives seulement).

59

Page 60: Cours add-r1-part4

Arthur CHARPENTIER - Analyse des donnees

Travaux diriges

Le TD portera sur la base de donnees departement.xls (dont une codification estdonne dans le fichier code-departement.xls) telechargeables sur ma page internet.

60