43
Introduction Principes de la CAH Exemple K-means Compléments Description des classes Classification ascendante hiérarchique (CAH) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes [email protected] 1 / 40

Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

François Husson

Laboratoire de mathématiques appliquées - Agrocampus Rennes

[email protected]

1 / 40

Page 2: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction2 Principes de la Classification Ascendante Hiérarchique3 Exemple4 Les K-means : un algorithme de partitionnement5 Compléments

• Consolidation de partition• Classification sur des données de grandes dimensions• Variables qualitatives et classification• Enchaînement analyse factorielle - classification

6 Caractérisation de classes d’individus

1 / 40

Page 3: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

2 / 40

Page 4: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Introduction

• Définitions :• Classification : action de constituer ou construire des classes• Classe : ensemble d’individus (ou d’objets) possédant des traits

de caractères communs (groupe, catégorie)• Exemples

• de classification : règne animal, disque dur d’un ordinateur,division géographique de la France, etc.

• de classe : classe sociale, classe politique, etc.• Deux types de classification :

• hiérarchique : arbre, CAH• méthode de partitionnement : partition

3 / 40

Page 5: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Exemple de hiérarchie : le règne animal

4 / 40

Page 6: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

5 / 40

Page 7: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Quelles données pour quels objectifs ?

La classification s’intéresse à des tableaux dedonnées individus × variables quantitatives

Objectifs : production d’une structure (arbo-rescence) permettant :

• la mise en évidence de lienshiérarchiques entre individus ougroupes d’individus

• la détection d’un nb de classes« naturel » au sein de la population

A C B D E F G H

01

23

4

6 / 40

Page 8: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Critères

Ressemblance entre individus :• distance euclidienne• indice de similarité• . . .

Ressemblance entre groupes d’individus :• saut minimum ou lien simple (pluspetite distance)

• lien complet (plus grande distance)• critère de Ward

x

x

xx

x

x

x

x

x

x

x

x

x

x

7 / 40

Page 9: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Algorithme

ABC D E FGD 4.72E 5.55 1.00 FG 4.07 2.01 1.81 H 4.75 3.16 2.90 1.12

ABC DE FGDE 4.72FG 4.23 1.81 H 4.07 2.90 1.12

ABC DEDE 4.72FGH 4.07 1.81

ABC DEFGH 4.07

4e regroupement

5e regroupement

6e regroupement

7e regroupement

{ABC},{DE},{FG},{H}

{ABC},{DE},{FGH}

{ABC},{DEFGH}

{ABCDEFGH}

12

34

ABC D E F GD 4.72E 5.55 1.00 F 4.07 2.01 2.06 G 4.68 2.06 1.81 0.61 H 4.75 3.16 2.90 1.28 1.12

3e regroupement

A B C D E F GB 0.50 C 0.25 0.56 D 5.00 4.72 4.80 E 5.78 5.55 5.57 1.00 F 4.32 4.23 4.07 2.01 2.06 G 4.92 4.84 4.68 2.06 1.81 0.61 H 5.00 5.02 4.75 3.16 2.90 1.28 1.12

AC B D E F GB 0.50 D 4.80 4.72E 5.57 5.55 1.00 F 4.07 4.23 2.01 2.06 G 4.68 4.84 2.06 1.81 0.61 H 4.75 5.02 3.16 2.90 1.28 1.12

1er regroupement

2e regroupement

{A},{B},{C},{D},{E},{F},{G},{H}

{AC},{B},{D},{E},{F},{G},{H}

{ABC},{D},{E},{F},{G},{H}

{ABC},{D},{E},{FG},{H}

{ABC},{DE},{FG},{H}

A C B D E F G H

01

8 / 40

Page 10: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Arbres et partitions

Les arbres finissent tous ... par être coupés ! ! !

En définissant un niveau decoupure, on construit unepartition

0.0

0.5

1.0

1.5

●Hierarchical Clustering

inertia gain

Cas

arsa

Par

khom

enko

YU

RK

OV

Lore

nzo

NO

OL

BO

UR

GU

IGN

ON

MA

RT

INE

AU

Kar

livan

sB

AR

RA

SU

ldal

HE

RN

UTu

riK

arpo

vC

lay

Seb

rleS

choe

nbec

kO

jani

emi

Bar

ras Qi

Sm

irno

vG

omez

Zsi

vocz

kyM

acey

Sm

ithM

cMU

LLE

NB

erna

rdZ

SIV

OC

ZK

YH

ernu

KA

RP

OV

SE

BR

LETe

rek

Pog

orel

ovK

orki

zogl

ouC

LAY

BE

RN

AR

DN

ool

War

ners

Dre

ws

WA

RN

ER

SS

chw

arzl

Ave

ryan

ov

0.0

0.5

1.0

1.5

Click to cut the tree

Remarque : vu le mode de construction, la partition n’est pasoptimale mais est intéressante

9 / 40

Page 11: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition

Quand une partition est-elle bonne ?• Si les individus d’une même classe sont proches• Si les individus de 2 classes différentes sont éloignés

Et mathématiquement ça se traduit par ?• Variabilité intra-classe petite• Variabilité inter-classes grande

=⇒ Deux critères, lequel choisir ?

10 / 40

Page 12: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition

x̄k moyenne de xk , x̄qk moyenne de xk dans la classe q

K∑k=1

Q∑q=1

I∑i=1

(xiqk − x̄k )2

︸ ︷︷ ︸Inertie totale

=K∑

k=1

Q∑q=1

I∑i=1

(xiqk − x̄qk )2

︸ ︷︷ ︸Inertie intra

+K∑

k=1

Q∑q=1

I∑i=1

(x̄qk − x̄k )2

︸ ︷︷ ︸Inertie inter

x

x1

x2

x

x3

=⇒ 1 seul critère !11 / 40

Page 13: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Qualité d’une partition

La qualité d’une partition est mesurée par :

0 ≤ Inertie interInertie totale ≤ 1

Inertie interInertie totale

= 0 =⇒ ∀k,∀q, x̄qk = x̄k

par variable, les classes ont mêmes moyennesNe permet pas de classifier

Inertie interInertie totale

= 1 =⇒ ∀k,∀q, ∀i , xiqk = x̄qk

les individus d’une même classe sont identiquesIdéal pour classifier

Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes

12 / 40

Page 14: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Méthode de Ward

• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb

ma + mbd2(a, b)︸ ︷︷ ︸

à minimiserRegroupe les objets de faible poids etévite l’effet de chaîne

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

−2 0 2 4 6 8 10

−2

02

46

810

1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21

Saut minimum

Saut minimum

1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27

Ward

Ward

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

******

******

*******

******

**

−2 0 2 4 6 8 10

−2

02

46

810

1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17

Saut minimum

1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Ward

Regroupe des classesayant des centres degravité proches

Intérêt immédiat pour laclassification

13 / 40

Page 15: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

14 / 40

Page 16: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température

• 15 individus : villes de France• 12 variables : températures mensuelles moyennes (sur 30 ans)

Janv Févr Mars Avri Mai Juin juil Août Sept Octo Nove Déce Lati LongBordeaux 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21 18.6 13.8 9.1 6.2 44.5 -0.34Brest 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16 14.7 12 9 7 48.24 -4.29

Clermont 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11.2 6.6 3.6 45.47 3.05Grenoble 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3 45.1 5.43

Lille 2.4 2.9 6 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5 50.38 3.04Lyon 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1 45.45 4.51

Marseille 5.5 6.6 10 13 16.8 20.8 23.3 22.8 19.9 15 10.2 6.9 43.18 5.24Montpellier 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10 6.5 43.36 3.53

Nantes 5 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5 47.13 -1.33Nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16 11.5 8.2 43.42 7.15

Paris 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16 11.4 7.1 4.3 48.52 2.2Rennes 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4 48.05 -1.41Strasbourg 0.4 1.5 5.6 9.8 14 17.2 19 18.3 15.1 9.5 4.9 1.3 48.35 7.45

Toulouse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5 43.36 1.26Vichy 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16 11 6.6 3.4 46.08 3.26

Quelles villes ont des profils météo similaires ?Comment caractériser les groupes de villes ?

15 / 40

Page 17: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température : l’arbre hiérarchique

02

46

Hierarchical clustering

inertia gain

68

Cluster Dendrogram

Tou

lous

e

Bor

deau

x

Nic

e

Mon

tpel

lier

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

nobl

e

Lyon

Par

is

Vic

hy

Cle

rmon

t

Lille

Str

asbo

urg

02

4

16 / 40

Page 18: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Les données température

15 classes en 14 classes : 0.01

14 classes en 13 classes : 0.02

13 classes en 12 classes : 0.03

12 classes en 11 classes : 0.05

11 classes en 10 classes : 0.06

10 classes en 9 classes : 0.09

Pertes d’inertie inter

lors du passage de

46

10 classes en 9 classes : 0.09

9 classes en 8 classes : 0.17

8 classes en 7 classes : 0.19

7 classes en 6 classes : 0.26

6 classes en 5 classes : 0.42

5 classes en 4 classes : 0.56

4 classes en 3 classes : 0.69

3 classes en 2 classes : 1.56

2 classes en 1 classe : 7.88 0

2

inertia gain

Grosse perte si on passe de

2 classes à 1 seule donc on

préfère garder 2 classes

Somme des pertes d’inertie = 1217 / 40

Page 19: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

Doit-on faire 2 groupes ? 3 groupes ? 4 ?

Découpage en 2 groupes :

Inertie interInertie totale = 7.88

12 = 66%

A quoi comparer ce pourcen-tage ?

68

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

18 / 40

Page 20: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

66 % de l’information résumée avec ce découpage en 2 classesA quoi comparer ce pourcentage ?

24

Dim

2 (

18.9

7%)

Lille

Brest

RennesNantes Nice

-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

Vichy Clermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux

MontpellierMarseille

Nice

19 / 40

Page 21: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition6

8

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

Séparer villes froides en 2groupes :

Inertie interInertie totale = 1.56

12 = 13%

19 / 40

Page 22: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Utilisation de l’arbre pour construire une partition

Passage de 15 villes à 3 classes : 66 % + 13 % = 79 % de lavariabilité des données

24

Dim

2 (

18.9

7%)

Lille

Brest

RennesNantes Nice

-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

Vichy Clermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux

MontpellierMarseille

Nice

20 / 40

Page 23: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Détermination d’un nombre de classes

• A partir de l’arbre• Dépend de l’usage(enquête, . . . )

• A partir du diagramme desindices de niveau

• Critère ultime :interprétabilité des classes

68

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

46

02

inertia gain

20 / 40

Page 24: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

21 / 40

Page 25: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Algorithme de partitionnement : les K-means

Algorithme d’agrégation autour des centres mobiles (K-means)

• Choisir Q centres declasses au hasard

• Affecter les pointsau centre le plusproche

• Calculer les Qcentres de gravité

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

●●

● ●

Clermont

GrenobleLyon

Marseille

MontpellierParis Toulouse

Bordeaux

Brest

NantesNice

Rennes

Lille

Strasbourg

Vichy● ●

●●

● ●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

● ●

Lyon

Marseille

MontpellierParis Toulouse

Bordeaux

Brest

NantesNice

Rennes

Clermont

Grenoble

Lille

Strasbourg

Vichy

● ●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Marseille

Montpellier

Nice

Toulouse

Brest

Nantes

Rennes

Clermont

Grenoble

Lille

Lyon

Paris

Strasbourg

Vichy

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Marseille

Montpellier

Nice

Toulouse

Brest

Nantes

Rennes

Clermont

Grenoble

Lille

Lyon

Paris

Strasbourg

Vichy●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

● ●

22 / 40

Page 26: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

23 / 40

Page 27: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Consolidation d’une partition obtenue par CAH

La partition obtenue par CAH n’est pas optimale et peut êtreaméliorée, consolidée, par les K-means

Algorithme de consolidation :• la partition obtenue par CAH est utilisée comme initialisationde l’algorithme de partitionnement

• quelques étapes de K-means sont itérées

=⇒ amélioration de la partition (souvent non décisive)Avantage : consolidation de la partitionInconvénient : perte de l’info de hiérarchie

24 / 40

Page 28: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

CAH en grandes dimensions

• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique

• Si beaucoup d’individus : algorithme de CAH trop long• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des

classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH

Hierarchical clustering

0.06

0.08

Cluster Dendrogram

158

124

146

118

123

117

169

139

140

285

115

155

176 70

116 11 90

125

130

143

129

218

298

114

174

106

107 73

147

282

292

105

150

137 94

149 82 23

161 83

197 47

194

142

181

290 1

263 88 46 75 26

294 86 54

205 6 4

223

217

198

191

203

209

262

180

189

186

102

226

188

187

200 38

167

154 40

163 37 63

152

166

213

228

296 20

231

164

275 29 84

291

260

109 27 7 30

178 45

214

119

111 5 77

170 71

121 12

134 55

193

237

219 76 97

258 41

144

141

177 36

184

254

230

145

250

175 43

247

284 91

216 85

157

104

179

131

293

126

245 93 16

288

206

196 24 81

113

153 15

159 9

128

151 13 19 49 42

300

156

183 2

232

162 34

242 96

132 8 14

257

256

227

222

211

212

249

165

199

195

182

202

220

190 53

100

208 74 95 31

168

248

299

171

287

272

297

229

261 62 66 22 44

127

148

204

273

274

135

136

239

103 98 80

286

289

210

215

221 28 72

236 69

138

281 78 89

270 61 99

267

233 57 18

279

244

234 60

246

225 50 10

173 17 35

278

269

240

224

120 52

271

277 68

108

101

264

133

268 87

259

265

122

251

252 59

295

207

283 67

192

276 92 65

110 25

238 79

266

255 39

160 64 3

201

253 48

112

243

241 56 32 51

172 58 21 33

185

280

235

0.00

0.02

0.04

Hierarchical Clustering

0.06

0.08

Hierarchical Classification

1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12

0.00

0.02

0.04

0.06

Arbre sur données brutes Arbre à partir de classes

25 / 40

Page 29: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

CAH sur données qualitatives

Deux stratégies pour faire une classification sur donnéesqualitatives :

• Se ramener à des variables quantitatives• Faire une ACM et ne conserver que les premières dimensions• Faire la CAH à partir des composantes principales de l’ACM

• Utiliser des mesures adaptées aux données qualitatives : indicede similarité, indice de Jaccard, etc.

26 / 40

Page 30: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives

• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable

• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8

02

46

8

−3−2

−1 0

1 2

3 4

5

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

heig

ht

●●●

●●●

●● ●●

● ●●

cluster 1 cluster 2 cluster 3

Lille

Strasbourg

Brest

VichyClermont

Grenoble

Rennes

Paris

Lyon

Nantes

ToulouseBordeauxMontpellier

Marseille

Nice

Hierarchical clustering on the factor map

27 / 40

Page 31: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

28 / 40

Page 32: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Constitution des classes - Édition des parangons

Parangon : individu le plus proche du centre d’une classe

classe 1 : Montpellier Bordeaux Marseille Nice Toulouse0.419 1.141 1.193 2.242 2.256

classe 2 : Rennes Nantes Brest0.641 1.586 2.045

classe 3 : Vichy Clermont Grenoble Paris Lyon0.428 0.669 1.184 1.339 1.680

24

Dim

2 (

18.9

7%)

Brest

RennesNantes Nice

cluster 2

cluster 1 cluster 2 cluster 3

-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

VichyClermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux

MontpellierMarseille

Nice

cluster 1

cluster 3

29 / 40

Page 33: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classes

• Objectifs :• Trouver les variables les plus caractérisantes pour la partition• Caractériser une classe (ou un groupe d’individus) par des

variables quantitatives• Trier les variables qui caractérisent les classes

• Questions :• Quelles variables caractérisent le mieux la partition ?• Comment caractériser les individus de la classe 1 ?• Quelles variables les caractérisent le mieux ?

30 / 40

Page 34: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classesQuelles variables caractérisent le mieux la partition ?

• Pour chaque variable quantitative :• construire le modèle d’analyse de variance entre la variable

quantitative expliquée par la variable de classe• faire le test de Fisher de l’effet de la classe

• Trier les variables par probabilité critique croissante

Eta2 P-valueOcto 0.8362 1.930e-05Sept 0.8301 2.407e-05Févr 0.8227 3.103e-05Mars 0.8126 4.326e-05Janv 0.8118 4.444e-05Nove 0.8083 4.963e-05Avri 0.7929 7.890e-05Déce 0.7871 9.316e-05Août 0.7864 9.503e-05Juin 0.7241 4.409e-04Mai 0.7164 5.205e-04juil 0.7156 5.287e-04

31 / 40

Page 35: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

0 5 10 15 20

Température

Déce

Nove

Octo

Sept

Août

juil

Juin

Mai

Avri

Mars

Févr

Janv ●● ●●●● ●●● ●● ●●● ●

●● ●●●● ●●● ●● ●●● ●

●● ●● ●●●●● ● ● ●●● ●

● ●● ● ●●● ●●● ● ●●●●

● ●● ●● ●● ● ●● ● ● ● ●●

● ●● ●● ●● ● ●● ● ● ● ●●

● ●● ●● ●● ● ●● ●● ● ●●

● ●● ●● ●● ● ●● ●● ● ●●

● ●● ●● ●●● ●● ●● ● ● ●

●● ●●●●●●● ● ● ● ● ● ●

●● ●●●● ●●● ● ● ● ●● ●

●● ●●●● ●●● ●● ●● ● ●

LyonParisGrenobleClermontVichyStrasbourgLilleNantesRennesBrestNiceMarseilleMontpellierBordeauxToulouse

32 / 40

Page 36: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

Idée 1 : si les valeurs de X pour la classe q semblent tirées auhasard parmi les valeurs de X , alors X ne caractérise pas la classe q

16 17 18 19 20 21 22 23

Température

●● ●● ●● ● ● ●●● ● ●●●

● ●● ● ● ●● ● ●● ●● ● ●●Août

Aléa

Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus Xcaractérise la classe q

33 / 40

Page 37: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N

Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)

E(X̄q) = x̄ V(X̄q) = s2

nq

(N − nqN − 1

)L(X̄q) = N car X̄q est une moyenne

=⇒ Valeur-test = x̄q − x̄√s2nq

(N−nqN−1

) ∼ N (0, 1)

• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande

Idée : classer les variables par |Valeur-test| décroissante34 / 40

Page 38: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives

$quanti$‘1‘v.test Mean in Overall sd in Overall p.value

category mean category sdSept 3.40 19.30 17.00 0.755 1.79 0.000678Moye 3.39 13.80 11.80 0.742 1.55 0.000705Avri 3.33 12.70 11.00 0.580 1.37 0.000871Octo 3.32 14.50 12.30 0.941 1.77 0.000893Mars 3.24 10.00 8.23 0.524 1.48 0.001210Août 3.18 21.90 19.60 0.792 1.94 0.001490Juin 3.00 19.80 17.80 0.727 1.73 0.002670Mai 3.00 16.10 14.40 0.691 1.45 0.002720Nove 2.97 9.88 7.93 0.999 1.74 0.003020juil 2.92 22.10 19.80 1.000 2.06 0.003550Févr 2.88 6.80 4.83 0.940 1.81 0.003940Déce 2.54 6.66 4.85 0.896 1.89 0.011200Janv 2.46 5.78 3.97 0.924 1.94 0.013700

35 / 40

Page 39: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables quantitatives$‘2‘

v.test Mean in Overall sd in Overall p.valuecategory mean category sd

Mai -2.02 12.90 14.40 0.953 1.45 0.04380Août -2.02 17.50 19.60 1.090 1.94 0.04330Juin -2.05 15.90 17.80 1.160 1.73 0.04020juil -2.18 17.40 19.80 1.350 2.06 0.02900Long -2.88 -2.34 2.58 1.380 3.21 0.00404Ampl -2.95 12.40 15.90 1.560 2.25 0.00316

$‘3‘v.test Mean in Overall sd in Overall p.value

category mean category sdSept -2.05 15.90 17.00 0.738 1.79 0.040700Avri -2.11 10.20 11.00 0.637 1.37 0.035100Moye -2.60 10.70 11.80 0.620 1.55 0.009220Octo -2.81 10.90 12.30 0.661 1.77 0.004940Mars -2.85 7.03 8.23 0.807 1.48 0.004310Nove -3.15 6.36 7.93 0.654 1.74 0.001620Févr -3.25 3.16 4.83 0.763 1.81 0.001150Déce -3.28 3.07 4.85 0.911 1.89 0.001020Janv -3.36 2.11 3.97 0.876 1.94 0.000793

36 / 40

Page 40: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation des classes par les variables qualitatives

Quelles variables caractérisent le mieux la partition ?

• Pour chaque variable qualitative, construire un test du χ2

entre la variable et la variable de classe• Trier les variables par probabilité critique croissante

$test.chi2p.value df

Région 0.001700272 6

37 / 40

Page 41: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les variables qualitatives

La modalité Nord-Est caractérise-t-elle la classe 3 ?

Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15

Test : H0 : nmcnc

= nmn contre H1 : m anormalement élevée dans c

Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)

Classe 3Cla/Mod Mod/Cla Global p.value v.test

Région=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077

=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques

38 / 40

Page 42: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Caractérisation d’une classe par les axes

Les axes factoriels sont aussi des variables quantitatives

$‘1‘v.test Mean in Overall sd in Overall p.value

category mean category sdDim.1 3.39 3.97 0 1.46 3.1 0.000693

$‘2‘v.test Mean in Overall sd in Overall p.value

category mean category sdDim.2 2.84 2.29 0 1.29 1.51 0.00447

$‘3‘v.test Mean in Overall sd in Overall p.value

category mean category sdDim.2 -2.11 -0.911 0 0.927 1.51 0.0346Dim.1 -2.56 -2.270 0 1.260 3.10 0.0104

39 / 40

Page 43: Classification ascendante hiérarchique (CAH)math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/100457... · Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Conclusion

• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives

• CAH donne un arbre hiérarchique ⇒ nombre de classes

• K-means consolide les classes

• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives

40 / 40