16
Classification topographique à deux niveaux simultanés à base de modes de densité ? Guénaël CABANES et Younès BENNANI LIPN-CNRS, UMR 7030, University of Paris 13 99, Avenue J-B. Clément – 93430 Villetaneuse - FRANCE {cabanes, younes}@lipn.univ-paris13.fr Résumé : Une des difficultés rencontrées en classification non supervisée, aussi connue comme le “problème de sélection de modèle”, est de déterminer un nombre ap- proprié de groupes. Sans connaissances a priori il n’y a pas de moyen simple pour déterminer ce nombre. Nous proposons dans cet article un nouvel algorithme de classification non supervisée à deux niveaux, appelé DS2L-SOM (Density- based Simultaneous Two-Level - Self Organizing Map). Cet algorithme effectue simultanément une réduction de dimensions et une classificassion automatique des données. Cette approche utilise à la fois des informations sur la distance et la densité des données, ce qui lui permet de détecter automatiquement le nombre de groupes, i.e. aucune hypothèse a priori sur le nombre de groupes n’est exi- gée. Le principal avantage de l’algorithme proposé, comparé aux méthodes clas- siques de classification, est qu’il est capable d’identifier des groupes de formes non convexes et même des groupes qui se superposent en partie. La validation ex- périmentale de cet algorithme sur un ensemble de problèmes fondamentaux pour la classification montre sa supériorité sur les méthodes standards de classification. Mots-clés : Classification non supervisée, clustering, cartes auto-organisatrices SOM, modes de densité, sélection de modèle. 1 Introduction La classification non supervisée (ou clustering) est un outil important en analyse ex- ploratoire de données non étiquetées, mais un problème extrêmement difficile. Sans connaissances a priori sur la structure d’une base de données, seule la classification non supervisée permet de détecter automatiquement la présence de sous-groupes pertinents (ou clusters). La classification non supervisée est un procédé de regroupement qui peut être défini comme une tâche de partitionnement d’un ensemble d’items en un ensemble de sous-ensembles mutuellement disjoints. Un groupe peut être défini comme un en- semble de données similaires entre elles et peu similaires avec les données appartenant ? Ce travail a été soutenu en partie par le projet "Sillages”, financé par l’ANR (Agence Nationale de la Recherche).

Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

  • Upload
    others

  • View
    2

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification topographique à deux niveauxsimultanés à base de modes de densité ?

Guénaël CABANES et Younès BENNANI

LIPN-CNRS, UMR 7030, University of Paris 1399, Avenue J-B. Clément – 93430 Villetaneuse - FRANCE{cabanes, younes}@lipn.univ-paris13.fr

Résumé :Une des difficultés rencontrées en classification non supervisée, aussi connuecomme le “problème de sélection de modèle”, est de déterminer un nombre ap-proprié de groupes. Sans connaissances a priori il n’y a pas de moyen simple pourdéterminer ce nombre. Nous proposons dans cet article un nouvel algorithmede classification non supervisée à deux niveaux, appelé DS2L-SOM (Density-based Simultaneous Two-Level - Self Organizing Map). Cet algorithme effectuesimultanément une réduction de dimensions et une classificassion automatiquedes données. Cette approche utilise à la fois des informations sur la distance etla densité des données, ce qui lui permet de détecter automatiquement le nombrede groupes, i.e. aucune hypothèse a priori sur le nombre de groupes n’est exi-gée. Le principal avantage de l’algorithme proposé, comparé aux méthodes clas-siques de classification, est qu’il est capable d’identifier des groupes de formesnon convexes et même des groupes qui se superposent en partie. La validation ex-périmentale de cet algorithme sur un ensemble de problèmes fondamentaux pourla classification montre sa supériorité sur les méthodes standards de classification.Mots-clés : Classification non supervisée, clustering, cartes auto-organisatricesSOM, modes de densité, sélection de modèle.

1 IntroductionLa classification non supervisée (ou clustering) est un outil important en analyse ex-

ploratoire de données non étiquetées, mais un problème extrêmement difficile. Sansconnaissances a priori sur la structure d’une base de données, seule la classification nonsupervisée permet de détecter automatiquement la présence de sous-groupes pertinents(ou clusters). La classification non supervisée est un procédé de regroupement qui peutêtre défini comme une tâche de partitionnement d’un ensemble d’items en un ensemblede sous-ensembles mutuellement disjoints. Un groupe peut être défini comme un en-semble de données similaires entre elles et peu similaires avec les données appartenant

?Ce travail a été soutenu en partie par le projet "Sillages”, financé par l’ANR (Agence Nationale de laRecherche).

Page 2: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

à un autre groupe (homogénéité interne et séparation externe). Les groupes peuventaussi être décrits comme des régions connectées d’un espace multidimensionnel conte-nant une relative haute densité de points, séparés d’autres telles régions par une zonecontenant une densité relativement basse de points. La détection de ces regroupementsjoue un rôle indispensable pour la compréhension de phénomènes variés décrits par unensemble d’observations.

Il existe de nombreuses méthodes de classification non supervisée (Jain & Dubes,1988). Même une courte liste d’algorithmes de classification non supervisée bien con-nus peut engendrer plusieurs taxonomies. De telles taxonomies sont d’habitude cons-truites en considérant : (i) la représentation des données, par exemple matrice de don-nées ou matrice de similarité, ou type de données, structures de données par exemplebinaires, catégoriques, continues, ou structurées en séquences, arbres, graphes etc, (ii)la procédure de production des groupes, par exemple une division ou une hiérarchiede divisions, (iii) direction de la classification, par exemple agglomérative ou divisive.Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes par-titives. Les méthodes de classification hiérarchiques agglomératives (CAH) utilisentun arbre hiérarchique (dendrogramme) construit à partir des ensembles à classifier, lesnœuds de l’arbre issus d’un même parent formant un groupe homogène (Ward, 1963).Au contraire, les méthodes partitives regroupent des données sans utiliser de structurehiérarchique.

Une autre famille d’algorithmes de classification non supervisée dite "classificationà deux niveaux" procède en deux phases pour identifier les groupes dans une base dedonnées. Dans la première phase du processus, l’algorithme estime des référents re-présentant des micro-groupes (micro-clusters). Dans la deuxième phase, les partitionsassociées à chaque référent sont utilisées pour former la classification finale des don-nées en utilisant une méthode de classification traditionnelle. Dans cette famille d’al-gorithmes, on trouve l’utilisation de la carte auto-organisatrice ou Self Organizing Map(SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première étape d’uneclassification à deux niveaux pour l’estimation des micro-clusters. Une SOM est unalgorithme neuro-inspiré qui, par un processus non-supervisé compétitif, est capablede représenter des données de grandes dimensions par un ensemble de prototypes (ouréférents) contraints de conserver une topologie de faible dimension (deux ou trois leplus souvent). Cet algorithme d’apprentissage non supervisé est une technique non li-néaire très populaire pour la réduction de dimensions et la visualisation des données.Lors de la deuxième étape (niveau 2), la détection des regroupements est en généralobtenue en utilisant des techniques de classification classiques telles que K-Moyennesou des méthodes hiérarchiques, de façon à obtenir des regroupements de prototypes quireprésentent la partition finale des données.

Cependant, le déroulement séquentiel des deux niveaux s’accompagne inévitable-ment d’une perte d’information sur la structure des données. L’objectif de cet article estdonc de proposer une méthode de classification à deux niveaux simultanés, qui s’ap-puie sur l’apprentissage d’une SOM tout en conservant le maximum d’information surla structure des données. Pour cela nous proposons de détecter la structure des donnéespendant l’apprentissage de la SOM. Ainsi l’estimation des référents (représentants desmicro-clusters) et leur regroupement se font simultanément donnant ainsi une partition

Page 3: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

optimisée des données.Nous avons choisi ici une approche basée sur la distance et la détection des modes de

densités (Sbai, 1999), s’appuyant sur le fait qu’un regroupement de données peut êtredéfini comme une région de l’espace de représentation localement dense en données,entourée par une région de faible densité (Ester et al., 1996; Yue et al., 2004; Ultsch,2005; Beaton & Valora, 2007; Ocsa et al., 2007; Pamudurthy et al., 2007). Cette ap-proche est particulièrement efficace lorsque les groupes se touchent ou en présence debruit. Elle est aussi efficace pour la détection des groupes non convexes. De plus, laméthode proposée regroupe automatiquement les données, c’est-à-dire que le nombrede groupes est déterminé automatiquement pendant le processus d’apprentissage, au-cune hypothèse a priori sur le nombre de groupes n’est exigée. Cette approche a étéévaluée sur un jeu de problèmes fondamentaux représentant différentes difficultés pourla classification et montre d’excellents résultats comparé aux approches classiques.

Le reste de cet article est organisé comme suit. La Section 2 présente l’algorithme declassification DS2L-SOM (Density-based Simultaneous Two-Level - SOM). La Sec-tion 3 décrit les bases de données utilisées pour la validation ainsi que le protocoleexpérimental. Dans la section 4 nous présentons les résultats de la validation et leurinterprétation. Une conclusion et des perspectives sont données dans la section 5.

2 Algorithme de classification à deux niveaux simulta-nés basé sur la densité

Dans un espace de grande dimension les données peuvent être fortement dispersées,ce qui rend difficile pour un algorithme de classification la recherche de structures dansles données. En effet, plus la dimension de l’espace de représentation est importante,plus les données sont dispersées dans cet espace. Les variations de densité et distancesdans cet espace, pourtant essentielles pour la détection de groupes homogènes dansles données, deviennent alors de moins en moins significatives. De nombreuses ap-proches ont été proposées pour résoudre des problèmes de classification à deux niveaux(Aupetit, 2005; Bohez, 1998; Hussin et al., 2004; Ultsch, 2005; Guérif & Bennani,2006; Korkmaz, 2006). Les approches basées sur l’apprentissage d’une carte auto-organisatrice sont particulièrement efficaces du fait de la vitesse d’apprentissage deSOM, de ses performances en réduction de dimensions non linéaire et la visualisationdes résultats de la classification (Hussin et al., 2004; Ultsch, 2005; Guérif & Bennani,2006).

Bien que les méthodes à deux niveaux soient plus intéressantes que les méthodes clas-siques (en particulier en réduisant le temps de calcul et en permettant une interprétationvisuelle de l’analyse, Vesanto & Alhoniemi (2000)), la classification obtenue à partirdes référents n’est pas optimale, puisqu’une partie de l’information à été perdue lorsde la première étape. De plus, cette séparation en deux étapes n’est pas adaptée à uneclassification dynamique de données qui évoluent dans le temps, malgré des besoinsimportants d’outils pour l’analyse de ce type de données.

Nous proposons donc ici un nouvel algorithme de classification topographique non-supervisée, DS2L-SOM, qui apprend simultanément les prototypes (référents) d’une

Page 4: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

carte auto-organisatrice et sa segmentation en utilisant à la fois des informations sur lesdistances et la densité des données.

2.1 Principe

Une SOM est un algorithme d’apprentissage compétitif non-supervisé à partir d’unréseau de neurones artificiels (Kohonen, 1984, 2001). Lorsqu’une observation est recon-nue, l’activation d’un neurone du réseau, sélectionné par une compétition entre les neu-rones, a pour effet le renforcement de ce neurone et l’inhibition des autres (c’est la règledu “Winner Takes All”). Chaque neurone se spécialise donc au cours de l’apprentissagedans la reconnaissance d’un certain type d’observations. La carte auto-organisatrice estcomposée d’un ensemble de neurones connectés entre eux par des liens topologiquesqui forment une grille bi-dimensionnelle. Chaque neurone est connecté à n entrées(correspondant aux n dimensions de l’espace de représentation) selon n pondérationsw(i) = (w(i)

1 , ..., w(i)n ) (qui forment le vecteur prototype du neurone). Les neurones sont

aussi connectés à leurs voisins par des liens topologiques. Le jeu de données est utilisépour organiser la carte selon les contraintes topologiques de l’espace d’entrée. Ainsi,une configuration entre l’espace d’entrée et l’espace du réseau est construite ; deux ob-servations proches dans l’espace d’entrée activent deux unités proches sur la carte. Uneorganisation spatiale optimale est déterminée par la SOM à partir des données et quandla dimension de l’espace d’entrée est inférieure à trois, aussi bien la position des vec-teurs de poids que des relations de voisinage directes entre les neurones peuvent êtrereprésentées visuellement. Le neurone gagnant met à jour son vecteur prototype, de fa-çon à devenir plus sensible à une présentation future de ce type de donnée. Cela permet àdifférents neurones d’être entraînés pour différents types de données. De façon à assurerla conservation de la topologie de la carte, les voisins du neurone gagnant peuvent aussiajuster leur vecteur prototype vers le vecteur présenté, mais dans un degré moindre, enfonction de leurs distances au prototype gagnant. Ainsi, les prototypes les plus prochesd’une donnée correspondent à des neurones voisins sur la carte. En général, on utilisepour cela une fonction de voisinage gaussienne à symétrie radiale Kij .

Dans un algorithme précédemment proposé (S2L-SOM, Cabanes & Bennani, 2007),nous proposions d’associer à chaque connexion de voisinage une valeur réelle v quiindique la pertinence des neurones connectés. Étant donné la contrainte d’organisa-tion de la carte, les deux meilleurs représentants de chaque donnée sont reliés par uneconnexion topologique. Cette connexion sera “récompensée” par une augmentation desa valeur, alors que toutes les autres connexions issues du meilleur représentant se-ront “punies” par une diminution de leurs valeurs. Les récompenses et les punitionssont d’autant plus importantes que l’apprentissage est bien avancé et donc que la struc-ture de la carte est bien représentative de la structure des données. Ainsi, à la fin del’apprentissage, un ensemble de neurones interconnectés sera représentatif d’un sous-groupe pertinent de l’ensemble des données : un cluster. Cependant, les sous-groupesen contact sont définis seulement par une diminution de densité (Ultsch, 2005) et S2L-SOM ne peut le détecter. Dans l’algorithme DS2L-SOM , nous proposons d’apprendreune estimation de la densité locale des données, afin de détecter les fluctuations dedensité qui caractérisent les frontières entre les groupes de données.

Page 5: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

2.2 Algorithme DS2L-SOML’apprentissage connexionniste est souvent présenté comme la minimisation d’une

fonction de coût. Dans notre cas, cela correspond à la minimisation de la distance entreles données et les prototypes de la carte, pondérée par une fonction de voisinage Kij

(Kohonen, 2001). Pour ce faire, nous utilisons un algorithme de gradient. La fonctionde coût à minimiser est définie par :

C(w) =1N

N∑k=1

M∑j=1

Kj,u∗(x(k)) ‖ w(j) − x(k) ‖2

Avec N le nombre de données, M le nombre de neurones de la carte, u∗(x(k)) est leneurone dont le vecteur prototype est le plus proche de la donnée x(k) (le “best matchunit” : BMU ). w(j) est le prototype associé au neurone j. Kij est une fonction symé-trique positive à noyau : la fonction de voisinage. L’importance relative d’un neurone icomparé à un neurone j est pondérée par la valeur de Kij , qui peut être définie ainsi :

Ki,j =1λ(t)

× e−d21(i,j)

λ2(t)

λ(t) est une fonction de température qui contrôle l’étendue du voisinage qui diminueavec le temps t de λi à λf (par exemple λi = 2 à λf = 0, 5) :

λ(t) = λi(λf

λi)

ttmax

tmax est le nombre maximum d’itérations autorisé pour l’apprentissage. d1(i, j) est ladistance de Manhattan définie entre deux neurones i (de coordonnée (k,m)) et j (decoordonnée (r, s)) sur la grille de la carte :

d1(i, j) =‖ r − k ‖ + ‖ s−m ‖

L’algorithme DS2L-SOM est une adaptation de l’algorithme S2L-SOM (Cabanes &Bennani, 2007). Avec S2L-SOM, chaque connexion de voisinage est associée à une va-leur réelle v qui indique la pertinence de la connexion entre deux neurones. La valeurde cette connexion est adaptée au cours du processus d’apprentissage. Martinetz (1993)a montré que le graphe généré de cette manière préserve la topologie de façon optimale.En particulier chaque arc de ce graphe suit la triangulation de Delaunay correspondantaux vecteurs de référence. Pour chaque donnée, les deux meilleurs prototypes sont re-liés par une connexion topologique. La valeur de cette connexion sera augmentée, alorsque les valeurs de toutes les autres connexions impliquant le meilleur prototype serontréduites. Ainsi, à la fin de l’apprentissage, un ensemble de prototypes inter-connectéssera une bonne représentation de sous-groupes bien séparés de l’ensemble des données.Dans l’algorithme DS2L-SOM, nous proposons en outre d’associer à chaque unité iune estimation de la densité locale des données D(i), de manière à détecter les fluc-tuations de densité qui définissent les frontières entre groupes en contact. Pour chaque

Page 6: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

donnée, cette valeur de densité sera augmentée pour tous les prototypes, en fonction dela distance euclidienne entre le prototype et les données. Cette méthode d’évaluationest proche de celle proposée par (Pamudurthy et al., 2007).

A la fin du processus d’apprentissage, les neurones qui sont reliés par des connexionsde voisinage tels que v > 0 définissent des groupes bien distincts. Nous utilisons alorsune méthode de “Watersheds” (Vincent & Soille, 1991) sur la carte de la densité dechacun de ces groupes pour détecter les zones de faible densité à l’intérieur des groupesbien séparés, de façon à caractériser les sous-groupes définis par la densité. Nous utili-sons pour chaque paire de sous-groupes adjacents un indice “densité-dépendant” (Yueet al., 2004) pour déterminer si une zone de faible densité est un indicateur fiable de lastructure des données, ou si elle doit être considérée comme une fluctuation aléatoirede la densité. Cette division est très rapide en raison du faible nombre de prototypes.L’utilisation combinée de ces deux types de définition des groupes permet d’obtenir debons résultats en dépit du faible nombre de prototypes de la carte.

On remarque que, dans l’algorithme DS2L-SOM, l’estimation de la densité locale desdonnées est faite pendant la formation de la carte, c’est-à-dire qu’il n’est pas nécessairede conserver les données en mémoire.

L’algorithme d’apprentissage de DS2L-SOM procède en trois phases :

Entrées :– Les données X = {x(i)}i=1..N .– SOM avec M prototypes {w(i)}i=1..M .– tmax : le nombre maximum d’itérations.Sorties :– Une partition P = {Ci}i=1..L d’ensembles d’unités inter-connectés.– Des valeurs de densité {D(i)}i=1..M associées à chaque unité.

1. Phase d’initialisation :– Initialiser toutes les valeurs des connections de voisinage v à zéro.– Initialiser toutes les valeurs de densité D(i) des unités à zéro.

2. Phase de compétition :– Présenter une donnée x(k) choisie aléatoirement.– Trouver le premier BMU u∗ et le second BMU u∗∗ :

u∗(x(k)) = Argmin1≤i≤M

‖ x(k) − w(i) ‖2

etu∗∗(x(k)) = Argmin

1≤i≤M, i6=u∗‖ x(k) − w(i) ‖2

3. Phase d’adaptation :

Page 7: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

– Mettre à jour les prototypes w(i) de chaque unité i selon la règle d’adaptationci-dessous et le pas d’apprentissage ε(t) :

w(i)(t) = w(i)(t-1)-ε(t)Ki,u∗(x(k))(w(i)(t-1)-x(k))

– Augmenter la valeur de densité D(i) associée à chaque unité i :

D(i)(t) = D(i)(t− 1) + r(t)e−‖x(k)−w(i)(t)‖2

2λ2(t)

avecr(t) =

1

1 + e(−t

tmax)

– soit ℵ(u∗) le voisinage topologique du premier BMU ; actualiser les valeursdes connexions de voisinage v, conformément aux règles suivantes :

vu∗,u∗∗(t) = vu∗,u∗∗(t-1) + r(t)|ℵ(u∗)|et

vu∗,i(t) = vu∗,i(t-1) - r(t)|ℵ(u∗)|∀i ∈ ℵ(u∗), i 6= u∗∗

Où |ℵ(u∗)| est le nombre de neurones dans ℵ(u∗).

4. Répéter les étapes 2 et 3 jusqu’à ce que t = tmax

5. Extraire tous les ensembles d’unités connectées : Soit P = {Ci}i=1..L les Lensembles d’unités interconnectées tel que v > 0 (voir Fig.1(b)).

6. Retourner P = {Ci}i=1..L et {D(i)}i=1..M .

A la fin du processus d’apprentissage, nous utilisons un algorithme de raffinementqui utilise les informations de connexions et de densités pour détecter les groupes.

Entrées : P = {Ci}i=1..L et {D(i)}i=1..M .Sortie : Les groupes raffinés (les clusters).

1. Pour chaque groupe Ck ∈ P faire :– Déterminer l’ensemble M(Ck) des maximums locaux de densité (les modes

de densité, voir Fig.1(c)) :

M(Ck) = {unité i ∈ Ck | D(i) ≥ D(j),∀j ∈ ℵ(i)}

– Calculer la matrice des seuils :

S = [S (i, j)]i,j=1...|M(Ck)|

avec

S (i, j) =(

1D(i)

+1

D(j)

)−1

Page 8: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

– Pour chaque unité i ∈ Ck, étiqueter l’unité i avec un élément label(i) deM(Ck), selon un gradient ascendant de densité le long des connexions topolo-giques. Chaque étiquette représente un groupe (voir Fig.1(d)).

– Pour chaque paire d’unités voisines (i, j) dans Ck, si label(i) 6= label(j) etsi D(i) > S(i, j) et D(j) > S(i, j) alors fusionner les deux groupes (voirFig.1(e)).

2. Retourner les groupes raffinés (les clusters).

(a) Données d’apprentis-sage.

(b) Sortie de l’algorithme d’apprentissage :A gauche un seul ensemble d’unités inter-connectées (en rouge) et des unités non connec-tées (en gris). A droite les valeurs de densité asso-ciées à chaque unité.

(c) Détection des modes dedensité.

(d) Détection des groupes as-sociés aux modes de densité.

(e) Fusion des groupes nonpertinents.

FIG. 1 – Exemple de déroulement des différentes étapes de l’algorithme de raffinement.

Page 9: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

3 Validation

3.1 Description des bases de données utilisées

De façon à démontrer les performances de l’algorithme de classification proposé(DS2L-SOM), dix bases de données présentant différentes difficultés de classificationont été utilisées.

Les bases de données “Hepta”, “Chainlink”, “Atom”, “TwoDiamonds”, “Engytime”et “Wingnut” proviennent du Fundamental Clustering Problem Suite (FCPS, Ultsch,2005). Nous avons généré aussi quatre autres bases de données intéressantes ( “Rings”,“Spirals”, “HighDim” et “Random”). “Rings” est composée de 3 groupes en 2 dimen-sions non linéairement séparables et de densité et variance différentes : un anneau derayon 1 pour 700 points (forte densité), un anneau de rayon 3 pour 300 points (faibledensité) et un anneau de rayon 5 pour 1500 points (densité moyenne). “HighDim” estconstitué de 9 groupes de 100 points chacun bien séparés dans un espace à 15 dimen-sions. “Random” est un tirage aléatoire de 1000 points dans un espace à 8 dimensions.Enfin “Spirals” est constitué de deux spirales parallèles de 1000 points chacune dans unanneaux de 3000 points. La densité des points dans les spirales diminue avec le rayon.

FIG. 2 – Visualisations des bases de données “Rings” et “Spirals”.

FIG. 3 – Visualisations des bases de données “Chainlink” et “Atom”.

Page 10: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

FIG. 4 – Visualisations des bases de données “Twodiamonds” et “Hepta”.

FIG. 5 – Visualisations des bases de données “Engytime” et “Wingnut”.

3.2 Protocole expérimental

Nous avons comparé les performances de DS2L-SOM en terme de qualité de lasegmentation et de stabilité par rapport aux performances de S2L-SOM (Cabanes &Bennani, 2007) et des méthodes classiques à deux niveaux. Les algorithmes de com-paraison choisis sont K-Moyennes et SingleLinkage appliqués sur les prototypes dela carte SOM après apprentissage. L’indice de Davies-Bouldin (Davies & Bouldin,1979) est utilisé pour déterminer le meilleur découpage des arbres (SingleLinkage) oule nombre optimal K de centroïdes pour K-Moyennes.

Cet indice, suggéré par Davies et Bouldin (1979) pour différentes valeurs de K(nombre de clusters) est typiquement introduit comme suit pour évaluer les conceptsde séparation entre groupes (le dénominateur) et l’homogénéité intra-groupes (le nu-mérateur).

DB(K) =1K

K∑i=1

si + sj

‖ ci − cj ‖2

Avec si la racine carrée de l’erreur standard (variance intra-groupes) du groupe i decentroïde ci.

Pour la classification hiérarchique SingleLinkage, la proximité entre deux groupes estdéfinie comme la distance minimum entre deux objets appartenant chacun à un groupe.La méthode SingleLinkage est efficace pour la détection de groupes non-elliptiques,mais est sensible au bruit et aux outliers.

Page 11: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

Dans cet article la qualité de la segmentation à été évaluée à partir d’indices externes(indices de Rand et Jaccard) fréquemment utilisés (Halkidi et al., 2001, 2002). En ef-fet, si des catégories indépendantes des données sont connues, on peut vérifier si lesregroupements obtenus par classification correspondent à ces catégories.

Rand =a00 + a11

a00 + a01 + a10 + a11

Jaccard =a11

a01 + a10 + a11

Ici a00 est le nombre de paires d’objets dont les deux éléments sont dans la mêmecatégorie et le même groupe. a01 est le nombre de paires d’objets dont les deux élémentssont dans la même catégorie mais pas le même groupe, alors que a10 est le nombre depaires d’objets dont les deux éléments sont dans le même groupe mais pas la mêmecatégorie. Pour finir, a11 est le nombre de paires d’objets dont les deux éléments nesont ni dans le même groupe, ni dans la même catégorie.

Le concept de stabilité est aussi utilisé pour estimer la validité de la segmentation.Pour évaluer la stabilité des différents algorithmes, nous utilisons une méthode de sous-échantillonnage (Ben-Hur et al., 2002). Pour chaque base de données, chaque sous-échantillon est segmenté par un algorithme de classification, et nous comparons deuxà deux avec l’indice de Jaccard les différences entre les segmentations obtenues. Ceprocessus est répété un grand nombre de fois et la moyenne de l’indice est considéréecomme une estimation fiable de la stabilité de la classification.

4 RésultatsLes résultats pour les indices externes montrent que pour ces données, DS2L-SOM

est capable de retrouver sans aucune erreur la segmentation attendue et le bon nombrede groupes. Ce n’est pas le cas des autres algorithmes, en particulier lorsque les groupessont de formes arbitraires, lorsqu’il n’y a pas de structure dans les données ou lorsqueles groupes sont en contact (voir figure 6 et table 1).

En ce qui concerne la stabilité (figure 7), l’algorithme DS2L-SOM, à l’instar de l’al-gorithme S2L-SOM, montre d’excellents résultats pour les données regroupées en hy-persphères, quelle que soit la dimension (“ Hepta”et “ HighDim”), mais aussi dans lescas où les groupes sont de formes arbitraires en deux dimensions (“Rings” et “Spirals”)et lorsque les données ne sont pas structurées (“Random”). On remarque que, dans cedernier cas, la segmentation obtenue par les méthodes classiques est extrêmement in-stable.

Lorsque les données ne sont pas linéairement séparables dans des dimensions supé-rieures à deux (“Atom” et “Chainlink”), DS2L-SOM, comme S2L-SOM, est limité parla contrainte topologique en deux dimensions de la carte auto-organisatrice et la stabi-lité de la segmentation n’est pas maximale. On peut cependant noter que même dansce cas DS2L-SOM reste plus stable que les autres méthodes. Par ailleurs, lorsque lesgroupes ne sont définis que par la densité (“ Twodiamonds”, “ Engytime”, “ Wingnut”),

Page 12: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

le sous-échantillonnage peut atténuer les fluctuations de densité dans les données, etdonc la détection des zones de séparation entre les groupes, ce qui peut diminuer la sta-bilité de la segmentation. Dans ce cas S2L-SOM est plus stable que DS2L-SOM, parcequ’il ne peut pas séparer ce type de groupes et ne détecte donc qu’un seul groupe pourtous les sous-échantillons.

TAB. 1 – Nombre de groupes obtenus avec différentes méthodes de classificas-sion (SL=SingleLinkage, KM=K-means, SSL=SOM+SingleLinkage, SKM=SOM+K-means).

Données SL KM SSL SKM S2L-SOM DS2L-SOM CorrectHighDim 9 8 4 9 9 9 9Chainlink 15 13 2 11 2 2 2

Atom 15 10 6 6 2 2 2Twodiamonds 5 2 2 2 2 2 2

Rings 12 15 7 13 3 3 3Spirals 14 10 12 10 3 3 3Hepta 7 7 5 7 7 7 7

Random 11 15 10 15 1 1 1Wingnut 17 18 6 11 1 2 2Engytime 18 15 10 10 1 2 2

FIG. 6 – Valeur de la qualité de la segmentation selon l’indice de Jaccard pour chaquealgorithme sur chaque base de données.

Page 13: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

FIG. 7 – Valeur de l’indice de stabilité de la segmentation pour chaque algorithme surchaque base de données.

La visualisation des groupes obtenus confirme ces résultats. En effet, l’algorithmeDS2L-SOM est un puissant outil pour visualiser les groupes en deux dimensions.

(a) Données d’apprentissage et densité estimée.

(b) Segmentation de la SOM avec DS2L-SOMet projection des étiquettes sur les données.

(c) Segmentation de la SOM avec une CAH etprojection des étiquettes sur les données.

FIG. 8 – Résultats obtenus à partir d’une CAH ou de S2L-SOM sur les données “Ring”.

Page 14: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

(a) Données d’apprentissage et densité estimée.

(b) Segmentation de la SOM avec DS2L-SOMet projection des étiquettes sur les données.

(c) Segmentation de la SOM avec une CAH etprojection des étiquettes sur les données.

FIG. 9 – Résultats obtenus à partir d’une CAH ou de S2L-SOM sur les données “Engy-time”.

Les figures 8 et 9 présentent deux exemples de résultats obtenus dans cette étude.Dans ces figures, chaque hexagone représente un prototype de la SOM et ses donnéesassociées. Les hexagones qui partagent une même couleur sont dans le même groupe.Les hexagones blancs ne font partie d’aucun groupe. Les groupes sont donc aisémentet clairement identifiables, ainsi que les zones sans donnée (unités non connectées).Tel qu’on peut le voir sur les figure 8 à 9, les résultats obtenus avec l’algorithme DS2L-SOM sont plus proches de la réalité que ceux obtenus avec d’autres méthodes. La figure9 montre que DS2L-SOM est capable de détecter même les groupes définis par la den-sité.

5 Conclusion et perspectives

Nous proposons dans cet article une méthode de classification non supervisée qui ef-fectue en même temps une réduction de dimension, par apprentissage d’une SOM, etune classification optimisée utilisant à la fois des informations sur les distances et la

Page 15: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

Classification à base de modes de densité

densité des données. La densité est estimée à partir de la détection de modes de densité.L’algorithme DS2L-SOM proposé détecte ainsi les régions de haute densité, caractéris-tiques des regroupements de données similaires, séparés par des régions de faible den-sité. Les performances de cette méthode ont été évaluées à partir de tests sur une sériede problèmes fondamentaux pour la classification, et comparées aux méthodes à deuxniveaux classiques s’appuyant sur CAH ou K-Moyennes. Les résultats expérimentauxdémontrent que l’algorithme proposé produit une classification de meilleure qualitéque les approches classiques. Ils montrent aussi que le grand avantage de l’algorithmeDS2L-SOM est qu’il est capable d’identifier des groupes de formes non convexes etmême des groupes qui se superposent en partie. De plus, dans notre approche, le nombrede groupes est déterminé automatiquement pendant l’apprentissage, c’est-à-dire qu’au-cun a priori sur ce nombre n’est requis.

Dans le futur, nous prévoyons d’incorporer de la plasticité à l’algorithme DS2L-SOMet d’évaluer son impact sur la qualité et la stabilité de la classification.

RéférencesAUPETIT M. (2005). Learning topology with the generative gaussian graph and the em

algorithm. In NIPS.BEATON D. & VALORA I. (2007). RADDACL : A recursive algorithm for clustering

and density discovery on non-linearly separable data. Prodeeding of InternationalJoint Conference on Neural Networks, p. 1423–1428.

BEN-HUR A., ELISSEEFF A. & GUYON I. (2002). A stability based method for dis-covering structure in clustered data. Pacific Symposium on Biocomputing, 7, 6–17.

BOHEZ E. L. J. (1998). Two level cluster analysis based on fractal dimension and ite-ratedfunction systems (ifs) for speech signal recognition. IEEE Asia-Pacific Confe-rence on Circuits and Systems, p. 291–294.

CABANES G. & BENNANI Y. (2007). A simultaneous two-level clustering algorithmfor automatic model selection. In Proceedings of the International Conference onMachine Learning and Applications (ICMLA’07), Cincinnati, Ohio, USA.

DAVIES D. L. & BOULDIN D. W. (1979). A cluster separation measure. IEEE Tran-sactions on Pattern Recognition and Machine Intelligence, 1(2), 224–227.

ESTER M., KRIEGEL H.-P., SANDER J. & XU X. (1996). A density-based algorithmfor discovering clusters in large spatial databases with noise. In KDD, p. 226–231.

GUÉRIF S. & BENNANI Y. (2006). Selection of clusters number and features subsetduring a two-levels clustering task. In Proceeding of the 10th International Confe-rence Artificial intelligence and Soft Computing 2006, p. 28–33, Palma de Mallorca,Spain.

HALKIDI M., BATISTAKIS Y. & VAZIRGIANNIS M. (2001). On Clustering ValidationTechniques. Journal of Intelligent Information Systems, 17(2-3), 107–145.

HALKIDI M., BATISTAKIS Y. & VAZIRGIANNIS M. (2002). Cluster Validity Methods.SIGMOD Record, 31(2,3), 40–45, 19–27.

HUSSIN M. F., KAMEL M. S. & NAGI M. H. (2004). An efficient two-level SOMARTdocument clustering through dimensionality reduction. In ICONIP, p. 158–165.

Page 16: Classification topographique à deux niveaux simultanés à base …cabanes/Publi/Nat/Cabanes... · 2011. 3. 9. · (SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première

CAp 2008

JAIN A. K. & DUBES R. C. (1988). Algorithms for clustering data. Upper SaddleRiver, NJ, USA : Prentice-Hall, Inc.

KOHONEN T. (1984). Self-Organization and Associative Memory. Berlin : Springer-Verlag.

KOHONEN T. (2001). Self-Organizing Maps. Berlin : Springer-Verlag.KORKMAZ E. E. (2006). A two-level clustering method using linear linkage encoding.

International Conference on Parallel Problem Solving From Nature, Lecture Notesin Computer Science, 4193, 681–690.

MARTINETZ T. (1993). Competitive hebbian learning rule forms perfectly topologypreserving maps. In S. GIELEN & B. KAPPEN, Eds., Proceedings of the Internatio-nal Conference on Artificial Neural Networks (ICANN-93), Amsterdam, p. 427–434,Heidelberg : Springer.

OCSA A., BEDREGAL C. & CUADROS-VARGAS E. (2007). DB-GNG : A constructiveself-organizing map based on density. Prodeeding of International Joint Conferenceon Neural Networks, p. 1506–1511.

PAMUDURTHY S. R., CHANDRAKALA S. & SAKHAR C. C. (2007). Local densityestimation based clustering. Prodeeding of International Joint Conference on NeuralNetworks, p. 1338–1343.

SBAI E. H. (1999). La classification automatique par les statistiques d’ordre. Traite-ment du signal, 16(6), 437–449.

ULTSCH A. (2005). Clustering with SOM : U*C. In Proceedings of the Workshop onSelf-Organizing Maps, p. 75–82.

VESANTO J. & ALHONIEMI E. (2000). Clustering of the self-organizing map. IEEEtransactions on naural networks, 11(3), 586–600.

VINCENT L. & SOILLE P. (1991). Watersheds in digital spaces : An efficient algorithmbased on immersion simulation. IEEE Trans. Pattern Anal. Mach. Intell., 13, 583–598.

WARD J. H. (1963). Hierarchical grouping to optimize an objective function. Journalof the American Statistical Association, 58(301), 236–244.

YUE S.-H., LI P., GUO J.-D. & ZHOU S.-G. (2004). Using greedy algorithm : DBS-CAN revisited II. Journal of Zhejiang University SCIENCE, 5(11), 1405–1412.