AUTO-ADAPTATIVITÉ ET TOPOLOGIE DANS LES CARTES DE … · TANGUY PALLAVER AUTO-ADAPTATIVITÉ ET TOPOLOGIE DANS LES CARTES DE KOHONEN Mémoire présenté à la Faculté des études

TANGUY PALLAVER

AUTO-ADAPTATIVITÉ ET TOPOLOGIE DANSLES CARTES DE KOHONEN

Mémoire présentéà la Faculté des études supérieures de l’Université Laval

dans le cadre du programme de maîtrise en physiquepour l’obtention du grade de Maître ès Sciences (M.Sc)

FACULTE DES SCIENCES ET DE GENIEUNIVERSITÉ LAVAL

QUÉBEC

JUIN 2006

c©Tanguy Pallaver, 2006

Résumé

Nous modifions l’algorithme non supervisé de Kohonen sur la base de considéra-tions biologiques, dans le double intérêt d’améliorer ses performances de modélisationet d’enrichir sa valeur de modèle théorique d’auto-organisation neuronale. À chaqueétape de nos recherches sur l’auto-adaptativité et la topologie des cartes de Kohonen,nous intégrons nos conclusions à un algorithme opérationnel : version normée, multi-rythmique et auto-instruite. Deux nouvelles fonctions sont introduites : l’Attractivitélocale Aint

L inspirée du « Growing Neural Gas network »(GNG) et la Connaissance Cint,qui permettent de réduire l’erreur de modélisation jusqu’à 80% de l’erreur standard.L’extension du cadre classique d’étude de la topologie petit-monde, récemment décou-verte dans quantité de réseaux, à la théorie de l’information, nous permet par ailleurs demettre en lumière le lien temporel entre structure (topologie) et fonction (apprentissageet connaissance) du système de neurones.

Abstract

Using biological understanding we have modified the unsupervised Kohonen algo-rithm, with two aims : to improve the performance of modelisation and to make thistheoretical model of neural self-organisation more realistic. At various stages during ourresearch into the auto-adaptivity and topology of Kohonen maps, we implemented ourfindings into practical algorithms creating normalised, multirhythmic and self-instructedversions. Two new functions are introduced : local attractivity Aint

L , inspired from Gro-wing Neural Gas networks (GNG), and knowledge Cint. Using these, modelisation erroris reduced by up to 80% of the standard error. Guided by recent work that showssmall-world topologies exist in a large number of networks, we have extended this clas-sic approach to information theory. This has highlighted the temporal link betweenstructure (topology) and function (learning and knowledge) in the neural system.

Avant-propos

Ces quelques lignes sont pour moi l’occasion d’adresser mes remerciements à ceuxqui ont permis de rendre possible mon travail de maîtrise ou qui m’ont accompagnédurant celui-ci.

En premier lieu, je tiens à remercier mon directeur le professeur Helmut Kröger quim’a accordé sa confiance et qui est resté ouvert à toutes les pistes de recherche quej’ai explorées. Je tiens à saluer l’homme passionné qui a constamment fait preuve degrandes qualités humaines. C’est aussi au professeur Marc Parizeau, mon codirecteur,que je veux témoigner ma reconnaissance pour le vif intérêt porté à mes recherches, ainsique pour m’avoir rendu familier avec les réseaux de neurones. Son sens de la pédagogieet sa droiture intellectuelle sont pour moi exemplaires. Je remercie aussi les professeursYunlong Sheng et Simon Gagné qui ont bien voulu corriger ce mémoire et en améliorerla qualité par la contribution de leur expertise respective.

Par delà le campus, mes pas ont croisé ceux d’hommes et de femmes exceptionnels.Le soir de mon arrivée à Québec, je rencontrai celle qui allait m’accompagner pendantdeux ans, à qui je dédicace ce mémoire : Julie Bellegarde. Toute ta province, tout tonpays, c’est à travers toi que je le vois.

Une autre personne d’exception doit trouver ici l’expression de mes remerciements etde mon admiration : Carine Thibaud. Sans son dynamisme et sa détermination, l’optionétranger de l’Institut d’Optique à l’Université Laval n’eût probablement pas vu le jour.Peu de gens ont la capacité de bâtir des ponts, et c’est assurément une faculté queCarine a su développer.

Je remercie mon père et ma mère. Il est parfois plus difficile d’exprimer ses sentimentsaux personnes les plus proches de soi et malgré ma nature discrète sur la question,je veux écrire que mes sentiments pour vous deux sont forts et sincères. Merci pourvotre soutient continu. Mes pensées s’envolent en même temps vers mon frère bienaiméVincent. J’embrasse mes deux grand-mères qui, je le sais, pensent beaucoup à moi.

Avant-propos v

Parce qu’ils ont coloré mon quotidien, je remercie ceux qui furent mes colocataireset qui sont mes amis, Grégoire Seyrig, Nicholas Parham et Claire Brenner. De mêmeà l’université, combien de conversations drôles, rassurantes, révolutionnaires, simples,passionnées ! Merci à Jean-François Laprise, Reza Zomorodi, Ahmad Hosseinizadeh,Gurgen Melkonyan, Harold Dehez, Annie Mercier, Donald Peyrot, Louis Nadeau, Jean-François Rivard, Mathieu, Patrick, David, Judicaël, Nicolas. Merci à Émilie Guay, quia partagé le même local de travail et qui a bien voulu relire mon mémoire. Tous sontdevenus des amis.

Je remercie les amis que j’ai rencontrés pendant mon séjour, en omméttant d’expri-mer textuellement leurs influences et leurs qualités - il me faudrait plus d’un roman -mais qui vivent dans ma mémoire : Vincent Bergeron, Lukasz Czuban, Vincent Boutin,Jonathan Dreyfus-Schmidt, Franck Alex, Christel Le Gall, Léa Weiss, Akari, Adelwĳn,JS, Florent Ruet, Laure, Sébastien Dumas, Matthieu Dumas, Julie Desbecquets, JM,Juliette Dutour, Tifenn Delrue, Pierre Sonnet, Antoine Géré, PH Poudré, DaphnéeClet, Alexandre, Guillaume, Kiritin, Yannick Lafresnière, Michel Tremblay, William,Priscilla, Joanna, Éric, Nicole, Auriane Slama, François Kelly, Paul et Mariette De-mers.

Je remercie mes amis de France avec qui j’ai eu correspondance plus ou moinsrégulière pendant mon séjour, en particulier Dianne Monnet, qui a traversé l’océan,Hélène Saverot, Frédéric Saverot, Clara Delhomme, Charlotte Seidner, Paf, FlorenceCahiez, Houssine Makhlouf, Marie Regairaz, Xavier Larmurier. Merci à vous et à ceuxque je ne cite pas, mais qui ne sont pas moins présents en mon esprit.

Grâce à vous tous, à vos idées et surtout à ce que vous êtes, grâce à l’accueil desquébécois, j’ai pu vivre une expérience formidable.

À Julie Bellegarde, qui a imprimé de son sourire lamémoire de mon coeur.

Ce n’est point parce que j’ai réussi que

je suis content ; mais c’est parce que

j’étais content que j’ai réussi.

Alain, Propos sur le Bonheur.

Table des matières

Résumé ii

Abstract iii

Avant-propos iv

Table des matières vii

Liste des tableaux ix

Table des figures x

1 Introduction 11.1 Modéliser un cerveau ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Pistes de recherche ouvertes . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Cadre d’étude 52.1 Algorithme standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Aspects généraux . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.2 Formalisme mathématique . . . . . . . . . . . . . . . . . . . . . 7

2.2 Éléments de topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.1 Bases mathématiques . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Espaces topologiques dans les SOM . . . . . . . . . . . . . . . . 14

2.3 Propriétés des SOM et limitations . . . . . . . . . . . . . . . . . . . . . 192.4 Développements récents . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5 Paramètres d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Auto-adaptativité 283.1 Étude de la norme des déplacements . . . . . . . . . . . . . . . . . . . 29

3.1.1 Version normée . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2 Étude de l’apprentissage séquentiel . . . . . . . . . . . . . . . . . . . . 33

Table des matières viii

3.2.1 Attractivité locale . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.2 Version multirythmique . . . . . . . . . . . . . . . . . . . . . . 343.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 Étude de la topologie de voisinage . . . . . . . . . . . . . . . . . . . . . 423.3.1 Phénomène Petit-monde . . . . . . . . . . . . . . . . . . . . . . 423.3.2 Contraintes topologiques dans les SOM . . . . . . . . . . . . . . 47

4 Topologie et connaissance 614.1 Lien structure-fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1.1 Le petit-monde en théorie de l’information . . . . . . . . . . . . 614.1.2 Kohonen sous le regard petit-monde . . . . . . . . . . . . . . . . 644.1.3 Vers une topologie auto-adaptative . . . . . . . . . . . . . . . . 67

4.2 Fonction Connaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.2.1 Apprentissage harmonique . . . . . . . . . . . . . . . . . . . . . 694.2.2 Validité de la fonction Connaissance . . . . . . . . . . . . . . . 70

4.3 Version auto-instruite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.3.1 Rythme auto-adaptatif . . . . . . . . . . . . . . . . . . . . . . . 734.3.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5 Synthèse 805.1 Données bidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 805.2 Données multidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . 825.3 À propos des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6 Conclusion 86

Bibliographie 89

A Code de la version auto-instruite avec Matlab 7.0 93

B Fonctions auxiliaires 97

Index 100

Liste des tableaux

3.1 Erreurs absolues, version standard et normée . . . . . . . . . . . . . . . 323.2 Erreurs absolues, version multirythmique . . . . . . . . . . . . . . . . . 413.3 Erreurs absolues, version multirythmique sous contraintes . . . . . . . . 60

4.1 Valeurs de Dglobal, Dlocal pour différentes topologies d’une grille 10× 10 644.2 Erreurs absolues, version auto-instruite . . . . . . . . . . . . . . . . . . 79

5.1 Erreurs absolues, données « Pollen » . . . . . . . . . . . . . . . . . . . 825.2 Erreurs absolues, données « PM10 » . . . . . . . . . . . . . . . . . . . . 835.3 Erreurs absolues, données « Prima Indians Diabetes » . . . . . . . . . . 835.4 Erreurs absolues, données « Hall of Fame » . . . . . . . . . . . . . . . . 83

Table des figures

2.1 Grille de neurones 10× 10 . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Schéma du réseau de Kohonen . . . . . . . . . . . . . . . . . . . . . . . 72.3 Fonctions décroissantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.4 Algorithme standard de Kohonen . . . . . . . . . . . . . . . . . . . . . 92.5 Illustration de la topologie de voisinage . . . . . . . . . . . . . . . . . . 112.6 Correspondance entre graphe de Delaunay et diagramme de Voronoï . . 152.7 Exemple de transformation non continue de X à Y . . . . . . . . . . . 182.8 Exemple d’auto-organisation d’une carte 1D . . . . . . . . . . . . . . . 202.9 Exemple d’auto-organisation d’une carte 2D . . . . . . . . . . . . . . . 212.10 Exemple de modélisation d’un espace 3D par une carte 2D . . . . . . . 222.11 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.12 Jeux de données bidimensionnelles . . . . . . . . . . . . . . . . . . . . . 27

3.1 Déplacement standard d’un goupe de neurones . . . . . . . . . . . . . . 293.2 Comparaison pour la version normée (jeu 1) . . . . . . . . . . . . . . . 313.3 Comparaison pour la version normée (jeu 2) . . . . . . . . . . . . . . . 313.4 Comparaison pour la version normée (jeu 3) . . . . . . . . . . . . . . . 323.5 Séquence des ηg pendant l’apprentissage . . . . . . . . . . . . . . . . . 363.6 Rythmes multiples et auto-adaptatifs d’apprentissage . . . . . . . . . . 373.7 Version multirythmique (jeu 1) . . . . . . . . . . . . . . . . . . . . . . 383.8 Version multirythmique (jeu 2) . . . . . . . . . . . . . . . . . . . . . . 393.9 Version multirythmique (jeu 3) . . . . . . . . . . . . . . . . . . . . . . 393.10 Comparaison de Eext(τ) et Aint

L (τ) . . . . . . . . . . . . . . . . . . . . . 403.11 Toile d’internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.12 Caractéristiques d’un réseau petit-monde . . . . . . . . . . . . . . . . . 443.13 Plage d’existence des réseaux petit-monde . . . . . . . . . . . . . . . . 453.14 Eext(τ) pour un ensemble de cartes R-aléatoires . . . . . . . . . . . . . 473.15 Modélisation finale avec une carte 0.02-aléatoire . . . . . . . . . . . . . 483.16 Critére A : Eext(τ) pour différentes valeurs de Rmax . . . . . . . . . . . 503.17 Critère A : comportement des neurones . . . . . . . . . . . . . . . . . . 513.18 Critère B : Eext(τ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.19 Critère B : Rmax = 0.2, b = 15. . . . . . . . . . . . . . . . . . . . . . . 54

Table des figures xi

3.20 Graphes explicites de V (t) . . . . . . . . . . . . . . . . . . . . . . . . . 553.21 Correspondance entre V (t) et K(t) . . . . . . . . . . . . . . . . . . . . 563.22 Critère B, avec ou sans reconnexion . . . . . . . . . . . . . . . . . . . . 573.23 Rupture de l’ordre topologique . . . . . . . . . . . . . . . . . . . . . . . 593.24 Décroissance de K(t) linéaire par morceaux . . . . . . . . . . . . . . . 59

4.1 Évolution temporelle de Dglobal et Dlocal pendant l’apprentissage . . . . 664.2 Comparaison entre grille fixe et grille dynamique . . . . . . . . . . . . . 674.3 Algorithme standard : la topologie détermine la connaissance . . . . . . 684.4 Correspondance de Cint(τ) et Eext(τ) pour différentes modélisations . . 714.5 Correspondance temporelle de Cint(t) et Eext(t) . . . . . . . . . . . . . 724.6 Variation de K(t) en fonction de Cint(t), Γ = 0.8 . . . . . . . . . . . . . 744.7 Eext(τ) en fonction de Γ et Γ(t), version auto-instruite . . . . . . . . . 764.8 Version auto-instruite (jeu 1) . . . . . . . . . . . . . . . . . . . . . . . 774.9 Version auto-instruite (jeu 2) . . . . . . . . . . . . . . . . . . . . . . . 784.10 Version auto-instruite (jeu 3) . . . . . . . . . . . . . . . . . . . . . . . 78

5.1 Sythèse des résultats sur des données 2D . . . . . . . . . . . . . . . . . 815.2 Sythèse des résultats sur des données multidimensionnelles . . . . . . . 84

Chapitre 1

Introduction

1.1 Modéliser un cerveau ?

Comment fonctionne un cerveau ? Qu’est-ce que l’intelligence ?Malgré l’intérêt considérable que l’on porte aujourd’hui à ces questions et le dévelop-pement fulgurant des sciences cognitives au cours des vingt dernières années, notrecompréhension des processus cognitifs reste fragmentée. Des disciplines aussi diversesque la biologie, l’informatique, la psychologie ou la biophysique apportent leurs élémentsde réponse, sans pour autant trouver systématiquement dans leur complémentarité unterrain d’entente. En particulier, les modèles physiques et informatiques de réseaux deneurones artificiels, qui se doivent de poser des hypothèses grossières devant la com-plexité biologique, ont parfois été considérés comme trop simples pour rendre comptede phénomènes biologiques. Nous verrons que de la rencontre entre mathématiques,physique, réseaux de neurones artificiels et biologie, peuvent émerger les concepts lesplus intéressants qui, espérons le, nous permettrons de préciser notre connaissance dufonctionnement du cerveau.

Un certain nombre de modèles théoriques se sont éloignés progressivement de larigidité des premiers modèles connexionnistes, nés du neurone formel de Mc Cullochet Pitts [36] de 1943. Empreints d’une plus grande plausibilité biologique, ils ont cer-tainement contribué à mieux comprendre le fonctionnement du cerveau ou de régionscérébrales. Parmi les plus connus, on peut citer : Hopfield et la mémoire associative[16], Hodgkin-Huxley et la dynamique des potentiels électriques [15], Von der Malsburget l’auto-organisation des cellules du cortex strié [53], Linsker et l’autostructuration descellules du cortex visuel [34], Kohonen et les cartes auto-organisées (Self-OrganizingMaps ou SOM) [26, 27, 29]. Ces trois derniers modèles s’inspirent directement de tra-

Chapitre 1. Introduction 2

vaux en physiologie du cortex visuel accomplis dans les années 60 par Hubel et Wiesel[17, 18, 19]. Tous ces modèles ont une caractéristique commune : ils sont non supervi-sés, c’est-à-dire qu’ils apprennent par eux-même sans qu’une entité externe indique àchaque neurone ce qu’il doit apprendre. Cette contrainte semble s’imposer si l’on veutmodéliser des tâches cognitives, par opposition au type d’apprentissage supervisé où laréponse individuelle d’un neurone est connue à l’avance.

1.2 Pistes de recherche ouvertes

S’ils sont directement inspirés de travaux physiologiques ou neurologiques, ces mo-dèles n’en sont pas pour autant satisfaisants du point de vue du réalisme biologique. Eneffet, les règles d’apprentissage de tous ces réseaux sont figées et conduisent souvent,comme nous le verrons, à un manque d’adaptation dans des situations d’apprentissagediverses. Ce manque d’auto-adaptativité rend tous les algorithmes énumérés, à nos yeux,non intelligents ou trop peu intelligents.

Une autre caractéristique du cerveau fait défaut à ces modèles : la topologie dyna-mique. Alors que le cerveau est extrêmement plastique, que des connexions naissent etmeurent toute sa vie durant, ces réseaux de neurones artificiels sont rigides, structurelle-ment figés dans le temps. Hors, la plasticité structurelle du cerveau semble déterminantepour l’apprentissage, sinon fondamentale, comme l’expliquent Sejnowski et al en consi-dérant les contraintes biophysiques sur les cerveaux de quelques 59 mammifères [31].Loin de s’arrêter à ces considérations, plusieurs groupes de chercheurs [5, 46, 47, 11]ont montré que chez le rat, le chat et le macaque, bien que très irrégulière, la connec-tivité du cerveau n’a rien d’aléatoire. Chialvo et al [50] montrent qu’on peut séparerdes groupes (clusters) de neurones chez toutes ces espèces. Non content de ces seulesconstatations, il a entrepris des tests sur 7 cerveaux humains, utilisant les plus récentestechniques en imagerie médicale (fMRI ) [8]. L’équipe parvient, en construisant la ma-trice de corrélation des activités électriques de 36× 64× 64 zones millimétriques danstout le cerveau, à contruire un graphe (ensemble de sommets et d’arrêtes) du cerveaufonctionnel. Une structure étonnante, de forte connectivité à l’échelle globale et locale,émerge. On appelle cette propriété petit-monde (usuellement appelée small world dansla littérature), qui a été mise en évidence pour la première fois en 1998 dans la lettre àNature de Watts et Strogatz, célèbre depuis lors [56].

Plusieurs récents travaux de recherche ont étudié l’influence de la topologie sousle regard du petit-monde, pour divers algorithmes d’apprentissage. Kröger et al [49]montrent une amélioration des performances de l’apprentissage supervisé du percep-


tron multi-couche dans la fenêtre topologique petit-monde. Pour l’apprentissage nonsupervisé, nombre d’études se sont intéressées à la capacité de mémoire du modèle deHopfield. L’impulsion a été donnée par Bohland et Minai qui concluent à une perfor-mance quantitative équivalente à une topologie irrégulière, avec l’avantage de réduireles coûts en énergie, essentielle biologiquement [4].

Dans ce contexte, il apparaît un ensemble de questions soit partiellement répondues,soit inexplorées : les réseaux de neurones artificiels sont-ils suffisamment adaptatifs pourrendre compte d’un comportement intelligent ? La topologie petit-monde joue t-elle unrôle dans les tâches non supervisées de classification ? Ne faut-il pas un réseau dont laconnectivité soit dynamique dans le temps pour optimiser l’apprentissage ?Le réseau de Kohonen est tout indiqué pour notre étude : simple, non supervisé et ins-piré d’études neurophysiologiques (aires de motricité et sensoriels), il est utilisé commealgorithme de classification dont la connectivité évolue dans le temps en terme de voi-sinage.

1.3 Objectifs

On cherchera, dans ce travail, à voir dans quelle mesure nos connaissances en biologiepeuvent nous permettre d’améliorer l’algorithme de Kohonen qui en est inspiré. Le com-portement de l’algorithme, lorsqu’il est modifié, nous permet en même temps de mieuxcomprendre l’avantage (ou l’inconvénient) de tel ou tel fonctionnement biologique, etde valider ou non certaines hypothèses sur celui-ci.

La liste suivante établit mes objectifs de recherche de façon détaillée :

⊲ Identifier les règles d’apprentissage les plus rigides de l’algorithme.⊲ Identifier ses principales abstractions par rapport à la réalité biologique.⊲ Modifier ces règles et améliorer les performances standard, dans le souci de ne pas

s’écarter de la plausibilité biologique.⊲ Étudier les contraintes topologiques dans l’algorithme.⊲ Comprendre le rôle éventuel d’une topologie petit-monde dans le processus d’ap-

prentissage.⊲ Étudier la possibilité et l’intérêt d’une topologie dynamique.⊲ Étudier la possibilité d’une topologie auto-adaptative.⊲ Proposer, si possible à chaque étape de conclusion importante, un algorithme

opérationnel issu de ces conclusions.


Une double motivation anime ce travail : améliorer les performances de l’algorithmeet mieux comprendre le fonctionnement biologique à travers nos travaux théoriques.

1.4 Plan du mémoire

Mon mémoire suivra le plan suivant :

Le Chapitre 2, Cadre d’étude, présente la version standard de l’algorithme deKohonen et les notations formelles utilisées dans ce mémoire. Quelques élémentsde topologie sont introduits ensuite afin de décrire avec rigueur les propriétéset les limitations des SOM. Nous verrons quelles ont été les modifications etaméliorations majeures, relatives à nos objectifs de recherche, que l’on trouvedans la littérature jusqu’aux plus récents développements. Enfin, nous présentonsles principaux supports et paramètres de notre étude.Au Chapitre 3, Auto-adaptativité, nous montrerons qu’il est possible d’aug-menter la qualité de modélisation des SOM en rendant plus souples les lois quiles régissent, dans le respect du principe suivant : maintenir la vraisemblancebiologique. Deux nouvelles versions de l’algorithme, baptisées version norméeet version multirythmique, corespondant aux deux premières sections, découlentde ces travaux. Nous considérons ensuite l’auto-adaptativité de notre systèmedu point de vue d’une topologie dynamique du réseau, c’est-à-dire de l’auto-adaptativité du voisinage. Au départ de cette troisième section, nous définissonsles propriétés petit-monde. Nous effectuons ensuite une série de simulations di-verses et en tirons plusieurs conclusions sur la nature des contraintes topologiquesqu’impose l’algorithme.Nous commençons le Chapitre 4, Topologie et Connaissance, par une géné-ralisation à la théorie de l’information du cadre classique d’étude du phénomènepetit-monde. Sous ce nouveau regard, nous mettons en lumière le rôle d’une to-pologie dynamique du réseau dans la genèse de l’apprentissage. En construisantune fonction Connaissance, nous exploitons ce lien pour parvenir à une troi-sième version de l’algorithme, appelée version auto-instruite, qui synthétise nosmeilleurs résultats.Au Chapitre 5, Synthèse, nous quantifions les améliorations proposées surdes données non synthétiques pour montrer l’invariance de nos resultats avec ladimension de l’espace à modéliser.Le Chapitre 6, Conclusion résume l’ensemble de mes résultats pratiques etthéoriques, et propose une continuité de recherche cohérente avec le présenttravail.

Chapitre 2

Cadre d’étude

2.1 Algorithme standard

2.1.1 Aspects généraux

Nous présentons ici la version de l’algorithme d’auto-organisation de Kohonen quisert de base à nos travaux, que nous appellerons algorithme standard. Il s’agit de laforme de 1990, telle qu’expliquée dans [28], basée sur la version originale de 1982 [26].

Le réseau1 de Kohonen est un réseau de neurones artificiel, qui apprend à modéliserun espace de données, aussi appelé ensemble de stimuli, par un ensemble de prototypes,les « neurones ». Stimuli et neurones sont des vecteurs de l’espace d’entrée. Si le réseauest constitué d’un nombre N de neurones, on fait donc une partition en N classes del’espace d’entrée constitué d’un nombre de stimuli Q ≫ N . Chaque neurone i étantun prototype, on lui associe un vecteur de poids wi appartenant à l’espace d’entrée.Le réseau apprend donc, pour un ensemble de stimuli donné, à positionner dans cetespace d’entrée N centres W = w1, w2, . . . , wN. Le réseau apprend d’autant mieuxque la partition, ou classification réalisée, est meilleure. Par exemple, dans le cas trivialoù N = 1, la meilleure partition possible est évidemment le cas où W est le centre demasse des données, qui minimise la distance à l’ensemble des données.

On voit ici que la qualité de modélisation dépend d’une métrique de distance. Dansun espace vectoriel, on utilise la norme ‖ x− y ‖ pour calculer la distance entre deux

1Dans ce mémoire, on utilise les termes graphe, grille, carte ou réseau de façon indifférente, de même

avec sommet, noeud et neurone, ainsi qu’arrête, lien ou connexion.

Chapitre 2. Cadre d’étude 6

vecteurs x et y. La norme la plus utilisée dans un espace euclidien Rn est la norme

euclidienne (ou l2), que l’on utilisera également par convention, mais qui pourrait êtreremplacée par toute norme correctement définie. On utilise donc :

‖x‖ =√≺ x,x ≻ =

√xTx =

√

x21 + x2

2 + · · · + x2n (2.1)

où ≺ . ≻ désigne le produit scalaire.

À présent, nous pouvons définir une fonction d’erreur absolue qui soit un critèrequantitatif de la qualité de modélisation de nos données. Cette fonction, que nous ap-pellerons Eext, prend tout simplement en compte la distance qui sépare chaque stimulusdu neurone, ou prototype, le plus proche. Elle est définie comme suit :

Eext =

Q∑

q=1

mini∈1,...,N

‖pq −wi‖

(2.2)

où Q est le nombre de stimuli, N le nombre de neurones, wi le neurone d’indice i etpq le stimulus q. On peut se servir de cette fonction à la fin d’une simulation d’ap-prentissage, pour voir si la modélisation est bonne. Cependant, cette fonction ne peutpas être utilisée par le réseau pendant l’apprentissage. En effet, puisque l’apprentissageest non supervisé, le réseau ne peut pas être guidé par une fonction de coût ou d’er-reur externe2 (d’où la notation Eext) pour améliorer ses performances. Il ne peut suivreles conseils d’un « professeur » qui connaît les bonnes et les mauvaises réponses parcequ’il a une connaissance globale du problème. Si, à un moment donné de l’apprentis-sage, notre exemple simpliste de réseau constitué d’un seul neurone semble diverger ducentre de masse des stimuli, on ne peut pas l’influencer et corriger son comportement.Il doit rester autonome. Ainsi, le réseau de Kohonen se nomme alternativement carteauto-organisée ou Self-Organizing Map (SOM).

Outre la modélisation des entrées avec des prototypes, une carte auto-organiséepermet de construire un graphe (généralement une chaîne unidimensionnelle ou grillebidimensionnelle de neurones) permettant de structurer cet espace (quantification vec-torielle), donc de visualiser, en une ou deux dimensions, la topologie des liens entreles classes. Il convient de rappeler ici que le réseau de Kohonen n’est pas un simplealgorithme de classification, mais bien un réseau de neurones artificiels, inspiré destravaux physiologiques de Hubel et Wiesel [17, 18, 19]. La grille de voisinage est unesimplification formelle de la connectivité des neurones, liés entre eux dans la réalitépar les synapses. Dans toutes les simulations que nous effectuerons, on utilise la grillebidimensionnelle la plus classique, de forme carrée (Fig. 2.1).

2On adopte la convention d’écriture F ext pour une fonction externe au système, c’est-à-dire inconnue

et inutilisable de lui, et F int pour une fonction interne au système.


Fig. 2.1 – Grille de neurones 10× 10

2.1.2 Formalisme mathématique

Architecture de l’algorithme

Voyons plus en détail le processus d’apprentissage non supervisé de la topologie desdonnées d’entrée, et les équations qui le régissent.La figure 2.2 montre de façon schématique la structure de l’apprentissage.

Fig. 2.2 – Schéma du réseau de Kohonen

Les stimuli sont tour à tour tirés aléatoirement, chaque stimulus étant présenté àtous les neurones du réseau (dite couche de Kohonen), parmi lesquels un « vainqueur »est sélectionné. On parle d’apprentissage compétitif . Le neurone vainqueur n’est autreque le prototype le plus proche, au sens de la norme définie (Éq. 2.1), du stimulusprésenté. Le neurone gagnant g apprend alors ce stimulus en rapprochant son vecteurde poids de celui-ci. Il est déterminé par l’équation suivante :

g(p) = arg mini‖ p−wi ‖, i ∈ 1, . . . , N (2.3)


où N est le nombre total de neurones du réseau.

Les neurones qui lui sont liés, i.e. ses voisins dans la grille de voisinage, apprennentde façon identique. On note Vg ce voisinage et l’on obtient l’équation de mise à jour despoids, qui suit :

∆wi(t) =

η(t)[p(t)−wi(t)] si i ∈ Vg(t)

0 sinon(2.4)

où p(t) est le stimulus présenté au temps t, g est le neurone gagnant, Vg l’ensemblede ses voisins, wi les poids des neurones mis à jour, et η une quantité appelée le tauxd’apprentissage (0 ≤ η ≤ 1). Lorsque η < 1, le neurone n’apprend pas totalement lestimulus.

L’apprentissage est donc local, les neurones se spécialisent individuellement sur dessous-ensembles de stimuli. L’équation 2.4 est une forme de la règle de Hebb avec oubli,qui a été découverte par le neurophysiologiste Donald Hebb dans les années 40 [14] eta inspiré un grand nombre d’architectures neuronales non supervisées.

Dans l’équation 2.4, le taux d’apprentissage η et le voisinage Vg dépendent du temps.L’idée est d’employer au début un grand taux d’apprentissage ainsi qu’un grand voisi-nage, pour les diminuer ensuite progressivement. De la sorte, les neurones se déplacentdans tout l’espace au début de l’apprentissage, et de façon de plus en plus précise àmesure que l’apprentissage progresse pour que l’algorithme converge. La carte des neu-rones se déploie rapidement dans la première phase dite d’organisation, puis affine laposition de ses centres dans la deuxième phase, dite de convergence.

Nous utilisons une décroissance linéaire pour le taux d’apprentissage et une dé-croissance exponentielle (par morceaux) pour l’ordre de voisinage3, combinaison quipermet une bonne performance de l’algorithme.

η(t) =

η0 −(

η0−ητ

τ

)

t si t < τ

ητ sinon(2.5)

V (t) =

E[

V0

(

e−t/τ−e−1

1−e−1

)]

+ 1 si t < τ

0 sinon(2.6)

où τ est le paramètre qui détermine la fin de la phase d’organisation et le début de laphase de convergence. η0 et V0 sont respectivement le taux d’apprentissage et l’ordre devoisinage initial (à t = 0), ητ est le taux d’apprentissage en phase de convergence. E[ ]

3On note V (t) le scalaire appelé ordre de voisinage à t et Vi(t) l’ensemble des neurones qui consti-

tuent le voisinage de i à t


est la fonction partie entière, qui discrétise à des valeurs entières la décroissance expo-nentielle. Le voisinage d’un neurone i est défini sur la base de l’ordre de voisinage, selonune métrique de distance propre aux graphes (voir page 10). Les fonctions décroissantesη(t) et V (t) sont illustrées à la figure 2.3.

0 5000 10000 150000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

temps

tau

x d

’ap

pre

ntis

sag

e s

tan

da

rd

Phase d’organisation Phase deconvergence

0 5000 10000 150000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

vois

ina

ge

sta

nd

ard

Phase d’organisation Phase deconvergence

(a) (b)

Fig. 2.3 – Décroissance standard (a) du taux d’apprentissage et (b) de l’ordre de voi-sinage

La figure 2.4 résume l’architecture de l’algorithme standard.

1. Initialiser les poids wi(0) avec de petites valeurs aléatoires.

2. Fixer N, η0, ητ , V0, τ et tmax.

3. t = 1.

4. Répéter tant que t < tmax :

(a) Choisir aléatoirement un stimulus p(t) parmi l’ensembledes données.

(b) Déterminer le neurone gagnant g(p) avec l’équation 2.3.

(c) Mettre à jour les poids avec l’équation 2.4.

(d) Mettre à jour η(t) et V (t) avec les équations 2.5 et 2.6.

(e) t = t + 1.

Fig. 2.4 – Algorithme standard de Kohonen


Théorie des graphes

La carte de neurones de Kohonen, ou grille de voisinage (Fig. 2.1), peut être décriteformellement comme un graphe. Dans cette partie, nous définissons un certain nombrede concepts que nous utiliserons tout au long de ce mémoire. L’ouvrage [44] nous sertde référence.

Définition 2.1.1 Un graphe non orienté G = (S, A) est défini par un couple ordonnéconstitué :

1. d’un ensemble de sommets S = s1, s2, . . . , sN2. d’un ensemble d’arrêtes A = a1, a2, . . . , am ⊆ P1(S) ∪ P2(S)

où Pi(S), 0 ≤ i ≤| S |, désigne le sous-ensemble de l’ensemble des parties de S dontchaque élément (ensemble) possède un cardinal égal à i. Le cardinal de S s’appellel’ordre du graphe.

Définition 2.1.2 Un graphe orienté G = (S, A) est défini par un couple ordonnéconstitué :

1. d’un ensemble de sommets S = s1, s2, . . . , sN2. d’un ensemble d’arcs A = a1, a2, . . . , am ⊆ S × S

où S × S, désigne le produit cartésien de l’ensemble S avec lui-même.

Notre grille de neurones est donc un graphe non orienté. Si deux sommets i et j

sont liés, l’influence de i sur j est équivalente à l’influence de j sur i.

Définition 2.1.3 Une boucle est une arrête a = si ∈ A. On dit que le sommet si

est lié à lui-même.

Définition 2.1.4 Deux sommets distincts d’un graphe G = (S, A) sont dits adjacents

s’il existe une arrête liant le premier au second. On appelle matrice d’adjacence A

la matrice N ×N (où N est l’ordre du graphe) des aij tels que aij = 1 si les sommets i

et j sont adjacents, 0 sinon.

Définition 2.1.5 Dans un graphe non orienté, on appelle chemin ou chaîne de lon-gueur q une séquence [a1, a2, . . . , aq] d’arrêtes telle que chaque arrête ai de la séquence


uu u

u

u

V = 1

1 uu u

u

u

u

u

u

u

u

u

u u

V = 2

@@

@

2

Fig. 2.5 – Illustration de la topologie de voisinage

possède une extrémité en commun avec l’arrête précédente, et l’autre extrémité en com-mun avec l’arrête suivante.On appelle chemin géodésique le plus court chemin entre deux sommets du graphe.Celui-ci n’est pas forcément unique.

Avec la définition d’adjacence et de chemin géodésique, une nouvelle métrique dedistance spécifique au graphe apparaît : la distance d’adjacence dA

ij, mesurée entredeux sommets i et j, égale au nombre d’arrêtes q du chemin géodésique entre i et j. Sice chemin n’existe pas, dA

ij =∞. Dans un graphe connexe (Définition 2.1.6), la distanced’adjacence entre deux sommets quelconques est toujours finie.

Dans le cas de notre étude, c’est la grille de référence qui détermine l’ensemble desdistances dA

ij entre deux noeuds quelconques du réseau.

On peut maintenant définir le voisinage du neurone i au temps t :

Vi(t) =

j ∈ 1, . . . , N, j 6= i | dAij ≤ V (t)

(2.7)

où V (t) est l’ordre de voisinage à t et dAij la distance d’adjacence de i à j. La figure 2.5

montre le voisinage du neurone central pour V (t) = 1 et V (t) = 2.

Dans le cas où l’on connectera explicitement deux neurones voisins, on appelleraordre de la connexion l’entier dA correspondant à cette connexion. Sur la figure2.5, on peut voir une connexion d’ordre 1 et une autre d’ordre 2. Ce sont uniquementles connexions d’ordre 1 (celles de la grille dite régulière) qui déterminent les ordressupérieurs.


Définition 2.1.6 Un graphe G = (S, A) est dit connexe si pour toute paire de som-mets si et sj, il existe une chaîne [si, . . . , sj] reliant ces deux sommets.

La grille de neurones carrée de référence de l’algorithme standard (Fig. 2.1) estdonc un graphe connexe.

Définition 2.1.7 Un graphe G est simple s’il ne possède aucune boucle et au plus unarc pour relier chaque paire de sommets.

Tous les graphes sur lesquels nous travaillons sont des graphes simples.

Définition 2.1.8 On appelle multiplicité de (x, y) le nombre d’arcs ayant x commeextrémité initiale et y comme extrémité terminale. On note ce nombre m+

G(x, y) et l’onpose :

m−G(x, y) = m+

G(y, x)

mG(x, y) = m+G(x, y) + m−

G(x, y)

Un graphe G est complet si mG(x, y) ≥ 1 pour tout x, y ∈ S, avec x 6= y.

Si l’ordre de voisinage vérifie

V (t) ≥ maxi,j

dAij

alors le graphe de voisinage des neurones est complet.

Définition 2.1.9 On dit qu’un graphe est planaire s’il est possible de le représentersur un plan de sorte que ses sommets soient des points distincts, ses arrêtes des courbessimples et que deux arrêtes ne se rencontrent pas en dehors de leurs extrémités. Ladimension d’un graphe est liée à cette définition : si, avec de telles contraintes, ladimension minimale de l’espace euclidien de représentation du graphe est D, alors D

est appelée la dimension de G.

La dimension de notre grille de référence carrée est donc 2.


2.2 Éléments de topologie

Pour bien analyser les propriétés des cartes de Kohonen, il faut comprendre l’im-portance de la topologie du réseau de Kohonen dans l’algorithme de classification. Eneffet, avec des topologies du graphe différentes, la modélisation finale sera plus ou moinsproche de la solution optimale, définie par le minimum globale de la fonction Eext (Éq.2.2).

Au chapitre Topologie Preservation in Self-Organizing Maps de [42], on voit com-ment Kohonen définit les propriétés topologiques des SOM dans le cas d’une carte 1Dlinéaire. Cependant, Villmann et al mettent le doigt sur les limitations de cette ap-proche, qui, d’une part manque de rigueur mathématique, d’autre part n’explique pasquelle est l’influence de la topologie du réseau de neurones sur les propriétés de la cartede modélisation finale.

2.2.1 Bases mathématiques

Commençons par quelques notions mathématiques élémentaires de topologie ([6]).

Définition 2.2.1 Un espace topologique (X, T ) est un ensemble, X, avec une col-lection, T , de sous-ensemble de X, appelés ensembles « ouverts », qui satisfait aux réglessuivantes :

1. L’ensemble X est « ouvert »

2. L’ensemble vide ∅ est « ouvert »

3. Toute union d’ensembles « ouverts » est « ouverte »

4. Toute intersection finie d’ensembles « ouverts » est « ouverte ».

La collection des ensembles « ouverts » de X s’appelle la topologie T définie sur X.

Il faut faire attention au terme « ouvert ». Il faut plutôt le voir comme le qualificatifemployé pour désigner la collection d’éléments de T que comme une propriété d’ouver-ture habituelle. En effet, il est tout à fait courant que 1 ou [0, 1] soient définis commeétant des ensembles ouverts de (R, T ) ! En fait, on utilise le terme « ouvert » car lesrègles 3 et 4 sont respectées avec les ensembles ouverts usuels de R.

Un espace topologique peut être discret, comme le cas particulier d’un graphe. Latopologie d’un tel espace est une collection d’ensemble de points qui doivent respecter les


quatre propriétés énumérées. Par exemple, si S = a, b, c, d, on peut définir la topologiesuivante : T = ∅, a, a, b, a, b, c, d et (S, T ) est un espace topologique. MaisT = ∅, a, b, a, b, c, d ne définit pas une topologie sur S car a∪b = a, b /∈ T

ce qui contredit la règle 3.

La notion de topologie est liée à l’étude des propriétés spatiales des ensembles,mais aussi aux propriétés des transformations. Nous avons besoin de deux définitionssupplémentaires pour conclure sur les bases théoriques.

Définition 2.2.2 Si f : X → Y est une fonction, et S un sous-ensemble de Y , alorsl’antécédent de S par f , noté f−1(S), est le sous-ensemble de X défini par

f−1(S) = x ∈ X : f(x) ∈ S.

Définition 2.2.3 Une fonction f : (X, TX) → (Y, TY ) entre deux espaces topologiquesest continue si l’antécédent f−1(Q) de tout ensemble ouvert Q ⊂ Y est un ensembleouvert de (X, TX).

Voyons maintenant comment ces définitions peuvent être utilisées dans le cadre del’algorithme de Kohonen.

2.2.2 Espaces topologiques dans les SOM

Les définitions et propriétés suivantes sont issues des travaux de Villmann et al,dans [52].

Notons X l’espace, continu, des entrées, et Y l’espace, discret, de sortie, i.e. le graphedes neurones ou grille rectangulaire4 de notre cadre d’étude. L’algorithme de Kohonenopère une transformation non linéaire de X sur Y . Notons DY la dimension de ce dernier(voir définition 2.1.9), et DX la dimension de X.Le graphe Y est constitué de N sommets, repérés par la position r dans Y , où r =

(i1, i2, . . . , iDY), 1 ≤ ij ≤ nj , j ∈ 1, . . . , DY . Pour notre grille, n1 = n2 = 10.

À chaque neurone r est associé un vecteur de poids wr ∈ X.

Notons ΨX→Y la transformation réalisée par l’algorithme, et ΨY →X la transforma-tion inverse. La carte, notéeM, réalisée par le réseau est décrite par les deux fonctions

4On ne fait pas de différence entre carte rectangulaire et carrée dans cette section.


précédentes.M = (ΨX→Y , ΨY →X) (2.8)

À chaque stimulus d’entrée, l’équation 2.3 fait correspondre un neurone r de l’espacede sortie. On peut définir le champ récepteur Ωr de chaque neurone comme l’ensembledes stimuli de X dont ce neurone est l’image dans Y :

Ωr = p ∈ X, ΦX→Y (p) = r (2.9)

Chaque Ωr est un sous-ensemble fermé de l’ensemble X d’entrée. L’ensemble des Ωr estune partition de l’espace X, qui correspond au diagramme de Voronoï VH de l’ensembleH = wi ∈ X ⊆ R

DX , i ∈ 1, . . . , N. La partition de Voronoï nous donne lesfrontières d’équidistance de deux points, donc avec celle-ci on sait automatiquementdans quelle zone se trouvent les stimuli associés à un neurone r particulier. La figure2.6 montre ce diagramme pour un ensemble quelconque de points de R

2.

0 0.5 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Delau

nay

0 0.5 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Voro

noi

Fig. 2.6 – Correspondance entre graphe de Delaunay et diagramme de Voronoï

Dans [7], on montre qu’à un diagramme de Voronoï VH donné correspond un uniquegraphe de Delaunay GH . Celui-ci s’obtient en connectant toute paire de sommets (i, j)

telle que Ωi ∩ Ωj 6= ∅. Sur la figure 2.6, on voit à gauche le graphe de Delaunaycorrespondant au diagramme de Voronoï de droite.

À partir de l’ensemble H = wi ∈ X ⊆ RDX , i ∈ 1, . . . , N des poids de chaque

neurone r, on peut donc obtenir un graphe correspondant, appelé graphe de Delaunay,explicitant les relations de voisinage induites par l’existence ou non d’une frontièrecommune entre deux champs récepteurs correspondants Ωr.


Nous avons désormais à notre disposition tous les éléments nécessaires pour définirdes topologies sur les espaces d’entrée et de sortie X et Y . Par la suite, nous exploiteronsces définitions pour décrire les propriétés de la transformation de Kohonen.

Nous définissons deux topologies de voisinage sur Y , la première dite forte, ladeuxième dite faible. Il y a deux définitions car ce n’est pas la même topologie quiest utilisée selon qu’on étudiera ΨX→Y ou ΨY →X .

Définition 2.2.4 Soit Y un réseau de N neurones situés aux points r = (r1, . . . , rDY) ∈

RDY et un ensemble de vecteurs de poids correspondant wr ∈ X ⊂ R

DX . Soit AY (r) lamatrice d’adjacence (déf. 2.1.4) du graphe Y dont les neurones sont les sommets. Unetopologie T +

Y (r) est induite par la métrique de distance (distance d’adjacence) dT +Y (r)

dans AY (r). T +Y (r) est appelée la topologie de voisinage forte de Y pour r, et

(

Y, T +Y (r)

)

est un espace topologique.

Définition 2.2.5 Considérons Y comme étant un ensemble de points de RDY . Soit

VY le diagramme de Voronoï correspondant et GY son dual, le graphe de Delaunay.GY (r), avec la métrique de distance d’adjacence de ce graphe dT −

Y, induit une topologie

de voisinage T −Y (r) sur Y . T −

Y (r) est appelée topologie de voisinage faible de Y

pour r, et(

Y, T −Y (r)

)

est un espace topologique.

Ces deux définitions méritent quelques lignes d’explication, afin de bien comprendrece que sont les espaces topologiques

(

Y, T +Y (r)

)

et(

Y, T −Y (r)

)

. Nous insistons sur lefait que ce sont des topologies de voisinage que l’on a définies. Il y a donc un espacetopologique associé à chaque neurone r. Une collection d’ensembles « ouverts » (quicomme nous l’avons vu en 2.2.1 définit une topologie) est donc associée à chaque neuroner, qu’on a notée T +

Y (r) (les explications suivantes sont traduisibles pour T −Y (r)). Cette

collection est constituée d’ensembles d’éléments r′ de Y et elle est définie par la métriquede distance d’adjacence du graphe de AY (r), distance toujours égale à un entier positif(égale au nombre d’arrêtes du chemin géodésique). La topologie T +

Y (r) est donc lacollection d’ensembles suivante : l’ensemble s(1) de neurones r(1) tel que dT +

Y (r,r(1)) = 1,l’ensemble s(2) de neurones r(2) tel que dT +

Y (r,r(2)) = 2, . . . , l’ensemble s(k) de neuronesr(k) tel que dT +

Y (r,r(k)) = k.Puisque

(

Y, T +Y (r)

)

est un espace topologique, toute union ou intersection finie dess(k) est aussi définie comme un ensemble ouvert de T +

Y (r). Notons au passage quel’intersection des s(k) est nécessairement vide, puisqu’un neurone r′ ne peut être distantde r de k1 et k2 avec k1 6= k2, la distance de r à r′ étant unique. Nous comprenonsmaintenant parfaitement ce qu’est la topologie de voisinage T +

Y (r), ou ensemble des


ensembles « ouverts » de(

Y, T +Y (r)

)

: c’est l’ensemble des s(k) ou toute union de ceux-ci.

On voit que la topologie de voisinage de r n’est autre que l’ensemble constitué del’ensemble des voisins d’ordre 1, de l’ensemble des voisins d’ordre 2, . . . En résumé, onpeut noter S+(r) (resp. S−(r)) le système d’ensembles « ouverts » de base de T +

Y (r)

(resp. T −Y (r)) :

S+(r) =

s(k)| s(k) = r(k) ∈ Y | dT +Y (r,r(k)) = k, k ≥ 1

(2.10)

S−(r) =

s(k)| s(k) = r(k) ∈ Y | dT −

Y (r,r(k)) = k, k ≥ 1

(2.11)

Ces deux topologies de voisinage sont définies exclusivement sur la carte de connec-tivité des neurones entre eux. Définissons à présent une topologie de voisinage relativeaux vecteurs de poids que les neurones ont appris.

Définition 2.2.6 Soit ΨY →X : Y → XY ⊂ X ⊆ RDX l’application qui à chaque

neurone r attribue son poids wr ∈ XY où XY = wr ∈ RDX |r ∈ Y . Soit VX le

diagramme de Voronoï des éléments de XY dans l’ensemble X, et GX le diagramme deDelaunay correspondant. GX(r), avec la métrique de distance d’adjacence de ce graphedT

XY, induit une topologie de voisinage TXY (r) dans XY . TXY (r) est appelée topologie

de voisinage relative aux poids de XY pour r, et(

XY , TXY (r))

est un espacetopologique.

On appellera XY l’espace des poids.

Nous disposons à présent de définitions rigoureuses de l’espace topologique d’entrée(topologie de voisinage relative aux poids) et de l’espace topologique de sortie (topologiede voisinage forte ou faible).

En regardant la correspondance entre la topologie d’entrée et de sortie, plus parti-culiérement la continuité (au sens de la topologie, cf. définition 2.2.3) éventuelle de latransformationM (Éq. 2.8), on s’intéresse à une propriété communément appelée ordretopologique. Nous verrons, tout au long de notre mémoire, que cette propriété, outresa nécessité si l’on procède à une quantification vectorielle, est fondamentale pour laqualité de modélisation. Sa définition est la suivante :

Définition 2.2.7 On dit que la carte M = (ΨX→Y , ΨY →X) conserve l’ordre to-

pologique si ΨX→Y :(

XY , TXY (r))

−→(

Y, T −Y (r)

)

et ΨY →X :(

Y, T +Y (r)

)

−→


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Diagramme de Delaunay

aaaaa

bc

d

e

f

g

h

i

t t t

t t t

t t t

g

d

a

h

e

b

i

f

c

Fig. 2.7 – Exemple de transformation non continue de X à Y

(

XY , TXY (r))

sont des transformations continues sur les espaces topologiques respec-tifs pour tous les neurones r ∈ Y où ΨX→Y : R

DX ⊇ X −→ Y est définie parr(p) = arg (minr∈Y ‖ p−wr ‖).

La continuité est définie ici sur les espaces topologiques, soit en terme d’ensembles« ouverts » (définition 2.2.3) : l’antécédent par Ψ d’un espace Q « ouvert » Ψ−1(Q) doitêtre « ouvert » lui aussi.

L’exemple de la figure 2.7 nous aide à mieux comprendre toutes les notions detopologie introduites dans cette section. On considère une transformation Ψ : X =

[0, 1] × [0, 1] → Y = a, b, c, d, e, f, g, h, i (grille rectangulaire 3 × 3). À gauche estreprésenté le graphe de Delaunay des 9 poids wr, à droite la topologie de Y .

Le voisinage immédiat de wf dans XY , l’ensemble b, d, e, g, h, i, est « ouvert »pour la topologie TXY (f). Pour que Ψ soit continue sur f, il faut que Ψ−1(f) =

b, d, e, g, h, i soit un ensemble « ouvert » de T +Y (f). Hors, la base des ensembles

« ouverts » de T +Y (f) est S+(f), soit c, e, i, b, d, h et g, a. On ne peut ma-

nifestement pas construire Ψ−1(f) à partir de S+(f), donc Ψ−1(f) n’est pas unensemble « ouvert » de T +

Y (f). ΨY →X n’est donc pas continue, et l’ordre topologiquen’est pas préservé dans cet exemple.

Regarder la continuité de ΨX→Y ou ΨY →X en terme d’ensembles « ouverts » re-vient à voir si les différents ordres de voisinage, définis par les espaces topologiques desdéfinitions 2.2.4, 2.2.5 et 2.2.6, sont les mêmes en XY et en Y .


Nous terminons cette section en présentant la fonction topographique Φ de Vill-mann et al., basée explicitement sur la définition 2.2.7 de l’ordre topologique. Elle nousservira, aux chapitres 3 et 4, d’outil d’analyse qualitative et non quantitative, ce quisera suffisant dans nos étapes de recherche.Cette fonction permet de calculer le degré de préservation de l’ordre topologique par latransformationM.

Nous introduisons, à l’aide des définitions 2.2.4 à 2.2.7, pour chaque neurone r, lesdeux fonctions suivantes :

fr(k) = #r′ | dT −

Y (r)(r, r′) > k ; dT

XY (r)(r, r′) = 1 (2.12)

fr(−k) = #r′ | dT +Y (r)(r, r

′) = 1 ; dTXY (r)(r, r

′) > k (2.13)

où k ∈ 1, . . . , N − 1 et # est le cardinal de l’ensemble. fr(k) avec k > 0 déterminela continuité de ΨX→Y et fr(k) avec k < 0 détermine la continuité de ΨY →X .

On définit la fonction topographique Φ de la façon suivante :

ΦXY (k) =

1N

∑

r∈Y fr(k) k > 0

ΦXY (1) + ΦX

Y (−1) k = 0

1N

∑

r∈Y fr(k) k < 0

(2.14)

La fonction Φ est identiquement nulle, ΦXY ≡ 0, si, et seulement si, la carteM préserve

parfaitement l’ordre topologique. Si la fonction Φ est non nulle pour de petites valeursde k+ et k−, le conflit topologique est d’ordre local, alors que de grandes valeurs k+ etk− indiquent un conflit dimensionnel global. On parle ici de conflit dimensionnel car sion essaie de modéliser un jeu d’entrée de dimension DX sur une carte de neurones dedimension DY , et que DX < DY ou DY < DX , des discontinuités d’ordre topologiqueapparaissent.

2.3 Propriétés des SOM et limitations

Avec les éléments de topologie présentés dans la section précédente, les propriétésstatistiques de l’algorithme standard de Kohonen (transformationM de l’équation 2.8)peuvent être classifiées en 3 points :


Propriété 1. Approximation de l’espace d’entréeL’ensemble des poids synaptiques W = w1, w2, . . . , wN ∈ XY de la carte auto-organisée construit dans l’espace de sortie Y une approximation de l’espace des stimulid’entrée X, tel qu’illustré aux figures 2.8 - 2.10.

Propriété 2. Ordre topologiqueUne carte de Kohonen préserve l’ordre topologique, sous réserve que la carte Y possèdeune topologie T +

Y ou T −Y qui puisse correspondre à la topologie d’entrée. Villmann et

al ont mis en évidence l’influence de la connectivité du réseau.

Propriété 3. Appariement des fonctions de densitéLa carte M reflète les variations statistiques des distributions de points de l’espaced’entrée : une région dense de données attire davantage de neurones qu’une régionmoins dense. On voit à la figure 2.9 la modélisation d’une région uniforme.

Les figures 2.8 et 2.9, tirées de [28], sont des exemples d’évolution temporelle du pro-cessus d’auto-organisation, et d’approximation de l’espace d’entrée. Celui-ci est consti-tué de points uniformément répartis dans un triangle ou un carré. Les cartes utiliséessont unidimensionnelles ou bidimensionnelles.

Fig. 2.8 – Exemple d’auto-organisation d’une carte 1D, d’après T. Kohonen

Dans l’exemple illustratif de la figure 2.7, page 18, nous avons montré une dis-continuité de la fonction ΨY →X , correspondant à une valeur non nulle de la fonctiontopographique Φ pour k < 0, ou f(k−) non nulle. La figure 2.8 est quant à elle une très


bonne illustration, authentique, de discontinuité de la transformation inverse ΨX→Y .Regardons attentivement le résultat final de Kohonen obtenu après 25 000 itérations.L’approximation est très satisfaisante, cependant l’effet produit par la réduction de di-mension de DX = 2 à DY = 1 conduit au phénomène suivant : à certaines régionsproches des données, dont les poids des neurones seraient liés par une arrête dans legraphe de Delaunay GX induisant TXY (par exemple le long du bord droit du triangle,au centre), correspondent deux neurones très éloignés dans la chaîne linéaire Y . Ici, lafonction topographique Φ est non nulle pour k > 0 i.e. f(k+) non nulle. On constatedirectement l’influence d’un conflit dimensionnel dans la non préservation de l’ordretopologique.

Fig. 2.9 – Exemple d’auto-organisation d’une carte 2D, d’après T. Kohonen

La figure 2.9 est cette fois-ci le parfait exemple de la propriété d’ordre topologique.La fonction Φ est identiquement nulle, la modélisation a convergé vers le minimumglobal de la fonction d’erreur absolue Eext. Remarquons aussi la rapidité de convergence,2.5 fois plus rapide qu’à l’exemple précédent. Évidemment, la topologie de la grilles’accordait par avance à celle des données.

La figure 2.10 est un exemple de modélisation d’un espace tridimensionnel, de formemoins élémentaire que les exemples précédents, rappelant la forme d’un cactus. . . Ànouveau, le conflit dimensionnel se fait sentir. Des neurones (que nous qualifieronsd’« intermédiaires ») flottent dans le vide, qui ne modélisent aucune donnée (entre lesdeux branches de droite par exemple). La modélisation n’est pas optimale et la fonctionΨY →X est discontinue. Des neurones voisins immédiats dans

(

Y, T +Y

)

, notament dansles zones « intermédiaires », sont distants dans l’espace topologique

(

XY , TXY

)

.


Fig. 2.10 – Exemple de modélisation d’un espace 3D par une carte 2D, d’après T.Kohonen


Nous avons reproduit (Fig. 2.11) notre propre illustration de ce défaut de modé-lisation sur un jeu simple de données bidimensionnelles. On voit un certain nombrede neurones intermédiaires qui, mal positionnés, ne contribuent pas à réduire l’erreurabsolue Eext (Éq. 2.2).

Finalement, on peut regrouper les principales limitations en 4 points :

1. La qualité de modélisation dépend étroitement du graphe de neurones Y choisi(et donc de la qualité de préservation de l’ordre topologique), que l’on fixe à priorisans idée de la topologie des données dans les cas intéressants. La dimension joueun rôle important, tout comme la connectivité de la carte. En particulier, desneurones intermédiaires peuvent apparaître, qui ne contribuent pas à diminuerEext.

2. La topologie de la carte est stationnaire, elle n’évolue pas dans le temps.

3. Les règles d’apprentissage sont toutes fixées à l’avance (Fig. 2.4), elle ne dé-pendent aucunement de la particularité de chaque processus de convergence, quiréside dans la séquence complète de déplacements des poids wr. En ce sens, l’al-gorithme standard de Kohonen manque d’auto-adaptativité.

4. Le graphe Y est non orienté, ce qui constitue sans doute la plus grande abstractionpar rapport à la physiologie d’un cortex, constitué d’axones (qui lient les neurones)dirigés.

stimulus

neurone

Fig. 2.11 – Limitation de l’algorithme standard


2.4 Développements récents

La popularité des SOM est considérable : pour s’en convaincre, il suffit de lire lecompte-rendu [24] qui fait mention de milliers d’applications pratiques importantes.L’algorithme de Kohonen, depuis 1982, est tout simplement le plus utilisé des algo-rithmes de classification non supervisés ([29], [42]). Plutôt que de recenser les nom-breuses applications pratiques, dans des domaines aussi variés que les statistiques, larobotique, l’analyse économique, les applications médicales, etc. , nous nous intéressonsaux travaux théoriques entrepris à la suite des travaux originaux de Kohonen. La biblio-graphie des principales directions de recherches entreprises sur la base de l’algorithmestandard est en elle-même considérable, mais facilitée si l’on s’en réfère à de récentsouvrages qui dressent l’inventaire des directions principales de recherches théoriques.Qui plus est, nous restreignons nos recherches bibliographiques aux travaux qui ap-prochent, de près ou de loin, les questions relatives aux objectifs de recherche que nousavons formulés au chapitre 1, à savoir : l’auto-adaptativité des règles d’apprentissagede l’algorithme standard, les questions relatives à la topologie et la validité du modèlebiologique.

Un certain nombre de travaux se sont intéressés à la topologie de voisinage des neu-rones, qui est, comme nous l’avons vu à la section précédente, une limitation principale,voire première, de la qualité de modélisation finale.

À la suite du projet WEBSOM d’extraction d’information5 pour une vaste collectionde documents (textes) entrepris récemment par Kohonen et al ([33]), des chercheurs sesont posés la question suivante : la topologie rectangulaire est-elle la meilleure repré-sentation bidimensionnelle d’un espace d’entrée complexe, de haute dimension ? À cettequestion, Ritter et al apportent leur élément de réponse avec un algorithme concret :HSOM ([45]). La carte de neurones employée consiste en une projection d’un espace hy-perbolique sur R

2. Ritter conclue à une meilleure représentation pour un espace d’entréeà haute dimension, mais surtout à la possibilité de former une structure hiérarchiquedans la carte de neurones. Un des inconvénients de cette approche est que la topologiede la carte est toujours spécifée à priori.

Un autre algorithme concret, le TS-SOM (Tree Structured Self-Organizing Map),proposé par Koikkalainen, s’appuie sur une géométrie d’arbre en croissance ([30]). Danscet algorithme, il y a spécification progressive de l’échelle d’apprentissage, à mesure quel’on ajoute des neurones. La structure d’arbre produit des catégories et des sous caté-gories, la modélisation en sortie est donc hiérarchisée : on peut lire la carte à différents

5Data-Mining en anglais.


niveaux d’arborescence. Cette approche ouvre la voie des algorithmes constructifs, quisont tels que le nombre de neurones augmente au fil de l’apprentissage. On peut ci-ter le GSOM ([3]), ou le plus connu d’entre eux, le GNG (Growing Neural Gas), sesperformances étant extrêmement bonnes ([12]).

Dans le GNG, les neurones sont ajoutés au réseau avec une fréquence régulière. Poursavoir où ajouter un nouveau neurone, on se base sur une fonction d’erreur attribuéeà chaque neurone. Plus celle-ci est grande, plus la région concernée à besoin de renfortneuronal. Avec cet algorithme, le problème de fixer une topologie par avance est résoluet l’erreur de modélisation est très faible. Les neurones intermédiaires disparaissent dela carte finale, la topologie est apprise automatiquement. Le problème de cette approcheest evidemment qu’elle fait abstraction totale de la réalité biologique !

À l’inverse, certaines équipes de recherche ont eu à coeur la question de la modélisa-tion biologique, sans considération particulière pour les développements en intelligenceartifielle. L’un des modèles les plus élaborés est le RF-LISSOM (Receptive-Field Late-rally Interconnected Synergetically Self-Organizing Map) ([38]), dont les résultats repro-duisent assez fidèlement les observations expérimentales dans le cortex visuel primaire.Dans ce modèle, la dynamique des neurones est régie par un système d’équations diffé-rentielles, les neurones étant de type « sommation et activation » (Integrate-and-Fire,[19]). L’apprentissage est non supervisé de type hebbien (caractéristique des SOM), etla connectivité du réseau est dynamique car on enlève au fur et à mesure les connexionsinutiles. Tous les ingrédients sont donc réunis pour reproduire le plus fidèlement lecomportement biologique des neurones avec les connaissances et techniques dont nousdisposons aujourd’hui. De fait, ce modèle reproduit la spécification (sélectivité) des neu-rones à une orientation particulière, les zones de phase linéaires ou discontinues d’unneurone à l’autre, les points d’inflexions, l’élagage de connexions (pruning). De même,les effets de décalage visuel (tilt aftereffect), de segmentation ou d’association (binding)sont expliqués.

Ce modèle contient tout de même des défauts, notament des contraintes énormes surla topologie initiale (connexions excitatrices et inhibitrices distribués avec une parfaiterégularité spatiale, graphe complet). Dans nos recherches, nous tenterons justement decomprendre quels sont les contraintes topologiques sur le modèle standard de Kohonen,plus simple.

Enfin, il est intéressant de mentionner une autre direction actuelle de recherche surles SOM, encore à ses balbutiements mais très prometteuse : l’utilisation des algorithmesgénétiques sur les SOM ([43]). Ceux-ci sont des algorithmes de recherche d’optimumglobal (comme le célèbre recuit simulé) qui modélisent de façon simplifiée le concept


darwinien d’évolution. Expliquons rapidement en quoi un algorithme génétique peutêtre utile à la recherche théorique sur les SOM.

On dispose d’une population de chromosomes, chacun d’entre eux étant un codagebinaire d’une combinaison particulière de paramètres, correspondant ou « codant » pourune solution particulière du problème. La validité de la solution est mesurée par unefonction de coût ou d’énergie. Le problème étant la recherche de l’optimum global, ilfaut trouver le chromosome qui code cette solution optimale. Avec des mutations, desrecombinaisons et un critère de sélection naturelle, la population génétique évolue enfavorisant les meilleurs chromosomes mais sans rester prisonnière des optima locaux.L’idée est ici de coder dans les chromosomes, i.e. dans l’espace des paramètres du pro-blème d’optimisation, la structure elle-même de l’algorithme pour trouver quelles sontles règles d’apprentissage optimales ou la topologie la mieux adaptée. Bien entendu,cette technique est lourde et complexe : codage, choix de la fonction de coût, tempsde convergence sont des obstacles de taille. Ainsi, la plupart de ces recherches se li-mitent, par exemple, à trouver la meilleure topologie de départ parmi un ensemblerestreint ([13], [37]). On en n’est pas encore à coder des processus dynamiques, maisil est vraisemblable qu’un encodage puissant apporte des réponses qui le sont tout au-tant. Cependant, l’approche génétique ne nous permet pas de comprendre pourquoi unprocessus est meilleur qu’un autre, elle se contente de nous donner le meilleur (ce qui,en soi, est admirable). Dans ce mémoire, nous nous intéressons autant à améliorer l’al-gorithme standard qu’à comprendre les raisons des performances, bonnes ou mauvaises,obtenues.

Les limitations de l’algorithme standard de Kohonen ont donc fait l’objet de di-verses recherches, qui s’éloignent parfois grandement soit du modèle biologique, soitde l’algorithme en tant que tel. Dans mes recherches, ces deux aspects auront autantd’importance. Les travaux sus-mentionnés pourront être une source d’inspiration ouune source de comparaison selon le cas.

2.5 Paramètres d’étude

Afin de pouvoir interpréter et visualiser les modifications que nous apporterons àl’algorithme standard tel qu’il a été introduit dans cette section, nous travaillons avectrois jeux de données synthétiques bidimensionnelles (cf. Fig 2.12), de Q = 800 stimuli,assez différents les uns des autres. Au cours de nos recherches, nous avons utilisé un qua-trième jeu de données à 15 dimensions pour s’assurer que nos améliorations sont valablesquelle que soit la dimension. Nous ne présentons de résultats qu’en deux dimensions,


jusqu’au Chapitre 5. Les jeux de données que nous avons synthétisés représentent :

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Jeu 2D numéro 1

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Jeu 2D numéro 2

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2Jeu 2D numéro 3

Fig. 2.12 – Jeux de données bidimensionnelles

⊲ Jeu 1 : Deux nuages carrés de 400 points chacun, uniformément répartis.⊲ Jeu 2 : Un nuage carré de 800 points uniformément répartis.⊲ Jeu 3 : Deux nuages gaussiens entrelacés, de 380 points chacun, ainsi que 40 points

uniformément répartis.

Dans toutes nos simulations, la plupart des paramètres standards sont fixés :⊲ N = 100 neurones (grille 10× 10).⊲ η0 = 0.9.⊲ ητ = 0.02.⊲ τ = 10 000.⊲ tmax = τ (pas de phase de convergence).

On ne se préoccupe pas de la phase de convergence car nous nous intéressons davantageà l’apprentissage tant que le voisinage n’est pas nul. De plus, la valeur que nous avonschoisie pour τ est suffisamment grande pour assurer une bonne convergence.

Les paramètres variables de l’algorithme standard sont les suivants :⊲ V0.⊲ Jeu de données.

Précisons enfin que tous les résultats statistiques présentés dans ce mémoire sontissus d’une série de 10 tests. Lors des simulations, nous avons cherché le minimum dela fonction Eext pour les paramètres non fixés. Nous avons procédé à cette recherchedes paramètres optimaux pour toutes les simulations de ce mémoire, ce qui est plus oumoins long selon l’espace des paramètres de chaque simulation. Lorsque par exemple V0

est le seul paramètre, discret et borné, la recherche est très courte. Pour des paramètresqui varient continuement elle est infinie et nous devons nous limiter à une précision plusou moins grande sur la valeur optimale de chaque paramètre.

Chapitre 3

Auto-adaptativité

Le concept d’auto-adaptativité est difficile à définir. Il est au coeur de la définitiond’intelligence et des recherches en Intelligence Artificielle. Une définition simple consisteà dire qu’un système est auto-adaptatif s’il lui est possible de changer ses règles d’ap-prentissage en cours de route, en fonction de ce qu’il a déjà appris.

Mais il y a bien des règles qui définissent comment changer les premières ? Bien sûr. . .des méta-règles. En fait, tout système de notre monde, tel qu’on le perçoit, possèdedes règles, ou méta-règles (la question de Dieu ne s’inscrit pas dans le cadre de cemémoire. . .). Dire qu’une règle peut changer à tout moment, c’est une méta-règle !

Bref, la difficulté de la définition est incontournable. Voici comment nous définironsl’auto-adaptativité :soit un systéme M de méta-règles, un système R de règles, et un sous-sytème E ⊂ R derègles de R, dite effectives. Les règles de M sont fixes et immuables, le systéme R consti-tue l’ensemble des règles possibles du système, et E l’ensemble des règles auxquelles lesystème obéit à l’instant t. On dira qu’un système est auto-adaptatif si l’ensemble derègles de R est grand, et que le système E de règle effectives du système est défini parM et dépend du temps, en fonction de tout ce qui a été appris précédemment.

L’algorithme standard de Kohonen est donc peu auto-adaptatif, puisque son systèmede règles et de méta-règles sont identiques. Laissons place à nos recherches pour voiren quoi il pourrait être plus auto-adaptatif.

Chapitre 3. Auto-adaptativité 29

3.1 Étude de la norme des déplacements

3.1.1 Version normée

Dans cette section, nous présentons une petite modification de l’algorithme standard,qui montre qu’on peut l’améliorer grandement avec une seule ligne de modification dansle code. Nous appellerons version normée la nouvelle version prenant en compte notremodification. Il ne s’agit pas à proprement parler de rendre l’algorithme plus auto-adaptatif ici, mais plutôt d’augmenter la qualité de modélisation sur la simple base del’algorithme standard.

L’équation 2.4 détermine la mise à jour des poids du groupe de neurones Vg(t)

constitué du gagnant g, déterminé par 2.3, et de l’ensemble de ses voisins à t déterminépar 2.6 et 2.7. Tous les neurones i concernés suivent la règle :

∆wi(t) = η(t)[p(t)−wi(t)]

Ainsi, qu’un voisin i de g soit proche ou éloigné de ce dernier dans l’espace des poidsXY , il se déplace toujours d’un pourcentage η(t) sur la droite (p(t),wi). Le schémasuivant illustre les déplacements des wi où i ∈ a, b, c qui seraient les voisins de g

à t, pour η(t) = 0.5. On voit bien que plus un neurone est éloigné du stimulus, plus

Fig. 3.1 – Déplacement standard d’un goupe de neurones

la norme de son déplacement dans X est grande. Dans le cas où l’ordre de voisinagem serait élevé, un voisin de g distant de m et de poids très éloigné du stimulus sedéplacerait beaucoup vers de dernier, de sorte que la norme de son déplacement seraitgrande devant celle du déplacement de g. C’est le cas du neurone c ici.


Or, pour que le processus statistique d’apprentissage reflète correctement la densitéde l’espace X des données, à chaque itération t, l’ensemble des neurones de Vg(t) doit sedéplacer d’une même quantité. Par ailleurs, d’un point de vue biologique, il semble dou-teux qu’un stimulus « active » un neurone d’autant plus fortement (grand changementde poids wr) qu’il en est éloigné.

Nous proposons donc une normalisation du déplacement des poids wr, de sorte quetous les neurones de Vg(t) se déplacent de la même quantité, i.e. apprennent égalementle stimulus. La modification n’est autre que l’équation 3.1.

∆wi(t) = η(t)[p(t)−wi(t)]×‖ p(t)−wg(t) ‖‖ p(t)−wi(t) ‖

(3.1)

De cette façon, tous les neurones voisins de g se déplacent de la même quantité que g.

3.1.2 Résultats

Voyons l’influence qualitative (Fig. 3.2 - 3.4) et quantitative de ce changement encomparant les versions standard et normée sur nos 3 jeux de données.

On constate essentiellement 2 phénomènes :

1. Le nombre de neurones1 intermédaires (page 23) est plus faible, et ces neuronessont un peu plus proches des données. Ceci est essentiellement dû au fait que cesneurones, qui ne gagnent jamais (puisque par définition ils sont dans des régionsintermédiaires, sans données), ont de plus petits déplacements que dans la versionstandard. Comme nous l’avons expliqué, la normalisation que nous proposons enest responsable. Il y a moins d’oscillations et de grands déplacements dans ceszones intermédiaires.

2. Les régions périphériques sont beaucoup mieux modélisées. La normalisation pro-duit encore un effet bénéfique : les neurones périphériques, au lieu d’être ramenésvers une région centrale par leur voisin, ne se déplacent que très peu si ce dernierbouge peu lui-même. Dans l’algorithme standard, le neurone périphérique étaitréattiré d’autant plus vers le centre qu’il en était loin.

Les résultats quantitatifs, obtenus sur un ensemble de 10 tests statistiques et résumésdans le tableau 3.1, confirment ces constatations : on améliore non seulement la qualité

1Par abus de langage, on se permettra de parler de neurones quand il s’agit en fait des poids des

neurones.


0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Version standard, jeu 1

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Version normée, jeu 1

Fig. 3.2 – Comparaison pour la version normée (jeu 1)

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Version standard, jeu 2

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Version normée, jeu 2



−0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2Version standard, jeu 3

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2Version normée, jeu 3


de modélisation de tous les jeux de données, mais en plus le bruit statistique sur l’erreurabsolue à t = τ .

Données Version Paramètres Eext(τ) Eext(τ)Estandard

1standard V0 = 5 0.446± 0.023 1.000± 0.052

normee V0 = 5 0.289± 0.013 0.648± 0.029

2standard V0 = 5 1.589± 0.029 1.000± 0.018

normee V0 = 4 1.341± 0.021 0.844± 0.013

3standard V0 = 3 2.302± 0.458 1.000± 0.199

normee V0 = 4 0.882± 0.078 0.383± 0.034

Tab. 3.1 – Erreurs absolues, version standard et normée


3.2 Étude de l’apprentissage séquentiel

3.2.1 Attractivité locale

Entrons maintenant dans le vif du sujet de l’auto-adaptativité. Une des étapes versune plus grande adaptativité d’un algorithme non supervisé pour divers jeux de donnéesest certainement d’incorporer l’équivalent d’une fonction d’erreur interne au réseau2, quipuisse lui donner une information sur la façon dont il doit moduler son apprentissage.L’exemple du GNG ([12]), que nous avons rapidement mentionné à la section 2.4, montrel’intérêt d’une telle fonction. Dans les algorithmes constructifs, la fonction d’erreursert à indiquer au réseau où placer un nouveau neurone. Nous ne nous posons pasici le problème de l’auto-adaptativité en ces termes, car nous ne nous intéressons pasà un réseau constructif. Nous voulons garder le nombre de neurones N fixe, commece serait le cas lorsqu’un ensemble de stimuli est modélisé dans une région du cortexvisuel. L’utilisation d’une fonction d’erreur interne est donc un problème ouvert dansce contexte, pour l’instant.

Dans le GNG, on utilise la fonction d’erreur de l’équation 3.2, définie, à tout t, pourchaque neurone i. Il s’agit d’une erreur cumulée, et seul le gagnant de l’itération t voitl’erreur eg qui lui est associée augmenter. On rajoute des neurones, dans cet algorithme,dans les régions où l’erreur sur les neurones est grande, afin d’y combler le manque deneurones.

eg = eg+ ‖ p(t)−wg(t) ‖ (3.2)

Nous nous inspirons de cette équation pour bâtir notre propre fonction d’erreur. Enfait, nous construisons une fonction que nous appelons attractivité locale, notée Aint

L

(int pour interne i.e. connue du système) qui ressemble à l’erreur cumulée, en ceci qu’ils’agit d’une quantité cumulée et qu’elle se définit d’après la distance ‖ p(t) − w(t) ‖.Dernier point commun, on n’augmente que l’erreur du neurone gagnant g à chaqueitération. Notre fonction Aint

L diffère néanmoins de eg, car ce sont les distances quiséparent w(t) de p(t) après mise à jour de wg(t) que l’on additionne. L’attractivitélocale est donc le cumul de ce qu’il manque aux neurones pour apprendre parfaitementle stimulus à chaque itération, d’où le nom choisi. Si t est l’itération considérée, et quel’on note wr(t) le poids du neurone r avant mise à jour et wr(t + 1) le poids modifié,

2On rappelle qu’un réseau non supervisé ne peut pas se baser, par définition, sur une fonction

d’erreur externe et globale.


alors AintL (r, t) est définie pour tout r et tout t par l’équation 3.3.

AintL (r, t) =

AintL (r, t− 1) + δr,g(t) ‖ p(t)−wr(t + 1) ‖

0 ∀ r ∈ Y, t = 0(3.3)

où δr,g(t) vaut 1 si r = g(t), 0 sinon.

L’utilisation de cette fonction correspond toujours à un processus non supervisépuisqu’elle ne dépend, à t, que de ce que le réseau a appris jusqu’alors. Aucune connais-sance externe ne conseille le réseau, qui reste auto-organisé. Néanmoins, le but de cettefonction est tout de même que le réseau de neurones se fasse une idée, basée sur sa propreconnaissance de la topologie à modéliser, la plus fidèle possible du paysage énergétique3

absolu déterminé par Eext, afin de pouvoir au mieux modéliser l’espace X d’entrée. Audébut de l’apprentissage, l’attractivité locale reflète très mal ce paysage, mais à me-sure que les neurones apprennent, elle devrait se préciser pour approximer de mieux enmieux Eext. Nous illustrons à la sous-section 3.2.3 (Fig. 3.10) cette correspondance, àla fin de l’apprentissage des données de notre nouvelle version, entre Eext(τ) et Aint

L (τ).

Il faut maintenant trouver comment exploiter l’information contenue dans AintL en

établissant des règles de mise à jour des poids du neurone gagnant et de ses voisins quien dépendent.

3.2.2 Version multirythmique

Les informations que contiennent, au temps t, les attractivités locales AintL (r), sont

les suivantes :⊲ Si, à t, un neurone i n’a encore jamais été gagnant, Aint

L (i, t) = 0.⊲ Les Aint

L (j, t) les plus grands correspondent soit à des neurones j qui ont souventgagné, soit à des neurones j qui ont appris des données éloignées. Finalement, lesneurones j modélisent des régions où l’erreur de modélisation est grande, corre-pondant à un creux de potentiel énergétique de Eext non « comblé ».

Ces constatations peuvent être reliées de façon simple à la dynamique d’apprentis-sage des wr de l’espace des poids XY . En effet, les neurones i qui n’ont rien appris,ne contribuent pas à diminuer l’erreur absolue Eext. Leurs poids doivent donc restermobiles. Par contre, les neurones qui ont déjà beaucoup appris, associés à une grande

3La fonction d’erreur absolue Eext est parfois appelée, dans la littérature, fonction d’énergie ([10]).

Ce type de fonction, dont le minimum global est la solution de problèmes dit np-complexes, est très

irrégulière dans les problèmes qui nous intéressent.


attractivité locale, doivent être moins mobiles et attirer à eux des neurones mobiles,comme typiquement des neurones intermédiaires.

L’idée vient naturellement d’associer à chaque neurone r un taux d’apprentissageηr(t) qui soit fonction de Aint

L (r, t), puisque le taux d’apprentissage η détermine decombien le neurone doit se déplacer vers le stimulus. Ce facteur contient déjà le conceptd’inertie. Comme on veut des neurones d’autant plus mobiles que Aint

L est petit, lechoix de ηr(t) inversement proportionnel à Aint

L (r, t) est immédiat. De plus, AintL (r, t)

varie dans R+, et η ∈ [0, 1], d’où la forme :

η =k

k + AintL (r, t)

Au vu du dénominateur, le choix de la quantité k est important, il doit être comparableà Aint

L , donc une norme de déplacement. On prendra simplement :

k =‖ p(t)−wr(t) ‖

qui permet de comparer les déplacements cumulés (après mise à jour des wr(0→ t−1))précédemment, à la norme de la distance au nouveau stimulus p(t). Notons que ce sonttoujours les neurones r ∈ Vg(t) que se déplace à t, on a donc :

ηr∈Vg(t)(t) =‖ p(t)−wr(t) ‖

‖ p(t)−wr(t) ‖ +AintL (r, t)

Comme, avec cette équation, un neurone voisin du gagnant g(t) qui n’aurait jamaisgagné risque de se déplacer trop par rapport à ce dernier, on pondère ηg(t) d’un facteurα et ηv(t) d’un facteur β, où v dénote tous les neurones de Vg(t) (sauf g). Finalement,on a les taux d’apprentissage de l’équation 3.4 :

ηr(t) =

η0 × ‖p(t)−wr(t)‖

α.‖p(t)−wr(t)‖+AintL (r,t)

si r = g(t)

η0 × ‖p(t)−wr(t)‖

β.‖p(t)−wr(t)‖+AintL (r,t)

si r ∈ Vg(t), r 6= g

(3.4)

Les neurones apprennent ainsi chacun à leur rythme, d’où le nom de version mul-tirythmique, contrairement à la version standard où l’on impose un rythme d’appren-tissage commun à tous les neurones. En début d’apprentissage, certains neurones s’ilsont déjà gagné souvent peuvent ne plus subir de déplacement inutile et attirer verseux d’autres neurones. Inversement, si en fin d’apprentissage un neurone n’a toujoursrien appris, il reste très mobile et cherche toujours à s’associer à une région de X pourparticiper à la minimisation de Eext.

La figure 3.5 est un exemple de séquence des taux d’apprentissage de chaque neu-rone gagnant de t, pour t variant de 0 à 10 000. On voit que le rythme d’apprentissage


s’auto-régule, le réseau s’auto-adapte véritablement, en comparaison de l’algorithmestandard. On voit également, comme on le disait, qu’après un certain temps d’appren-tissage, de nouveaux gagnants apparaissent (autour de t = 7 500). Il s’agit de neuronesintermédiaires qui se sont rapprochés des pôles de données jusqu’à pouvoir devenir euxaussi des neurones gagnants.

0 2000 4000 6000 8000 100000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Temps

Fig. 3.5 – Séquence des ηg pendant l’apprentissage

Lorsqu’on regarde les variations des η de chaque neurone séparément, le phénomènede rythmes multiples d’apprentissage apparaît clairement. Ainsi, à la figure 3.6, on atracé les courbes des ηr(t) pour les 7 premiers neurones du réseau, en fonction du temps,quant ils sont gagnants4.

On constate notament sur cette figure que le neurone d’indice 4 apprend très vite,la valeur de η associé passe définitivement sous la barre des 0.1 dès 2 000 itérations. Àl’inverse, les neurones d’indice 3 et 7 apprennent beaucoup plus lentement, et η7 vautencore 0.4 autour de 8 000 itérations.

4On a pris 7 neurones pour la clarté de la figure, sur les cent neurones possibles. Les courbes sont

assez discontinues car il n’y a qu’un gagnant à chaque itération, qui en plus ne fait pas nécessairement

parti des 7 neurones choisis. Avec 10 000 itérations et 100 neurones, on aurait 100 points par courbe

si la statistique des chances de gagner était uniforme.


0

2000

4000

6000

8000

1000012

34

56

7

0

0.2

0.4

0.6

0.8

1

Indice du neuroneTemps

Tau

x d’

appr

entis

sage

Fig. 3.6 – Rythmes multiples et auto-adaptatifs d’apprentissage


3.2.3 Résultats

Comme pour la version normée, on peut visualiser (Fig. 3.7 - 3.9) les effets denos modifications sur nos 3 jeux de données bidimensionnels. Notons que nous avonsincorporé la modification de norme de la version normée dans la nouvelle version mul-tirythmique.

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Fig. 3.7 – Version multirythmique (jeu 1)

On remarque que les régions périphériques gagnent encore du terrain dans la modé-lisation, et que les neurones intermédiaires migrent davantage vers les données. Sur lejeu numéro 2, on remarque que le placement des poids est sensiblement plus précis. Lejeu numéro 3 est quant à lui incontestablement mieux modélisé.

Une autre série d’informations est intéressante : la comparaison entre l’erreur absolueEext(τ) et les attractivités locales Aint

L (τ) à la fin du processus d’apprentissage. En effet,nous avons vu que la fonction Aint

L est introduite de sorte que les neurones se fassent unereprésentation interne approximative du paysage énergétique déterminé par la fonctionEext. La figure 3.10 montre des similitudes sur nos 3 jeux de données.

On peut noter en particulier :• l’erreur absolue Eext sur les données est grande en périphérie, ce qui est relative-

ment bien traduit par AintL .


0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


−0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2



00.2

0.40.6

0.810

0.5

1

0

0.5

1

1.5

2

x 10−3

Version multirythmique, jeu 1

00.2

0.40.6

0.810

0.5

1

0

0.05

0.1

0.15

0.2

Version multirythmique, jeu 1

0

0.2

0.4

0.6

0.8

100.2

0.40.6

0.81

0

2

4

6

8

x 10−3

Jeu 2

00.2

0.40.6

0.81

0

0.2

0.4

0.6

0.8

10

0.2

0.4

0.6

0.8

Jeu 2

−0.50

0.51

1.5

−0.5

0

0.5

1

1.5

0

0.01

0.02

0.03

Jeu 3

−0.50

0.51

1.5

−0.5

0

0.5

1

1.5

0

0.1

0.2

0.3

0.4

Jeu 3

Fig. 3.10 – Comparaison de Eext(τ) et AintL (τ)


• les neurones qui ne contribuent pas à minmisier l’erreur Eext sont tels que AintL = 0.

• plus le champ d’erreur est uniforme, meilleure est la modélisation, puisque celasignifie une contribution égale de toute erreur locale dans l’erreur absolue totalede modélisation. Notre résultat est assez satisfaisant.

Le tableau 3.2 donne un point de vue quantitatif sur la valeur de nos résultats. L’amélioration


1 multirythmique V0 = 5, α = 0.2, β = 100 0.252± 0.010 0.565± 0.022



Tab. 3.2 – Erreurs absolues, version multirythmique

par rapport à la version standard est nette, mais on peut comparer ces résultats aussià la version normée, qui sont encore notablement meilleurs. Des résultats comparablessont obtenus en haute dimension.

En résumé, la version multirythmique est une modification de l’algorithme standardde Kohonen, tel qu’il est décrit au chapitre 2, qui rend la carte de neurones beaucoupplus auto-adaptative. Au lieu d’avoir une règle simple qui détermine a priori la vitessed’apprentissage collective de tous les neurones (équation 2.5), on dispose d’une fonctionAint

L (r, t) qui définit autant de règles d’apprentissage que de neurones (équation 3.4), etparticularise le comportement de chacun. Cette modification convient bien à davantaged’auto-adaptativité, telle que nous l’avons définie au début du présent chapitre.

Il est à noter que dans l’algorithme standard, le critère d’arrêt d’une simulation estsoit temporel (τ), soit une erreur de seuil (Eseuil

ext ), qui implique au moins 2 simulationspour connaître la valeur souhaitée du critère d’arrêt. Avec la version multirythmique, unautre critère d’arrêt, beaucoup plus pratique, est possible : un seuil sur les η. En effet,si t est tel que l’ensemble des ηg ≺ 0.05 par exemple, alors l’algorithme a suffisammentconvergé. Le mérite de cette approche est de ne pas avoir à fixer des quantités dont onconnaît mal l’ordre de grandeur optimal, comme τ ou Eseuil

ext .

La version multirythmique possède une autre propriété dont nous n’avons pas encorefait mention : elle dissymétrise les connexions. En effet, considérons une connexion quilie deux neurones i et j où Aint

L (i, t) est nulle et AintL (j, t) est grande. Si après présentation

du stimulus p(t) à t, j gagne, son voisin i sera très mobile puisque AintL (i, t) = 0. La


connexion est « forte » de i vers j. Si par contre, le neurone i était gagnant à t, sonvoisin j serait peu attiré par le gain de i, la connexion est « faible » de j vers i. On peutdonc réécrire Y avec un poids sur chaque connexion, dont les valeurs varient dans letemps et sont dissymétriques, selon le sens de la connexion. Un tel graphe est dit valué,et orienté (définition 2.1.2). Cette propriété a son importance dans le contexte de lamodélisation des processus physiologiques, ce pour quoi l’algorithme de Kohonen a étéoriginellement pensé ([26]). Nous avons vu en effet à la section 2.3 du chapitre 2 que laplus grande abstraction de la version standard de Kohonen par rapport à la physiologiede tout cortex est la représentation de celui-ci par un graphe non orienté. Notre versionpropose une dynamique des wr plus complexe, dans la direction d’une modélisationbiologique plus plausible.

3.3 Étude de la topologie de voisinage

Une autre limitation importante de l’algorithme standard, comme nous l’avons vu àla section 2.3, est d’imposer une topologie fixée par avance. D’une part, cette topologiede voisinage n’est pas forcément optimale pour la modélisation d’un espace d’entrée X

quelconque, d’autre part une grille régulière (typiquement rectangulaire), est un modèleloitain de la véritable connectivité du cerveau ou de régions cérébrales.

Peut-on construire un processus dont la topologie de la carte s’adapte à celle de l’es-pace des données ? Les recherches sur la connectivité effective du cerveau ([8]), commede la connectivité de nombreux réseaux naturels ou artficiels, qui mettent en lumièreles propriétés petit-monde, peuvent-elles donner lieu à un algorithme plus performant ?

Ce sont ces questions qui font l’objet des investigations que nous menons danscette troisième section. Nous commencerons par donner une définition de ce qu’estune topologie petit-monde, pour en comprendre ensuite les propriétés et l’engouementsuscité par les implications nombreuses pour la science des réseaux. Par la suite, nousprésentons une série de modifications portant sur la connectivité de la carte standardde Kohonen, qui mettent en lumière certaines contraintes des SOM.

3.3.1 Phénomène Petit-monde

Par hasard, j’ai appris qu’un des bons amis d’un collègue de mon colocataire, n’estautre qu’un étudiant de mon propre directeur de recherche. Le monde est petit !


Cette exclamation courante a donné l’impulsion, en 1967, à une série d’expériencesimaginées par le psychologue Stanley Milgram. Celui-ci s’est mis dans la tête de trouverle nombre d’intermédiaires nécessaires pour qu’un expéditeur fasse parvenir, de procheen proche, une lettre à un destinataire inconnu de lui ([39]). Cette expérience a été trèsconcluante, puisqu’elle a poussé la conclusion de Milgram au rang de dicton populaire :chacun serait séparé de quiconque par seulement 6 personnes en moyenne ! Le conceptde petit-monde, inspiré de l’organisation des liens sociaux dans la société humaine, étaitné.

Trente ans plus tard, ce sont deux mathématiciens, Watts et Strogatz, qui remettentce concept au goût du jour. La topologie petit-monde, dont ils donnent une définitionmathématique, est mise en évidence dans le système nerveux du vers C. Elegans, dansle réseau de distribution électrique de l’ouest des États-Unis, dans les relations entreacteurs du grand écran ([56]). Dans des domaines très variés, de nouvelles études sontmenées, qui montrent l’ampleur de la découverte ([1], [2], [20],[25], [41], [51], [55]) : desréseaux naturels (cortex, chaînes alimentaires prédateurs-proies) aux réseaux construitspar l’homme (Web en figure 3.11, réseaux électriques, aéroports), on retrouve une pro-priété commune : la topologie petit-monde.

Fig. 3.11 – La toile d’internet : un réseau petit-monde,d’après William R. Cheswick, Lucent Technologies. Disponible surhttp ://research.lumeta.com/ches/map/gallery/index.html

http://research.lumeta.com/ches/map/gallery/index.html


Quelles sont donc les propriétés qui la rendent si intéressante ? Pourquoi la nature at-elle privilégié cette topologie ? Est-elle la clé d’une meilleure efficacité pour les réseauxconstruits par l’homme ?

Deux quantités fondamentales

On peut saisir un certain nombre de propriétés essentielles d’un réseau (graphe)avec la connaissance de deux quantités :

⊲ L, le chemin géodésique moyen du graphe5, qui est la moyenne sur toutesles paires de noeuds possibles, du chemin géodésique (définition 2.1.5) entre cesdeux noeuds.

⊲ C, le coefficient d’agrégation6, qui mesure la probabilité, qu’étant donnés deuxsommets i et j liés à un troisième même sommet k, i et j soient liés entre eux.

En 1959, les mathématiciens hongrois, Paul Erdös et Alfréd Rényi ([9]), montrentque pour un réseau aléatoire, L est faible devant le nombre N de sommets du graphe(équation 3.5).

L ∝ ln(N) (3.5)

Également, le coefficient d’agrégation C est faible dans un réseau aléatoire, puisquela probabilité de trouver un « triangle » (trois noeuds connectés tous ensemble) estfaible.

À l’inverse si l’on construit un réseau régulier, sur un cercle par exemple (voir Fig.3.12), L est très grand (il faut un grand nombre de pas en moyenne pour passer d’unnoeud à un autre) et C aussi.

Fig. 3.12 – Caractéristiques d’un réseau petit-monde, d’après Watts et Stogatz ([56])

5L est généralement appelé path length en anglais.6C vient de Clustering coefficient en anglais.


On voit sur la partie droite de la figure 3.12) que : L et C sont grands pour un réseaurégulier, faibles pour un réseau aléatoire.

Ce que Watts et Strogatz mettent en lumière, c’est que dans le continuum de réseauxentre le régulier et l’aléatoire, se situe une région, de degré aléatoire 0 < p < 1, telleque L est petit et C est grand.

Ainsi, on définit la topologie petit-monde par :• L ≃ Laleatoire

• C ≫ Caleatoire.

Cette définition ne donne pas de plage précise de la topologie petit-monde, elle estpresque qualitative. La plage petit-monde est représentée sur la figure 3.13.

Fig. 3.13 – Plage d’existence des réseaux petit-monde, d’après Watts ([54])


Avantages de cette topologie

Si l’on considére que chaque noeud du réseau contient une information (c’est le casdes SOM) qui peut circuler à travers les liens du réseau, les avantages de la topologiepetit-monde sont les suivants :

• Stabilité du système (risque d’erreur faible). Supposons qu’une connexion duréseau devienne inactive (route accidentée entre deux villes, synapse mourrante,câble électrique arraché, . . .). Une topologie petit-monde n’en pâti généralementpas, grâce à la valeur élevée de C. L’information peut circuler localement (doncrapidement) au sein des autres connexions du groupe de noeud en question. Dansle même ordre d’idée, si une information circule localement par plusieurs voiespour parvenir aux mêmes noeuds, elle est redondante, ce qui rend moins probablesa perte.• Communication rapide. L est faible, ce qui signifie qu’un petit nombre d’inter-

médiaires est nécessaire pour que l’information parvienne à n’importe quel noeuddu réseau. Également, l’information risque moins d’être altérée. Imaginons unesociété dans laquelle il faille à chaque fois passé par le supérieur hiérarchiquecommun de deux individus pour qu’ils puissent s’adresser un message. Non seule-ment, cette société perd beaucoup de temps, mais également, plus un noeud esthaut dans la hierarchie, plus le nombre de messages transitant par lui est élevé. . .Les flux d’informations saturent rapidement dans une telle configuration !• Cohérence temporelle. Certains réseaux (entreprises, cerveau) sont constitués

de plusieurs groupes de noeuds fonctionnels qui nécessitent parfois de travailleren même temps sur un même problème (quand vous lisez ce texte c’est le cas dansvotre cerveau). Le flux d’informations doit être rapide dans les deux sens.• Contraintes énergétiques. Pour un réseau aléatoire, la longueur physique des

liens est beaucoup plus gande que le réseau régulier correspondant (N et K,nombre total de liens, fixes). Le réseau petit-monde aussi, est tel que la longueurtotale de connexions est faible, avantage énergétique considérable. Pensons à unréseau électrique, un réseau de fibres optiques, un cerveau : les connexions de-mandent un entretien, un coût de construction, et l’information se perd avec lalongueur à parcourir.

Il arrive souvent que les avantages d’un système dans un contexte deviennent sespropres inconvénients dans un autre. Un seul mot suffit à comprendre que le réseaupetit-monde peut être dévastateur : virus.

Avec toute les propriétés énumérées, on comprend mieux l’engouement récent pourla science des réseaux. La question est ici de savoir si la topologie petit-monde, qui existe


dans des systèmes nerveux naturels, est bénéfique à l’auto-organisation du réseau deKohonen, en comprenant en quoi elle l’est ou ne l’est pas.

3.3.2 Contraintes topologiques dans les SOM

Dans cette section, nous présentons quelques unes des simulations que nous avonsentreprises, qui débouchent sur un ensemble de conclusions sur les contraintes topolo-giques de l’espace Y , i.e. la carte de connectivité des neurones, dans l’espace et dans letemps.

Carte petit-monde

Plutôt que d’entreprendre l’algorithme avec une carte de neurones régulière, nousinvestissons ici l’idée de partir d’une carte petit-monde.

Pour ce faire, nous introduisons le facteur R qui désigne le pourcentage de recon-nexions aléatoires dans la grille : si R = 0.5, la moitié des liens sont reconnectés aléa-toirement, soit 90 liens sur les 180 de la grille régulière 10 × 10. On parle de carteR-aléatoire. On utilise ici l’algorithme standard sur les cartes de neurones utilisées.

La figure 3.14 représente Eext(τ) pour R variant de 0 (algorithme standard) à 1(grille de départ totalement aléatoire), avec le jeu numéro 2.

−6 −5 −4 −3 −2 −1 0 11.4

1.6

1.8

2

2.2

2.4

2.6

2.8

3

3.2

3.4

log(R)

Jeu 2

Eext

Eext standard

Fig. 3.14 – Eext(τ) pour un ensemble de cartes R-aléatoires


L’utilisation d’une topologie petit-monde pour la carte de neurones ne semble pasdu tout avantageuse. Des résultats semblables sont obtenus avec les jeux 1 et 3, ainsiqu’en haute dimension. La figure 3.15 est une illustration explicite de ces très mauvaisrésultats.

Espace Y Espace X

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Fig. 3.15 – Modélisation finale avec une carte 0.02-aléatoire

Les notions de topologie introduites au chapitre 2, avec la fonction topographiqueΦ (Éq. 2.14) permettent une explication théorique.

À la carte R-aléatoire de l’espace Y correspond une matrice d’adjacence qui induitune topologie de voisinage forte T +

Y (r) (définition 2.2.4). L’espace XY est pourvu quantà lui d’une autre topologie de voisinage, TXY (r), définie par le diagramme de DelaunayGX des wr ∈ XY (définition 2.2.6). C’est la continuité de ΨY →X :

(

Y, T +Y (r)

)

−→(

XY , TXY (r))

qui n’est pas respectée ici, d’autant moins que R augmente. On aΦX

Y (k−) 6= 0. En effet, deux neurones voisins dans Y par une connexion longue, sontéloignés dans XY . Les ensembles « ouverts » de voisins ne correspondent pas d’un espaceà l’autre. L’ordre topologique est d’autant moins préservé que R augmente, la qualitéde modélisation (Fig. 3.14) en pâtit directement.

Connectivité dynamique

L’inconvénient majeur de la dernière approche est certainement la stationnaritéde la carte Y , comme dans l’algorithme standard. En effet, nous déterminions encorepar avance, dans les simulations précédentes, la topologie de voisinage forte de la carte.


L’idée d’une plus grande auto-adaptativité est de ne pas fixer définitivement la topologieen Y , pour laisser le processus apprendre de lui-même la topologie finale optimalede la grille. Puisque la dimension d’un graphe petit-monde, d’après la définition dela dimension d’un graphe 2.1.9, est grande, il n’est pas impossible que la projectionbidimensionnelle dans Y de la carte optimale de modélisation d’un jeu de données enhaute dimension ait les propriétés petit-monde. Notre démarche est donc de trouver desméta-règles d’apprentissage de la bonne topologie de modélisation des données, i.e. desrègles qui définissent quels doivent être les changements dynamiques de la topologie devoisinage pendant l’apprentissage.

Concrètement, on se propose d’effectuer des reconnexions en fonction d’un critère àtrouver (méta-règle) pendant le processus d’apprentissage. On part de la carte régulièrehabituelle, le but étant de transformer progressivement la topologie de voisinage forte(connectivité) pour arriver à une modélisation optimale, quel que soit le jeu de donnéesX. Nous ne retranscrirons que certains essais qui illustrent le sens de nos recherches,parmi un ensemble d’essais non concluants.

On introduit la quantité Nmaxrec , nombre de reconnexions totales effectuées pendant

l’apprentissage. Si on note Kreg le nombre total de connexions de la carte régulière(standard) Y , on peut utiliser Rmax, que l’on trouve plus commode à utiliser :

Rmax =Nmax

rec

Kreg←→ Nmax

rec = E[Kreg × Rmax]

où E[ ] est la fonction partie entière. Notons que Rmax ∈ R+, il peut être supérieur à 1.

On introduit également une autre quantité, ∆trec, intervalle de temps séparant deuxreconnexions. Comme on s’intéresse avant tout à trouver un bon critère de reconnexion,on limite le nombre de paramètres, en fixant la première reconnexion à t0 = ∆trec, eten faisant dépendre ∆trec des paramètres déjà existants, dont τ qui est la durée de laphase d’organisation :

∆trec = E

[

τ

Nmaxrec

]

De la sorte, on étale dans le temps les reconnexions de façon régulière, de t0 jusqu’à lafin de l’apprentissage. Nous avons conscience de la grande rigidité de ces règles, maisle problème principal est d’observer le comportement des neurones pour divers critèresde reconnexions. Notre premier critère de reconnexion sera le suivant :

Critère A : Parmi les arrêtes de Y , on déconnecte celle qui correspond à la connexionla plus longue dans l’espace des poids XY (norme euclidienne). On reconnecte les deuxneurones i, j de Y tels que i et j ne sont pas connectés (le graphe reste simple), et wi,wj soient les poids les plus proches dans XY (norme euclidienne).


Ce critère fait appel à la distance entre les poids dans l’espace XY . Dans l’algorithmestandard de Kohonen, quand l’ordre de voisinage V (t) diminue, seul l’espace de sortieY compte pour définir le nouveau voisinage Vr(t) d’un neurone r (Éq. 2.7). On a dansl’idée que c’est la distribution spatiale des poids wr dans l’espace X des données quidoit déterminer la bonne topologie de voisinage dans l’espace Y .

On choisit de déconnecter le lien le plus long de l’espace XY car ceux-ci corres-pondent généralement à des zones mal modélisées, avec des neurones intermédiaires(voir Fig. 2.10 et 2.11). On reconnecte sur les poids non connectés les plus proches carils sont connectés dans l’espace topologique

(

XY , TXY (r))

. On analyse les résultats surle jeu de données le plus simple, le jeu numéro 2.

La figure 3.16 représente Eext(τ) avec le critére A de reconnexion.

−0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.41.5

2

2.5

3

3.5

4

4.5

5Jeu 2

Rmax

Eext

Eext standard

Fig. 3.16 – Critére A : Eext(τ) pour différentes valeurs de Rmax

On constate malheureusement que l’erreur absolue Eext croît à peu près linéairementavec Rmax. Une illustration donne là encore une bonne idée de ce qu’implique notrepremier critère de déconnexion.

La figure 3.17 aide à bien comprendre pourquoi l’erreur absolue augmente avec Rmax.À mesure que Rmax augmente, on voit que les neurones se regroupent de plus en plus enpetits îlots séparés les uns des autres, si bien qu’à la fin plusieurs neurones modélisentla même région. On voit bien la formation progressive d’agrégats dans l’espace de lacarte Y (à gauche).


Rmax = 0.25

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Rmax = 0.5

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Fig. 3.17 – Critère A : comportement des neurones


Le problème de ces îlots, c’est qu’ils apparaissent à cause du critère choisi, et nonparce que la topologie des données les engendrent. Notre critère n’est pas satisfaisant,et nous en proposons un nouveau qui devrait remédier à ce problème.

Critère B : Parmi les arrêtes de Y , on déconnecte celle qui correspond à la connexionla plus longue dans l’espace des poids XY , si sa longueur physique dmax vérifie dmax >

b× dY . Si cette condition n’est pas respectée, on ne déconnecte pas. Si la déconnexion aeu lieu, on reconnecte comme dans le critère A.

Dans cette définition, b est un nouveau paramètre, dY désigne la longueur desconnexions de la carte Y entre les poids de XY , dY est la moyenne de la longueur(distance euclidienne) de ces connexions.

Ce critère doit permettre au réseau de ne pas couper des connexions qui ne sont pasbeaucoup plus longues que la moyenne. Typiquement, dans le jeu numéro 2, la longueurdes connexions dans XY fluctue statistiquement autour d’une valeur moyenne quand leprocessus converge, mais il n’y a pas de raison de couper la connexion la plus longue,qui ne l’est que par fluctuation statistique. Les connexions longues entre les deux nuagesde données du jeu numéro 1, par exemple, ne le sont pas par fluctuation statistique,mais bien à cause de la topologie de l’espace des données.

Notons que Rmax = 1 correspond à un nombre de reconnexion élevée puisqu’on eneffectue autant que le nombre de connexions de la grille régulière. C’est donc un bonmoyen d’évaluer la qualité du critère B que d’utiliser Rmax élevé pour nos simulations.

La figure 3.18 montre, pour nos trois jeux de données, le résultat des simulations.On prend pour base ici la version standard. La première constatation est que pourtous les jeux de données, il existe une plage de b pour laquelle la modélisation est aumoins aussi bonne que la version standard. Ceci est une amélioration par rapport aucritère précédent. Pour le jeu 2, on ne parvient pas à faire mieux que sans reconnexion,ce qui n’est pas surprenant puisque la topologie de la carte est déjà adaptée à celledes données. Avec les jeux de données 1 et 3, on améliore sensiblement la qualité demodélisation finale, ce qui nous laisse penser que notre direction de recherche d’unetopologie de voisinage dynamique est bonne. Cependant, cette amélioration ne dépassepas 5% de l’erreur standard absolue non normalisée, ce qui est justement l’ordre degrandeur du bruit statistique de nos simulations. La courbe de l’erreur sur des donnéesà 15 dimensions est très semblable au jeu 3.

À la figure 3.19, on peut visualiser notemment l’effet des reconnexions sur un jeude données comprenant deux nuages de points, le jeu 1. Ici, on a inclu le critère B à


−5 0 5 10 15 20 25 300.38

0.4

0.42

0.44

0.46

0.48

0.5

b

Jeu 1

Eext, Rmax=1Eext, Rmax=0.5Eext standard

−5 0 5 10 15 20 251.4

1.6

1.8

2

2.2

2.4

2.6

2.8

3

3.2

b

Jeu 2

Eext, Rmax=1

Eext, Rmax=0.5

Eext, Rmax=0.2

Eext standard

−5 0 5 10 15 20 25 301.8

1.9

2

2.1

2.2

2.3

2.4

2.5

b

Jeu 3

Eext, Rmax=1

Eext standard

Fig. 3.18 – Critère B : Eext(τ)


la version multirythmique. Le réseau a bien appris à déconnecter les deux nuages, d’oùla réduction de l’erreur de modélisation. En partculier dans l’espace Y de la carte desneurones, les deux groupes de neurones sont bien séparés. Par contre, à l’intérieur desdeux nuages, la modélisation n’est pas parfaite.

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Jeu 1

Fig. 3.19 – Critère B : Rmax = 0.2, b = 15.

Bien qu’elle permette d’obtenir des résultats au moins aussi bon que la versionstandard ou multirythmique (selon que le critère B soit inclu dans l’une ou dans l’autre),cette version d’une topologie de voisinage dynamique, dans son état actuel, contientquelques points faibles :

⊲ Un nouveau paramètre b est introduit, difficile à contrôler, au sens où la bonnevaleur pour b n’est pas intuitive et varie beaucoup selon le jeu de données.

⊲ L’amélioration sur l’erreur de modélisation est faible, elle est de l’ordre du bruitstatistique.

⊲ Une nouvelle connexion (critère identique dans A et B) a tendance à former desîlots de neurones trop rapprochés.

⊲ Les valeurs de t0 et ∆trec sont fixées automatiquement par la valeur de Nmaxrec . La

fréquence de reconnexion est fixe.

En fait, il semble, d’après nos simulations, que le fait de replacer la connexionn’apporte aucune contribution positive à la modélisation, peut-être même qu’elle ladéteriore. Nous procédons donc, un peu plus loin, à une série de simulations sans re-connexion pour comparer la qualité de modélisation dans les deux cas. Auparavant,revenons rapidement sur la notion de voisinage et de connexions dans l’algorithmestandard.


Correspondance entre V (t) et K(t)

Dans l’algorithme standard, on définit un ordre de voisinage V (t) qui diminue parpaliers, exponentiellement, dans le temps. C’est ce qu’exprime l’équation 2.6 page 8.C’est à partir de la valeur V (t) et de la topologie de voisinage T +

Y (r) que l’on définit levoisinage Vr(t) du neurone r, d’après l’équation 2.7 page 11. On a donc deux formalismesparfaitement équivalents : dire que j ∈ Vi(t) (donc i ∈ Vj(t)) ou dire que l’arrête (i, j)

fait partie du graphe Y à t sont deux expressions équivalentes.

On peut donc, à chaque instant, représenter toutes les connexions dans l’espace Y ,comme sur la figure 3.20. On appellera le graphe qui en résulte graphe explicite.

V = 1 V = 3

Fig. 3.20 – Graphes explicites de V (t)

Avec la figure, on visualise immédiatement la correspondance entre V (t) et K(t),le nombre de connexions dans le graphe à l’instant t. En particulier, pour l’algorithmestandard tel que nous l’avons défini au chapitre 2, avec une grille 10 × 10, on a lacorrespondance unique de la figure 3.21.

L’intérêt de mettre en évidence cette correspondance est de montrer l’existence d’ungrand nombre de marches intermédiaires dans la décroissance de K(t), auxquelles onn’a pas accès avec le paramètre V (t). Si K(t) diminuait de 1 en 1, l’algorithme seraitplus progressif et peut-être mieux auto-adapté.


0 2000 4000 6000 8000 10000 120000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

Temps

V(t) : ordre de voisinage

0 2000 4000 6000 8000 10000 120000

500

1000

1500

2000

Temps

K(t) : nombre total de connexions

180

502

930

1430

1970

Fig. 3.21 – Correspondance entre V (t) et K(t)

Indépendance progressive des neurones

Nous allons donc reprendre les simulations du critère B, avec la version multiryth-mique, mais cette fois-ci en effectuant les déconnexions une à une, sans recon-nexion. Puisqu’on ne reconnecte pas, la borne supérieur de Rmax est 1, c’est-à-direqu’on ne peut déconnecter plus de connexions qu’en contient la grille régulière.

On fait varier le paramètre Rmax de 0 à 1, avec un pas de 0.2. Pour Rmax = 0,ces simulations sont équivalentes à la version multirythmique. Pour le critère B avecreconnexions, on fixe b = 0. En effet si b 6= 0, il se peut que certaines déconnexionsn’aient pas lieu comme nous l’avons vu. Avec b = 0, les Rmax correspondent à un mêmenombre de déconnexions (avec ou sans reconnexion) dans les deux cas. La figure 3.22montre les résultats obtenus pour les trois jeux de données.

On voit très clairement que les résultats sont systématiquement meilleurs quand onne fait pas de reconnexion, c’est-à-dire quand on enlève progressivement des connexionsdans la grille Y . On remarque même que pour tout jeu de données, il existe une plagede Rmax telle qu’on améliore la modélisation par rapport à la version multirythmique.

Nous venons d’éclaircir un point important : pour apprendre correctement, les neu-rones ont besoin d’être connectés les uns aux autres au début de l’apprentissage, maisil faut absolument qu’ils acquièrent progressivement leur indépendance. Décon-necter la grille de voisinage, c’est augmenter l’indépendance des neurones. Un neurone ad’autant moins besoin d’apprendre par ses voisins qu’il a lui-même suffisamment appris.


−0.2 0 0.2 0.4 0.6 0.8 1 1.20.2

0.21

0.22

0.23

0.24

0.25

0.26

0.27Jeu 1

Rmax

Err

eur

abso

lue

deconnexions−reconnexionsdeconnexions seules

−0.2 0 0.2 0.4 0.6 0.8 1 1.21

1.05

1.1

1.15

1.2

1.25

1.3

1.35

1.4Jeu 2

Rmax

Err

eur

abso

lue

deconnexions−reconnexions

deconnexions seules

−0.2 0 0.2 0.4 0.6 0.8 1 1.20.4

0.45

0.5

0.55

0.6

0.65Jeu 3

Rmax

Err

eur

abso

lue

deconnexions−reconnexions

deconnexions seules

Fig. 3.22 – Critère B, avec ou sans reconnexion


On peut également comprendre l’intérêt des déconnexions avec l’approche topolo-gique. À la limite où chaque neurone r devient indépendant, sa topologie (ensembledes ensembles « ouverts ») ne contient que ∅ et r lui-même. L’ordre topologique esttoujours préservé par la transformationM = (ΨX→Y , ΨY →X), toujours continue quandtous les neurones sont isolés. Enlever des connexions de la grille de voisinage, c’est allerdans le sens de l’ordre topologique.

Ainsi, à mesure que l’apprentissage progresse, il faut une connectivité de moins enmoins forte dans la carte de neurones, et à partir d’un certain degré de connaissance, legraphe doit commencer à se fragmenter. Un bon apprentissage converge vers un réseaudont les propriétés sont opposées au petit-monde, puisqu’à la limite, chaque neuronedoit apprendre à se déconnecter de tous les autres.

Ordre topologique

On a vu que déconnecter, c’est aller dans le sens de l’ordre topologique. Ceci estvrai à condition de ne pas couper n’importe quelle connexion à t. Expliquons pourquoi.

Dans les dernières simulations, les déconnexions portent toutes sur les arrêtes de lagrille régulière (d’ordre 1), quelle que soit la valeur de V (t) courante, et non sur cellesdu graphe explicite. Ainsi, la situation de la figure 3.23 se produit fréquemment, oùune connexion d’ordre 1 est manquante alors que V (t) > 1. Les neurones mobiles nesont pas les plus proches voisins de XY . Dans cette situation, les notions de topologieintroduites au chapitre 2 permettent à nouveau une explication théorique.

On a vu qu’avec une carte initiale Y petit-monde, la continuité de ΨY →X :(

Y, T +Y (r)

)

−→(

XY , TXY (r))

n’est pas respectée (Fig. 3.15). Ici, c’est la fonction inverse, ΨX→Y :(

XY , TXY (r))

−→(

Y, T −Y (r)

)

qui n’est pas continue. En effet, à deux poids wi etwj proches de l’espace topologique

(

XY , TXY (r))

correspondent deux neurones i et j

éloignés dans l’espace topologique(

Y, T −Y (r)

)

.

Nous proposons donc, pour clore ce chapitre, une dernière modification, qui montrela nécessité de respecter l’ordre topologique, c’est-à-dire de ne pas rompre pendantl’apprentissage des connexions d’ordre inférieur à V (t).

Plutôt que de supprimer brutalement toutes les connexions d’un même ordre enmême temps, comme c’est le cas des versions standard, normée et multirythmique, onutilise la correspondance entre V (t) et K(t) (page 56) pour adapter la topologie devoisinage de façon continue, tout en respectant l’ordre topologique. Pour ce faire, on


Fig. 3.23 – Rupture de l’ordre topologique

déconnecte les connexions du graphe explicite une à une, en commençant par cellesd’ordre le plus élevé pour finir au plus bas. On garde une décroissance de type exponen-tielle pour l’ordre, mais au sein d’un ordre la fréquence de déconnexion est constante.K(t) est donc une fonction décroissante, linéaire par morceaux. La figure 3.24 illustrecette décroissance pour un ordre de voisinage de départ V0 = 3.

0 2000 4000 6000 8000 100000

100

200

300

400

500

600

700

800

900

1000

K

Temps

Rupture de pente

Fig. 3.24 – Décroissance de K(t) linéaire par morceaux


Notons B′ l’ensemble des ajouts relatifs à cette version : déconnexion avec le critèreB (b = 0), pente de K(t) définie ci-dessus et respect de l’ordre topologique dans le choixdes liens à déconnecter. Le tableau 3.3 donne les résultats quantitatifs des améliorationspar rapport à la version multirythmique, ainsi que les normes de l’erreur absolue parrapport à la version standard pour les trois jeux de données. Les paramètres α, β etV0 sont inchangés (voir Tab. 3.2). Les résultats obtenus sont comparables en hautedimension.

Données Version Eext(τ) Eext(τ)Estandard

1multirythmique 0.252± 0.010 0.565± 0.022

multirythmique+B′ 0.231± 0.007 0.518± 0.016

2multirythmique 1.119± 0.022 0.704± 0.014


3multirythmique 0.490± 0.027 0.213± 0.012


Tab. 3.3 – Erreurs absolues, version multirythmique sous contraintes

En résumé, au cours de ce chapitre, nous avons proposé deux nouvelles versions quiaugmentent significativement la qualité de modélisation des trois jeux de données (ainsiqu’en haute dimension), tout en maintenant au moins autant (si ce n’est plus) de vrai-semblance biologique que la version standard. Nos investigations sur l’auto-adaptativitédes SOM se sont ensuite tournées vers la topologie de voisinage. Nous y avons découvertun certain nombre de contraintes, relatives notemment à l’ordre topologique et à l’indé-pendance progressive nécessaire des neurones. La version multirythmique + B′ est uneétape qui traduit l’importance de ces conclusions, cependant pas un achèvement. En ef-fet, la fréquence de déconnexion est imposée à l’avance au lieu d’être adaptée au rythmed’apprentissage. Dans le prochain chapitre, nous verrons que l’on peut remédier à ceproblème en étudiant le lien temporel entre la topologie de la carte et la connaissancedes neurones.

Chapitre 4

Topologie et connaissance

Nous avons vu, à travers les simulations du chapitre précédent, que l’auto-adaptativitéde la connectivité des neurones est une question délicate. Assurément, une bonne topo-logie implique une bonne modélisation. Cependant, la topologie de voisinage du réseaude neurones n’a pas intérêt à être la même au début et à la fin de l’apprentissage. Une« bonne » topologie dépend donc de ce qu’ont appris les neurones à chaque instant t.Jusqu’ici, nous n’avons pas étudié la question du rythme d’apprentissage.

Dans ce chapitre, nous essaierons de mieux comprendre le lien entre la topologie devoisinage et la connaissance des neurones tout au long de l’apprentissage. Une extensiondu cadre classique d’étude de la topologie petit-monde à la théorie de l’information nouspermettra de porter un nouveau regard sur le rôle de la topologie dans le processusd’apprentissage. Par la suite, nous construirons une fonction Connaissance dont on seservira pour exploiter le lien entre topologie et connaissance des neurones. Il en découleune troisième version de l’algorithme, que nous nommons auto-instruite.

4.1 Lien structure-fonction

4.1.1 Le petit-monde en théorie de l’information

Si la topologie petit-monde telle qu’on l’a définie en 3.3.1 ne semble pas indiquée pourêtre appliquée à l’algorithme standard de Kohonen, nous allons voir que les définitionsqui en découlent dans la théorie de l’information permettent une analyse féconde duprocessus d’apprentissage.

Chapitre 4. Topologie et connaissance 62

Deux physiciens, V. Latora et M. Marchiori, ont proposé une définition des pro-priétés petit-monde directemment liée à la théorie de l’information ([32], [35]). Leurapproche présente plusieurs avantages, parmi lesquels :• une seule fonction D, appelée longueur de connectivité, sert à décrire les propriétés

globale ou locale du réseau,• on peut calculer D pour tout réseau, qu’il soit fragmenté ou non, alors que la

quantité L, par exemple, est infinie dès que le graphe n’est pas connexe.

Soit G un graphe simple (cf. définition 2.1.7), où l’on note N le nombre total de sommets,K le nombre total d’arrêtes et dij la distance d’adjacence (cf. définition 2.1.5) entre lessommets i et j. Le flux d’information Fij entre i et j, par unité de temps, est :

Fij =v

dij

où v est une constante homogène à une vitesse.

Le chemin géodésique moyen L est, dans ce contexte, très bien approximé par Dglobal

(équation 4.1), longueur de connectivité globale, distance moyenne entre toute paire denoeuds pour maintenir la performance (flux d’information) du réseau ([35]).

Dglobal(G) =N(N − 1)

∑

(i,j)∈G 1/dij

(4.1)

La longueur de connectivité D peut aussi être calculée localement, elle s’apparentealors à 1/C. Le coefficient d’agrégation C est donc grand quand la longueur de connecti-vité locale Dlocal (équation 4.4) est faible. Pour définir Dlocal, nous définirons au préalablel’efficacité E (globale ou locale) du graphe (équation 4.2), qui n’est autre que l’inversede la longueur de connectivité. Plus celle-ci est faible, plus l’efficacité du graphe estgrande car l’information circule rapidement.

E(G) =1

D(G) (4.2)

Il ne nous reste qu’à définir l’efficacité locale Elocal(G) (équation 4.3) pour connaîtreDlocal(G).

Elocal(G) =1

N

N∑

i=1

Eglobal(Gi) (4.3)

où Gi est le sous-graphe des voisins immédiats du sommet i ([32]). Notons que i /∈ Gi.

On a donc, d’après 4.2 :

Dlocal(G) =N

∑N

i=1 Eglobal(Gi)(4.4)


Dglobal(G) et Dlocal(G) sont des moyennes harmoniques, quantités que l’on utilisesouvent pour connaître la performance moyenne de calculs parallèles ([21]) ou de pro-cédés de communication ([22]). Un exemple plus connu en physique est la résistanceéquivalente d’un circuit électrique en parallèle. Notons que pour calculer ces deux fonc-tions, on a besoin de connaître les distance d’adjacence dij entre toute paire de sommetsi et j du graphe. Pour ce faire, on utilise l’algorithme de Floyd-Warshall dont on trouvele code dans [44].

Un graphe G petit-monde est donc tel que Dglobal(G) et Dlocal(G) sont faibles, i.e. degrandes efficacités locale et globale à la fois. À toute échelle, l’information circule rapi-dement dans un tel réseau. Ce lien avec la théorie de l’information est très intéressantdans le contexte de l’apprentissage non supervisé de Kohonen. Pour mieux comprendrecomment les neurones s’organisent afin de modéliser au mieux l’ensemble des stimuli,nous regarderons l’apprentissage sous l’oeil du flux d’information, dans la prochainesous-section, après avoir défini, en (4.5) une fonction importante dans le contexte denotre étude, la dilution, notée Dil.

Dil(G) =Kmax

K(G) (4.5)

où K(G) est le nombre total d’arrêtes dans le graphe G et Kmax le nombre d’arrêtesmaximal que peut contenir le graphe G. Si K(G) = Kmax, le graphe est totalementconnecté et Dil(G) = 1.

Lorsque K(G) = K ≪ Kmax, on parle de dilution forte (Dil ≫ 1), si K - Kmax,on parle de dilution faible (Dil % 1).

Ce qui est remarquable dans les réseaux petit-monde tels que nous les avons présen-tés à la sous-section 3.3.1, c’est que malgré une très forte dilution, ils n’en conserventpas moins une grande efficacité (équation 4.2), tant à l’echelle locale que globale.

L’exemple du cerveau est éloquent : un humain posssède quelques 1011 neurones,avec en moyenne 104 connexions synaptiques par neurone. L’ordre de grandeur de ladilution est :

Dil =Kmax

K∼ (1011)2

1011 · 104

soit,Dil ∼ 107

Une telle dilution rend possible l’apport énergétique nécessaire au bon fonction-nement du cerveau, sans qu’il en perde pour autant ses propriétés de communication


rapide, sa stabilité face aux erreurs ou sa capacité d’activation cohérente de zones cor-ticales éloignées.

4.1.2 Kohonen sous le regard petit-monde

Nous avons vu à la fin du chapitre 3 que la contrainte d’ordre topologique impose(pour une bonne modélisation) que si une connexion d’ordre n existe, tous les liensd’ordre inférieur à n doivent aussi faire partie du graphe des neurones Y . Il ne peutdonc exister de liens isolés d’ordre supérieur, comme dans l’illustration de l’espace Y

à la figure 3.15. C’est la présence de quelques uns de ces liens dans les réseaux petit-monde, qu’on peut appeler « raccourcis », qui entraîne une valeur de L faible (Dglobal

faible) en maintenant C élevé (Dlocal faible).

Même si ces raccourcis n’existent pas dans les cartes de Kohonen, on peut calculerles valeurs de Dglobal et Dlocal au cours de l’apprentissage. En particulier, au début decelui-ci, c’est toujours une carte de forte connectivité que l’on utilise, et un nombre deconnexions représentant 20% de Kmax (Dil0 = 5) est un exemple typique de la cartede départ que l’on peut utiliser. Dans notre carte de 10 × 10 neurones, si V0 = 3,Dil0 = 5.32 et si V0 = 5, Dil0 = 2.51, ce qui illustre la très forte connectivité (trèsfaible dilution) des cartes Y typiquement utilisées au départ de l’apprentissage.

Nous avons calculé les valeurs de Dglobal et Dlocal pour différentes topologies devoisinage sur notre grille 10× 10 (cf. tableau 4.1).

Ordre de voisinage V R Dglobal Dlocal

0 - ∞ ∞

10 4.588 ∞1 3.227 31.184

3 0 2.030 1.260

5 0 1.479 1.185

graphe complet - 1 1

Tab. 4.1 – Valeurs de Dglobal, Dlocal pour différentes topologies d’une grille 10× 10

Dans ce tableau, le paramètre R est le pourcentage de reconnexion dans la grille,introduit au début de la sous-section 3.3.2. R = 1 est une grille totalement aléatoire.Les fonctions Dglobal et Dlocal ont pour minimum 1, c’est le cas d’un réseau totalementconnecté (graphe complet). Notre grille régulière 10× 10 (Fig. 2.1) correspond à V =


1, R = 0. Le coefficient d’agrégation C de cette grille est nul puisqu’il n’y a aucun« triangle », donc Dlocal(V = 1, R = 0) =∞.

On mesure, avec les données quantitatives de ce tableau, le degré de communi-cation aux échelles globale et locale des grilles de départ utilisées, où l’on utilise unordre de voisinage V0 typiquement compris entre 3 et 5. Pour ces ordres de voisinages,Dglobal ∈ [1.479, 2.030] et Dlocal ∈ [1.185, 1.260], ce qui est faible pour les deux fonctions,notemment par rapport aux valeurs de la grille standard « carrée », qu’elle soit régulièreou aléatoire.

La carte de départ utilisée est donc une carte petit-monde, au sens où les valeurs deDglobal et Dlocal sont faibles par rapport aux nombres de neurones du réseau. Nous neparlons pas ici de petit-monde au sens d’un réseau qui se situerait entre la régularité etl’aléatoire (avec des « raccourcis »), mais d’un petit-monde au sens où les neuronessont fortement connectés entre eux quelle que soit l’échelle. La différence avecle petit-monde classique provient du nombre de connexions : élevé dans la carte deneurones initiale de Kohonen, faible dans le cerveau. On étend en quelques sorte leconcept de petit-monde, ici, aux réseaux faiblement dilués.

À mesure que l’apprentissage progresse, on a vu qu’il est nécessaire, pour apprendrele mieux possible, d’effectuer des déconnexions qui rendent les neurones de plus en plusindépendants les uns des autres. À mesure donc que l’on apprend, on doit s’éloigner deplus en plus de cette topologie petit-monde telle qu’elle est définie par les valeurs deDglobal et Dlocal, jusqu’à produire un graphe fragmenté et, à la fin de l’apprentissage, ungraphe sans plus aucune connexion (V = 0 et Dglobal et Dlocal sont infinies). Pour que lesneurones réalisent un bon apprentissage, ils doivent donc passer d’un petit-mondeà ce que j’appellerai un vaste-monde.

La figure 4.1 illustre ce mouvement d’une topologie partant d’un petit-monde versun vaste-monde pour la version multirythmique + B′ où la contrainte de l’ordre topo-logique est respectée et où l’on déconnecte progressivement les liens un à un. Au débutde l’apprentissage, Dglobal et Dlocal sont toutes deux faibles, tandis qu’elles s’envolentvers l’infini quand les neurones se désolidarisent les uns des autres.

L’intérêt de regarder le comportement des fonctions Dglobal et Dlocal est que l’inter-prétation de celui-ci est en lien direct avec la théorie de l’information. À mesure que leréseau apprend, il est nécessaire que l’echelle de communication des neurones se réduise,i.e. que la réponse du réseau à un stimulus soit de plus en plus locale, jusqu’à la limiteoù un seul neurone apprend le stimulus. Les fonctions Dglobal et Dlocal font doncle lien, de façon dynamique, entre la structure du réseau (topologie) et sa


0 2000 4000 6000 8000 100000

5

10

15

20

25

30

35

40

45

50

Temps

Version multirythmique + B’

K(t) (x0.025)D

global

Dlocal

Fig. 4.1 – Évolution temporelle de Dglobal et Dlocal pendant l’apprentissage

fonction (apprentissage). Ce « lien structure-fonction » est un concept fondamentalen biologie : de même que la structure de l’hémoglobine (forme de panier) s’accorde àsa fonction (transfert d’oxygène), la structure d’une SOM s’accorde aussi à sa fonction.Ici en particulier, la correspondance structure-fonction est dynamique : à l’echellede connectivité (structure) correspond l’echelle de précision spatiale dansXY de la connaissance des neurones (fonction). La carte apprend d’abord trèsgrossièrement pour raffiner petit à petit sa connaissance.

Nous avons réalisé quelques simulations, synthétisées à la figure 4.2, qui résumentclairement un certain nombre des conclusions auxquelles nous sommes parvenus surle lien structure-fonction dynamique dans les SOM. Nous comparons ici la qualité demodélisation d’une grille de voisinage fixe (stationnaire) avec la modélisation d’unegrille dont l’ordre de voisinage décroît de façon standard. La version multirythmiqueest utilisée. Tout l’espace des ordres de voisinage V0 possibles est représenté ; V0 = 18

correspond au graphe complet, où tout neurone est connecté à tout autre neurone.V0 = 0 est la carte sans aucune connexion, il est donc normal de trouver la même valeurde Eext(τ) puisque grilles stationnaire ou dynamique sont identiques dans ce cas.

La première constatation, c’est la confirmation qu’une grille dynamique, où les neu-rones deviennent indépendants les uns des autres, apprend systématiquement mieux


−5 0 5 10 15 200

2

4

6

8

10

12

Ordre de voisinage V0

Err

eur

abso

lue

Jeu 2

V0 constant : grille stationnaire

V0 en decroissance standard

Fig. 4.2 – Comparaison entre grille fixe et grille dynamique

que la grille de départ stationnaire correspondante. La deuxième constatation concernel’ordre de voisinage initial V0 : si V0 = 0, la connectivité est nulle et l’echelle de pré-cision de l’apprentissage demandée est trop grande : il faut partir, au contraire, d’unegrille petit-monde (au sens de la dilution faible). Par contre, rien ne sert de partir d’unegrille totalement connectée non plus. Les valeurs Dglobal(t = 0) et Dlocal(t = 0) sontsuffisamment faibles pour V0 ∈ 3, 4, 5, au delà on perdrait du temps à déconnecterpour passer à une echelle de présicion d’apprentissage supérieure.

4.1.3 Vers une topologie auto-adaptative

Dans la version standard de l’algorithme, comme dans les versions multirythmiqueou multirythmique + B′, c’est la structure du réseau, déterminée à priori, qui déter-mine la fonction, i.e. l’echelle de précision de la connaissance. La figure 4.3 en est uneillustration. On utilise l’algorithme standard avec V0 = 3 sur le jeu numéro 3. Il apparaîtque le rythme de décroissance de V (t) impose le rythme de connaissance, i.e. la qualitéde modélisation de chaque instant Eext(t)

1.

1On n’a pas représenté ici Eext(t = 0) ≫ Eext(t = 1). La valeur de Eext à t = 0 ne nous intéresse

pas puisqu’on regarde ce qui est appris quand V (t) varie.


0 2000 4000 6000 8000 100000

2

4

6

8

10

12

14

16

18

20

Temps

Jeu 3

Eext

(t)

V(t) (x3)

Fig. 4.3 – Algorithme standard : la topologie détermine la connaissance

Ceci est insatisfaisant pour les raisons suivantes :

1. Il est peu vraisemblable, d’un point de vue biologique, que les neurones sachent,avant même d’avoir appris quoi que ce soit, comment la connectivité doit évoluerdans le temps (hypothèse génétique).

2. À chaque instant du processus d’apprentissage, chaque neurone i possède uneinformation actuelle sur son état de connaissance, Aint

L (i, t), qui n’est pas exploitée.

À partir de ces constatations, nous suggérons l’idée qu’à tout instant t du processusd’apprentissage, c’est l’état de connaissance des neurones qui devrait détermi-ner la topologie et non l’inverse. Un tel système serait beaucoup plus auto-adaptatifpuisque le rythme d’évolution de la topologie dépendrait du rythme d’apprentissage aulieu d’être fixé à l’avance. De façon schématique, nous proposons le changement suivant :

Apprentissage standard : Topologie −→ Erreur de modélisation Eext

Apprentissage proposé : Connaissance des neurones −→ Topologie −→ Eext

Comme l’erreur de modélisation va de pair avec la connaissance des neurones, onvoit que le nouveau schéma d’apprentissage proposé forme une boucle : la topologie


influence la connaissance qui influence la topologie à son tour . . .

Nous verrons si un tel schéma d’apprentissage dégrade la qualité de modélisationou si, au contraire, il l’améliore. En premier lieu, nous devons trouver une fonctionConnaissance qui reflète bien ce qui a été appris et qui puisse être utilisée par lesneurones dans le contexte non supervisé.

4.2 Fonction Connaissance

Nous avons vu à la section 3.2.2 que les AintL correspondent aux régions de l’espace

X où l’erreur de modélisation est grande. À mesure que l’apprentissage progresse, l’en-semble des Aint

L doit correspondre de plus en plus à l’erreur absolue locale, et nousavons vu qualitativement qu’à la fin de l’apprentissage, cette correspondance est bonne(Fig. 3.10). C’est donc sur la piste de l’attractivité locale, fonction connue du systèmeà l’interne, que nous engageons nos recherches d’une fonction Connaissance.

4.2.1 Apprentissage harmonique

Pour qu’elle reflète au mieux l’état de connaissance du système, la fonction Connais-sance doit, dans l’idéal, correspondre aux variations opposées de l’erreur absolues Eext,donc vérifier les propriétés suivantes :

• être d’autant plus grande que l’on a mieux appris (i.e. que Eext(τ) est faible)• varier d’autant plus lentement que l’erreur varie lentement• prendre en compte l’homogénéité de l’apprentissage : elle sera maximale si tous

les neurones ont appris de façon comparable

De plus, elle doit être évidemment une fonction interne du sytème puisque l’appren-tissage de Kohonen est non supervisé. Enfin, on aimerait obtenir une fonction lisiblequel que soit le jeu de données, c’est-à-dire dont l’intervalle de variation est le mêmed’un jeu à un autre.

Comme les attractivités locales (équation 3.3) sont les mesures de ce que chaqueneurone a appris, on pourrait penser à la moyenne de celles-ci, mais il s’avère que lamoyenne harmonique est beaucoup plus intéressante. Nous avons rencontré cette quan-tité pour le calcul des fonctions Dglobal et Dlocal à la section 4.1.1, et avons brièvement


noté son importance dans les calculs parallèles.

La moyenne harmonique est ici plus intéressante que la moyenne, car elle prend encompte la répartition des Aint

L entre les différents neurones, ce qu’ignore absolument lamoyenne. Ainsi, la moyenne harmonique est d’autant plus grande que ses composantessont au même niveau, ce qui est exactement ce que l’on veut traduire par notre fonctionConnaissance. Si, par exemple, un seul neurone apprend beaucoup alors que tous lesautres n’ont rien appris, la moyenne sera haute, mais la moyenne harmonique faible.

On aurait donc, comme fonction Connaissance(t), la quantité suivante :N

∑N

i=1 1/AintL (i, t)

Telle quelle, cette quantité est peu intéressante car elle est nulle dès qu’un seul desAint

L (i) est nul à t (dénominateur infini). Nous remplaçons donc le terme 1/AintL (i, t) du

dénominateur par le suivant :

AintL (i, t)

AintL (i, t) + Aint

L (i, t)

où AintL (i, t) est la moyenne sur l’ensemble des neurones i ∈ Y des Aint

L (i, t).

Avec cette modification, il faut définir la fonction en 0, nous prendrons évidemmentsa limite qui est 1 (limt→0 Connaissance(t) = 1). Le fait d’avoir introduit les Aint

L (i, t)

crée une borne inférieure (égale à 1), on préfèrerait garder la fonction nulle en 0, d’où,en notant Cint(t) la fonction Connaissance à t, la définition finale :

Cint(t) =N

∑N

i=1Aint

L (i,t)

AintL (i,t)+Aint

L (i,t)

− 1 ∀ t ≻ 0 (4.6)

etCint(0) = 0 (4.7)

La fonction Connaissance Cint(t) a le bon goût d’être comprise entre 0 et 1, elle vaut1 si tous les Aint

L (i, t) sont égaux. Il est donc facile d’interpreter la valeur de Cint(t) ;dans un cas idéal où tous les neurones auraient appris autant les uns que les autres, onatteindrait une Connaissance finale Cint(τ) = 1.

4.2.2 Validité de la fonction Connaissance

Pour voir si la fonction Connaissance de l’équation 4.6 reflète bien la qualité demodélisation, on analyse deux critères.


1. Il est particulièrement important que la Connaissance finale du réseau soit enaccord avec la qualité de modélisation. Il faut donc que Cint(τ) soit d’autant plusgrande que Eext(τ) est faible.

2. Comme on s’intéresse à la dynamique d’apprentissage du système, il faut égale-ment que les variations de Cint(t) (fonction globalement croissante) correspondentau mieux aux variations de Eext(t) (fonction globalement décroissante) tout aulong de l’apprentissage.

Pour vérifier que notre fonction Connaissance respecte bien le premier point, il estpertinent de regarder la correspondance entre Cint(τ) et Eext(τ) pour des modélisationsdont la qualité est très variable, pour vérifier la correspondance des deux fonctions surun spectre d’erreur le plus large possible.

Les simulations avec une grille stationnaire (qui ne varie pas dans le temps), quenous avons effecutées sur le jeu numéro 2 avec la version multirythmique à la section4.1.2, sont tout indiquées. En effet quand V0 ∈ [0, 18], l’erreur absolue de modélisationfinale varie entre 1.2 et 11, ce qui est considérablement large (Fig. 4.2). Nous reprenonsdonc les mêmes simulations, cette fois-ci en calculant la valeur de Cint(τ) pour chaqueordre de voisinage V0.

−5 0 5 10 15 200

2

4

6

8

10

12

Ordre de voisinage V0

Jeu 2 : V0 constant (grille stationnaire)

Eext(τ)

Cint(τ) (x10)

Fig. 4.4 – Correspondance de Cint(τ) et Eext(τ) pour différentes modélisations


La figure 4.4 montre que le premier critère est bien respecté, sur tout le spectrede Eext(τ). Par ailleurs, notons un détail intéressant : autour du minimum de Eext(τ),la fonction Cint(τ), maximale, creuse les écarts, ce qui est positif puisqu’elle effectuedavantage de distinction entre deux modélisations bonnes qu’entre deux modélisationde piètre qualité.

Pour l’analyse du deuxième critère, nous gardons le jeu numéro 2 et la versionmultirythmique (donc avec V (t) décroissant), et calculons les deux fonctions pour toutinstant t de l’apprentissage. On n’effectue ici qu’un test pour voir la correspondancetemporelle des deux fonctions sur un apprentissage particulier.

0 2000 4000 6000 8000 10000 12000−6

−4

−2

0

2

4

6

8

Temps

log(Eext(t))

log(Cint(t))

Fig. 4.5 – Correspondance temporelle de Cint(t) et Eext(t)

Sur la figure 4.5, on voit que la fonction Connaissance que nous avons contruitetraduit de manière très satisfaisante l’état de connaissance du système à chaque instant.La correspondance entre la fonction interne Cint, connue du système, et lafonction d’erreur absolue Eext, auquel le système n’a pas accès, est excellente.

On remarque que Cint est un peu moins buitée, au début de l’apprentissage queEext. Les variations des deux fonctions sont semblables. La fonction Connaissance peutdonc nous servir de guide, comme nous le proposions à la section 4.1.3, à une topologieauto-adaptative dans le temps.


4.3 Version auto-instruite

4.3.1 Rythme auto-adaptatif

Nous disposons donc d’une fonction Connaissance Cint qui peut nous indiquerle rythme de déconnexion à suivre. Nous avons vu à la figure 4.5 que Cint(t) variecomme une fonction approximativement proportionnelle à −Eext(t). Nous choisissonsun rythme de déconnexion proportionnel à Cint(t), plus précisément K(t) ∝ −Cint(t),de sorte que le nombre de connexions suive la variation de Eext(t) dans la mesure oùCint(t) correspond bien à l’opposé de l’erreur absolue.

L’élagage des connexions, phénomène connu des biologistes ([23], [48]), est ainsispécifié par un critère de connaissance interne au réseau qui dépend de la séquenced’apprentissage de 0 à t. La dynamique de la topologie est modulée par laconnaissance interne (qui s’apparente à Eext) qui évolue elle-même avec l’échellede communication de la topologie correspondante. La boucle illustrée à la page 68 estbouclée.

Pour avoir K(t) ∝ −Cint(t), on introduit un nouveau paramètre Γ ∈ ]0, 1], quiconduit à l’équation 4.8.

Kprop(t) = K0

(

1− Cint(t)

Γ

)

(4.8)

Si Γ = Cint(τ), alors on déconnecte progressivement selon le rythme imposé parCint(t) jusqu’à la dernière connexion à t = τ . On émet l’hypothèse que le rythme d’ap-prentissage est optimal si le paramètre Γ est proche de Cint(τ). Si cette hypothèse estjuste, alors le paramètre Γ correspond à la valeur de Connaissance que l’on pense at-teindre à t = τ . Si par exemple on présuppose que l’apprentissage est optimal, alors onfixera Γ = 1.

Avec l’équation 4.8, on peut avoir ∆Kprop(t) > 0 car la fonction Cint(t), globalementcroissante, ne l’est pas de façon monotone pour tout t. Ceci correspondrait à effectuerdes reconnexions dans la grille, ce que l’on veut éviter. La solution la plus simple consisteà ne suivre que les variations décroissantes de Kprop(t), donc quand Cint(t) diminue onpeut garder K(t) constant. Les variations de K(t) correspondent donc à l’équation 4.9.

K(t) = min (Kprop(t), K(t− 1)) (4.9)


Comme K(t) est toujours positif, on a finalement :

K(t) = max min (Kprop(t), K(t− 1)) , 0 (4.10)

La figure 4.6 illustre les variation de K(t) telle que nous venons de les définir.

0 2000 4000 6000 8000 100000

200

400

600

800

1000

1200

1400

1600

1800

2000Jeu 2

Temps

Cint(t) (x2000)

K(t)

Fig. 4.6 – Variation de K(t) en fonction de Cint(t), Γ = 0.8

On voit notament qu’autour de 2 000 itérations, alors que Cint diminue légèrement,K(t) reste constant : il n’y a que des déconnexions. Dans cet exemple, notre valeurde Γ = 0.8 est une surestimation de Cint(τ), donc toutes les connexions ne sont pascoupées et il en reste quelques unes à t = τ . Si l’on avait sous-estimé Cint(τ), toutes lesconnexions auraient été coupées avant t = τ .

Dans le but d’obtenir une version auto-instruite moins dépendante du choix de Γ,nous proposons, avec les équations 4.11 et 4.12, une formulation quelque peu différentede la décroissance de K(t), où Γ dépend du temps lui aussi.

On remplacera, dans l’équation 4.9, le facteur constant Γ par la fonction Γ(t) sui-vante :

Γ(t) = Γ · (1− t/τ) + Cint(t) · t/τ (4.11)


Avec l’équation 4.11, au lieu d’avoir un paramètre Γ fixe qui nécessite d’avoir une idéecorrecte de la valeur de Cint(τ) (pour ne pas déconnecter trop vite ou trop lentement),on peut se contenter d’une idée approximative de Cint(τ). En effet, cette équationtraduit le concept de barycentre temporel. Alors que l’on n’a possiblement aucuneidée de la valeur de Cint(τ) au début de l’apprentissage et qu’on fixe Γ à priori, au furet à mesure que l’on converge vers la modélisation finale, la valeur de Cint(τ) se précisecar Cint(t) s’en rapproche. L’équation 4.11 est telle que Γ(t) part, à t = 0, de Γ, pourarriver à Cint(τ) à t = τ . Γ(t) est donc barycentre temporel entre Γ et Cint(t).

On obtient, finalement, la décroissance de K(t) avec les équations 4.12 et 4.13.

K ′(t) = K0

(

1− Cint(t)

Γ · (1− t/τ) + Cint(t) · t/τ

)

(4.12)

K(t) = max min (K ′(t), K ′(t− 1)) , 0 (4.13)

Nous comparons dans la prochaine section les performances de 4.10 (où Γ est uneconstante) et 4.13 (où Γ(t) est un barycentre temporel).

4.3.2 Résultats

Nous avons testé notre nouvelle version sur les trois jeux de données, pour les deuxvariantes de décroissance de K(t) proposées, Γ (constant) et Γ(t) (barycentre temporel).On compare les résultats obtenus avec les meilleures performances de la version mul-tiryhmique, qui est pour l’instant la version la plus performante dont nous disposons.L’ensemble de ces simulations est réstitué à la figure 4.7, où les paramètres utilisés sontles mêmes que pour la version multirythmique et où Γ varie entre 0.1 et 1 avec un pasde 0.1, de sorte que l’on couvre presque tout l’intervalle de variation de ce paramètre.

La première constatation, c’est que sur une grande plage de Γ, que ce soit pourΓ ou Γ(t), on obtient de meilleurs résultats que la version multirythmique,déjà très performante. Notre modèle de topologie auto-adaptative est donc d’une partexploitable, d’autre part efficace.

La deuxième constatation porte sur le choix que nous ferons, pour notre versionauto-instruite définitive, entre Γ et Γ(t). Pour les raisons que nous énumérons, nousincorporons définitivement Γ(t) à la version auto-instruite.

Ces raisons sont les suivantes :


0 0.2 0.4 0.6 0.8 1 1.2 1.40.2

0.25

0.3

0.35

0.4

0.45

Γ

erre

ur a

bsol

ue

Jeu 1

Γ constant

Γ(t)

version multirythmique

0 0.2 0.4 0.6 0.8 1 1.2 1.41

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

Γ

erre

ur a

bsol

ue

Jeu 2

Γ constantΓ(t)version multirythmique

0 0.2 0.4 0.6 0.8 1 1.2 1.40.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2Jeu 3

Γ

erre

ur a

bsol

ue

Γ constantΓ(t)version multirythmique

Fig. 4.7 – Eext(τ) en fonction de Γ et Γ(t), version auto-instruite


1. Dans les trois cas, Eext(τ) est toujours aussi faible ou plus faible pour Γ(t) quepour Γ.

2. L’écart-type σ(Eext(τ)) est plus petit avec Γ(t).

3. Avec Γ(t), on est sûr que de Γ = 1 à Γoptimal, on fait au moins aussi bien que laversion multirythmique. En fait, la valeur de Γ choisie à priori est moins sensiblesur tout l’intervalle des Γ > Γoptimal, ce que l’on voulait obtenir en introduisantune dépendance temporelle pour ce paramètre.

Ce sont donc les équations 4.12 et 4.13 qui définissent notre version auto-instruite.

Les figures 4.8 - 4.10 illustrent dans l’espace des données les résultats de la modéli-sation par la version auto-instruite.

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Fig. 4.8 – Version auto-instruite (jeu 1)

Le tableau 4.2 confirme les bonnes performances quantitatives de la version auto-instruite pour les trois jeux de données.

En résumé, dans ce chapitre, nous avons mis en évidence le lien dynamique, de type« structure - fonction », entre topologie et connaissance. Le cadre d’étude petit-mondeélargi à la théorie de l’information donne une explication de l’existence de ce lien. Nousavons construit une fonction Connaissance Cint connue du système à chaque instant


0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


−0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2




1 auto-instruiteV0 = 5, α = 0.2

0.222± 0.006 0.498± 0.013β = 100, Γ = 0.4


1.055± 0.014 0.664± 0.009β = 100, Γ = 0.7


0.442± 0.030 0.192± 0.013β = 500, Γ = 0.7

Tab. 4.2 – Erreurs absolues, version auto-instruite

et reflètant la mesure d’erreur absolue, inconnue du système. En suivant le rythme decette Connaissance, la topologie évolue dynamiquement pour influencer elle-même laconnaissance. De ces considérations est issue la proposition d’une troisième version,appelée auto-instruite, dont les résultats dépassent les performances de la version mul-tirythmique, déjà très bonnes.

Chapitre 5

Synthèse

Dans ce chapitre, nous commençons par résumer, de façon visuelle, les résultatsobtenus avec les différentes variantes de l’algorithme standard proposées sur nos troisjeux de données bidimensionnelles. Dans la deuxième section, nous faisons de même pourdes données « réelles », multidimensionnelles, tirées de bases de données classiquementutilisées par les chercheurs en intelligence artificielle. Enfin, nous abordons en un motle problème de la paramétrisation de l’algorithme.

5.1 Données bidimensionnelles

La figure 5.1 est la synthèse, sur les trois jeux de données présentés dans ce mé-moire, des étapes successives suivantes : version standard, normée, multirythmique etauto-instruite. On présente les résultats sous forme d’histogrammes, ce qui permet de vi-sualiser rapidement l’importance quantitative des améliorations, en terme de réductionde l’erreur absolue Eext. Ces données sont reprises des tableaux 3.1, 3.2 et 4.2.

En abscisse, 1 désigne la version standard, 2 la version normée, 3 la version mul-tirythmique et 4 la version auto-instruite. L’erreur est normalisée à l’erreur standardrespective à chaque jeu de données.

Chapitre 5. Synthèse 81

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Jeu 1

Eext(τ)/Eext(standard)

σ(Eext)

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Jeu 2


σ(Eext)

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Jeu 3


σ(Eext)

Fig. 5.1 – Sythèse des résultats sur des données 2D


5.2 Données multidimensionnelles

Pour pouvoir garder les paramètres que nous fixons à la section 2.5 et la grillede neurones 10 × 10, nous avons cherché, parmi les bases de données disponibles surinternet1, des jeux de données dont l’ordre de grandeur du nombre de stimuli (données)est Q ∼ 103. Nous disposons de quatre jeux de données (pour une description complètede ces données, on pourra se référer aux sites indiqués en note de bas de page) :

⊲ Pollen : D = 5, Q = 3848.⊲ PM10 : D = 7, Q = 500.⊲ Prima Indians Diabetes : D = 8, Q = 768.⊲ Hall of Fame : D = 15, Q = 1320.

On a répertorié dans les tableaux 5.1 - 5.4 l’ensemble de nos résultats avec lesdifférentes versions, pour ces quatre jeux de données.

Version Paramètres Eext(τ)/105 Eext(τ)Estandard

standard V0 = 3 1.137± 0.022 1.000± 0.019

normee V0 = 3 1.119± 0.016 0.984± 0.014

multirythmiqueV0 = 3, α = 0.3

0.843± 0.005 0.742± 0.005β = 300

auto-instruiteV0 = 3, α = 0.5

0.829± 0.005 0.729± 0.005β = 10, Γ = 1

Tab. 5.1 – Erreurs absolues, données « Pollen »

La figure 5.2 est quant à elle la visualisation de ces résultats sous forme d’histo-grammes.

Il semble, d’après ces résultats, que la version normée contribue davantage à réduirel’erreur absolue en petite dimension. Les résultats en haute dimension confirment lesexcellentes performances des versions multirythmique et auto-instruite.

1UCI Machine Learning Repository : http ://www.ics.uci.edu/∼mlearn/MLRepository.html

StatLib–Datasets Archive : http ://lib.stat.cmu.edu/datasets/

http://www.ics.uci.edu/~mlearn/MLRepository.html

http://lib.stat.cmu.edu/datasets/



standard V0 = 4 1.782± 0.101 1.000± 0.057

normee V0 = 4 1.789± 0.082 1.004± 0.046


0.886± 0.052 0.497± 0.029β = 500


0.806± 0.037 0.452± 0.021β = 500, Γ = 0.5

Tab. 5.2 – Erreurs absolues, données « PM10 »


standard V0 = 3 5.025± 0.366 1.000± 0.073

normee V0 = 3 5.130± 0.420 1.021± 0.084


2.493± 0.108 0.496± 0.022β = 500


2.322± 0.069 0.462± 0.014β = 500, Γ = 0.7

Tab. 5.3 – Erreurs absolues, données « Prima Indians Diabetes »


standard V0 = 3 2.059± 0.119 1.000± 0.058

normee V0 = 3 2.061± 0.085 1.001± 0.041


1.170± 0.017 0.568± 0.008β = 300


1.156± 0.018 0.562± 0.009β = 10, Γ = 0.9

Tab. 5.4 – Erreurs absolues, données « Hall of Fame »


1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Pollen


σ(Eext)

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4PM10


σ(Eext)

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Prima Indians Diabetes


σ(Eext)

1 2 3 40

0.2

0.4

0.6

0.8

1

1.2

1.4Hall of Fame


σ(Eext)

Fig. 5.2 – Sythèse des résultats sur des données multidimensionnelles


5.3 À propos des paramètres

Si nous avons quelque peu occulté jusqu’ici la question des paramètres introduitsdans les versions multirythmique et auto-instruite, c’est essentiellement que les perfor-mances des versions proposées y sont peu sensibles. La seule figure 4.7 suffit à montrerla robustesse de l’algorithme sur la plage [Γoptimal, 1].

Quant aux paramètres α et β, nous avons volontairement choisi de ne pas alourdirnotre étude par la quantification de leur influence. Même si nous nous sommes aperçusque par exemple le couple (α = 1, β = 1) (correspondant à la disparition des deuxfacteurs dans l’équation 3.4) conduit à de très bons résultats avec tous les jeux dedonnées, nous préférons, par souci d’allègement, n’en pas rendre compte explicitementdans le présent travail.

Chapitre 6

Conclusion

Malgré l’extrême popularité de l’algorithme standard de Kohonen, nous y avonsidentifié plusieurs défauts et limitations, tant du point de vue des performances com-putationnelles que de sa qualité de modèle biologique d’auto-organisation de régionscérébrales.

Un certain nombre de ces défauts ont fait l’objet de mes recherches en vue d’amélio-rer l’algorithme avec des modifications simples et efficaces, en particulier sur les pointssuivants : des neurones intermédiaires modélisent des régions « vides » et la plupartdes règles d’apprentissage sont prédéterminées, sans jamais s’adapter en fonction de cequ’apprennent les neurones, comme la variation du taux d’apprentissage η(t), celle del’ordre de voisinage V (t) ou la mise à jour des poids voisins du gagnant ∆Wvoisins(t).Une première modification, la version normée, traite de cette mise à jour et conduit àune représentation systématiquement meilleure des données. Il est à noter qu’elle esttrès simple à comprendre et à intégrer à l’algorithme standard.

Une deuxième version, appelée multirythmique, fait appel à une fonction d’erreurinspirée du GNG, nommée attractivité locale Aint

L : l’auto-adaptativité de l’algorithmeest bien plus grande, les neurones apprenant chacun à leur rythme en fonction de laséquence d’itérations de 0 à t. Les performances quantitatives sont également excel-lentes. On remarque par ailleurs que le réseau pondéré des Aint

L (r, t) est équivalent à ungraphe orienté et valué (où un poids w est attribué à chaque arc), ce qui correspondaux modèles biologiques traditionnels qui représentent le plus fidèlement la force desconnexions synaptiques. Par contre, à t = 0, le graphe reste non orienté et non valué.

Une autre limitation majeure de l’algorithme standard est l’utilisation d’une topo-logie de voisinage T +

Y fixée à l’avance et non adaptative (comme la décroissance du

Chapitre 6. Conclusion 87

voisinage). Il s’agit évidemment d’une limitation du point de vue de la modélisationbiologique, mais aussi lorsqu’on s’intéresse à la reduction de dimensions de l’espace dedépart (multidimensionnel) à l’espace de sortie, bidimensionnel par exemple. La cartecarrée n’est pas forcément la plus appropriée pour cette représentation bidimensionnelle.Notre étude sur l’utilisation de diverses topologies avec des évolutions temporelles va-riables nous conduit à deux conclusions. Premièrement, la propriété d’ordre topologiqueva de pair avec la qualité de modélisation. Deuxièmement, c’est un principe d’indépen-dance progressive des neurones qui permet de mieux organiser l’ordre topologique et lamodélisation.

La topologie petit-monde, qui semblait d’un grand intérêt dans les fonctionnalitésdu cerveau, est désavantageuse par rapport à une topologie classique (carrée) au coursde nos simulations quand elle est incorporée à la formulation standard de l’algorithmede Kohonen. Par contre, l’extension du cadre classique de description du petit-mondeà la théorie de l’information est très éclairante. Une carte de neurones qui n’a pasou peu connaissance de l’espace des stimuli à modéliser doit faire circuler la nouvelleinformation (présentation d’un nouveau stimulus) à grande échelle : la topologie initiale,pour apprendre au plus vite, doit être petit-monde. À mesure que la connaissance duréseau augmente, le partage d’information doit changer d’échelle et être plus local,jusqu’à l’indépendance totale des neurones entre eux (« vaste monde »). L’extensiondu cadre classique petit-monde à la théorie de l’information permet donc de mettre enlumière le lien temporel entre structure (topologie dynamique) et fonction (échelle deprécision de la modélisation des données) du système de neurones.

Afin de repousser davantage notre objectif d’une version plus performante de l’al-gorithme et pour confirmer la pertinence de ce lien, nous avons cherché à l’exploiter defaçon concrète. Puisqu’il y a corrélation entre topologie et état de connaissance du ré-seau à chaque instant, c’est le réseau lui-même qui devrait pouvoir adapter sa topologieà tout instant en fonction de ce qu’il a appris, plutôt que de se voir imposer à priori,de façon externe, la dynamique de la topologie (décroissance standard de V (t)). Unetopologie auto-adaptative est donc possible si on trouve une bonne représentation de laconnaissance du réseau pour tout t. À partir des Aint

L et de l’idée de répartition harmo-nique des savoirs individuels des neurones, on a vu qu’il est possible de construire unefonction Connaissance Cint(t) connue à l’interne du système, qui est une très bonneapproximation de l’erreur absolue Eext(t). Il en découle notre version auto-instruite,dont les performances sont très bonnes et qui reproduit un comportement observé dansl’apprentissage biologique, l’élagage. L’évolution temporelle de la topologie de voisinageest conditionnée, dans cette dernière version proposée, par le rythme d’apprentissagedu système.

Chapitre 6. Conclusion 88

Notre travail compte aussi un certain nombre d’imperfections qui peuvent susciterde nouvelles recherches. La plus criticable est sans doute l’utilisation d’une fonctionde connaissance globale Cint, i.e. dont la mesure dépend de tous les neurones du ré-seau, pour adapter localement la topologie en déconnectant une arrête. Dans l’idéed’un modèle plus représentatif de nos connaissances en biologie, il faudrait égalementattribuer un poids wij, représentant la force synaptique, à chaque connexion. Ceci estpossible sur la base de nos travaux en différenciant, par exemple, les Aint

L de deux neu-rones connectés. Des connexions inhibitrices pourraient compléter le modèle, commedans le RF-LISSOM. La prise en compte de connexions inhibitrices, absente de nosrecherches, implique des contraintes topologiques différentes et donc la possibilité d’uti-liser d’autres topologies de voisinage et d’autres critères d’auto-adaptativité. Un critèrede déconnexion locale pourrait facilement être trouvé, sur l’exemple du RF-LISSOMoù les connexions inutiles (wij tend vers 0) sont supprimées. Notons au passage quenotre critère de déconnexion B a été choisi pour montrer qu’on peut améliorer les per-formances standard, mais nous ne présumons ni de sa pertinence biologique, ni de saprévalence sur d’autres critères envisageables. En dernier lieu, la question du grapheorienté est au centre de la modélisation biologique. Dans la version multirythmique quel’on propose, les connexions se dissymétrisent naturellement, mais nous n’avons pasabordé l’idée de partir d’un graphe orienté et valué dès le départ.

Plusieurs améliorations peuvent donc être ajoutées dans l’objectif d’un modèle bio-logique plus achevé. Notre travail constitue la base d’un modèle biologique et algo-rithmique performant, il montre la validité d’une structure et d’une topologie auto-adaptatives et met en lumière, dans le contexte de la théorie de l’information, le lienfondamental entre structure et fonction pour l’apprentissage non supervisé des cartesde Kohonen.

Bibliographie

[1] Albert R., Jeong H. et Barbasi A.L. (1999) Diameter of the World Wide WebNature 401, 130.

[2] Barabasi A.L., (2002) Linked : The New Science of Networks, Perseus Books Group.

[3] Bauer, H.-U., and Villman, T. (1997) Growing a hypercubical output space in aself-organizing feature map, IEEE Transactions on Neural Networks, pp. 218-226.

[4] Bohland J.W. et Minai, A.A. (2001) Efficient associative memory using small-worldarchitecture, Neurocomputing 38, 489-496.

[5] Burns G.A.P.C. et Young M.P. (2000) Analysis of the connectional organisation ofneural systems associated with the hippocampus in rats, Philosophical Transactionsof the Royal Society, Biological Sciences, 355 : 55-70.

[6] Crossley, M.D. (2005) Essential Topology, Springer.

[7] Delaunay, B. (1934) Sur la sphere vide, Bull. Acad. Sci. USSR 7, 793-800.

[8] Eguiluz V.M., Chialvo D.R., Cecchi G.A., Baliki M. et Apkarian A.V. (2005) Scale-free brain functional networks, Physical Review Letters 94, 018102.

[9] Erdös P. et Rényi A., (1959) On random graphs, Publicationes Mathematicae 6,pp. 290-297.

[10] Erwin E. Obermayer K. et Schulten K. (1992) Self-organizing maps : Ordering,convergence properties and energy functions, Biol. Cyb., 67(1) :47-55.

[11] Felleman D.J. et Van Essen D.C. (1991).Distributed hierarchical processing in theprimate cerebral cortex, Cerebral Cortex, 1(1) :1-47.

[12] Fritzke, B. (1995) A growing neural gas network learns topologies, Advances inNeural Information Processing Systems 7, G. Tesauro, D.S. Touretzky, et T.K.Leen, editors, pp. 625-632. MIT Press, Cambridge MA.

[13] Harp A.H. et Samad T. (1991) Genetic optimization of Self-Organizing FeatureMaps, In Proc. ĲCNN, vol. 1,pp. 341-346.

[14] Hebb, D.O. (1949) The organization of behavior : A neuropsychological theory, NewYork : Wiley.

Bibliographie 90

[15] Hodgkin A.L. et Huxley A.F. (1952) A quantitative description of membrane cur-rent and its application to conduction and excitation in nerve, J. Physiol. (Lond.)117 ; 500-544.

[16] Hopfield, J. (1982). Neural networks and physical systems with emergent collectivecomputational abilities, Proceedings of the National Academy of Sciences of theUSA, 9(2554).

[17] Hubel D. H. et Wiesel T. N. (1962). Receptive fields, binocular interaction andfunctional architecture in the cat’s visual cortex, J. Physiol. (Lond.), 160, 106-154.

[18] Hubel D. H. et Wiesel T. N. (1963). Receptive fields of cells in striate cortex ofvery young, visually inexperienced kittens, J. Neurophysiol. 26, 994-1002.

[19] Hubel D. H. et Wiesel T. N. (1968). Receptive fields and functional of monkeystriate cortex, J. Physiol. (Lond.), 195, 215-243.

[20] Huberman B.A. et Adamic L.A. (1999) Growth dynamics of the world-wide web,Nature 401, 131.

[21] Hwang K. et Briggs F.A. (1988) Computer Architecture and Parallel Processing,McGraw-Hill, New York.

[22] Jain R. (1991) The Art of Computer System Performance Analysis, Wiley, NewYork.

[23] Kandel, E.R. Schwartz J.H. Jessel, T.M. (1995) Essentials of neuroscience andbehavior, Appleton and Lange.

[24] Kangas J. et Kaski S. (1998) 3043 works that have been based on the self-organizingmap (SOM) method developed by Kohonen, Report A49, Helsinki University ofTechnology, Laboratory of Computer and Information Science, Espoo, Finland.

[25] Kleinberg, J.M. (2000) Navigation in a small world, Nature 406, 845.

[26] Kohonen, T. (1982). Self-organized formation of topologically correct feature maps,Biological Cybernetics, 43, 59-69.

[27] Kohonen, T. (1989). Self-Organization and Associative Memory, 3rd ed., Springer-Verlag, Berlin.

[28] Kohonen, T. (1990). The Self-Organizing Map, Proceedings of the IEEE, pp. 1464-1480.

[29] Kohonen, T. (1995, 1997, 2001) Self-Organizing Maps, Springer Series in Informa-tion Sciences, Vol. 30, Springer, Berlin, Heidelberg, New York.

[30] Koikkalainen, P. (1994) Progress with the tree-structured self-organizing map, inCohn, A. G., editor, Proceedings of ECAI’94, 11th European Conference on Arti-ficial Intelligence, pp. 211-215, New York. John Wiley & Sons.

[31] Laughlin S.B. et Sejnowski T.J. (2003), Communication in Neuronal Networks,Science, Vol. 301. no. 5641, pp. 1870-1874.

Bibliographie 91

[32] Latora V. et Marchiori M. (2001) Efficient Behavior of Small-World Networks,Phys. Rev. Lett. 87, 198701.

[33] Lagus, K. Kaski, S. et Kohonen, T. (2004) Mining massive document collectionsby the WEBSOM method, Information Sciences, Vol 163/1-3, pp. 135-156.

[34] Linsker, R. (1986). From Basic Network Principles to Neural Architecture (series),Proc. Natl. Acad. Sci. USA, Vol. 83, Oct.-Nov. 1986, pp. 7508-7512, 8390-8394,8779-8783.

[35] Marchiori M. et Latora V. (2000) Harmony in the small world, Physica A 285,539-546.

[36] Mc Culloch W.S. et Pitts W. (1943) A logical calculus of the ideas immanent innervous activity, Bull. Mathem. Biophys, 5, p.115-133.

[37] McInerney M. et Dhawan A. (1994) Training the Self-Organizing Feature Mapusing Hybrids of Genetic and Kohonen Method, In Proc. ICNN’94, Int. Conf. onNeural Networks, pp. 641-644.

[38] Miikkulainen, R. Bednar, J. A. Choe, Y. et Sirosh, J. (1997) Self-Organization,Plasticity, and Low-level Visual Phenomena in a Laterally Connected Map Modelof the Primary Visual Cortex, in Goldstone, R. L. and Schyns, P. G. and Medin,D. L., Eds. Psychology of Learning and Motivation, vol. 36 : Perceptual Learning,pp. 257-308. Academic Press, San Diego CA.

[39] Milgram, S. (1967) The Small-World Problem, Psychology Today 1, 60-67.

[40] Moody, J. (2001) Race, school integration, and friendship segregation in America,American Journal of Sociology, 107(3), 679-716.

[41] Newman, M.E.J. (2003) The structure and function of complex networks, SIAMReview, Vol. 45, No. 2, pp. 167-256.

[42] Oja E. et Kaski S. (1999) Kohonen Maps, Elsevier.

[43] Polani D. et Uthmann T. (1993) Training kohonen feature maps in different topolo-gies : an analysis using genetic algorithms, In Proceedings of the 5th InternationalConference on Genetic Algorithms, ICGA-93, pp. 326-333.

[44] Rosen, K.H. (1995) Discrete Mathematics and its Applications, McGraw-Hill, 3rdedition.

[45] Saalbach, A. Twellmann, T. Wismüller, A. Ontrup, J. Ritter, H. et Nattkemper,T.W. (2005) A Hyperbolic Topographic Mapping for Proximity Data, Proc. of theIASTED International Conference on Artifical Intelligence and Applications, pp.106-111.

[46] Scannell J., Blakemore C. et Young M. (1995) Analysis of connectivity in the catcerebral cortex, J. Neurosci. 15, 1463-1483.

[47] Scannell J. et al. (1999) The connectional organization of the cortico-thalamic sys-tem of the cat, Cereb. Cortex 9, 277-299.

Bibliographie 92

[48] Shepherd, G.M. (1994) Neurobiology, Oxford University Press, 3rd edition.

[49] Simard D. Nadeau L. et Kröger H. (2005) Fastest learning in small-world neuralnetworks, Physics Letters A, 336, 8-15.

[50] Sporns O., Chialvo D., Kaiser M. et Hilgetag C.C. (2004) Organization, deve-lopment and function of complex brain networks Trends in Cognitive Sciences 8,418-425.

[51] Strogatz, S.H. (2001) Exploring complex networks, Nature 410, 268.

[52] Villmann T., Der R., Herrmann M. et Martinetz T. (1997) Topology Preserva-tion in Self-Organizing Feature Maps : Exact Definition and Measurement, IEEETransactions on Neural Networks, 8(2) :256-266.

[53] Von der Malsburg, C. (1973). Self-organization of orientation-sensitive cells in thestriate cortex. Kybernetik, 14, 85-100.

[54] Watts D.J., (2004) Six Degrees : The Science of a Connected Age, W.W. Nortonand Company.

[55] Watts D.J. Dodds P.S. et Newman M.E.J. (2002) Identity and search in socialnetworks, Science 296, 1302.

[56] Watts D.J. et Strogatz S.H. (1998) Collective dynamics of “small-world” networks,Nature 393 :440-42.

Annexe A

Code de la version auto-instruite

avec Matlab 7.0

function [Connaissance, erreur_absolue, Attractivite_locale, K] = kohonen_auto_instruite(Gamma, alpha, beta, n, nom_fichier_entree, tmax, tau, eta_0, eta_tau, V_0) ;% n = nombre de noeuds sur le côté de la grille% N = n*n nombre de noeuds total de la grilleN=n*n ;% Jeu de données à modéliser, format Excel, lignes = stimulus, colonnes = dimensionsdonnee = xlsread(nom_fichier_entree) ;% Nombre de stimuliQ=length(donnee( :,1)) ;% Dimension des stimulidim_entree=length(donnee(1, :)) ;

[G,Kreg,C]=generer_grille_reguliere1(n) ;G2=G ;G2=floyd(G2) ;

% Génération de la grille ou toutes les connexions existent explicitement GpleinGplein=G2 ;Gplein(Gplein>V_0)=1/0 ;Gplein(Gplein<=V_0 & Gplein>0)=1 ;Kinitial=length(find(Gplein==1))/2 ;Kcourant=Kinitial ;

1Les fonctions qui apparaissent en gras sont celles que nous avons nous-mêmes définies. On les

trouvera dans l’annexe B.

Annexe A. Code de la version auto-instruite avec Matlab 7.0 94

V=V_0 ;

% Vecteurs de poids initiauxW=0.001*rand(N,dim_entree) ;

% Initialisation des différentes fonctionsAttractivite_locale=zeros(N,1) ;Connaissance=0 ;K=Kcourant ;

t=1 ;

while(t<=tmax)

i=randint(1,1,1,Q) ;p=donnee(i, :) ;[dist,D]=dist_carre(p,W) ;

% Neurone gagnantg=find(dist==min(dist)) ;g=g(1) ;

if(t<tau)erreur_t=min(dist) ;voisins=find(Gplein( :,g)==1) ;

% Le taux d’apprentissage dépend de l’erreur localeeta_g=eta_0*erreur_t/(alpha*Attractivite_locale(g)+erreur_t) ;

% Mise à jour du gagnantW(g, :)=W(g, :)+eta_g*D(g, :) ;eta_v=dist(voisins)./(beta*Attractivite_locale(voisins) + dist(voisins)) ;eta_v=eta_v*ones(1,dim_entree) ;

% Normalisation du déplacement des voisinsW(voisins, :)=W(voisins, :)+eta_0*eta_v .*(ones(length(voisins),1) *abs(D(g, :)))

./(abs(D(voisins, :))) .*D(voisins, :) ;% Mise à jour de l’Attractivité locale

dist=dist_carre(p,W(g, :)) ;Attractivite_locale(g)= Attractivite_locale(g)+dist ;

% Mise à jour de la ConnaissanceInv=(ones(N,1)/N*sum(Attractivite_locale)) ./(sum(Attractivite_locale)/N+


Attractivite_locale) ;Connaissance=[Connaissance ;N/sum(Inv)-1] ;

% Mise à jour du voisinage

% Mise à jour du nombre de connexionsGamma_t=Gamma*(1-t/tau)+Connaissance(length(Connaissance))*t/tau ;Kcourant=max([min([Kinitial*(1 - Connaissance(length(Connaissance))/Gamma_t)

K(length(K))]) 0]) ;% Calcul du nombre de déconnexions à effectuer

delta_K=round(K(length(K))-Kcourant) ;K=[K ;round(Kcourant)] ;

% Déconnexionsif(delta_K>0 & Kcourant>0)

% Construction de la matrice DW des distances euclidiennes entre les poidsDW=[] ;for i=1 :N

wi=W(i, :) ;[dist2,D2]=dist_carre(wi,W) ;DW=[DW dist2] ;

end% DW2 matrice des distances des liens existants

DW2=DW ;ind_pasdeliens=find(Gplein =1) ;DW2(ind_pasdeliens)=0 ;

% Recherche de l’indice des liens à déconnecterind_deconnexion=[] ;for i=1 :delta_K

ind_pasordre=find(G2 =V) ;DW2(ind_pasordre)=0 ;

% Respect de l’ordre topologiquewhile(sum(sum(DW2))==0)

V=V-1 ;DW2=DW ;ind_pasordre=find(G2 =V) ;DW2(ind_pasordre)=0 ;

end% Critère de déconnexion B′


ind_dec=find(DW2==max(max(DW2))) ;[a,b]=ind2sub(N,ind_dec(1)) ;ind_dec_conj=sub2ind([N N],b,a) ;ind_dec=[ind_dec(1) ;ind_dec_conj] ;DW2(ind_dec)=0 ;ind_deconnexion=[ind_deconnexion ;ind_dec] ;

endGplein(ind_deconnexion)=1/0 ;G2(ind_deconnexion)=1/0 ;

endelse

eta=eta_tau ;V=0 ;W(g, :)=W(g, :)+eta*D(g, :) ;

endt=t+1 ;

end% Calcul de l’erreur absolue finaleerreur_absolue = erreur(donnee,W,2) ;

Annexe B

Fonctions auxiliaires

function [G,Kreg,C] = generer_grille_reguliere(n) ;% génération d’une grille de départ de type carré parfaitement régulière

N=n*n ;Kreg=0 ;G=zeros(N) ;C=zeros(N,3) ;% C : coordonnées des sommetsfor i=1 :n

C((i-1)*n+1 :(i-1)*n+n,1)=[(i-1)*n+1 :(i-1)*n+n]’ ;% colonne 1 : indice du noeudC((i-1)*n+1 :(i-1)*n+n,2)=i ;% colonne 2 : abscisseC((i-1)*n+1 :(i-1)*n+n,3)=[1 :n]’ ;% colonne 3 : ordonnée

end

D=zeros(N) ;% D : distances euclidiennes entre les sommetsfor i=1 :N

for j=i+1 :ND(i,i)=0 ;x=abs(C(i,2)-C(j,2)) ;y=abs(C(i,3)-C(j,3)) ;D(i,j)=sqrt(xˆ2+yˆ2) ;

endend

D=D+D’ ;indliens=find(D==1) ;K=length(indliens)/2 ;

Annexe B. Fonctions auxiliaires 98

G(indliens)=1 ;G=1./G ;G(G==diag(diag(G)))=0 ;

function G = floyd(G) ;% Chemin géodésique entre deux sommets du graphe

N=length(G) ;

for k=1 :Nfor i=1 :N

for j=1 :Nif(G(i,k)+G(k,j)<G(i,j))

G(i,j)=G(i,k)+G(k,j) ;end

endend

end

function y = randint(m,n,a,b) ;% Tirage aléatoire d’une matrice de m×n entiers aléatoires compris entre a et bif nargin < 3, a=0 ; b=9 ; endy = floor((b-a+1)*rand(m,n))+a ;

function [dist,D]=dist_carre(p,W) ;% dist est la distance euclidienne élevée au carré% D est la matrice des vecteurs p-W

N=length(W( :,1)) ;dim=length(W(1, :)) ;

Annexe B. Fonctions auxiliaires 99

O=ones(N,1) ;D=O*p-W ;dist=zeros(N,1) ; for j=1 :dim

dist = dist + D( :,j).*D( :,j) ;end

function erreur_absolue = erreur(donnee,W) ;

erreur_absolue=0 ;err_locale=[] ;Q=length(donnee( :,1)) ;for i=1 :Q

p=donnee(i, :) ;[dist,D]=dist_carre(p,W) ;err_locale=[err_locale ;min(dist)] ;

enderreur_absolue=sum(err_locale) ;

Index

adjacence, 10algorithme génétique, 25antécédent, 14apprentissage

compétitif, 7non supervisé, 2, 6supervisé, 2

attractivité locale, 33auto-adaptativité, 28

boucle, 10

carte R-aléatoire, 47champ récepteur, 15chemin, 10

géodésique, 10géodésique moyen L, 44

classification, 5coefficient d’agrégation C, 44Connaissance Cint, 70connexité, 11continuité, 14

diagramme de Voronoï, 15dilution, 63dimension d’un graphe, 12distance d’adjacence, 11

efficacité E, 62elagage, 25, 73erreur

absolue Eext, 6cumulée, 33

espacedes poids XY , 17

topologique, 13

facteurΓ, 73α, 35β, 35

fonction topographique, 18

GNG, 25graphe

complet, 12de Delaunay, 15explicite, 55non orienté, 10orienté, 10planaire, 12simple, 12valué, 42

GSOM, 25

HSOM, 24

longueur de connectivité D, 62globale, 62locale, 62

mise à jour des poids, 8moyenne harmonique, 63multiplicité, 12

neuroneformel, 1gagnant, 7intermédiaire, 21

norme euclidienne, 6

ordre

Index 101

d’une connexion, 11de voisinage, 8topologique, 17

petit-monde, 2, 43phase

d’organisation, 8de convergence, 8

plasticité, 2

quantification vectorielle, 6

RF-LISSOM, 25

SOM, 1stimulus, 5

taux d’apprentissage, 8topologie, 13

petit-monde, 45de voisinage faible, 16de voisinage forte, 16de voisinage relative aux poids, 17

TS-SOM, 24

vaste-monde, 65vecteur de poids, 5version

auto-instruite, 73multirythmique, 35normée, 29standard, 5

voisinage, 11

WEBSOM, 24

Documents

AUTO-ADAPTATIVITÉ ET TOPOLOGIE DANS LES CARTES DE … · TANGUY PALLAVER AUTO-ADAPTATIVITÉ ET TOPOLOGIE DANS LES CARTES DE KOHONEN Mémoire présenté à la Faculté des études