Transcript
Page 1: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

1

Les réseaux de neurones :

pourquoi et pour quoi faire ?

Lors de l’émergence d’une nouvelle technique, l’ingĂ©nieur se demande naturellement en quoi elle peut luiĂȘtre utile. Si elle est dotĂ©e d’un nom plus mĂ©taphorique que scientifique – ce qui est Ă©videmment le cas pourles rĂ©seaux de neurones –, la rĂ©ponse Ă  cette question doit ĂȘtre particuliĂšrement prĂ©cise et motivĂ©e. C’est laraison pour laquelle ce chapitre est consacrĂ© Ă  un exposĂ© des arguments thĂ©oriques et pratiques qui justi-fient l’utilisation des rĂ©seaux de neurones, suivi de la prĂ©sentation d’applications exemplaires qui, bienqu’elles soient en apparence trĂšs diverses, reposent toutes sur les mĂȘmes principes. La mise en Ɠuvre desrĂ©seaux de neurones est gĂ©nĂ©ralement simple ; la tentation peut ĂȘtre grande d’appliquer cette techniqued’une maniĂšre irrĂ©flĂ©chie ou inadaptĂ©e, ce qui ne peut conduire qu’à des dĂ©ceptions. VoilĂ  pourquoi on necherchera pas Ă  expliquer en dĂ©tail, dans ce chapitre,

comment

on met en Ɠuvre les rĂ©seaux de neurones,mais plutĂŽt

pourquoi

ils peuvent ĂȘtre mis en Ɠuvre de prĂ©fĂ©rence Ă  d’autres outils, et

dans quel but.

Nous commencerons par introduire les dĂ©finitions essentielles : nous expliquerons ce qu’est un neurone(formel), ce qu’est un rĂ©seau de neurones, ce qu’est l’apprentissage des rĂ©seaux de neurones (nous prĂ©ci-serons notamment les diffĂ©rences entre l’apprentissage supervisĂ© et l’apprentissage non supervisĂ©), etnous introduirons la distinction fondamentale entre rĂ©seaux de neurones non bouclĂ©s et rĂ©seaux deneurones bouclĂ©s (ou «

récurrents

»).

Nous pourrons alors introduire la propriĂ©tĂ© fondamentale des rĂ©seaux de neurones Ă  apprentissagesupervisĂ© : l’approximation non linĂ©aire parcimonieuse. Nous montrerons que cette propriĂ©tĂ© fait desrĂ©seaux de neurones d’excellents outils de

modélisation non linéaire par apprentissage

. La notion

d’apprentissage

apparaĂźtra alors de maniĂšre trĂšs naturelle, et nous insisterons sur le fait que ce terme doitĂȘtre utilisĂ© avec prĂ©caution, car l’apprentissage des rĂ©seaux de neurones n’a rien Ă  voir avec l’apprentis-sage au sens de la psychologie ou de l’intelligence artificielle : la mise en Ɠuvre des rĂ©seaux de neuronesse rĂ©vĂ©lera, en grande partie, comme constituant une extension

non linéaire

de méthodes

statistiques

bienconnues, ce qui suffit Ă  justifier la trĂšs grande Ă©tendue de leur champ d’application.

Nous introduirons ensuite les principes de mise en Ɠuvre des rĂ©seaux de neurones Ă  apprentissage : nousferons la liste des conditions qui doivent ĂȘtre replies pour que la rĂ©ussite d’une application soit garantie.

Nous insisterons particuliĂšrement sur l’utilisation des rĂ©seaux de neurones Ă  apprentissage supervisĂ© pourla classification, qui prĂ©sente des particularitĂ©s importantes. Nous prĂ©senterons, d’une maniĂšre gĂ©nĂ©rale,le problĂšme de la classification (ou discrimination), sous son aspect probabiliste («

bayésien

») ; noussoulignerons le fait que les rĂ©seaux de neurones ne doivent pas ĂȘtre utilisĂ©s pour rĂ©soudre n’importe quelproblĂšme de classification, et nous prĂ©ciserons le domaine d’excellence des rĂ©seaux classifieurs. Nousproposerons une mĂ©thodologie gĂ©nĂ©rale de conception d’un classifieur neuronal.

Nous terminerons ce chapitre par la prĂ©sentation de diverses applications qui sont destinĂ©es Ă  montrer lavariĂ©tĂ© des domaines oĂč les rĂ©seaux de neurones sont susceptibles d’apporter des solutions efficaces etĂ©lĂ©gantes : reconnaissance de formes, contrĂŽle non destructif, filtrage d’informations textuelles, bio-

Page 2: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones

2

ingĂ©nierie, formulation de matĂ©riaux nouveaux, modĂ©lisation de procĂ©dĂ©s industriels, contrĂŽle de l’envi-ronnement, robotique, etc. D’autres applications (interprĂ©tation de spectres, classification d’images satel-litaires, classification de signaux de sonar, commande de processus) seront mentionnĂ©es ou dĂ©crites endĂ©tail dans les chapitres suivants.

Les réseaux de neurones : définitions et propriétés

Suivant en cela l’usage, nous utiliserons frĂ©quemment, par abus de langage, les termes de «

neuronelinéaire

» pour dĂ©signer une fonction paramĂ©trĂ©e linĂ©aire ou affine (qui n’est donc pas bornĂ©e).

Les variables sur lesquelles opĂšre le neurone sont habituellement dĂ©signĂ©essous le terme d’entrĂ©es du neurone, et la valeur de la fonction sous celui desortie ; il est commode de reprĂ©senter graphiquement un neurone commeindiquĂ© sur la figure 1-1. Cette reprĂ©sentation est le reflet de l’inspirationbiologique qui a Ă©tĂ© Ă  l’origine de la premiĂšre vague d’intĂ©rĂȘt pour lesneurones formels, dans les annĂ©es 1940 Ă  1970 [McC

ULLOCH

et al.

1943],[M

INSKY

et al.

1969].

Figure 1-1. Un neurone réalise une fonction non linéaire bornée y = f (x

1

, x

2

,... x

n

; w

1

, w

2

, ... w

p

) oĂč les {x

i

} sont les variables et les {w

j

} sont des paramĂštres.

La fonction

f

peut ĂȘtre paramĂ©trĂ©e de maniĂšre quelconque. Deux types de paramĂ©trages sont frĂ©quemmentutilisĂ©s :‱ Les paramĂštres sont attachĂ©s aux entrĂ©es du neurone : la sortie du neurone est une fonction non linĂ©aire

d’une combinaison des entrĂ©es {

x

i

} pondérées par les paramÚtres {

w

i

}, qui sont alors souvent désignéssous le nom de «

poids

» ou, en raison de l’inspiration biologique des rĂ©seaux de neurones, «

poidssynaptiques

». ConformĂ©ment Ă  l’usage (Ă©galement inspirĂ© par la biologie), cette combinaison linĂ©airesera appelĂ©e «

potentiel

» dans tout cet ouvrage. Le potentiel

v

le plus frĂ©quemment utilisĂ© est la sommepondĂ©rĂ©e, Ă  laquelle s’ajoute un terme constant ou «

biais

» :

La fonction

f

est appelée

fonction d’activation

. Pour des raisons que nous exposerons plus bas, il estrecommandĂ© d’utiliser pour

f

une fonction « sigmoĂŻde » (c’est-Ă -dire une fonction en forme de «

s

»)symĂ©trique par rapport Ă  l’origine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,dans la trĂšs grande majoritĂ© des applications qui seront dĂ©crites dans ce chapitre, la sortie d’un neuronea pour Ă©quation :

‱ Les paramĂštres sont attachĂ©s Ă  la non-linĂ©aritĂ© du neurone : ils interviennent directement dans la fonc-tion

f

; cette derniĂšre peut ĂȘtre une

fonction radiale

ou RBF (en anglais

Radial Basis Function

), ouencore une ondelette ; les premiĂšres tirent leur origine de la thĂ©orie de l’approximation [P

OWELL

1987],les secondes de la théorie du signal [M

ALLAT

1989].

DĂ©finition

Un neurone est une fonction algébrique non linéaire, paramétrée, à valeurs bornées.

y

x1 x2 xn

f

v = w0 + wi xi∑i = 1

n – 1

y = th w0 + wi xi∑i = 1

n – 1

Page 3: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

C

HAPITRE

1

3

Par exemple, la sortie d’un neurone RBF Ă  non-linĂ©aritĂ© gaussienne a pour Ă©quation :

oĂč les paramĂštres

w

i

,

i

= 1 Ă 

n

sont les coordonnées du centre de la gaussienne, et

w

n

+ 1

est son Ă©cart-type.

Dans les complĂ©ments thĂ©oriques et algorithmiques, en fin de chapitre, nous prĂ©sentons d’autres exemplesde neurones.

La diffĂ©rence pratique essentielle entre les deux types de neurones que nous venons d’introduire est lasuivante : les neurones tels que les RBF ou les ondelettes ont des non-linĂ©aritĂ©s

locales

, qui tendent verszĂ©ro dans toutes les directions de l’espace des entrĂ©es ; leur zone d’influence est donc limitĂ©e dansl’espace, ce qui n’est pas le cas des neurones Ă  potentiel Ă  fonction d’activation sigmoĂŻde.

Les réseaux de neurones

Comme nous venons de le voir, un neurone rĂ©alise simplement une fonction non linĂ©aire, paramĂ©trĂ©e, deses variables d’entrĂ©e. L’intĂ©rĂȘt des neurones rĂ©side dans les propriĂ©tĂ©s qui rĂ©sultent de leur association enrĂ©seaux, c’est-Ă -dire de la

composition

des fonctions non linéaires réalisées par chacun des neurones.

On distingue deux types de réseaux de neurones : les réseaux non bouclés et les réseaux bouclés.

Les réseaux de neurones non bouclés

■

Forme générale

Un réseau de neurones non bouclé est donc représenté graphiquement par un ensemble de neurones«

connectés

» entre eux, l’information circulant des entrĂ©es vers les sorties sans «

retour en arriĂšre

» :

sil’on reprĂ©sente le rĂ©seau comme un graphe dont les nƓuds sont les neurones et les arĂȘtes les«

connexions

» entre ceux-ci, le graphe d’un rĂ©seau non bouclĂ© est

acyclique

: si l’on se dĂ©place dans lerĂ©seau, Ă  partir d’un neurone quelconque, en suivant les connexions, on ne peut pas revenir au neurone dedĂ©part. La reprĂ©sentation de la topologie d’un rĂ©seau par un graphe est trĂšs utile, notamment pour lesrĂ©seaux bouclĂ©s, comme nous le verrons dans le chapitre 2. Les neurones qui effectuent le dernier calculde la composition de fonctions sont les

neurones de sortie

; ceux qui effectuent des calculs intermédiairessont les

neurones cachés

(voir figure 1-2)

.

Remarque

Le terme de

«

connexions

»

doit ĂȘtre pris dans un sens mĂ©taphorique : dans la trĂšs grande majoritĂ© des applications, les opĂ©rations effec-tuĂ©es par un rĂ©seau de neurones sont programmĂ©es (n’importe quel langage de programmation convient), et exĂ©cutĂ©es par un ordinateurconventionnel. Le rĂ©seau de neurones n’est donc pas, en gĂ©nĂ©ral, un objet physique tel qu’un circuit Ă©lectronique, et les

«

connexions

»

n’ont pas de rĂ©alitĂ© matĂ©rielle ; nĂ©anmoins, le terme de connexion, issu des origines biologiques des rĂ©seaux de neurones, est passĂ© dansl’usage, car il est commode quoique trompeur. Il a mĂȘme donnĂ© naissance au terme de

connexionnisme

.

DĂ©finition

Un réseau de neurones non bouclé réalise une (ou plusieurs) fonctions

algébriques

de ses entrées, parcomposition des fonctions réalisées par chacun des neurones.

y = exp –

xi – wi2∑

i = 1

n

2 wn+12

Page 4: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones

4

■

RĂ©seaux Ă  couches

La seule contrainte sur le graphe des connexionsd’un rĂ©seau de neurones non bouclĂ© est qu’il necontienne pas de cycle. On peut donc imaginerune grande variĂ©tĂ© de topologies pour ces rĂ©seaux.NĂ©anmoins, pour des raisons que nous dĂ©veloppe-rons plus bas, la trĂšs grande majoritĂ© des applica-tions des rĂ©seaux de neurones mettent en jeu des«

réseaux à couches

», dont un exemple est repré-senté sur la figure 1-2.

Forme générale

Ce réseau réalise

N

o

fonctions algĂ©briques desvariables d’entrĂ©es du rĂ©seau ; chacune dessorties est une fonction, rĂ©alisĂ©e par le neuronede sortie correspondant, des fonctions nonlinĂ©aires rĂ©alisĂ©es par les neurones cachĂ©s.

Il convient d’insister sur le fait que le temps ne joue aucun rĂŽle fonctionnel dans un rĂ©seau de neuronesnon bouclĂ© : si les entrĂ©es sont constantes, les sorties le sont Ă©galement. Le temps nĂ©cessaire pour le calculde la fonction rĂ©alisĂ©e par chaque neurone est nĂ©gligeable et, fonctionnellement, on peut considĂ©rer cecalcul comme instantanĂ©. Pour cette raison, les rĂ©seaux non bouclĂ©s sont souvent appelĂ©s «

réseauxstatiques

», par opposition aux réseaux bouclés ou «

dynamiques

» que nous introduirons plus bas.

Terminologie

Les rĂ©seaux de neurones non bouclĂ©s Ă  couches, dont les neurones cachĂ©s ont une fonction d’activation sigmoĂŻde, sont souvent appelĂ©s

perceptrons multicouche

(ou MLP pour

Multi-Layer Perceptron

).

À proscrire

On voit souvent des textes qui mentionnent, outre la couche cachée et la couche de sortie, une

«

couche d’entrĂ©e

»

, voire des

«

neurones d’entrĂ©e

»

. Cette expression est trompeuse, car les entrĂ©es (reprĂ©sentĂ©es par des carrĂ©s sur la figure 1-2) ne sont pas desneurones : elles ne rĂ©alisent aucun traitement de l’information, puisqu’elles ne font que transmettre les valeurs des variables.

Réseaux à une couche cachée de sigmoïdes et un neurone de sortie linéaire

Pour terminer cette prĂ©sentation des rĂ©seaux de neurones non bouclĂ©s, considĂ©rons le cas, trĂšs importanten pratique, des rĂ©seaux Ă  une couche cachĂ©e Ă  fonction d’activation sigmoĂŻde et un neurone de sortielinĂ©aire (Figure 1-3).

DĂ©finition

Un réseau de neurones non bouclé à n entrées,

N

c

neurones cachés et

N

O

neurones de sortie réalise

NOfonctions non linĂ©aires de ses n variables d’entrĂ©e par composition des Nc fonctions algĂ©briques rĂ©ali-sĂ©es par ses neurones cachĂ©s.

x 1 x 2 x 3 x n

n entrées

NO neurones de sortie

Nc neurones cachés

.....

....

.... Figure 1-2. Un réseau de neurones à n entrées, une couche de Nc neurones cachés, et No neurones de sortie

Page 5: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 15

Figure 1-3. Un rĂ©seau de neurones Ă  n+1 entrĂ©es,une couche de Nc neurones cachĂ©s Ă  fonction d’acti-vation sigmoĂŻde et un neurone de sortie linĂ©aire. Sasortie g(x, w) est une fonction algĂ©brique nonlinĂ©aire du vecteur des entrĂ©es x, de composantes 1,x1, x2, ..., xN, et du vecteur des paramĂštres w, dontles composantes sont les (n+1)Nc+Nc+1 paramĂš-tres du rĂ©seau.

La sortie de ce réseau a pour expression :

oĂč x est le vecteur des entrĂ©es (de dimension n+1), et w est le vecteur des paramĂštres, de dimension(n + 1)Nc+(Nc+1). Les neurones cachĂ©s sont numĂ©rotĂ©s de 1 Ă  Nc et le neurone de sortie est numĂ©rotĂ©Nc+1. Par convention, le paramĂštre wij est relatif Ă  la connexion allant du neurone j (ou de l’entrĂ©e j) versle neurone i.

Qu’est-ce qu’un rĂ©seau de neurones Ă  zĂ©ro neurones cachĂ©s ?Un rĂ©seau de neurones non bouclĂ© sans neurone cachĂ©, avec un neurone de sortie linĂ©aire, rĂ©alise simplement une fonction linĂ©aire deses entrĂ©es. On peut donc considĂ©rer tout systĂšme linĂ©aire comme un rĂ©seau de neurones. Cela ne prĂ©sente cependant aucun intĂ©rĂȘt, nithĂ©orique ni pratique.

Les « termes directs »Si la relation que l’on cherche Ă  rĂ©aliser entre les entrĂ©es et les sorties prĂ©sente une importante composante linĂ©aire, il peut ĂȘtre utiled’ajouter, Ă  la structure de rĂ©seau Ă  couches qui vient d’ĂȘtre dĂ©crite, des termes linĂ©aires, parfois appelĂ©s « termes directs », qui se tradui-sent, dans la reprĂ©sentation graphique du rĂ©seau, par des connexions directes entre les entrĂ©es et le neurone de sortie (figure 1-4). Parexemple, pour un rĂ©seau dont les fonctions d’activation sont des sigmoĂŻdes, l’expression de la sortie devient :

TrĂšs important

La sortie du réseau g(x, w) est une fonction linéaire des poids de la derniÚre couche de connexions (quirelient les Nc neurones cachés au neurone de sortie, numéroté Nc+1), et elle est une fonction non linéairedes paramÚtres de la premiÚre couche de connexions (qui relient les n+1 entrées du réseau aux Ncneurones cachés). Cette propriété a des conséquences importantes que nous examinerons plus bas.

Ce qu’il faut retenir

La sortie d’un rĂ©seau de neurones non bouclĂ© est une fonction algĂ©brique non linĂ©aire de ses entrĂ©es etde ses paramĂštres

Nc neurones cachĂ©s Ă fonction d’activation

sigmoĂŻde

n entrĂ©es variables+ un “biais”

....

....

x 0 = 1 x 1 x 2 x n

1

Nc

Un neurone caché linéaireN

c+1

g (x , w )

g x, w = wNc + 1, i th wij xj∑j=1

n

+ wj0∑i = 1

Nc

+ wNc + 1, 0

= wNc + 1, i th wij xj∑j=0

n

∑i = 1

Nc

+ wNc+ 1, 0

g x, w = wNc+1,i th wij xj∑j=0

n

∑i = 1

Nc

+ wNc + 1,j xj∑j = 0

n

Page 6: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones6

Figure 1-4. ReprĂ©sentation graphique d’un rĂ©seau de neuronesĂ  couches comportant des termes directs. Sa sortie g(x, w) dĂ©penddu vecteur des entrĂ©es x, de composantes 1, x1, x2, ..., xn, et du vecteurdes paramĂštres w, dont les composantes sont les paramĂštres du rĂ©seau.

RĂ©seaux de RBF (fonctions radiales de base) ou d’ondelettes

Dans ce cas, comme nous l’avons indiquĂ© plus haut, les para-mĂštres relatifs aux RBF ne sont pas attachĂ©s aux connexions,mais Ă  la non-linĂ©aritĂ© elle-mĂȘme ; en revanche, le neurone desortie (linĂ©aire) rĂ©alise une somme pondĂ©rĂ©e des sorties desneurones cachĂ©s. La sortie du rĂ©seau a donc pour expression(pour des fonctions radiales gaussiennes) :

oĂč x est le vecteur des entrĂ©es du rĂ©seau (de dimension n), et w est le vecteur des paramĂštres du rĂ©seau (dedimension (n+2) Nc) ([BROOMHEAD et al. 1988], [MOODY et al. 1989]) ; les neurones cachĂ©s sont numĂ©-rotĂ©s de 1 Ă  Nc, et le neurone de sortie porte le numĂ©ro Nc+1.

Remarquons que deux sortes de paramÚtres interviennent ici : les poids de la derniÚre couche (qui relientles Nc fonctions radiales au neurone de sortie), et les paramÚtres des fonctions radiales (centres et écarts-types pour des fonctions radiales gaussiennes). Les connexions de la premiÚre couche ont toutes des poidségaux à 1. Dans ces réseaux, la sortie est une fonction linéaire des poids de la derniÚre couche deconnexions, et elle est une fonction non linéaire des paramÚtres des gaussiennes. Nous examinerons ulté-rieurement les conséquences de cette propriété.

Les rĂ©seaux d’ondelettes ont exactement la mĂȘme structure, l’équation de la gaussienne Ă©tant remplacĂ©epar celle d’une ondelette multidimensionnelle. Les paramĂštres attachĂ©s Ă  la non-linĂ©aritĂ© sont alors lescentres et les dilatations des ondelettes ([BENVENISTE et al. 1994], [OUSSAR et al. 2000]).

Les réseaux de neurones bouclés (ou récurrents)

■ Forme gĂ©nĂ©rale

Nous introduisons ici l’architecture la plus gĂ©nĂ©rale pour un rĂ©seau de neurones, les « rĂ©seaux bouclĂ©s »,dont le graphe des connexions est cyclique : lorsqu’on se dĂ©place dans le rĂ©seau en suivant le sens desconnexions, il est possible de trouver au moins un chemin qui revient Ă  son point de dĂ©part (un tel cheminest dĂ©signĂ© sous le terme de « cycle »). La sortie d’un neurone du rĂ©seau peut donc ĂȘtre fonction d’elle-mĂȘme ; cela n’est Ă©videmment concevable que si la notion de temps est explicitement prise en considĂ©ra-tion.

Ainsi, Ă  chaque connexion d’un rĂ©seau de neurones bouclĂ© (ou Ă  chaque arĂȘte de son graphe) est attachĂ©,outre un poids comme pour les rĂ©seaux non bouclĂ©s, un retard, multiple entier (Ă©ventuellement nul) del’unitĂ© de temps choisie. Une grandeur, Ă  un instant donnĂ©, ne pouvant pas ĂȘtre fonction de sa proprevaleur au mĂȘme instant, tout cycle du graphe du rĂ©seau doit avoir un retard non nul.

Termesdirects

....

....

x 0 = 1 x 1 x 2 x n

1 N c

N c +1

g (x , w )

g x, w = wNc + 1, i exp -

xj – wij2∑

j = 1

n

2 wi2∑

i=1

Nc

Page 7: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 17

La figure 1-5 reprĂ©sente un exemple de rĂ©seau deneurones bouclĂ©. Les chiffres dans les carrĂ©s indiquentle retard attachĂ© Ă  chaque connexion, exprimĂ© enmultiple de l’unitĂ© de temps (ou pĂ©riode d’échantillon-nage) T. Ce rĂ©seau contient un cycle, qui part duneurone 3 et revient Ă  celui-ci en passant par le neurone4 ; la connexion de 4 vers 3 ayant un retard de 1 unitĂ© detemps, ce rĂ©seau est causal.

ExplicationsÀ l’instant kT : le neurone 3 reçoit en entrĂ©e les quantitĂ©s u1(kT),u2[(k–1)T], y4[(k–1)T] (oĂč k est un entier positif et y4(kT) est la sortie duneurone 4 Ă  l’instant kT), et il calcule sa sortie y3(kT) ; le neurone 4reçoit u2(kT) et y3(kT), et il calcule sa sortie y4(kT) ; le neurone 5 reçoity3(kT), u1(kT) et y4[(k–1)T], et il calcule sa sortie, qui est la sortie durĂ©seau de neurones, g(kT).

■ Forme canonique des rĂ©seaux de neurones bouclĂ©s

Dans la mesure oĂč les rĂ©seaux de neurones bouclĂ©s rĂ©alisent des Ă©quations aux diffĂ©rences non linĂ©aires,il est utile d’examiner les liens entre ces modĂšles non linĂ©aires et les modĂšles linĂ©aires dynamiques habi-tuels, utilisĂ©s notamment en automatique des systĂšmes linĂ©aires.

La description la plus gĂ©nĂ©rale d’un systĂšme linĂ©aire est la description d’état :

x(k+1) = A x(k) + B u(k)

y(k) = C x(k) + D u(k)

oĂč x(k) est le vecteur des variables d’état Ă  l’instant (discret) kT, u(k) est le vecteur des entrĂ©es, y(k) est levecteur des sorties, et A, B, C, D sont des matrices. Rappelons que les variables d’état sont un ensemblede variables, en nombre minimal, telles que l’on peut calculer leurs valeurs Ă  l’instant k+1 si l’on connaĂźtleurs valeurs initiales et si l’on connaĂźt les valeurs des entrĂ©es Ă  tout instant compris entre 0 et k. Lenombre de variables d’état est appelĂ© ordre du systĂšme.

De maniĂšre analogue, on dĂ©finit la forme canonique d’un systĂšme non linĂ©aire Ă  temps discret par lesĂ©quations suivantes :

x(k) = ϕ [x(k – 1), u(k – 1)]

y(k) = ψ [x(k)]

DĂ©finition

Un réseau de neurones bouclé à temps discret réalise une (ou plusieurs) équations aux différences nonlinéaires, par composition des fonctions réalisées par chacun des neurones et des retards associés àchacune des connexions.

Propriété

Tout cycle du graphe des connexions d’un rĂ©seau de neurones bouclĂ© doit comprendre au moins uneconnexion de retard non nul.

3 4

5

u1 (kT ) u2 (kT )

g (kT )

1

0 0

00

0

1

1

Figure 1-5. Un rĂ©seau de neurones bouclĂ© Ă  deux entrĂ©es. Les chiffres dans les carrĂ©s indiquent le retard attachĂ© Ă  chaque connexion, multiple de l’unitĂ© de temps (ou pĂ©riode d’échantillonnage) T. Le rĂ©seau contient un cycle, qui part du neurone 3, va au neurone 4, et revient au neurone 3.

Page 8: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones8

oĂč ϕ et ψ sont des fonctions non linĂ©aires (desrĂ©seaux de neurones par exemple), et x est levecteur des variables d’état. LĂ  encore, les varia-bles d’état sont un ensemble de variables, ennombre minimal, qui permet de dĂ©crire complĂšte-ment le systĂšme Ă  l’instant k si l’on connaĂźt leursvaleurs initiales et si l’on connaĂźt les valeurs desentrĂ©es Ă  tout instant compris entre 0 et k–1. Onmontrera dans le chapitre 2 que tout rĂ©seau deneurones peut ĂȘtre mis sous une forme cano-nique, reprĂ©sentĂ©e sur la figure 1-6, oĂč lesymbole q-1 reprĂ©sente un retard d’une unitĂ© detemps. Ce symbole, habituel en automatique, serautilisĂ© systĂ©matiquement dans toute la suite del’ouvrage, notamment dans les chapitres 2 et 4.

Figure 1-6. Forme canonique d’un rĂ©seau de neurones bouclĂ©.Le symbole q-1 reprĂ©sente un retard d’une unitĂ© de temps.

Par exemple, le rĂ©seau de neurones reprĂ©sentĂ©sur la figure 1-5 peut ĂȘtre mis sous la formecanonique indiquĂ©e sur la figure 1-7. Ce rĂ©seauprĂ©sente une seule variable d’état (il est donc du1er ordre), qui est la sortie du neurone 3. Dans cetexemple, ce neurone est un neurone cachĂ©, mais,comme nous le verrons, un neurone d’état peutaussi ĂȘtre un neurone de sortie.

Figure 1-7. Forme canonique (Ă  droite) du rĂ©seau reprĂ©-sentĂ© sur la figure 1-5 (Ă  gauche). Ce rĂ©seau possĂšde une variable d’état x(kT)( la sortie du neurone 3) : c’est un rĂ©seau du 1er ordre. La partie grisĂ©e de la forme cano-nique est un rĂ©seau de neurones non bouclĂ©.

ExplicationsÀ l’instant kT : le neurone 4 reçoit u2[(k–1)T] et x[(k–1)T] = y3[(k–1)T]) : il calcule donc la quantitĂ© y4[(k–1)T] ; comme dans la forme noncanonique, le neurone 3 reçoit en entrĂ©e les quantitĂ©s u1(kT), u2[(k–1)T], y4[(k–1)T] : il calcule donc la quantitĂ© y3(kT) ; le neurone 5 reçoity3(kT), u1(kT) et y4[(k–1)T] : il calcule donc sa sortie, qui est la sortie du rĂ©seau de neurones, g(kT). Les deux rĂ©seaux sont ainsi bien Ă©qui-valents fonctionnellement.

Les réseaux bouclés (et leur forme canonique) seront étudiés en détail dans les chapitres 2, 4 et 8.

Propriété

Tout rĂ©seau de neurones bouclĂ©, aussi complexe soit-il, peut ĂȘtre mis sous une forme canonique,comportant un rĂ©seau de neurones non bouclĂ© dont certaines sorties (les variables d’état) sont rame-nĂ©es aux entrĂ©es par des bouclages de retard unitĂ© [NERRAND et al. 1993].

EntrĂ©es externesĂ  l'instant k – 1

SortiesĂ  l'instant k

g (k )

u (k - 1)

Variables d'Ă©tatĂ  l'instant k – 1

Variables d'Ă©tatĂ  l'instant k

Retards unitaires

x (k )

x (k - 1)

q -1 q -1

Réseau de neurones non bouclé

3 4

5

u1(kT ) u2(kT )

g (kT )

1

0 0

00

0

1

1

u1(kT ) u2[(k -1)T ]x [(k -1)T ]

x (kT )g (kT )

q -13

4

5

Page 9: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 19

Résumé

Nous avons introduit, dans cette section, les dĂ©finitions essentielles relatives aux rĂ©seaux de neurones quisont le sujet de cet ouvrage. Nous avons notamment distinguĂ© :‱ les rĂ©seaux de neurones non bouclĂ©s, statiques, qui rĂ©alisent des fonctions non linĂ©aires,‱ les rĂ©seaux de neurones bouclĂ©s, dynamiques, qui rĂ©alisent des Ă©quations aux diffĂ©rences non linĂ©aires.

Nous avons vu Ă©galement que tout rĂ©seau de neurones bouclĂ© peut ĂȘtre mis sous une forme canonique,comprenant un rĂ©seau de neurones non bouclĂ© dont les sorties d’état sont ramenĂ©es Ă  ses entrĂ©es avec unretard unitĂ©.

L’élĂ©ment de base est donc le rĂ©seau de neurones non bouclĂ© ; voilĂ  pourquoi l’étude de ce dernier estfondamentale. Avant d’en indiquer les propriĂ©tĂ©s et les applications, nous allons introduire la notiond’apprentissage.

L’apprentissage des rĂ©seaux de neurones

Dans le cadre de cette dĂ©finition, on peut distinguer deux types d’apprentissages : l’apprentissage« supervisĂ© » et l’apprentissage « non supervisĂ© ».

L’aprentissage supervisĂ©

Nous avons vu, dans le paragraphe prĂ©cĂ©dent, qu’un rĂ©seau non bouclĂ© rĂ©alise une relation algĂ©briqueentre ses entrĂ©es et ses sorties. On peut donc affecter Ă  un tel rĂ©seau la tĂąche qui consiste Ă  rĂ©aliser unefonction algĂ©brique non linĂ©aire ; celle-ci peut ĂȘtre :‱ connue analytiquement : le rĂ©seau rĂ©alise alors une tĂąche d’approximation de fonction,‱ inconnue analytiquement, mais pour laquelle on dispose de valeurs, en nombre fini, qui sont entachĂ©es

de bruit si ces valeurs résultent de mesures effectuées sur un processus physique, chimique, écono-mique, biologique, etc. : le réseau réalise alors une tùche de modélisation statique ou une régression.

C’est essentiellement pour ce dernier type d’applications que sont mis en Ɠuvre les rĂ©seaux de neuronesĂ  apprentissage supervisĂ©.

On connaĂźt donc, en tous points ou seulement en certains points, les valeurs que doit avoir la sortie durĂ©seau en fonction des entrĂ©es correspondantes : c’est en ce sens que l’apprentissage est « supervisĂ© »,mĂ©taphore qui signifie qu’un « professeur » peut fournir au rĂ©seau des « exemples » de ce que celui-cidoit faire. L’essentiel du chapitre 2 de cet ouvrage est consacrĂ© Ă  expliquer comment cette mĂ©taphore setraduit mathĂ©matiquement, et les algorithmes qui en rĂ©sultent. Les chapitres 3, 4, 5, et 6, de cet ouvragesont consacrĂ©s Ă  la mise en Ɠuvre et aux applications des rĂ©seaux Ă  apprentissage supervisĂ© pour destĂąches de modĂ©lisation statique et dynamique, et de classification (discrimination) automatique.

L’apprentissage non supervisĂ©

Un rĂ©seau de neurones non bouclĂ© peut Ă©galement ĂȘtre utilisĂ© dans un but de visualisation ou d’analyse dedonnĂ©es : on dispose d’un ensemble de donnĂ©es, reprĂ©sentĂ©es par des vecteurs de grande dimension, etl’on cherche Ă  les regrouper, selon des critĂšres de ressemblance qui sont inconnus a priori. Ce type de

DĂ©finition

On appelle « apprentissage » des réseaux de neurones la procédure qui consiste à estimer les para-mÚtres des neurones du réseau, afin que celui-ci remplisse au mieux la tùche qui lui est affectée.

Page 10: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones10

tĂąches est connu en statistique sous le nom de mĂ©thodes « d’agrĂ©gation » (en anglais clustering). On peututiliser les rĂ©seaux de neurones non bouclĂ©s pour rĂ©aliser une tĂąche assez voisine : Ă  partir de donnĂ©es,dĂ©crites par des vecteurs de grande dimension, trouver une reprĂ©sentation de ces donnĂ©es dans un espacede dimension beaucoup plus faible (typiquement de dimension 2) tout en conservant les « proximitĂ©s » ou« ressemblances » entre ces donnĂ©es. Il n’y a donc pas lĂ  de « professeur », puisque c’est au rĂ©seau dedĂ©couvrir les ressemblances entre les Ă©lĂ©ments de la base de donnĂ©es, et de les traduire par une proximitĂ©dans la « carte » de dimension 2 qu’il doit produire. Les rĂ©seaux Ă  apprentissage non supervisĂ© les plusĂ©tudiĂ©s et utilisĂ©s sont les « cartes auto-organisatrices » ou « cartes de Kohonen ». Le chapitre 7 de cetouvrage est entiĂšrement consacrĂ© aux cartes auto-organisatrices et Ă  leurs applications.

PropriĂ©tĂ© fondamentale des rĂ©seaux de neurones non bouclĂ©s Ă  apprentissage supervisĂ© : l’approximation parcimonieuse

Les réseaux de neurones à apprentissage supervisé sont des approximateurs universels

Cette propriĂ©tĂ©, qui n’est qu’un thĂ©orĂšme d’existence et ne donne pas de mĂ©thode pour trouver les para-mĂštres du rĂ©seau, n’est pas spĂ©cifique aux rĂ©seaux de neurones. C’est la propriĂ©tĂ© suivante qui leur estparticuliĂšre et fait tout leur intĂ©rĂȘt.

Certains réseaux de neurones sont des approximateurs parcimonieux

Dans la pratique, le nombre de fonctions nĂ©cessaires pour rĂ©aliser une approximation est un critĂšre impor-tant dans le choix d’un approximateur de prĂ©fĂ©rence Ă  un autre. Nous montrerons dans le paragraphesuivant que le concepteur de modĂšle doit toujours faire en sorte que le nombre de paramĂštres ajustablessoit le plus faible possible : on dit que l’on cherche l’approximation la plus parcimonieuse.

Propriété

Toute fonction bornĂ©e suffisamment rĂ©guliĂšre peut ĂȘtre approchĂ©e uniformĂ©ment, avec une prĂ©cisionarbitraire, dans un domaine fini de l’espace de ses variables, par un rĂ©seau de neurones comportant unecouche de neurones cachĂ©s en nombre fini, possĂ©dant tous la mĂȘme fonction d’activation, et unneurone de sortie linĂ©aire [HORNIK et al. 1989], [HORNIK et al. 1990], [HORNIK 1991].

Propriété fondamentale

On montre [BARRON 1993] que, si l’approximation dĂ©pend des paramĂštres ajustables de maniĂšre nonlinĂ©aire, elle est plus parcimonieuse que si elle dĂ©pend linĂ©airement des paramĂštres.

Plus prĂ©cisĂ©ment, on montre que le nombre de paramĂštres, pour une prĂ©cision donnĂ©e, croĂźt exponen-tiellement avec le nombre de variables dans le cas des approximateurs linĂ©aires par rapport Ă  leursparamĂštres, alors qu’il croĂźt linĂ©airement avec ce nombre pour les approximateurs non linĂ©aires parrapport Ă  leurs paramĂštres. La parcimonie est donc d’autant plus importante que le nombre d’entrĂ©esdu modĂšle est grand : pour un modĂšle Ă  1 ou 2 entrĂ©es, on peut utiliser indiffĂ©remment un modĂšlelinĂ©aire par rapport Ă  ses paramĂštres (polynĂŽme par exemple) ou un modĂšle non linĂ©aire par rapport Ă ses paramĂštres (rĂ©seau de neurones par exemple).

Page 11: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 111

Or, nous avons vu que la sortie des rĂ©seaux de neurones Ă  fonction d’activation sigmoĂŻde n’est pas linĂ©airepar rapport aux poids du rĂ©seau, alors que la sortie des rĂ©seaux de RBF Ă  centres et Ă©carts-types fixĂ©s (oud’ondelettes Ă  centres et dilatations fixĂ©s) est linĂ©aire par rapport aux poids. De mĂȘme, une approximationpar polynĂŽme est linĂ©aire par rapport aux coefficients des monĂŽmes. Ainsi, l’utilisation de neuronescachĂ©s Ă  fonction d’activation sigmoĂŻde permet une approximation plus parcimonieuse qu'une approxi-mation polynomiale, ou qu'une approximation par fonctions radiales Ă  centres et Ă©carts-types fixes, ouencore qu’une approximation par ondelettes Ă  centres et dilatations fixĂ©s. Si, en revanche, on considĂšreque les centres et Ă©carts-types des RBF gaussiennes (ou les centres et les dilatations des ondelettes) sontdes paramĂštres ajustables au mĂȘme titre que les poids des connexions, il n’y a pas, Ă  l’heure actuelle,d’avantage mathĂ©matiquement dĂ©montrĂ© Ă  utiliser un type de neurones plutĂŽt qu’un autre. En revanche,des arguments pratiques dĂ©cisifs peuvent justifier une prĂ©fĂ©rence : connaissances a priori sur le type denon-linĂ©aritĂ© souhaitable, caractĂšre localisĂ© ou non de la fonction, rapiditĂ© de calcul, facilitĂ© d’initialisa-tion de l’apprentissage (voir chapitre 2, paragraphe « Initialisation des paramĂštres »), facilitĂ© de rĂ©alisa-tion en circuit spĂ©cialisĂ©, etc.

Expliquons qualitativement l’origine de la parcimonie. ConsidĂ©rons un modĂšle linĂ©aire par rapport Ă  sesparamĂštres, un modĂšle polynomial par exemple :

g(x) = 4 + 2x + 4x2 – 0,5x3.

Le rĂ©sultat g(x) du modĂšle est une combinaison linĂ©aire des fonctions y = 1, y = x, y = x2, y = x3, avec lespoids w0 = 4, w1 = 2, w2 = 4, w3 = –0,5. Ces fonctions ont une forme qui est fixĂ©e une fois pour toutes.

ConsidĂ©rons Ă  prĂ©sent le modĂšle neuronal reprĂ©sentĂ© sur la figure 1-8, dont l’équation est :

g(x) = 0,5 – 2 th(10x + 5) + 3 th(x + 0,25) – 2 th(3x – 0,25).

Le rĂ©sultat de ce modĂšle est aussi une combinaison linĂ©aire de fonctions (y= 1, y = th(10x + 5), y = th(x + 0,25), y = th(3x – 0,25)), mais la forme de cesfonctions dĂ©pend des valeurs des poids des connexions entre les entrĂ©es etles neurones cachĂ©s. Ainsi, au lieu de combiner des fonctions de formesfixes, on combine des fonctions dont la forme elle-mĂȘme est ajustĂ©e par desparamĂštres. On comprend facilement que ces degrĂ©s de libertĂ© supplĂ©men-taires permettent de rĂ©aliser une fonction donnĂ©e avec un plus petit nombrede fonctions Ă©lĂ©mentaires, ce qui est prĂ©cisĂ©ment la dĂ©finition de la parci-monie.

Figure 1-8. Un réseau de neurones non bouclé à une variable (donc deux entrées) et trois neurones cachés. Les nombres indiquent les valeurs des paramÚtres.

Un exemple élémentaire

ConsidĂ©rons la parabole d’équation

y = 16,71 x2 – 0,075.

Nous en prenons 20 Ă©chantillons rĂ©guliĂšrement espacĂ©s, que nous utilisons pour effectuer un apprentis-sage supervisĂ© d’un rĂ©seau Ă  2 neurones cachĂ©s (Ă  fonction d’activation Arctg) reprĂ©sentĂ© sur la figure 1-9(a).Un apprentissage Ă  l’aide de l’algorithme de Levenberg-Marquardt (voir chapitre 2) fournit, en quelquesdizaines d’itĂ©rations, les paramĂštres indiquĂ©s sur la figure 1-9(a). La figure 1-9(b) reprĂ©sente les points del’ensemble d’apprentissage et la sortie du rĂ©seau, qui passe par ces points avec une excellente prĂ©cision.La figure 1-9(c) reprĂ©sente les sorties des neurones cachĂ©s, dont la combinaison linĂ©aire avec le biaisconstitue la sortie du rĂ©seau. La figure 1-9(d) montre les points d’un ensemble de test et la sortie durĂ©seau : lorsque l’on s’éloigne du domaine d’apprentissage [–0,12, +0,12], la prĂ©cision de l’approxima-

x 1

g

-2 3 -2 0,5

10 5 1 0,25 3 -0,250,25

Page 12: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones12

tion se dĂ©grade, ce qui est normal. On notera la symĂ©trie dans les valeurs des poids, qui reflĂšte la symĂ©triedu problĂšme (simulation rĂ©alisĂ©e Ă  l’aide du logiciel NeuroOneℱ de NETRAL S.A.).

RemarqueBien entendu, approcher une parabole Ă  une variable par un rĂ©seau de neurones ne prĂ©sente aucun intĂ©rĂȘt pratique, puisque la parabolea deux paramĂštres alors que le rĂ©seau de neurones en a sept ! La seule justification de cet exemple est que, Ă©tant mono-dimensionnel, ilpermet d’utiliser des reprĂ©sentations graphiques simples.

À quoi servent les rĂ©seaux de neurones non bouclĂ©s Ă  apprentissage supervisĂ© ? ModĂ©lisation statique et discrimination (classification)Les propriĂ©tĂ©s mathĂ©matiques dĂ©crites dans la section prĂ©cĂ©dente sont fondamentales : elles donnent unebase solide aux applications des rĂ©seaux de neurones Ă  apprentissage supervisĂ©. NĂ©anmoins, dans lapratique, il est rare que l’on cherche Ă  rĂ©aliser une approximation uniforme d’une fonction connue.

Le plus souvent, le problĂšme qui se pose Ă  l’ingĂ©nieur est le suivant : il dispose d’un ensemble devariables mesurĂ©es {xk, k = 1 Ă  N} et d’un ensemble de mesures {yp(xk), k = 1 Ă  N} d’une grandeur zp rela-tive Ă  un processus de nature quelconque (physique, chimique, Ă©conomique, financier...). Il suppose qu’ilexiste une relation entre le vecteur des variables {x} et la grandeur zp, et il cherche Ă  dĂ©terminer une formemathĂ©matique de cette relation, valable dans le domaine oĂč les mesures ont Ă©tĂ© effectuĂ©es, sachant que (1)les mesures sont en nombre fini, et que (2) ces mesures sont certainement entachĂ©es de bruit. De plustoutes les variables qui dĂ©terminent zp ne sont pas forcĂ©ment mesurĂ©es. En d’autres termes, l’ingĂ©nieur

0.05 0.1 0.15-0.15 -0.1 -0.05 0-0.1

-1 -0.5 0 0.5 1-8

-6

-4

-2

0

2

4

6

-1 -0.5 0 0.5 1-2

0

2

4

6

8

10

12

14

16

18

x

1 3 0 24

5 6

y Poids

0ïżœ -1,02

1ïżœ 2,73

2ïżœ 1,02

3ïżœ 2,73

4ïżœ 7,23

5ïżœ 4,58

6ïżœ - 4,57-0.05

0

0.05

0.1

0.15

(a)(b)

(c) (d)

1

Figure 1-9. Interpo-lation d’une para-bole par un rĂ©seau de neurones Ă  2 neurones cachĂ©s ; (a) rĂ©seau ; (b) points d’appren-tissage (croix) et sortie du rĂ©seau aprĂšs apprentissage ; (c) sorties des deux neurones cachĂ©s (sigmoĂŻdes) aprĂšs apprentissage ; (d) points de test (croix) et sortie du rĂ©seau aprĂšs apprentissage : l’approximation se dĂ©grade en dehors de la zone d’apprentissage.

Page 13: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 113

cherche Ă  Ă©tablir un modĂšle du processus qu’il Ă©tudie, Ă  partir des mesures dont il dispose, et d’ellesseules : on dit qu’il effectue une modĂ©lisation « boĂźte noire » . On notera que, dans le jargon des rĂ©seauxde neurones, les donnĂ©es Ă  partir desquelles on cherche Ă  construire le modĂšle s’appellent des exemples.Nous Ă©tudierons plus bas la modĂ©lisation « boĂźte noire » du comportement d’un processus (l’actionneurhydraulique d’un bras de robot) : l’ensemble de variables {x} est constituĂ© d’une seule variable (l’angled’ouverture de la vanne d’admission d’huile) et la grandeur zp est la pression d’huile dans l’actionneur.Nous verrons Ă©galement un exemple de prĂ©diction de propriĂ©tĂ©s chimiques de molĂ©cules : on cherche unerelation dĂ©terministe entre une propriĂ©tĂ© des molĂ©cules (par exemple leurs points d’ébullition) et des« descripteurs » de ces molĂ©cules (masse molaire, nombre d’atomes, « volume », moment dipolaire,etc.) ; on peut ainsi prĂ©dire le point d’ébullition de molĂ©cules dont la synthĂšse n’a pas Ă©tĂ© effectuĂ©e. Lelecteur rencontrera dans cet ouvrage de nombreux cas de ce genre.

Les termes de « boĂźte noire » que nous venons d’introduire s’opposent aux termes de « modĂšle deconnaissance » ou « modĂšle de comportement interne », qui dĂ©signent un modĂšle mathĂ©matique Ă©tabli Ă partir d’une analyse physique (ou chimique, physico-chimique, Ă©conomique, etc.) du processus que l’onĂ©tudie ; ce modĂšle peut contenir un nombre limitĂ© de paramĂštres ajustables, qui possĂšdent une significa-tion physique. Nous verrons plus bas que les rĂ©seaux de neurones peuvent ĂȘtre utilisĂ©s pour l’élaborationde modĂšles « boĂźtes grises », intermĂ©diaires entre les modĂšles « boĂźtes noires » et les modĂšles de connais-sance.

En quoi la propriĂ©tĂ© d’approximation parcimonieuse des rĂ©seaux de neurones peut-elle ĂȘtre utile pourrĂ©soudre le problĂšme de la modĂ©lisation « boĂźte noire » ? Nous ne rĂ©pondrons ici que trĂšs briĂšvement Ă cette question. Nous prĂ©senterons une rĂ©ponse trĂšs dĂ©taillĂ©e dans le chapitre 2, qui prĂ©sente une mĂ©thodo-logie de conception et de rĂ©alisation de modĂšles neuronaux, et dans le chapitre 3, qui propose, en complĂ©-ment mĂ©thodologique, des techniques trĂšs utiles de rĂ©duction de la dimension des entrĂ©es des modĂšlesd’une part, et d’évaluation des performances et construction de modĂšles neuronaux d’autre part.

Modélisation statique

ConsidĂ©rons, pour simplifier, le cas d’un modĂšle Ă  une seule variable x. Supposons que l’on puisse, pourchaque valeur de x, effectuer une infinitĂ© de mesures et en calculer la moyenne ; celle-ci n’est autre que lagrandeur zp recherchĂ©e ; elle est appelĂ©e « espĂ©rance mathĂ©matique » de yp pour la valeur x de la variable.Cette espĂ©rance mathĂ©matique est Ă©videmment une fonction de x, appelĂ©e « fonction de rĂ©gression » ; ornous savons que toute fonction (suffisamment rĂ©guliĂšre) peut ĂȘtre approchĂ©e par un rĂ©seau de neurones ;par consĂ©quent, l’ingĂ©nieur peut espĂ©rer rĂ©soudre son problĂšme de modĂ©lisation « boĂźte noire » en esti-mant les paramĂštres d’un rĂ©seau de neurones qui rĂ©alise une approximation de la fonction de rĂ©gression,laquelle, rappelons-le, est inconnue.

Cette approximation ne sera pas une approximation uniforme telle que nous l’avons dĂ©finie et illustrĂ©edans le paragraphe prĂ©cĂ©dent. Pour des raisons qui seront expliquĂ©es en dĂ©tail dans le chapitre 2, l’ingĂ©-nieur cherchera plutĂŽt une approximation au sens des moindres carrĂ©s, c’est-Ă -dire qu’il cherchera unefonction paramĂ©trĂ©e g(x, w), rĂ©alisĂ©e, par exemple, Ă  l’aide d’un rĂ©seau de neurones, pour laquelle la fonc-tion de coĂ»t des moindres carrĂ©s

est « minimum ». Rappelons que, dans cette relation, {xk, k = 1 Ă  N} est un ensemble de mesures desvariables d’entrĂ©e, et yp(xk) est la valeur mesurĂ©e de la grandeur Ă  modĂ©liser, lorsque le vecteur d’entrĂ©evaut xk. L’apprentissage d’un rĂ©seau ayant un nombre donnĂ© de neurones cachĂ©s consiste donc, dans cecas, en une procĂ©dure de minimisation qui permet de trouver un vecteur de poids w0 satisfaisant.

J w =12

yp xk – g xk, w 2∑k = 1

N

Page 14: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones14

Cette procédure pose aussitÎt deux questions, qui sont centrales dans la pratique des réseaux de neurones :

‱ comment, dans une famille de rĂ©seaux de neurones donnĂ©e, trouver celui qui minimise la fonction decoĂ»t des moindres carrĂ©s ?

‱ une fois que celui-ci a Ă©tĂ© trouvĂ©, comment juger s’il est « satisfaisant » ?

Le lecteur trouvera dans cet ouvrage, notamment dans son chapitre 2, une méthodologie raisonnée qui luipermettra de résoudre ces problÚmes.

Dans cette tĂąche, nous serons aidĂ©s par le fait que les deux questions que nous venons de mentionner nesont guĂšre spĂ©cifiques aux rĂ©seaux de neurones : elles se posent depuis trĂšs longtemps, en des termespratiquement identiques, Ă  tous ceux (ingĂ©nieurs, Ă©conomistes, financiers, biologistes, et, bien entendu,statisticiens) qui cherchent, Ă  partir de donnĂ©es, Ă  extraire une information pertinente ([SEBER et al. 1989],[ANTONIADIS et al. 1992], [DRAPER et al. 1998]). En fait, le cheminement que nous venons de rĂ©aliser,depuis l’approximation de fonction jusqu’à l’estimation des paramĂštres d’une rĂ©gression, est celui de toutstatisticien Ă  la recherche d’un modĂšle : nous pourrons tirer largement profit de rĂ©sultats Ă©tablis, notam-ment dans le cadre de la rĂ©gression linĂ©aire, par ces derniers.

RĂ©sumons, Ă  l’aide d’un exemple, les Ă©tapes que nous venons de dĂ©crire :

‱ lorsqu’on dĂ©sire Ă©tablir un modĂšle mathĂ©matique d’une dĂ©pendance entre des variables, on cherche Ă estimer la fonction de rĂ©gression, c’est-Ă -dire la fonction que l’on obtiendrait si l’on pouvait faire, enchaque point, un nombre infini de mesures et en calculer la moyenne ; cette fonction de rĂ©gression nepeut donc jamais ĂȘtre dĂ©terminĂ©e exactement ; la figure 1-10 reprĂ©sente un signal yp(x) que l’on voudraitmodĂ©liser, c’est-Ă -dire pour lequel on voudrait obtenir la meilleure approximation possible de la fonc-tion de rĂ©gression inconnue ;

Figure 1-10. Un signal que l’on voudrait modĂ©liser

‱ on effectue un nombre fini de mesures, comme illustrĂ© sur la figure 1-11 ;

‱ un rĂ©seau de neurones tel que la fonction de coĂ»t des moindres carrĂ©s, c’est-Ă -dire la somme des carrĂ©sdes diffĂ©rences entre les valeurs calculĂ©es par le rĂ©seau et les valeurs mesurĂ©es (en nombre fini), soitaussi petite que possible, permet de trouver une approximation de la fonction de rĂ©gression, commeindiquĂ© sur la figure 1-12.

+ 1,20

+ 0,90

+ 0,60

+ 0,30

+ 0,00

- 0,30

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

Page 15: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 115

Figure 1-11. La situation rĂ©elle dans laquelle se trouve l’ingĂ©nieur : il ne dispose que d’un nombre fini de mesures. Noter que, dans cet exemple, les points de mesure sont rĂ©guliĂšrement espacĂ©s, mais cela n’est pas obligatoire.

Figure 1-12. Une approximation de la fonction de régression, réalisée par un réseau de neurones, à partir des points expéri-mentaux de la figure 1-11.

Ainsi, un rĂ©seau de neurones peut, Ă  partir d’exemples, prĂ©voir la valeur que peut prendre une grandeurqui dĂ©pend de plusieurs variables, pour des valeurs de ces variables qui ne font pas partie de la based’exemples utilisĂ©e pour calculer les coefficients du rĂ©seau. Dans le cas reprĂ©sentĂ© sur la figure 1-12, lerĂ©seau permet de trouver des valeurs du signal pour des points qui se trouvent entre les points de mesure.Cette propriĂ©tĂ© est appelĂ©e « infĂ©rence statistique » par les statisticiens, et, dans le domaine des rĂ©seauxde neurones, sous le terme de « gĂ©nĂ©ralisation ». Il faut bien comprendre que cette gĂ©nĂ©ralisation est nĂ©an-moins limitĂ©e : elle ne peut pas s’étendre au-delĂ  des limites de la rĂ©gion de l’espace des entrĂ©es danslaquelle se trouvent les exemples qui servent Ă  l’apprentissage, comme illustrĂ© sur la figure 1-9. LeproblĂšme de la qualitĂ© de la gĂ©nĂ©ralisation est largement abordĂ© dans les chapitres de cet ouvrage.

+ 1,20

+ 0,90

+ 0,60

+ 0,30

+ 0,00

- 0,30

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

+ 1,20

+ 0,90

+ 0,60

+ 0,30

+ 0,00

- 0,30

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

Page 16: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones16

En quoi la parcimonie est-elle avantageuse ?

Dans ce contexte, en quoi la parcimonie des rĂ©seaux de neurones, sur laquelle nous avons insistĂ© dans lasection prĂ©cĂ©dente, est-elle un avantage ? Nous avons dĂ©jĂ  mentionnĂ© le fait que la grande majoritĂ© desapplications des rĂ©seaux de neurones Ă  apprentissage supervisĂ© concerne la modĂ©lisation de processus :on ajuste les paramĂštres du rĂ©seau, au cours de l’apprentissage Ă  partir d’exemples, pour que celui-cireproduise la relation non linĂ©aire qui existe entre les entrĂ©es et les sorties. Or il est clair intuitivement quele nombre d’exemples nĂ©cessaires pour ajuster les paramĂštres de maniĂšre significative doit ĂȘtre granddevant le nombre de ces paramĂštres : on ne peut pas ajuster l’équation d’une droite avec un seul point, oul’équation d’un plan avec deux points. Les rĂ©seaux parcimonieux en paramĂštres sont donc Ă©galementparcimonieux en nombre d’exemples ; or ceux-ci, trĂšs souvent, coĂ»tent cher (notamment si ce sont desrĂ©sultats d’expĂ©riences sur un processus industriel), et leur collecte peut ĂȘtre longue (par exemple, si l’onveut modĂ©liser un processus Ă©conomique Ă  partir d’indices publiĂ©s une fois par mois par l’INSEE).

L’avantage pratique des rĂ©seaux de neurones par rapport aux techniques classiques de modĂ©lisation nonlinĂ©aire rĂ©side donc dans leur capacitĂ© Ă  rĂ©aliser des modĂšles de prĂ©cision Ă©quivalente avec moins dedonnĂ©es expĂ©rimentales (ou dans leur capacitĂ© Ă  constituer des modĂšles plus prĂ©cis Ă  partir du mĂȘmenombre d’exemples). De maniĂšre gĂ©nĂ©rale, les rĂ©seaux de neurones permettent de tirer le meilleur partides donnĂ©es numĂ©riques disponibles, pour construire des modĂšles Ă  plusieurs entrĂ©es.

La figure 1-42 montre un exemple de parcimonie dans une application rĂ©elle : la prĂ©diction d’un para-mĂštre thermodynamique d’un verre.

Classification (discrimination)

Classer un ensemble d’objets, c’est attribuer Ă  chacun une classe (ou « catĂ©gorie ») parmi plusieursclasses dĂ©finies Ă  l’avance. Cette tĂąche est appelĂ©e « classification » ou « discrimination ». Un algorithmequi rĂ©alise automatiquement une classification est appelĂ© classifieur.

Les statisticiens appellent aussi « classification » la tĂąche qui consiste Ă  regrouper des donnĂ©es qui seressemblent dans des classes qui ne sont pas dĂ©finies Ă  l’avance, et nous avons vu que les rĂ©seaux deneurones Ă  apprentissage non supervisĂ© peuvent rĂ©aliser ce genre de tĂąches ; il y a donc une certaineconfusion dans les termes. Nous nous efforcerons toujours de prĂ©ciser ce dont il s’agit, lorsque le contextene rend pas la distinction Ă©vidente. Dans tout ce paragraphe, nous nous plaçons dans le cas oĂč les classessont connues Ă  l’avance.

Les applications des classifieurs sont trĂšs nombreuses : dans le domaine de la reconnaissance des formes(chiffres et caractĂšres manuscrits ou imprimĂ©s, images, parole, signaux temporels...), mais Ă©galementdans bien d’autres domaines (Ă©conomie, finance, sociologie, traitement du langage...). De maniĂšre gĂ©nĂ©-rale, nous dĂ©signerons sous le terme de « forme » n’importe quel objet dĂ©crit par un ensemble de nombres(« descripteurs ») : ainsi, une image pourra ĂȘtre dĂ©crite par l’ensemble des valeurs d’intensitĂ© de ses pixels(contraction de « picture elements » ou Ă©lĂ©ments d’image), un signal temporel par ses valeurs successivesau cours d’une pĂ©riode de temps dĂ©finie, une entreprise par l’ensemble des Ă©lĂ©ments de son bilan, un textepar l’ensemble des mots importants qu’il contient, etc. SchĂ©matiquement, la question Ă  laquelle un clas-sifieur doit apporter un Ă©lĂ©ment de rĂ©ponse est du type : le caractĂšre inconnu est-il un a, un b, un c, etc. ?le signal observĂ© est-il normal ou anormal ? l’entreprise examinĂ©e constitue-t-elle un excellent, trĂšs bon,bon, mĂ©diocre, mauvais, trĂšs mauvais, support d’investissement ? la dĂ©pĂȘche d’agence reçue est-elle rela-tive Ă  une prise de participation entre entreprises ? y aura-t-il demain une alerte Ă  la pollution par l’ozone ?

Il faut noter que le classifieur n’est pas nĂ©cessairement conçu pour donner une rĂ©ponse complĂšte : il peutapporter seulement un Ă©lĂ©ment de rĂ©ponse. Il faut bien, en effet, distinguer l’aide Ă  la dĂ©cision et la dĂ©ci-sion elle-mĂȘme : un classifieur peut apporter une information qui aidera un ĂȘtre humain, ou un systĂšme

Page 17: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 117

automatique, Ă  prendre une dĂ©cision concernant l’appartenance de l’objet inconnu Ă  telle ou telle classe.Historiquement, les premiers rĂ©seaux de neurones utilisĂ©s pour la classification Ă©taient conçus pourfournir une dĂ©cision. GrĂące aux progrĂšs accomplis dans la comprĂ©hension des propriĂ©tĂ©s fondamentalesdes rĂ©seaux de neurones, on sait Ă  prĂ©sent qu’ils peuvent donner une information beaucoup plus riche etfine qu’une simple dĂ©cision binaire : ils peuvent estimer la probabilitĂ© d’appartenance de l’objet inconnuĂ  chacune des classes, ce qui leur permet notamment de s’intĂ©grer dans des systĂšmes de reconnaissancecomplexes qui utilisent plusieurs systĂšmes de classification diffĂ©rents, chacun d’eux fournissant une esti-mation de la probabilitĂ© d’appartenance de l’objet inconnu Ă  chacune des classes. La dĂ©cision finale estprise au vu de ces estimations, et en fonction, par exemple, des « spĂ©cialitĂ©s » de chacun des classifieurs.

De mĂȘme, dans le domaine de la « fouille de donnĂ©es » (data mining), une problĂ©matique de plus en plusfrĂ©quente est celle du « filtrage d’information » : trouver automatiquement, dans un corpus de donnĂ©es,les textes qui sont pertinents pour un thĂšme donnĂ©, et prĂ©senter ces textes par ordre de probabilitĂ© de perti-nence dĂ©croissante, afin que l’utilisateur puisse faire un choix rapide parmi les documents qui lui sontprĂ©sentĂ©s. LĂ  encore, il est indispensable que le classifieur ne se contente pas de donner une rĂ©ponsebinaire (document pertinent ou non), mais bien qu’il dĂ©termine une probabilitĂ© d’appartenance Ă  uneclasse. Les rĂ©seaux de neurones non bouclĂ©s sont bien adaptĂ©s Ă  ce type de tĂąche, dont l’importance estde plus en plus Ă©vidente.

La section du présent chapitre intitulée « Réseaux de neurones à apprentissage supervisé etdiscrimination », et le chapitre 6 en entier, sont consacrés à la discrimination.

À quoi servent les rĂ©seaux de neurones Ă  apprentissage non supervisĂ© ? Analyse et visualisation de donnĂ©esLes moyens modernes de traitement et de stockage de l’information permettent de disposer de trĂšsgrandes quantitĂ©s d’informations, qu’elles soient numĂ©riques (traitements numĂ©riques intensifs de rĂ©sul-tats expĂ©rimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait qu’ellesdoivent ĂȘtre prĂ©sentes dans les donnĂ©es, mais dont on ne sait pas bien comment les extraire, devient uneprĂ©occupation de plus en plus importante. Les progrĂšs du graphisme des ordinateurs permet des reprĂ©sen-tations des donnĂ©es de plus en plus claires et conviviales, mais l’opĂ©rateur est incapable de visualiser clai-rement des donnĂ©es de haute dimensionnalitĂ©. Il est donc trĂšs important de disposer de techniques dereprĂ©sentations des donnĂ©es Ă  basse dimension (typiquement 2) qui permettent de retrouver l’information« prĂ©gnante » dans les donnĂ©es. Les rĂ©seaux de neurones Ă  apprentissage non supervisĂ© offrent unensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.

Le chapitre 7 de cet ouvrage, entiĂšrement consacrĂ© Ă  l’apprentissage non supervisĂ©, dĂ©crit en dĂ©tail debelles applications, notamment en tĂ©lĂ©dĂ©tection.

À quoi servent les rĂ©seaux de neurones bouclĂ©s Ă  apprentissage supervisĂ© ? ModĂ©lisation dynamique « boĂźte noire » et « semi-physique » ; commande de processusNous avons vu, dans le paragraphe consacrĂ© aux rĂ©seaux de neurones bouclĂ©s, que tout rĂ©seau de neuronesnon bouclĂ© peut ĂȘtre mis sous une forme canonique, qui comprend un rĂ©seau de neurones non bouclĂ©s etdes bouclages (ou rĂ©currences) externes Ă  celui-ci. Les propriĂ©tĂ©s des rĂ©seaux de neurones bouclĂ©s Ă apprentissage supervisĂ© sont donc directement liĂ©es Ă  celles des rĂ©seaux non bouclĂ©s : de mĂȘme que l’onmet en Ɠuvre les rĂ©seaux de neurones non bouclĂ©s pour modĂ©liser, de maniĂšre statique, des processus nonlinĂ©aires qui peuvent ĂȘtre utilement dĂ©crits par des Ă©quations algĂ©briques, de mĂȘme il est intĂ©ressant demettre en Ɠuvre des rĂ©seaux de neurones bouclĂ©s pour modĂ©liser, de maniĂšre dynamique, des processus

Page 18: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones18

qui peuvent ĂȘtre utilement dĂ©crits par des Ă©quations rĂ©currentes (ou Ă©quations aux diffĂ©rences). Une partiedu chapitre 2, et tout le chapitre 4, sont consacrĂ©s Ă  la modĂ©lisation dynamique de processus.

Plusieurs motivations peuvent pousser l’ingĂ©nieur Ă  concevoir un modĂšle dynamique :‱ utiliser le modĂšle comme « simulateur » pour prĂ©voir l’évolution d’un processus dont la modĂ©lisation

de connaissance est trop complexe, ou dont il est possible d’écrire un modĂšle qui contient des Ă©quationstrop incertaines ou dont les paramĂštres sont trop mal connus ;

‱ utiliser le modĂšle comme simulateur d’un processus dont la modĂ©lisation de connaissance est possible,mais conduit Ă  des Ă©quations diffĂ©rentielles, ou aux dĂ©rivĂ©es partielles, dont la rĂ©solution numĂ©rique estlourde et ne peut rĂ©pondre Ă  des contraintes de fonctionnement en temps rĂ©el : on peut alors crĂ©er unensemble d’apprentissage Ă  partir du code de rĂ©solution des Ă©quations, et concevoir un rĂ©seau deneurones qui fournit de trĂšs bonnes solutions dans des temps de calcul beaucoup plus courts ; l’archi-tecture de ce rĂ©seau peut avantageusement ĂȘtre inspirĂ©e des Ă©quations diffĂ©rentielles du modĂšle deconnaissance : on conçoit alors un « modĂšle semi-physique » ou modĂšle « boĂźte grise » ;

‱ utiliser le modĂšle comme prĂ©dicteur Ă  trĂšs court terme (une pĂ©riode d’échantillonnage) afin de l’intĂ©grerĂ  un systĂšme de commande.

La modélisation semi-physique

Il est trĂšs frĂ©quent, notamment dans l’industrie manufacturiĂšre, que l’on dispose d’un modĂšle de connais-sance d’un procĂ©dĂ©, mais que celui-ci ne soit pas satisfaisant ; il peut y avoir Ă  cela plusieurs raisons :‱ le modĂšle peut ĂȘtre insuffisamment prĂ©cis pour l’objectif que l’on s’est fixĂ© : par exemple, si l’on dĂ©sire

dĂ©tecter une anomalie de fonctionnement en analysant la diffĂ©rence entre l’état du processus prĂ©vu parle modĂšle du fonctionnement normal et l’état rĂ©ellement mesurĂ©, il faut que le modĂšle de fonctionne-ment normal soit prĂ©cis ;

‱ le modĂšle peut ĂȘtre prĂ©cis, mais ĂȘtre trop complexe pour pouvoir ĂȘtre intĂ©grĂ© numĂ©riquement en tempsrĂ©el (pour une application de surveillance ou de commande, par exemple).

Si l’on dispose de mesures, on peut alors lĂ©gitimement dĂ©cider d’avoir recours Ă  un modĂšle « boĂźtenoire », non linĂ©aire si nĂ©cessaire ; mais il serait nĂ©anmoins maladroit d’abandonner complĂštement toutesles connaissances accumulĂ©es lors de la conception du modĂšle, pour construire un autre modĂšle fondĂ©uniquement sur les mesures. La modĂ©lisation semi-physique permet de rĂ©concilier ces deux points de vue,en utilisant toutes les connaissances avĂ©rĂ©es dont on peut disposer sur le processus (sous rĂ©serve qu’ellessoient sous la forme d’équations algĂ©briques ou diffĂ©rentielles) pour structurer le rĂ©seau et dĂ©finir sonarchitecture. Nous prĂ©senterons plus bas un exemple d’application industrielle de la modĂ©lisation semi-physique ; la mĂ©thodologie de conception d’un tel modĂšle est dĂ©crite dans le chapitre 2.

La commande de processus

Commander un systĂšme, c’est lui imposer une dynamique de rĂ©ponse Ă  une sollicitation. S’il s’agit d’unasservissement, il faut imposer au systĂšme de rester dans un Ă©tat dĂ©terminĂ© quelles que soient les pertur-bations, mesurables ou non, auxquelles il est soumis : pour un systĂšme de commande de vitesse d’unevoiture (cruise control), il faut agir automatiquement sur l’accĂ©lĂ©rateur afin que la voiture conserve unevitesse constante Ă©gale Ă  la vitesse de consigne, indĂ©pendamment de perturbations telles que bourrasquesde vent, changements de la pente de la route, etc. S’il s’agit d’un systĂšme de poursuite, il faut imposer ausystĂšme de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systĂšme dechauffage pour que la tempĂ©rature suive un profil temporel dĂ©terminĂ© Ă  l’avance, indĂ©pendamment de latempĂ©rature du four, de la tempĂ©rature des ingrĂ©dients que l’on ajoute durant la fermentation, des rĂ©ac-tions exo- ou endothermiques qui peuvent se produire, etc. Pour rĂ©aliser ces tĂąches, il faut gĂ©nĂ©ralementdisposer d’un modĂšle, qui, si les non-linĂ©aritĂ©s sont importantes, peut ĂȘtre un rĂ©seau de neurones. Lechapitre 5 est entiĂšrement consacrĂ© Ă  la commande de processus non linĂ©aires.

Page 19: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 119

À quoi servent les rĂ©seaux de neurones bouclĂ©s sans apprentissage ? L’optimisation combinatoireLes utilisations des rĂ©seaux de neurones bouclĂ©s prĂ©sentĂ©es dans la section prĂ©cĂ©dente mettent Ă  profit ladynamique forcĂ©e des modĂšles neuronaux, puisqu’il s’agit de modĂ©liser la rĂ©ponse d’un processus auxsignaux de commande qu’il reçoit. Il existe une autre classe d’applications des rĂ©seaux de neuronesbouclĂ©s, dans lesquels c’est au contraire la dynamique propre des modĂšles qui est mise Ă  profit.

Il existe en effet des rĂ©seaux de neurones bouclĂ©s, constituĂ©s de neurones dont la fonction d’activation estun Ă©chelon (neurones de McCulloch et Pitts), dont la dynamique est caractĂ©risĂ©e par l’existence de pointsfixes : si un tel rĂ©seau est placĂ© dans un Ă©tat initial, et qu’on le laisse Ă©voluer spontanĂ©ment, il aboutit, aubout d’un temps fini, dans un Ă©tat stable (qui dĂ©pend de l’état de dĂ©part). Cet Ă©tat (c’est-Ă -dire le vecteurdes sorties des neurones) Ă©tant binaire, il peut ĂȘtre considĂ©rĂ© comme le code binaire d’une information.De plus, on montre qu’il existe une fonction de l’état, dite fonction d’énergie, ou fonction de Liapounov,qui dĂ©croĂźt toujours pendant l’évolution libre du rĂ©seau ; les Ă©tats stables de celui-ci sont donc des minimade cette fonction d’énergie.

On peut inverser le problĂšme : supposons que l’on se pose un problĂšme d’optimisation combinatoire,c’est-Ă -dire que l’on cherche le minimum (ou un « bon » minimum) d’une fonction, dite « fonction decoĂ»t », de variables binaires. S’il existe un rĂ©seau de neurones bouclĂ© dont la fonction d’énergie estisomorphe de la fonction de coĂ»t que l’on cherche Ă  minimiser, alors les points fixes de la dynamique dece rĂ©seau constituent des solutions au problĂšme d’optimisation combinatoire que l’on cherche Ă  rĂ©soudre.Si l’on peut construire un tel rĂ©seau, il peut alors trouver de lui-mĂȘme, Ă  partir d’un Ă©tat initial quelconque,une solution au problĂšme d’optimisation.

La mise en Ɠuvre de cette idĂ©e nĂ©cessite donc‱ de trouver un rĂ©seau de neurones dont la fonction d’énergie soit isomorphe de la fonction de coĂ»t du

problĂšme d’optimisation,‱ de dĂ©terminer les paramĂštres de ce rĂ©seau,‱ de maĂźtriser la dynamique de celui-ci pour qu’il trouve un « bon » minimum de la fonction de coĂ»t,

éventuellement en faisant appel à des techniques inspirées de la méthode du recuit simulé.

La mise en Ɠuvre de cette technique puissante, et ses applications, font l’objet du chapitre 8 de cetouvrage.

Quand et comment mettre en Ɠuvre des rĂ©seaux de neurones Ă  apprentissage supervisĂ© ?

AprĂšs avoir prĂ©sentĂ© les justifications thĂ©oriques de l’utilisation de rĂ©seaux de neurones, nous allons iciaborder les problĂšmes pratiques liĂ©s Ă  leur mise en Ɠuvre : nous rappellerons d’abord quand utiliser – etquand ne pas utiliser – les rĂ©seaux de neurones ; nous expliquerons briĂšvement ensuite comment il faut lesmettre en Ɠuvre. Toutes les questions qui sont abordĂ©es ici sont approfondies dans les chapitres suivants.

Quand utiliser les rĂ©seaux de neurones ?Nous avons expliquĂ© prĂ©cĂ©demment le fondement thĂ©orique de l’utilisation des rĂ©seaux de neurones Ă apprentissage supervisĂ© : la propriĂ©tĂ© d’approcher, de maniĂšre parcimonieuse, toute fonction de rĂ©gres-sion non linĂ©aire suffisamment rĂ©guliĂšre.

Page 20: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones20

Il peut donc ĂȘtre avantageux de mettre en Ɠuvre des rĂ©seaux de neurones pour toute application nĂ©cessi-tant de trouver, par des mĂ©thodes statistiques, une relation non linĂ©aire entre des donnĂ©es numĂ©riques.

Sous quelles conditions peut-on utiliser une telle approche ?‱ Une premiĂšre condition, nĂ©cessaire mais non suffisante : puisque les rĂ©seaux de neurones entrent dans

le cadre des mĂ©thodes statistiques, il faut disposer d’échantillons de taille suffisamment grande, et bienreprĂ©sentatifs.

‱ Une fois que ces donnĂ©es ont Ă©tĂ© recueillies, il faut s’assurer de l’intĂ©rĂȘt rĂ©el d’un modĂšle non linĂ©airepour l’application considĂ©rĂ©e : en effet, la mise en Ɠuvre d’un modĂšle linĂ©aire (ou affine) est toujoursplus simple, et moins coĂ»teuse en temps de calcul, que celle d’un rĂ©seau de neurones. Par consĂ©quent,en l’absence de toute connaissance a priori sur l’intĂ©rĂȘt d’un modĂšle non linĂ©aire, l’ingĂ©nieur doitd’abord utiliser les mĂ©thodes simples et Ă©prouvĂ©es d’élaboration d’un modĂšle linĂ©aire ; s’il s’avĂšre quela prĂ©cision du modĂšle est insuffisante bien que tous les facteurs pertinents soient prĂ©sents dans lesentrĂ©es du modĂšle, alors le concepteur de modĂšle doit envisager la mise en Ɠuvre de modĂšles nonlinĂ©aires tels que les rĂ©seaux de neurones.

‱ Si les donnĂ©es sont disponibles, et si l’on s’est assurĂ© qu’un modĂšle non linĂ©aire est utile, il faut s’inter-roger sur l’opportunitĂ© d’utiliser un rĂ©seau de neurones de prĂ©fĂ©rence Ă  une autre famille de fonctionsnon linĂ©aire, les polynĂŽmes par exemple. C’est ici qu’intervient la notion de parcimonie : comme nousl’avons vu plus haut, pour une prĂ©cision donnĂ©e, le nombre de poids de la premiĂšre couche deconnexions varie linĂ©airement avec le nombre de variables, alors qu’il varie exponentiellement dans lecas, par exemple, d’une approximation polynomiale (il existe nĂ©anmoins des mĂ©thodes de sĂ©lection desmonĂŽmes qui permettent, dans une certaine mesure, d’éviter cette explosion combinatoire).Par consĂ©quent, les rĂ©seaux de neurones, notamment Ă  fonction d’activation sigmoĂŻde, sont d’autantplus avantageux que le nombre de variables est « grand » ; dans la majoritĂ© des cas, « grand » signifie,en pratique et de maniĂšre empirique, supĂ©rieur ou Ă©gal Ă  3.

En rĂ©sumĂ© : si l’on dispose de donnĂ©es numĂ©riques suffisamment nombreuses et reprĂ©sentatives, il estgĂ©nĂ©ralement avantageux d’utiliser des rĂ©seaux de neurones dans toute application mettant en jeu l’esti-mation d’une fonction de rĂ©gression non linĂ©aire possĂ©dant au moins trois variables. Si le nombre devariables est supĂ©rieur ou Ă©gal Ă  3, il est gĂ©nĂ©ralement avantageux d’utiliser des rĂ©seaux de neurones Ă fonction d’activation sigmoĂŻde ; dans le cas contraire, des rĂ©seaux de neurones utilisant des RBF Ă  centreset Ă©carts-types fixĂ©s, ou des ondelettes Ă  centres et dilatations fixĂ©s, ou encore des polynĂŽmes, peuvent ĂȘtreaussi prĂ©cises, et plus simples Ă  mettre en Ɠuvre.

Bien entendu, si les donnĂ©es ne sont pas numĂ©riques (mais linguistiques par exemple), les rĂ©seaux deneurones ne peuvent les traiter directement. Il faut avoir recours Ă  des prĂ©-traitements permettant de« quantifier » ces donnĂ©es (par exemple Ă  l’aide de techniques issues de la thĂ©orie des ensembles flous).

Comment mettre en Ɠuvre ces rĂ©seaux de neurones ?Les rĂ©seaux de neurones rĂ©alisent des fonctions non linĂ©aires paramĂ©trĂ©es ; ils peuvent approcher toutefonction de rĂ©gression si l’on trouve un rĂ©seau de neurones qui rend minimum la fonction de coĂ»t desmoindres carrĂ©s (somme des carrĂ©s des diffĂ©rences entre les valeurs calculĂ©es par le rĂ©seau de neurones etles valeurs mesurĂ©es). La mise en Ɠuvre d’un rĂ©seau de neurones nĂ©cessite donc‱ de dĂ©terminer les entrĂ©es pertinentes, c’est-Ă -dire les grandeurs qui ont une influence significative sur le

phĂ©nomĂšne que l’on cherche Ă  modĂ©liser,‱ de collecter les donnĂ©es nĂ©cessaires Ă  l’apprentissage et Ă  l’évaluation des performances du rĂ©seau de

neurones,‱ de trouver le nombre de neurones cachĂ©s nĂ©cessaires pour obtenir une approximation satisfaisante,

Page 21: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 121

‱ d’estimer les valeurs des paramĂštres correspondant Ă  un minimum de la fonction de coĂ»t, c’est-Ă -dired’effectuer un apprentissage,

‱ d’évaluer les performances du rĂ©seau de neurones Ă  l’issue de l’apprentissage.

En fonction des rĂ©sultats obtenus, il peut ĂȘtre nĂ©cessaire d’effectuer plusieurs itĂ©rations de tout ou partiede cette procĂ©dure.

Nous allons aborder successivement ces différents points.

Les entrées pertinentes

Le problÚme de la détermination des entrées pertinentes se pose de maniÚre trÚs différente selon les appli-cations envisagées.

Si le processus que l’on veut modĂ©liser est un processus industriel conçu par des ingĂ©nieurs, le problĂšmeest important mais pas crucial, car, en gĂ©nĂ©ral, on connaĂźt bien les grandeurs qui interviennent et lesrelations causales entre celles-ci. Ainsi, dans un procĂ©dĂ© de soudage par points, on fait fondre localementles deux tĂŽles Ă  souder en faisant passer un courant Ă©lectrique trĂšs important (quelques kiloampĂšres)pendant quelques millisecondes, entre deux Ă©lectrodes qui exercent une pression mĂ©canique sur les tĂŽles(figure 1-13). La qualitĂ© de la soudure, qui est caractĂ©risĂ©e par le diamĂštre de la zone fondue, dĂ©pendĂ©videmment de l’intensitĂ© du courant, de la durĂ©e pendant laquelle il est appliquĂ©, de l’effort exercĂ© parles Ă©lectrodes pendant le passage du courant et pendant la phase de solidification, de l’état de surface desĂ©lectrodes, de la nature des tĂŽles, et de quelques autres facteurs qui ont Ă©tĂ© trĂšs largement Ă©tudiĂ©s en raisonde l’importance industrielle du procĂ©dĂ©. On connaĂźt donc la nature des entrĂ©es dĂ©sirables pour un modĂšle ;il peut ĂȘtre nĂ©anmoins utile de faire un choix parmi ces grandeurs, en ne prenant en considĂ©ration, enentrĂ©e du modĂšle, que celles qui agissent de maniĂšre trĂšs significative sur le processus (c’est-Ă -dire cellesdont l’effet est plus important que l’incertitude de la mesure).

En revanche, si le processus Ă  modĂ©liser est un processusnaturel complexe (Ă©cologique par exemple), ou unprocessus Ă©conomique, social ou financier, la dĂ©termina-tion des entrĂ©es pertinentes peut ĂȘtre beaucoup plus dĂ©li-cate. Ainsi, si l’on veut prĂ©dire une propriĂ©tĂ© chimiqued’une molĂ©cule (cet exemple est dĂ©crit en dĂ©tail plusbas), le choix des descripteurs pertinents n’est pasĂ©vident ; de mĂȘme, pour dĂ©terminer la solvabilitĂ© d’unorganisme, ou la qualitĂ© d’une entreprise, il est trĂšsimportant de choisir des ratios appropriĂ©s pour dĂ©crire lasituation comptable, fiscale, commerciale, etc.

Ce problĂšme (et, plus gĂ©nĂ©ralement, le problĂšme de lasĂ©lection de modĂšle) n’est pas spĂ©cifique aux rĂ©seaux deneurones : il se pose pour toutes les techniques de modĂ©-lisation, qu’elles soient linĂ©aires ou non. Nous verrons,

dans le chapitre 2, qu’il est possible d’étendre aux rĂ©seaux de neurones des mĂ©thodes de sĂ©lection connuesdans le domaine de la modĂ©lisation linĂ©aire.

La collecte des données

Nous avons vu que, pour pouvoir effectuer l’apprentissage, il faut disposer de donnĂ©es. Celles-ci doiventĂȘtre en nombre suffisant, et ĂȘtre suffisamment reprĂ©sentatives des donnĂ©es qui seront prĂ©sentĂ©es aumodĂšle lors de son utilisation. Lorsque la grandeur que l’on veut modĂ©liser dĂ©pend de nombreux facteurs,

Transformateur

Figure 1-13. SchĂ©ma d’un processus industriel : le soudage par points

Page 22: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones22

c’est-Ă -dire lorsque le modĂšle possĂšde de nombreuses entrĂ©es, il n’est pas possible de rĂ©aliser un« pavage » rĂ©gulier dans tout le domaine de variation des entrĂ©es : il faut donc trouver une mĂ©thodepermettant de rĂ©aliser uniquement des expĂ©riences qui apportent une information significative pourl’apprentissage du modĂšle : il faut rĂ©aliser un « plan d’expĂ©riences ». Pour les modĂšles linĂ©aires, l’élabo-ration des plans d’expĂ©riences est bien maĂźtrisĂ©e ; ce n’est pas le cas pour les modĂšles non linĂ©aires. NousprĂ©senterons dans le chapitre 2, section « Élaboration de plans d’expĂ©riences », quelques Ă©lĂ©ments quipermettent de construire itĂ©rativement un plan d’expĂ©riences pour un modĂšle neuronal.

Le nombre de neurones cachés

L’écart entre l’approximation rĂ©alisĂ©e par un rĂ©seau de neurones et la fonction Ă  approcher est inverse-ment proportionnel au nombre de neurones cachĂ©s [BARRON 1993] ; malheureusement, ce rĂ©sultat,comme d’autres considĂ©rations thĂ©oriques telles que la dimension de Vapnik-Cervonenkis [VAPNIK 1995](introduite dans le chapitre 6) n’est pas constructif, en ce sens qu’il ne peut que donner des estimations,ou des bornes larges, du nombre de neurones cachĂ©s nĂ©cessaires. Il n’existe pas, Ă  l’heure actuelle, derĂ©sultat thĂ©orique permettant de prĂ©voir le nombre de neurones cachĂ©s nĂ©cessaires pour obtenir uneperformance spĂ©cifiĂ©e du modĂšle, compte tenu des donnĂ©es disponibles. Il faut donc nĂ©cessairementmettre en Ɠuvre une procĂ©dure numĂ©rique de conception de modĂšle. Nous allons tout d’abord dĂ©finir leproblĂšme de la conception d’un modĂšle statique non linĂ©aire « boĂźte noire » , et notamment (mais pasexclusivement), d’un rĂ©seau de neurones non bouclĂ©.

■ La nĂ©cessitĂ© de la parcimonie

L’idĂ©e la plus naturelle consisterait Ă  choisir le nombre de neurones cachĂ©s le plus grand possible, puisquec’est ce qui assure la plus grande prĂ©cision Ă  l’approximation uniforme d’une fonction. Ce serait oublierque le problĂšme rĂ©el que l’on se pose n’est pas un problĂšme d’approximation uniforme, mais un problĂšmed’ajustement d’une fonction Ă  un nombre fini de points ; il faut donc, non seulement que la fonctionrĂ©alisĂ©e par le rĂ©seau de neurones passe « le plus prĂšs possible », au sens des moindres carrĂ©s, des pointsutilisĂ©s pour l’apprentissage (l’ensemble de ces points est appelĂ© « ensemble d’apprentissage »), maisĂ©galement qu’il soit capable de gĂ©nĂ©raliser de maniĂšre satisfaisante. Si le rĂ©seau de neurones possĂšde unnombre de paramĂštres excessif, en raison d’un nombre excessif de neurones cachĂ©s, sa sortie peut passeravec une trĂšs grande prĂ©cision par tous les points d’apprentissage, mais fournir des rĂ©sultats dĂ©pourvus designification entre ces points ; s’il possĂšde un nombre de paramĂštres trop restreint, le modĂšle n’est passuffisamment riche pour rendre compte de la complexitĂ© de la fonction de rĂ©gression inconnue. Cedilemme (appelĂ© « dilemme biais-variance ») est le problĂšme essentiel que doit affronter le concepteur demodĂšles : il rĂ©sulte du fait que la modĂ©lisation « boĂźte noire » entre dans la catĂ©gorie des problĂšmes dits« mal posĂ©s », en ce sens qu’ils ne peuvent pas ĂȘtre rĂ©solus complĂštement en fonction des donnĂ©es donton dispose.

La figure 1-14 prĂ©sente le rĂ©sultat de l’apprentissage, Ă  partir des mĂȘmes points de mesure, de deuxrĂ©seaux Ă  une couche cachĂ©e de neurones Ă  fonction d’activation sigmoĂŻde : Ă  l’évidence, le rĂ©seau le plusparcimonieux en neurones cachĂ©s est celui qui prĂ©sente les meilleures capacitĂ©s de gĂ©nĂ©ralisation, tandisque le rĂ©seau qui a trop de paramĂštres conduit au phĂ©nomĂšne classique de « surajustement » (en anglaisoverfitting). En pratique, on s’efforcera toujours de faire en sorte que le nombre de paramĂštres ajustablessoit petit devant le nombre d’exemples : la parcimonie intrinsĂšque aux rĂ©seaux de neurones Ă  fonctiond’activation sigmoĂŻde permet de rĂ©aliser cette condition plus facilement que si l’on utilise une mĂ©thode derĂ©gression multilinĂ©aire par exemple.

Si, au vu des rĂ©sultats portĂ©s sur la figure 1-14, le choix entre les deux rĂ©seaux est Ă©vident, il n’en va pasde mĂȘme lorsque le modĂšle possĂšde plusieurs entrĂ©es, car il n’est alors pas possible de reprĂ©senter graphi-quement le rĂ©sultat de maniĂšre aussi simple. Il faut donc trouver un critĂšre global de jugement des perfor-

Page 23: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 123

mances du rĂ©seau. Pour ce faire, il convient de constituer, outre l’ensemble d’apprentissage utilisĂ© pour lecalcul des poids du rĂ©seau, un ensemble de test, constituĂ© de donnĂ©es diffĂ©rentes de celles de l’ensembled’apprentissage, Ă  partir duquel on estime les performances du rĂ©seau aprĂšs un apprentissage. L’indice deperformance le plus frĂ©quemment utilisĂ© est l’erreur quadratique moyenne commise sur l’ensemble detest (ou ensemble d’estimation des performances), dĂ©signĂ©e par EQMT :

oĂč NT est le nombre d’élĂ©ments de l’ensemble de test, et oĂč, pour simplifier les notations, nous dĂ©signonspar yk les sorties mesurĂ©es du processus Ă  modĂ©liser (nous nous plaçons ici, pour simplifier, dans le cas –trĂšs frĂ©quent – d’un rĂ©seau de neurones Ă  une sortie ; si le rĂ©seau a plusieurs sorties, l’EQMP est la sommedes Ă©carts quadratiques moyens relatifs Ă  chacune des sorties) : yk = yp(xk).

Cette grandeur doit ĂȘtre comparĂ©e Ă  l’erreur quadratique moyenne commise sur l’ensemble d’apprentis-sage (EQMA) :

oĂč NA est le nombre d’exemples de l’ensemble d’apprentissage.

En effet, on voit sur l’exemple prĂ©sentĂ© sur la figure 1-14, que l’EQMA du second rĂ©seau est certainementinfĂ©rieure Ă  celle du premier, mais que son EQMP est certainement supĂ©rieure Ă  celle du premier. Estimer

EQMT =1NT

yk – g xk, w 2∑k = 1

NT

EQMA =1NA

yk – g xk, w 2∑k = 1

NA

,

+ 1,20

+ 0,90

+ 0,60

+ 0,30

+ 0,00

- 0,30

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

+ 1,20

+ 0,90

+ 0,60

+ 0,30

+ 0,00

- 0,30

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

8 neurones cachés(25 poids)

4 neurones cachés(13 poids)

Figure 1-14. Toutes choses égales par ailleurs, le réseau de neurones le plus parcimonieux possÚde les meilleures propriétés de généralisation.

Page 24: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones24

les performances d’un modĂšle sur la base de sa seule EQMA serait donc erronĂ© et conduirait systĂ©mati-quement Ă  concevoir des modĂšles possĂ©dant trop de paramĂštres, donc souffrant de surajustement.

Remarquons que si la modĂ©lisation Ă©tait parfaite, c’est-Ă -dire si la sortie du modĂšle g(x, w) Ă©tait identiqueĂ  la fonction de rĂ©gression, et si le nombre d’élĂ©ments des ensembles d’apprentissage et de test Ă©tait trĂšsgrand, l’EQMA et l’EQMP seraient Ă©gales, et de l’ordre de grandeur de l’écart-type du bruit de mesure.L’objectif de la modĂ©lisation peut donc s’exprimer de la maniĂšre suivante : trouver le modĂšle (parexemple le rĂ©seau de neurones non bouclĂ©) le plus parcimonieux possible, tel que l’erreur quadratiquemoyenne sur l’ensemble d'apprentissage et l’erreur quadratique moyenne sur l’ensemble de test soient dumĂȘme ordre de grandeur, et aussi petites que possible, c’est-Ă -dire de l’ordre de grandeur de l’écart-typedu bruit.

■ Comment faire en pratique ?

L’objectif de cet ouvrage est de prĂ©senter des mĂ©thodologies pratiques, mais bien fondĂ©es thĂ©oriquement,pour concevoir des modĂšles, que ce soit par apprentissage supervisĂ© ou non supervisĂ©. Pour l’apprentis-sage supervisĂ©, le lecteur trouvera une mĂ©thodologie complĂšte dans le chapitre 2 (et des complĂ©mentsdans le chapitre 3), et, pour l’apprentissage non supervisĂ©, dans le chapitre 7.

L’apprentissage des rĂ©seaux de neurones non bouclĂ©s : un problĂšme d’optimisation

Une fois que le nombre de neurones cachĂ©s est dĂ©fini, on doit procĂ©der Ă  l’apprentissage, c’est-Ă -dire Ă l’estimation des paramĂštres du rĂ©seau de neurones qui, avec le nombre de neurones cachĂ©s dont il dispose,permet d’obtenir une erreur quadratique minimum sur les points de l’ensemble d’apprentissage.L’apprentissage est donc un problĂšme numĂ©rique d’optimisation.

ConsidĂ©rons, pour simplifier, un rĂ©seau de neurones Ă  une sortie g(x, w). On dispose d’un ensemble d’appren-tissage comprenant N exemples. Nous avons dĂ©fini plus haut la fonction de coĂ»t des moindres carrĂ©s :

oĂč xk dĂ©signe le vecteur des valeurs des variables pour l’exemple k, yp(xk) la valeur de la mesure corres-pondante, w dĂ©signe le vecteur des poids du rĂ©seau de neurones, et g(xk, w) est la valeur calculĂ©e par lerĂ©seau de neurones muni des poids w pour le vecteur xk de variables. La fonction de coĂ»t est donc unefonction de tous les paramĂštres ajustables w de tous les neurones et de toutes les connexions du rĂ©seau.L’apprentissage consiste donc Ă  trouver l’ensemble des paramĂštres w qui rendent J(w) « minimum ».‱ Si l’on met en Ɠuvre des rĂ©seaux dont la sortie est linĂ©aire par rapport aux paramĂštres (par exemple des

fonctions radiales gaussiennes dont les centres et Ă©carts-types sont fixĂ©s) la fonction de coĂ»t J estquadratique par rapport aux paramĂštres : on peut alors utiliser les techniques, simples et bien connues,des moindres carrĂ©s ordinaires. Leur simplicitĂ© et leur rapiditĂ© de calcul se paient nĂ©anmoins de deuxmaniĂšres : d’une part, la qualitĂ© du rĂ©sultat dĂ©pend essentiellement du choix des centres et des Ă©carts-types des fonctions non linĂ©aires mises en Ɠuvre ; ce choix est loin d’ĂȘtre simple. D’autre part, cesrĂ©seaux n’ont pas la propriĂ©tĂ© de parcimonie.

‱ Si, en revanche, on met en Ɠuvre des rĂ©seaux de neurones dont la sortie n’est pas linĂ©aire par rapportaux paramĂštres, tels que des perceptrons multicouche ou les RBF Ă  centres et Ă©carts-types variables, ondoit rĂ©soudre un problĂšme d’optimisation non linĂ©aire multivariable. Les mĂ©thodes utilisĂ©es Ă  cet effetseront exposĂ©es en dĂ©tail dans le chapitre 2. Il s’agit de techniques itĂ©ratives, qui, Ă  partir d’un rĂ©seaumuni de poids dont les valeurs sont alĂ©atoires, modifient ces paramĂštres jusqu’à ce qu’un minimum dela fonction de coĂ»t soit atteint, ou qu’un critĂšre d’arrĂȘt soit satisfait.

J w =12

yp xk – g xk, w 2∑k = 1

N

Page 25: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 125

Ces techniques sont toutes des mĂ©thodes de gradient : elles sont fondĂ©es sur le calcul, Ă  chaque itĂ©ration,du gradient de la fonction de coĂ»t par rapport aux paramĂštres, gradient qui est ensuite utilisĂ© pour calculerune modification de ceux-ci. Le calcul du gradient peut ĂȘtre effectuĂ© de diverses maniĂšres ; il en est une,appelĂ©e rĂ©tropropagation (voir chapitre 2), qui est gĂ©nĂ©ralement plus Ă©conome que les autres en termesde nombres d’opĂ©rations arithmĂ©tiques Ă  effectuer pour Ă©valuer le gradient. Contrairement Ă  une idĂ©e troprĂ©pandue, la rĂ©tropropagation n’est pas un algorithme d’apprentissage : c’est simplement une techniqued’évaluation du gradient de la fonction de coĂ»t, qui est frĂ©quemment, mais pas obligatoirement, utilisĂ©eau sein d’algorithmes d’apprentissage. Il faut noter que, contrairement Ă  bien des affirmations, ce n’est pasl’invention de la rĂ©tropropagation qui a permis l’apprentissage des rĂ©seaux de neurones Ă  couches ; eneffet, les spĂ©cialistes de traitement du signal connaissaient, bien avant la rĂ©tropropagation, des mĂ©thodesd’évaluation du gradient d’une fonction de coĂ»t quadratique, mĂ©thodes qui auraient pu ĂȘtre mises enƓuvre pour effectuer l’apprentissage de rĂ©seaux [MARCOS et al. 1992].

(a) (b)

(c) (d)

0

- 2

- 1,5

- 1

- 0,5

- 0

0,5

1

1,5

2

- 2

- 1,5

- 1

- 0,5

- 0

0,5

1

1,5

2

3020100 40 50 3020100 40 50

(a)

- 2

- 1,5

- 1

- 0,5

- 0

0,5

1

1,5

2

3020100 40 50

(c)

- 2

- 1,5

- 1

- 0,5

- 0

0,5

1

1,5

2

3020100 40 50

(d)

(b)

0

Figure 1-15. Apprentissage d’un rĂ©seau de neurones Ă  une variable et 3 neurones cachĂ©s. Le trait continu reprĂ©-sente la sortie du rĂ©seau de neurones. Initialement, la sortie du rĂ©seau est pratique-ment nulle. Elle Ă©volue au cours de l’apprentis-sage : (a) Ă©tat initial ; (b) aprĂšs une itĂ©ration ; (c) aprĂšs 6 itĂ©rations ; (d) aprĂšs 13 itĂ©rations (reproduit avec l’autorisation de NETRAL S.A.).

Page 26: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones26

Ces algorithmes d’apprentissage ont fait d’énorme progrĂšs au cours des derniĂšres annĂ©es. Alors que, audĂ©but des annĂ©es 1990, les publications faisaient Ă©tat de dizaines ou de centaines de milliers d’itĂ©rations,reprĂ©sentant des journĂ©es de calcul sur des ordinateurs puissants, les nombres d’itĂ©rations typiques Ă l’heure actuelle sont de l’ordre de quelques dizaines Ă  quelques centaines. La figure 1-15 montre le dĂ©rou-lement de l’apprentissage d’un modĂšle Ă  une variable. Les croix reprĂ©sentent les mesures de l’ensembled’apprentissage. Initialement, on donne aux poids du rĂ©seau des valeurs « petites » (nous expliqueronsprĂ©cisĂ©ment ce que cela signifie dans le chapitre 2, paragraphe « Initialisation des paramĂštres »), si bienque la sortie du rĂ©seau est quasi nulle. Le rĂ©sultat obtenu au bout de 13 itĂ©rations est satisfaisant« visuellement » ; quantitativement, l’EQMA et l’EQMP (cette derniĂšre Ă©tant mesurĂ©e sur un ensemblede points non reprĂ©sentĂ©s sur la figure) sont du mĂȘme ordre de grandeur, et de l’ordre de l’écart-type dubruit, de sorte que le modĂšle est satisfaisant.

ConclusionDans ce paragraphe, nous avons expliquĂ© quand et comment utiliser les rĂ©seaux de neurones. Rappelonsque l’utilisation des rĂ©seaux de neurones peut ĂȘtre avantageuse chaque fois que l’on cherche Ă  Ă©tablir unerelation non linĂ©aire entre des donnĂ©es numĂ©riques. Les rĂ©seaux de neurones entrent donc dans le cadredes mĂ©thodes statistiques, notamment de la rĂ©gression non linĂ©aire. Nous avons prĂ©sentĂ© une vue gĂ©nĂ©ralede la mise en Ɠuvre de ces mĂ©thodes, en insistant sur les conditions qui doivent ĂȘtre remplies pour qu’unrĂ©seau de neurones donne des rĂ©sultats satisfaisants. Les techniques d’apprentissage proprement dites,dont l’efficacitĂ© conditionne en grande partie les performances des rĂ©seaux, seront abordĂ©es en dĂ©tail dansle chapitre 2.

RĂ©seaux de neurones Ă  apprentissage supervisĂ© et discrimination (classification)Le lecteur qui n’aurait abordĂ© les rĂ©seaux de neurones que par l’intermĂ©diaire de revues ou d’ouvrages devulgarisation pourrait avoir l’impression qu’ils sont avant tout des outils de classification pour la recon-naissance des formes, et s’étonner de l’importance que nous donnons ici Ă  la rĂ©gression non linĂ©aire. Eneffet, les premiĂšres applications industrielles des rĂ©seaux de neurones Ă©taient relatives Ă  la reconnaissancede formes ou de signaux. Nous allons donc consacrer le paragraphe suivant Ă  une prĂ©sentation de ce qu’estun problĂšme de classification ; nous montrerons que tout problĂšme de classification peut se ramener Ă  unproblĂšme trĂšs voisin de celui de la rĂ©gression non linĂ©aire : c’est ce qui justifie l’utilisation de rĂ©seaux deneurones comme classifieurs. L’objectif de cette section est seulement de prĂ©senter le problĂšme de la clas-sification et le lien avec les notions dĂ©veloppĂ©es dans les paragraphes prĂ©cĂ©dents. Le lecteur trouvera uneprĂ©sentation beaucoup plus dĂ©taillĂ©e dans le chapitre 6 de cet ouvrage.

Nous utiliserons ici indifféremment le terme de « classification » ou celui de « discrimination ».

Qu’est-ce qu’un problĂšme de classification ?Comme nous l’avons indiquĂ© plus haut, classer un ensemble d’objets, c’est attribuer Ă  chacun une classe(ou « catĂ©gorie ») parmi plusieurs classes dĂ©finies Ă  l’avance. Un algorithme qui rĂ©alise automatiquementune classification est appelĂ© classifieur.

Avant de considérer le cas des classifieurs neuronaux, il est important de bien comprendre les caractéristi-ques générales des problÚmes de classification. Considérons pour cela un exemple : pour une application detri automatique, on désire discriminer, dans une image, des condensateurs et des circuits intégrés qui défilent

Page 27: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 127

devant une camĂ©ra, afin qu’un bras de robot puisse saisir un condensateur ou un circuit intĂ©grĂ© pour le placerdans le rĂ©ceptacle correspondant. En gros, les condensateurs apparaissent comme des rectangles plutĂŽt petitset brillants, alors que les circuits intĂ©grĂ©s sont des rectangles plutĂŽt grands et sombres.

On peut donc considĂ©rer que l’aire A et la rĂ©flectivitĂ© R des rectanglesconstituent des facteurs discriminants pour le problĂšme posĂ© :chaque objet sera ainsi caractĂ©risĂ© par 2 descripteurs. Supposons quel’on ait prĂ©levĂ© des Ă©chantillons de circuits intĂ©grĂ©s et de condensa-teurs, et que l’on en ait mesurĂ© l’aire et la rĂ©flectivitĂ© : on peut reprĂ©-senter chaque Ă©chantillon par un point dans un espace Ă  deux dimen-sions, comme indiquĂ© sur la figure 1-16. Nous allons utiliser cetexemple pour introduire les idĂ©es de base de la classification.

Figure 1-16. Chaque Ă©chantillon est reprĂ©sentĂ© par un point dans le plan rĂ©flectivitĂ©-aire. Les condensateurs sont reprĂ©-sentĂ©s par des ‘x’ et les circuits intĂ©grĂ©s par des ‘+’.

Quand est-il opportun d’utiliser un classifieur statistique tel qu’un rĂ©seau de neurones ?Les ingrĂ©dients d’un problĂšme de classification sont donc :‱ une population de N objets,‱ n variables descriptives (ou descripteurs) qui permettent de dĂ©crire les objets, l’ensemble des descrip-

teurs constituant la reprĂ©sentation des objets,‱ un ensemble de C classes dans lesquelles on cherche Ă  ranger les individus (une des classes peut ĂȘtre une

classe de rejet à laquelle appartiennent tous les objets que l’on ne peut attribuer à aucune autre classe).

RĂ©soudre un problĂšme de classification, c’est donc trouver une application de l’ensemble des objets Ă classer dans l’ensemble des classes. L’algorithme ou la procĂ©dure qui rĂ©alise cette application est appelĂ©classifieur.

Lorsque l’on se pose un problĂšme de classification, il faut d’abord analyser le type de mĂ©thode qu’ilconvient de mettre en Ɠuvre pour le rĂ©soudre. En effet, les rĂ©seaux de neurones et, plus gĂ©nĂ©ralement, lesclassifieurs statistiques, ne sont pas forcĂ©ment adaptĂ©s au problĂšme, et il y a bien d’autres mĂ©thodes declassification que les rĂ©seaux de neurones. Afin de dĂ©limiter le domaine d’utilisation des rĂ©seaux deneurones en classification, considĂ©rons quelques exemples plus ou moins acadĂ©miques, qui illustrentplusieurs aspects de cette tĂąche. Pour chacun des exemples, nous nous poserons trois questions :‱ les connaissances a priori sur le problĂšme permettent-elles de dĂ©terminer simplement des descripteurs

pertinents ?‱ ces descripteurs sont-ils mesurables (ou calculables à partir de mesures) ?‱ quel est le rîle de la classe de rejet ?

Les exemples suivants sont extraits de [STOPPIGLIA 1997].

Chacun a eu l’occasion d’utiliser un distributeur de tickets de mĂ©tro, ou une barriĂšre de pĂ©age de parking,qui reconnaĂźt les piĂšces de monnaie utilisĂ©es en paiement, et rejette les piĂšces fausses ou Ă©trangĂšres.ConsidĂ©rons ce problĂšme sous l’angle des trois questions ci-dessus :‱ il est facile de dĂ©terminer des descripteurs pertinents : le diamĂštre de la piĂšce, son poids, son Ă©paisseur,

la composition de l’alliage, etc. ; ces descripteurs sont en petit nombre ; les nouvelles piùces de monnaiesont conçues de maniùre à faciliter la discrimination ;

‱ les descripteurs sont des grandeurs physiques mesurables ;‱ la classe de rejet peut ĂȘtre aussi grande que l’on veut : elle n’est limitĂ©e que par la patience des usagers

qui n’aiment pas voir leurs piĂšces rejetĂ©es sans raison ; ainsi, dans l’espace des descripteurs, les classes

+

x

Aire

RĂ©f

lect

ivit Ă©

Un condensateur

Un circuit intégré

Page 28: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones28

sont de petits « parallĂ©lĂ©pipĂšdes » dĂ©limitĂ©s par les seuils de tolĂ©rance qui tiennent compte de la varia-bilitĂ© de la fabrication et des erreurs de mesure ; tout le reste de l’espace constitue la classe de rejet.

Dans ces conditions, il est facile de concevoir un automate qui met en Ɠuvre des rĂšgles simples portantsur les descripteurs des piĂšces Ă  classer. Ces rĂšgles rĂ©sultent d’une analyse du problĂšme, effectuĂ©e par lesconcepteurs de la machine, qui a conduit Ă  un arbre de dĂ©cision implantĂ© dans l’automate. Dans un tel cas,l’utilisation d’une mĂ©thode statistique de classification supervisĂ©e telle que les rĂ©seaux de neurones n’estpas appropriĂ©e.

ConsidĂ©rons Ă  prĂ©sent l’évaluation du confort d’une voiture. Pour prĂ©voir les rĂ©actions des clients poten-tiels Ă  la mise sur le marchĂ© d’un nouveau modĂšle, les constructeurs automobiles ont recours Ă  des« panels » d’individus, supposĂ©s reprĂ©sentatifs de la clientĂšle, qui doivent Ă©mettre un jugement sur leconfort. Mais qu’est-ce que le confort ? C’est une notion complexe dans laquelle interviennent la qualitĂ©de la suspension, la conception des siĂšges, l’insonorisation du vĂ©hicule, la visibilitĂ©, etc. Exprimer unjugement (classer le confort du vĂ©hicule dans une des trois classes « bon », « moyen », « insuffisant ») estalors un processus impossible Ă  formaliser, fondĂ© sur des impressions plus que sur des mesures. CeproblĂšme a donc les caractĂ©ristiques suivantes :‱ les descripteurs ne sont pas forcĂ©ment tous connus et exprimĂ©s clairement par les membres des panels ;

mĂȘme si les descripteurs sont bien dĂ©finis, les jugements sont trĂšs variables : deux personnes placĂ©esdans les mĂȘmes conditions peuvent Ă©mettre des jugements diffĂ©rents,

‱ les descripteurs ne sont pas forcĂ©ment mesurables,‱ il n’y a pas de classe de rejet : un consommateur a forcĂ©ment une opinion sur le confort de sa voiture.

Le fait que les descripteurs ne soient pas connus et pas nĂ©cessairement mesurables empĂȘche (ou rend trĂšsdifficile) l’utilisation d’une mĂ©thode de classification statistique. Dans ce contexte, une mĂ©thode de clas-sification floue serait mieux adaptĂ©e.

La reconnaissance automatique des chiffres manuscrits, par exemple des codes postaux, a fait l’objet denombreuses Ă©tudes et rĂ©alisations. ConsidĂ©rons ce problĂšme sous les mĂȘmes angles que les deux exem-ples prĂ©cĂ©dents :‱ contrairement au cas du tri des piĂšces de monnaie, la variabilitĂ© des styles d’écriture pose un problĂšme

majeur pour le choix des descripteurs ; nĂ©anmoins, contrairement au cas de l’évaluation du confort, lespersonnes qui savent lire donnent gĂ©nĂ©ralement des rĂ©ponses identiques pour une image de chiffredonnĂ©e (sauf si le chiffre est vraiment mal Ă©crit) ;

‱ les descripteurs sont des nombres que l’on peut extraire de l’image : dans le cas d’une description de basniveau, c’est l’intensitĂ© des pixels ; dans le cas d’une description de haut niveau, c’est le nombre deboucles, de pointes, leur position, l’orientation et la position des segments, etc. ;

‱ la taille de la classe de rejet constitue un critĂšre de performance : pour un taux d’erreur donnĂ©, le pour-centage de rejet doit ĂȘtre aussi faible que possible. En effet, toute enveloppe rejetĂ©e nĂ©cessite l’interven-tion d’un prĂ©posĂ©, et il est plus coĂ»teux d’envoyer une lettre dans une mauvaise direction que d’avoirrecours Ă  une intervention humaine. Le cahier des charges est donc exprimĂ© de la maniĂšre suivante :pour un taux d’erreur donnĂ© (par exemple 1 %), on veut un taux de rejet aussi faible que possible. Eneffet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffirait qu’il ne prennejamais de dĂ©cision. Compte tenu des donnĂ©es Ă©conomiques du problĂšme que nous considĂ©rons ici, unbon classifieur est un classifieur qui prend une dĂ©cision le plus souvent possible, tout en ne se trompantpas plus d’une fois sur cent. Si les conditions Ă©conomiques Ă©taient inversĂ©es, c’est-Ă -dire si une erreurcoĂ»tait moins cher que l’intervention d’un expert, le critĂšre de qualitĂ© serait diffĂ©rent : on chercherait Ă obtenir le taux d’erreur le plus petit possible pour un taux de rejet donnĂ© (c’est le cas pour les diagnos-tics mĂ©dicaux automatisĂ©s Ă  l’échelle de toute une population, oĂč l’intervention d’un mĂ©decin coĂ»teplus cher qu’une erreur de diagnostic...).

Page 29: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 129

Dans ces conditions, la mise en Ɠuvre d’une mĂ©thode statistique telle que les rĂ©seaux de neurone estopportune, sous rĂ©serve que l’on dispose d’une base de donnĂ©es suffisamment fournie. Le problĂšmecentral est celui du choix de la reprĂ©sentation des donnĂ©es. C’est d’ailleurs le cas dans la majoritĂ© desproblĂšmes de classification non acadĂ©miques : la rĂ©flexion du concepteur, jointe aux techniques de prĂ©-traitement des donnĂ©es dĂ©crites dans le chapitre 3, est, dans la majoritĂ© des cas, aussi importante quel’algorithme de classification lui-mĂȘme.

Classification probabiliste et formule de BayesSupposons donc qu’une analyse prĂ©alable du problĂšme ait conduit au choix de la mise en Ɠuvre d’unemĂ©thode statistique de classification, de prĂ©fĂ©rence Ă  un arbre de dĂ©cision par exemple. Les mĂ©thodes declassification probabiliste reposent sur l’idĂ©e que l’on peut traiter les descripteurs et les classes commes’il s’agissait de variables alĂ©atoires (le lecteur qui n’est pas familier avec la notion de variable alĂ©atoiretrouvera les dĂ©finitions utiles au dĂ©but du chapitre 2). Ainsi, si l’on tire au hasard un objet parmi ceux quel’on veut reconnaĂźtre, la classe Ă  laquelle il appartient est une rĂ©alisation d’une variable alĂ©atoire dont lavaleur est le numĂ©ro de la classe (c’est donc une variable discrĂšte). De mĂȘme, les valeurs des descripteursd’un objet que l’on tire au hasard peuvent aussi ĂȘtre considĂ©rĂ©es comme les rĂ©alisations de variables alĂ©a-toires (ce sont en gĂ©nĂ©ral des variables continues). Dans l’exemple de la discrimination entre condensa-teurs et circuits intĂ©grĂ©s (figure 1-16), on peut dĂ©cider que la variable alĂ©atoire « classe » vaut zĂ©ro pourun condensateur et 1 pour un circuit intĂ©grĂ©. La rĂ©flectivitĂ© R et l’aire A peuvent ĂȘtre considĂ©rĂ©es commedes variables alĂ©atoires continues.

Dans ce cadre, le problĂšme de la classification s’exprime de façon trĂšs simple : Ă©tant donnĂ© un objetnouveau, dont la rĂ©flectivitĂ© vaut r et l’aire a (aux erreurs de mesure prĂšs), quelle est la probabilitĂ© pourque la variable alĂ©atoire « classe » soit Ă©gale Ă  zĂ©ro (c’est-Ă -dire pour que l’objet soit un condensateur) ?Cette probabilitĂ© est la probabilitĂ© a posteriori de la classe « condensateur » pour l’objet inconnu consi-dĂ©rĂ©, notĂ©e

Pr(classe = 0 {r , a}).

ConsidĂ©rons un Ă©chantillon de condensateurs et de circuits intĂ©grĂ©s ; on connaĂźt la classe, et la valeur desdescripteurs, de chaque Ă©lĂ©ment de cet Ă©chantillon. On peut les utiliser pour estimer deux grandeurs trĂšsimportantes :‱ la probabilitĂ© a priori de chaque classe : un Ă©lĂ©ment tirĂ© au hasard dans l’échantillon a une certaine

probabilitĂ© d’appartenir Ă  l’une ou l’autre classe ; on note Pr(Ci) la probabilitĂ© de tirer au hasard unĂ©chantillon de la classe Ci ; elle est appelĂ©e probabilitĂ© a priori de la classe Ci. Si l’on suppose que toutobjet appartient nĂ©cessairement Ă  l’une des classes (il n’y a pas de « non-formes »), on a Ă©videmment

Cette information est pertinente pour la classification : en effet, supposons que l’on sache que la proba-bilitĂ© a priori de la classe « condensateur » est de 0,9, et donc la probabilitĂ© a priori de la classe « circuitintĂ©grĂ© » est de 0,1 ; alors, un classifieur « stupide » qui dĂ©ciderait toujours que l’objet est un conden-sateur, quelles que soient son aire et sa rĂ©flectivitĂ©, ne se tromperait, en moyenne, que dans 10 % descas.

‱ la densitĂ© de probabilitĂ© conditionnelle de chaque descripteur: si l’on tire au hasard un circuit intĂ©grĂ©,quelle est la probabilitĂ© pour que son aire A ait pour valeur a ± ÎŽa, oĂč ÎŽa est un petit intervalle ? CetteprobabilitĂ© est Ă©videmment proportionnelle Ă  ÎŽa. De maniĂšre gĂ©nĂ©rale, on note p(a Ci) la densitĂ© deprobabilitĂ© de a conditionnelle Ă  la classe Ci, ou vraisemblance de la classe Ci, Ă©tant donnĂ© le descripteura : par dĂ©finition, la probabilitĂ© pour que le descripteur A ait pour valeur a ± ÎŽa sachant qu’il appartient Ă 

Ci∑i

= 1.

Page 30: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones30

la classe Ci vaut p(a Ci) ήa. Puisque l’objet dont on mesure le descripteur A appartient certainement à laclasse Ci, on a p(a Ci) da = 1.

La figure 1-17 reprĂ©sente une estimation de la densitĂ© deprobabilitĂ© p(a Classe = « circuit intĂ©grĂ© ») en fonctionde a. Bien entendu, on pourrait de mĂȘme tracer une esti-mation de la densitĂ© de probabilitĂ© conditionnelle de larĂ©flectivitĂ© R, pour la classe « circuit intĂ©grĂ© », en fonctionde r.

On peut donc disposer, Ă  partir d’un Ă©chantillon des objetsĂ  classer, d’estimations des probabilitĂ©s a priori desclasses {Pr(Ci)}, et des densitĂ©s de probabilitĂ© condition-nelles des descripteurs p(x Ci). Alors, la formule de Bayesfournit la solution du problĂšme de classification, c’est-Ă -dire la probabilitĂ© a posteriori d’appartenance d’un objet Ă chaque classe, en fonction des estimations prĂ©cĂ©dentes :

Bien entendu, cette estimation n’est correcte que si lesdescripteurs de l’objet inconnu obĂ©issent aux mĂȘmesdensitĂ©s de probabilitĂ© conditionnelles que celles desĂ©chantillons qui ont servi Ă  les estimer. C’est en ce sensque l’échantillonnage doit ĂȘtre reprĂ©sentatif de l’ensembledes objets Ă  classer.

Notons que :‱ si les probabilitĂ©s a priori sont Ă©gales, les probabilitĂ©s a posteriori sont indĂ©pendantes des probabilitĂ©s

a priori, de sorte que la classification repose entiĂšrement sur les vraisemblances des classes ;‱ si les vraisemblances des classes sont Ă©gales, c’est-Ă -dire si les descripteurs choisis ne sont absolument

pas discriminants, la classification est fondée entiÚrement sur les probabilités a priori.

NĂ©anmoins, aussi Ă©lĂ©gante que soit la formulation « bayĂ©sienne » des problĂšmes de classification, elle seheurte Ă  une difficultĂ© pratique majeure : l’estimation des quantitĂ©s qui apparaissent dans le membre dedroite. Une bonne estimation des probabilitĂ©s a priori des classes Pr(Ci) peut gĂ©nĂ©ralement ĂȘtre obtenuefacilement, par simple dĂ©nombrement permettant d’estimer les frĂ©quences d’apparition de chaque classedans l’échantillon. En revanche, l’estimation des densitĂ©s de probabilitĂ© conditionnelles p(x Ci) se heurteau problĂšme connu sous le nom de malĂ©diction de la dimension. En effet, rappelons que, en gĂ©nĂ©ral, laquantitĂ© x est un vecteur de descripteurs : sa dimension peut ĂȘtre grande. Or il est trĂšs difficile d’estimerles densitĂ©s de probabilitĂ© dĂšs que la dimension du problĂšme devient importante : en effet, la taille del’échantillon nĂ©cessaire croĂźt de façon exponentielle avec le nombre de descripteurs. Lorsque l’on utiliseune reprĂ©sentation des formes trĂšs primitive, le nombre de descripteurs peut ĂȘtre trĂšs grand : c’est le caspar exemple si une image est dĂ©crite par l’intensitĂ© de ses pixels, car la dimension du vecteur x est alorsĂ©gale au nombre de pixels de l’image... Comme nous allons le voir, les rĂ©seaux de neurones offrent unealternative intĂ©ressante aux mĂ©thodes bayĂ©siennes de classification, car elles permettent une estimationdirecte des probabilitĂ©s a posteriori, sans passer par l’intermĂ©diaire des probabilitĂ©s a priori et des vrai-semblances.

∫

+ +

+ + +

+ +

+

+ +

+

+ + +

Aire

RĂ©f

lect

ivit Ă©

+ + +

+ +

+ + + +

+ + + + + + + + + + +

clas

se =

circ

uit i

ntég

ré

pa

Aire a

(a)

(b)

Figure 1-17. (a) ReprĂ©sentation d'un Ă©chantillon de la classe des circuits intĂ©grĂ©s dans le plan rĂ©flectivitĂ©-aire. (b) Estimation de la densitĂ© de probabilitĂ© conditionnelle de l’aire de l’objet si celui-ci appartient Ă  la classe des circuits intĂ©grĂ©s.

Pr Ci x =p x Ci Pr Ci

p x Ci Pr Ci∑j

Page 31: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

C

HAPITRE

1

31

ConsidĂ©rons un exemple d’application de la formule de Bayes : supposons que la distribution des tailles desfemmes dans la population française suive une loi gaussienne de moyenne 1,65 m et d’écart-type 0,16 m :

et que celle des hommes soit une gaussienne de moyenne 1,75 m et d’écart-type 0,15 m :

Ces densitĂ©s de probabilitĂ© sont reprĂ©sentĂ©es sur lafigure 1-18. Le recouvrement important de ces deuxgaussiennes montre que le descripteur choisi estpeu discriminant. S’il s’agissait d’un problĂšme rĂ©el,ces courbes suggĂ©reraient au concepteur de semettre Ă  la recherche d’un autre descripteur (ou deplusieurs autres descripteurs).

Supposons Ă©galement qu’il y ait autant d’hommes quede femmes dans la population considĂ©rĂ©e. Étant donnĂ©un individu de cette population qui mesure 1,60 m,quelle est la probabilitĂ© pour que ce soit une femme ?La formule de Bayes fournit directement la rĂ©ponse :

Bien entendu, Pr(

H

1,60) = 40 %.

Compte tenu de ces rĂ©sultats, il est natureld’affecter l’individu en question Ă  la classe

F

, qui ala plus grande probabilitĂ© : c’est une application dela

rÚgle de décision de Bayes

,

que nous justifieronsplus bas. La frontiÚre entre classes ainsi définie estreprésentée sur la figure 1-19.

Les probabilités

a priori

étant supposées égalespour les deux classes, la discrimination reposeentiÚrement sur les vraisemblances des classes.

Supposons Ă  prĂ©sent que l’individu observĂ© soitchoisi au hasard dans les tribunes d’un stade fran-çais au cours d’un match de football. Alors les vrai-semblances des classes «

homme

» et «

femme

»,compte tenu de la taille, sont les mĂȘmes que prĂ©cĂ©-demment, mais les probabilitĂ©s

a priori

sont diffĂ©-rentes, car il y a gĂ©nĂ©ralement plus d’hommes quede femmes parmi les spectateurs d’un match ;supposons que les proportions soient de 30 % defemmes et 70 % d’hommes. Alors les probabilitĂ©s

aposteriori

, calculées par la formule de Bayes avec les nouvelles probabilités

a priori

, deviennentPr(

F

1,60) = 39 % et Pr(

H

1,60) = 61 %. Les rĂ©sultats ont donc complĂštement changĂ© : l’individu est Ă 

p t F =1

0,16 2πexp –

12

t – 1,650,16

2

p t H =1

0,15 2πexp –

12

t – 1,750,15

2

.

1.5 1.6 1.7 1.8 1.9 2 2.10

0.5

1

1.5

2

2.5

Taille (en m)

Hommes

Femmes

Figure 1-18. Densités de probabilité des tailles pour les individus de la population considérée

Pr F 1,60 =0,5 p 1,60 F

0,5 p 1,60 F + 0,5 p 1,60 H≈ 60 %.

1.5 1.6 1.7 1.8 1.9 2 2.10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Taille (en m)

Hommes

Femmes

Seuil de classificationdonnée par la rÚgle de Bayes

Figure 1-19. ProbabilitĂ©s a posteriori d’appartenance aux classes « homme » et « femme » en fonction de la taille, et frontiĂšre entre classes, lorsque l’individu est tirĂ© de l’ensemble de la population française.

Page 32: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones

32

prĂ©sent classĂ© dans la classe des hommes si l’on utilise la mĂȘme rĂšgle que prĂ©cĂ©demment (affecter l’objetĂ  la classe la plus probable) ; le changement observĂ© est important parce que les vraisemblances desclasses sont peu diffĂ©rentes (le descripteur «

taille

» est peu discriminant), si bien que la classification est

déterminée, en grande partie, par les probabilités

a priori

. Ce résultat est illustré sur la figure 1-20.

Cet exemple simple montre l’utilisation de laformule de Bayes pour estimer les probabilitĂ©s

aposteriori

,

qui servent ensuite Ă  prendre la dĂ©cisiond’affectation Ă  une classe, objectif final de toutsystĂšme de classification.

Rappelons que, dans la pratique, et contrairement àce que nous venons de présenter, les vraisemblanceset les probabilités

a priori

ne sont pas connues

exac-tement

et exprimables

analytiquement

, mais fontl’objet d’une

estimation

à partir d’un ensembled’observations

O

,

de taille finie.

En toute rigueur, lavraisemblance devrait donc ĂȘtre notĂ©e

p

(

x

C

i

,

O

) etles probabilités

a posteriori

devraient ĂȘtre notĂ©esPr(

C

i

x

,

O

) car leur estimation dépend de

O

. Nousn’utiliserons pas cette notation en raison de sa lour-deur, mais il faut toujours garder Ă  l’esprit le fait que,dans la pratique, les densitĂ©s de probabilitĂ© ou lesprobabilitĂ©s que nous estimons sont toujours condi-tionnĂ©es par l’ensemble des observations utilisĂ© pources estimations.

RÚgle de décision de Bayes

Pour affecter un objet Ă  une classe, on minimise le risque d’erreur en prenant la dĂ©cision d’affecter l’objetĂ  la classe dont la probabilitĂ© a posteriori est la plus grande.

Pour justifier cette rĂšgle, considĂ©rons le cas d’un problĂšme Ă  deux classes

C

1

et

C

2

, et un descripteur. Il estĂ©vident que la probabilitĂ© d’erreur de classification est d’autant plus grande que le descripteur de l’objetconsidĂ©rĂ© est plus proche de la frontiĂšre entre les classes. Mais, au cours de l’utilisation du classifieur,celui-ci est amenĂ© Ă  traiter des objets dĂ©crits par toutes les valeurs possibles de

x

: nous cherchons donc Ă minimiser la probabilitĂ© d’erreur globale plutĂŽt que la probabilitĂ© d’erreur locale : il faut donc trouver la

rÚgle de décision qui rend minimale la quantité

oĂč

E

dĂ©signe l’évĂ©nement

«

erreur de classification

». La densité de probabilité

p

(

x

) Ă©tant positive, l’intĂ©grale est minimale siPr(

E

x

) est minimale pour toute valeur du descripteur : on minimise donc l’erreur globale en minimisantl’erreur locale. Or Pr(

E

x

) n’est rien d’autre que la probabilitĂ©

a posteriori

de

C

1

si l’on prend la dĂ©cisiond’affecter l’objet Ă 

C

2

, et la probabilité

a posteriori

de

C

2

si l’on prend la dĂ©cision d’affecter l’objet Ă 

C

1

.On minimise donc Pr(

E

x) en prenant la dĂ©cision d’affecter l’objet Ă  la classe de plus grande probabilitĂ©.

Ce raisonnement se traduit gĂ©omĂ©triquement de la maniĂšre suivante (figure 1-21) : si l’on utilise la rĂšglede Bayes, la probabilitĂ© d’erreur est reprĂ©sentĂ©e par l’aire grisĂ©e : tout autre choix de frontiĂšre a pourconsĂ©quence d’augmenter cette aire.

Le rĂ©sultat s’étend aisĂ©ment au cas oĂč il y a plus de deux classes et oĂč l’objet est dĂ©crit par un vecteur dedescripteurs.

1.5 1.6 1.7 1.8 1.9 2 2.10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Taille (en m)

Femmes

Hommes

Limite de classification donnée par la rÚgle de Bayes

Figure 1-20. ProbabilitĂ©s a posteriori d’appartenance aux classes « homme » et « femme » en fonction de la taille, et frontiĂšre entre classes, lorsque l’individu est tirĂ© de l’ensemble des spectateurs d’un match de football.

Pr (E) = Pr E x p(x) dx– ∞

+ ∞

Page 33: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 133

Naturellement, ce choix est satisfaisantsi les coĂ»ts des erreurs des deux classessont les mĂȘmes ; nĂ©anmoins, il peut ĂȘtreplus grave, ou plus coĂ»teux, decommettre une erreur de type « fauxpositif » (on considĂšre que l’objet estdans la classe A alors qu’il est dans laclasse B) que de commettre une erreurde type « faux nĂ©gatif » (on considĂšreque l’objet est dans la classe B alors qu’ilest dans A). Par exemple, en fouille dedonnĂ©es, une entreprise qui commercia-lise des filtres d’informations peutprĂ©fĂ©rer proposer Ă  ses clients un filtrequi rejette des documents alors qu’ils

sont pertinents pour le sujet considĂ©rĂ©, plutĂŽt qu’un filtre qui laisse passer des documents non pertinents (eneffet, l’utilisateur s’aperçoit tout de suite que le filtre lui prĂ©sente des documents non pertinents, alors qu’il nes’apercevra peut-ĂȘtre jamais que tel ou tel document pertinent lui a Ă©chappĂ©...). Ce type de considĂ©ration, dansla pratique, reprĂ©sente une part importante du travail de conception d’un systĂšme de classification rĂ©aliste, qu’ils’agisse de reconnaissance de formes, de fouilles de donnĂ©es, d’applications bancaires, etc. VoilĂ  pourquoi il esttrĂšs important d’estimer les probabilitĂ©s avant de prendre la dĂ©cision, et il faut Ă©viter, sauf dans des cas trĂšssimples, de concevoir des classifieurs qui prennent directement une dĂ©cision.

La combinaison de la formule de Bayes et de la rĂšgle de dĂ©cision de Bayes constitue le classifieur deBayes, qui prĂ©sente la meilleure performance possible si les probabilitĂ©s a priori et les vraisemblancessont connues exactement. Comme, dans la pratique, il est rare que cette condition soit remplie, le classi-fieur de Bayes prĂ©sente un intĂ©rĂȘt plus thĂ©orique que pratique. Il peut nĂ©anmoins servir de rĂ©fĂ©rencelorsque l’on cherche Ă  Ă©valuer la qualitĂ© d’un classifieur : on peut appliquer celui-ci Ă  un problĂšme fictifpour lequel les probabilitĂ©s a priori et les vraisemblances sont connues exactement, et comparer sesperformances Ă  celle du classifieur de Bayes sur ce mĂȘme problĂšme. C’est ce que nous ferons dans la suitepour les classifieurs que nous prĂ©senterons ; nous introduisons ici le problĂšme fictif qui nous servira Ă tester quelques classifieurs.

Ce problĂšme porte sur des objetspouvant appartenir Ă  deux classes,dĂ©crits par un descripteur ; lesĂ©lĂ©ments de la classe A sont engendrĂ©spar une distribution qui est la sommede deux gaussiennes ; ceux de laclasse B sont engendrĂ©s par une distri-bution uniforme dans un intervallebornĂ© (figure 1-22). On peut donccalculer analytiquement les probabi-litĂ©s a posteriori (figure 1-23), etdĂ©terminer les limites de chaqueclasse (figure 1-24). Pour estimer letaux d’erreur, on rĂ©alise un grandnombre d’exemples de chaque classeet l’on compte la proportion de ces

Descripteur x

Erreur de classification

Autre frontiĂšreFrontiĂšre deBayes

Pr(C1 x) p(x) = Pr(C1) p(x C1) Pr(C2 x) p(x) = Pr(C2) p(x C2)

– 5– 10– 15 0 + 5 + 10

Classe A Classe B

0

0,5

1

– 15 – 10 – 5 0 + 5

Figure 1-22. Densités de probabilité pour les classes A et B

Figure 1-23. Probabilité a posteriori de la classe A, calculée par la formulede Bayes

Figure 1-21. InterprĂ©tation gĂ©omĂ©trique de la rĂšgle de dĂ©cision de Bayes ; la surface grisĂ©e reprĂ©sente la probabilitĂ© de commettre une erreur en choisissant la rĂšgle de dĂ©cision de Bayes ; la surface hachurĂ©e correspond Ă  l’augmentation de la probabilitĂ© d’erreur rĂ©sultant d’un choix de frontiĂšre diffĂ©rent.

Page 34: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones34

réalisations qui se trouve « du mauvais cÎté »des limites déterminées par le classifieur deBayes ; dans cet exemple, on dispose de 600exemples pour chaque classe (figure 1-25), àpartir desquels, par simple dénombrement,

on estime le taux d’erreur Ă  30,1 %. Ainsi, on peut affirmer que, pour ce problĂšme, aucun classifieur, aussi bienconçu soit-il, ne peut rĂ©aliser une performance meilleure que 69,9 % de classification correcte ; le meilleur clas-sifieur rĂ©el est celui qui s’approche le plus de cette limite thĂ©orique.

Classification et rĂ©gressionAyant Ă©tabli les bases probabilistes de la classification, nous allons montrer Ă  prĂ©sent en quoi les rĂ©seauxde neurones, dont nous avons vu qu’ils sont des outils de modĂ©lisation avantageux en raison de leur capa-citĂ© Ă  approcher toute fonction de rĂ©gression non linĂ©aire, peuvent ĂȘtre pertinents pour la classification.

ProblĂšme Ă  deux classes

ConsidĂ©rons tout d’abord un problĂšme Ă  deux classes C1 et C2, auxquelles nous associons une variable alĂ©a-toire Γ, fonction du vecteur de descripteurs x ; cette variable alĂ©atoire vaut 1 lorsque l’objet Ă  classer appar-tient Ă  la classe A, et 0 dans le cas contraire. Nous allons dĂ©montrer le rĂ©sultat suivant : la fonction de rĂ©gres-sion de la variable alĂ©atoire Γ est la probabilitĂ© a posteriori d’appartenance de l’objet Ă  la classe A.

En effet, soit y(x) la fonction de rĂ©gression recherchĂ©e, c’est-Ă -dire l’espĂ©rance mathĂ©matique de Γ Ă©tantdonnĂ© x : . Or

ce qui démontre le résultat.

Figure 1-26. Estimation de la probabilitĂ© a posteriori d’appartenance Ă  la classe C1, et dĂ©termination du seuil de dĂ©cision par la rĂšgle de Bayes

Or, comme cela a Ă©tĂ© vu plus haut, sil’on dispose d’échantillons d’unefonction, il est possible d’estimer larĂ©gression, par exemple Ă  l’aide derĂ©seaux de neurones. Il est doncpossible d’estimer, Ă  l’aide desmĂȘmes outils, les probabilitĂ©s a poste-riori d’appartenance aux classes,comme illustrĂ© par la figure 1-26.

– 15 – 10 – 5 0 + 5

A B A B A

Figure 1-24. Classification réalisée par le classifieur de Bayes

+ 0,00

– 10,00– 15,00 – 5,00 + 0,00 + 5,00 + 10,00

RĂ©partition des 1 200 exemples

600 exemples (B)

600 exemples (A)

Figure 1-25. Exemples utilisĂ©s pour l’estimation du taux d’erreur. En haut : classe A ; en bas : classe B.

y x = E Γ x

E Γ x = Pr Γ = 1 x × 1 + Pr Γ = 0 × 0 = Pr Γ = 1 x

0

Estimation de la probabilitĂ© a posteriori d’appartenance de la forme dĂ©crite par le descripteur de valeur x1 Ă  la classe C1

0

x

1

x 1

FrontiĂšre entreles classes

0.5

0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Classe C1 Classe C2

Pr

(C1

| x)

Page 35: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 135

Comme les rĂ©seaux de neurones sont de bons candidats pour rĂ©aliser une approximation de toute fonction derĂ©gression, ils peuvent notamment rĂ©aliser une estimation des probabilitĂ©s a posteriori : c’est ce qui justifiel’utilisation de rĂ©seaux de neurones pour la classification. On trouvera une exposition lucide et dĂ©taillĂ©e decette approche dans l’excellent ouvrage de Christopher Bishop [BISHOP 1995].

ProblĂšme Ă  C classes

Lorsque le problĂšme de classification est un problĂšme Ă  plus de deux classes, plusieurs approches sontpossibles :‱ rĂ©soudre globalement le problĂšme en estimant simultanĂ©ment, pour un objet donnĂ©, ses probabilitĂ©s

d’appartenance a posteriori aux diffĂ©rentes classes,‱ diviser le problĂšme en sous-problĂšmes Ă  deux classes, concevoir un ensemble de « classifieurs deux Ă 

deux », et combiner les résultats de ces derniers pour estimer les probabilités a posteriori globales.

Nous allons examiner successivement ces deux approches.

■ Approche globale

Cette approche est frĂ©quemment mise en Ɠuvre, bien qu’elle nesoit pas toujours la plus efficace pour des problĂšmes difficiles. Elleconsiste Ă  utiliser un rĂ©seau de neurones Ă  C sorties (figure 1-27),le rĂ©sultat Ă©tant codĂ© Ă  l’aide d’un code 1-parmi-C : Ă  l’évĂ©nement« l’objet appartient Ă  la classe Ci » est associĂ© un vecteur de sortieg dont seule la composante i est Ă©gale Ă  1, les autres composantesĂ©tant Ă©gales Ă  0. De maniĂšre analogue au cas Ă  deux classes, ondĂ©montre facilement que l’espĂ©rance mathĂ©matique de chacunedes composantes est Ă©gale Ă  la probabilitĂ© a posteriori de la classecorrespondante.

Figure 1-27. Perceptron multicouche à C sorties à fonction d’activation sigmoïde

TerminologieDans le jargon des réseaux de neurones, un codage « un-parmi-C » est appelé « codage grand-mÚre ». Cette appellation provient de laneurobiologie : une des théories de la représentation des informations dans les systÚmes nerveux soutient que certains de nos neuronessont spécialisés dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mÚre.

Il convient de noter plusieurs diffĂ©rences pratiques entre un perceptron multicouche pour la classificationet un perceptron multicouche pour la modĂ©lisation statique :‱ contrairement aux rĂ©seaux pour la modĂ©lisation, dont les neurones de sortie sont linĂ©aires, les neurones

de sortie d’un rĂ©seau pour la classification ont une fonction d’activation sigmoĂŻde : en effet, les sorties,Ă©tant des probabilitĂ©s, doivent ĂȘtre comprises entre 0 et 1 (un changement de variable simple ramĂšne lessorties Ă  –1 et +1, comme il convient pour une non-linĂ©aritĂ© en tangente hyperbolique) ; on trouveradans le chapitre 6 une justification thĂ©orique Ă  l’utilisation de la tangente hyperbolique comme fonctiond’activation des neurones de sortie pour la classification ;

‱ pour la classification, il est plus naturel, pour estimer les probabilitĂ©s, de minimiser la fonction de coĂ»td’entropie croisĂ©e plutĂŽt que la fonction de coĂ»t des moindres carrĂ©s ([HOPFIELD 1987], [BAUM et al.1988], [HAMPSHIRE et al. 1990]) ; les algorithmes d’apprentissage qui seront prĂ©sentĂ©s dans le chapitre2 s’appliquent sans difficultĂ© pour cette fonction de coĂ»t :

x 1 x 2 x 3 x n

Descripteurs

.....

....

....

C neurones à fonction d’activation sigmoïde

J = – γik Log

gi xk

Îłik

+ 1 – γik Log

1 – gi xk

1 – γik∑

i = 1

C

∑k

Page 36: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones36

oĂč Îłik est la valeur (0 ou 1) dĂ©sirĂ©e pour la sortie i lorsque l’on prĂ©sente Ă  l’entrĂ©e l’exemple k, dĂ©crit par

le vecteur de descripteurs xk, et gi(xk) est la valeur de la sortie i du classifieur. On montre que cette fonc-tion est minimum lorsque tous les exemples sont correctement classés.

Bien entendu, il convientde vĂ©rifier que la sommedes sorties vaut 1 Ă  la finde l’apprentissage. LamĂ©thode Softmax permetde garantir que cettecondition est automatique-ment remplie [BRIDLE etal. 1990]. Cette difficultĂ©ne se prĂ©sente Ă©videmmentpas si l’on utilise unensemble de classifieurs« deux Ă  deux », commenous le verrons dans lasection suivante.

Il va de soi que le problĂšmedu surapprentissage, quenous avons rencontrĂ© pourla rĂ©gression, existe aussipour la discrimination : sile rĂ©seau a trop de paramĂš-tres, il s’ajuste trop fine-ment aux exemples del’ensemble d’apprentissageet donne de mauvais rĂ©sul-tats en gĂ©nĂ©ralisation. Ilfaut donc mettre en Ɠuvre,pour sĂ©lectionner lemeilleur modĂšle, les tech-niques de validation croisĂ©eexposĂ©es dans le chapitre 2.Essentiellement, il faut

trouver un rĂ©seau dont les taux d’erreurs de classification sur l’ensemble d’apprentissage et sur unensemble de validation soient du mĂȘme ordre de grandeur, et les plus petits possibles. La figure 1-28montre un exemple de surapprentissage dans l’estimation de la probabilitĂ© d’appartenance Ă  la classe Apour l’exemple prĂ©sentĂ© sur la figure 1-23 ; on voit que le rĂ©seau Ă  4 neurones cachĂ©s est trop peucomplexe pour estimer correctement la probabilitĂ©, alors qu’un rĂ©seau Ă  6 neurones cachĂ©s s’ajuste sur lesfluctuations de la densitĂ© des points utilisĂ©s pour l’apprentissage. Pour le rĂ©seau Ă  5 neurones cachĂ©s, letaux de classification incorrecte, estimĂ© sur un ensemble de validation de plusieurs milliers de points, estde 30,3 %, alors que, comme nous l’avons vu plus haut, le classifieur thĂ©orique de Bayes donne une erreur« minimum » de 30,1 %. On vĂ©rifie bien ici que les rĂ©seaux de neurones peuvent approcher les meilleuresperformances possibles.

– 10,00– 15,00 – 5,00 + 0,00 + 5,00 + 10,00

– 10,00– 15,00 – 5,00 + 0,00 + 5,00 + 10,00

+ 0,50

+ 1,00

+ 0,00

+ 0,50

+ 1,00

+ 0,00

+ 0,50

+ 1,00

+ 0,00

Classification : Théorique Estimée avec 4 neurones caches

Classification : Théorique Estimée avec 5 neurones caches

Classification : Théorique Estimée avec 6 neurones caches

(a)

(b)

(c)

– 10,00– 15,00 – 5,00 + 0,00 + 5,00 + 10,00

Figure 1-28. Estimation des probabilitĂ©s d’appartenance Ă  la classe A avec trois architectures : (a) 4 neurones cachĂ©s (complexitĂ© insuffisante), (b) 5 neurones cachĂ©s (performance trĂšs proche de la meilleure performance thĂ©orique, (c) 6 neurones cachĂ©s (surapprentissage manifeste).

Page 37: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 137

■ Classification « 2 Ă  2 »

Il est souvent beaucoup plus sĂ»r, pour des problĂšmes difficiles, de dĂ©composer une classification Ă  Cclasses en C(C-1)/2 problĂšmes de classification Ă  2 classes, pour les raisons suivantes :‱ on peut bĂ©nĂ©ficier de nombreux rĂ©sultats et algorithmes, notamment concernant la sĂ©paration linĂ©aire

entre classes ; ces éléments sont largement développés dans le chapitre 6 ; nous les introduisons trÚsbriÚvement dans le paragraphe suivant, intitulé « séparabilité linéaire » ;

‱ on obtient des rĂ©seaux beaucoup plus petits, dont l’apprentissage est court et la manipulation simple ;chacun d’eux ayant une seule sortie, son interprĂ©tation comme une probabilitĂ© est immĂ©diate ;

‱ les descripteurs pertinents pour sĂ©parer la classe A de la classe B ne sont pas nĂ©cessairement les mĂȘmesque ceux qui sont utiles pour discriminer la classe A de la classe C ; notamment en reconnaissance deformes, le fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue unavantage considĂ©rable ; les techniques de sĂ©lection des entrĂ©es qui seront expliquĂ©es dans le chapitre 2sont directement utilisables.

Une fois que les C(C-1)/2 probabilitĂ©s des classes deux Ă  deux ont Ă©tĂ© estimĂ©es, Ă©ventuellement par desimples rĂ©seaux sans couche cachĂ©e, la probabilitĂ© pour qu’un objet dĂ©crit par le vecteur de descripteursx appartienne Ă  la classe Ci est calculĂ©e par la relation [PRICE et al. 1994] :

oĂč C est le nombre de classes et Prij est la probabilitĂ© d’appartenance de l’objet Ă  la classe i ou Ă  la classej, estimĂ©e par le rĂ©seau de neurones qui sĂ©pare la classe Ci de la classe Cj.

■ La sĂ©parabilitĂ© linĂ©aire

Deux ensembles d’objets, dĂ©crits dans un espace de N descripteurs, appartenant Ă  deux classes diffĂ©-rentes, sont dits « linĂ©airement sĂ©parables » s’ils se trouvent de part et d’autre d’un hyperplan dansl’espace des descripteurs.

Si des exemples sont linĂ©airement sĂ©parables, un rĂ©seau de neurones Ă  un seul neurone (Ă©galement appelé« perceptron » peut les sĂ©parer. Rappelons en effet que la sortie d’un neurone possĂ©dant n entrĂ©es a pour

Ă©quation . Cette fonction varie entre –1 et +1 ; pour interprĂ©ter la sortie y comme une proba-

bilitĂ© P, il suffit donc de faire le changement de variable P = (y + 1)/2. Si l’on utilise la rĂšgle de dĂ©cisionde Bayes, l’équation de la surface de sĂ©paration entre les classes est le lieu des points oĂč P = 0,5, soity = 0. L’équation de la surface de sĂ©paration entre les classes dĂ©terminĂ©e par le neurone est donc :

On a donc v > 0 pour tous les exemples d’une des classes, et v < 0 pour tousles exemples de l’autre. Dans un espace Ă  deux dimensions, cette surface estune droite ; dans un espace Ă  trois dimensions, c’est un plan ; dans un espacede plus grande dimension, on l’appelle un « hyperplan ». La figure 1-29montre, dans l’exemple des condensateurs et des circuits intĂ©grĂ©s, une surfacede sĂ©paration susceptible d’ĂȘtre dĂ©finie par un rĂ©seau Ă  un neurone.

Figure 1-29. Séparation linéaire par un réseau à 1 neurone. 10 % des exemples sont mal classés.

Pr Ci |x =1

1Prij

∑j=1, j ≠ i

C

– (C – 2)

y = th wi xi∑i = 1

n

v = wi xi∑i = 1

n

= 0.

Aire

x

++

+++

++

+

++

+

x

x

x

++ +

RĂ©f

lect

ivit Ă©

+++

++

+++

+++++

+

x

xxxxxx

xx

+ +

+ +

++++ +

++

+ +xx

xx

x

++x

Surface de séparation plausible

xx

++

Page 38: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones38

L’introduction de neurones cachĂ©s permet de dĂ©finir des surfaces desĂ©paration plus complexes, comme celle reprĂ©sentĂ©e sur la figure 1-30.

Figure 1-30. Séparation par un réseau ayant un petit nombre de neurones cachés. Trois exemples de chaque classe sont mal classés.

Bien entendu, si l’on ajoute suffisamment de neurones cachĂ©s, on peutrĂ©duire l’erreur sur l’ensemble d’apprentissage, au dĂ©triment de laqualitĂ© de la gĂ©nĂ©ralisation. La figure 1-31 prĂ©sente un cas manifeste desurajustement.

Figure 1-31. Séparation par un réseau de neurones trop complexe. Tous les exemples sont bien classés, mais la capacité de généralisation est faible.

Lorsque l’on dĂ©compose le problĂšme en sous-problĂšmes de sĂ©parationde classes deux Ă  deux, il apparaĂźt que la sĂ©paration linĂ©aire entre deuxclasses prĂ©sente trĂšs souvent une complexitĂ© suffisante ; il est mĂȘmefrĂ©quent que, dans des problĂšmes multi-classe rĂ©putĂ©s « difficiles », les

exemples soient, en fait linĂ©airement sĂ©parables si l’on considĂšre les classes deux Ă  deux. Or, dans ce derniercas, des algorithmes simples et Ă©lĂ©gants permettent de trouver une trĂšs bonne solution, comme expliquĂ© endĂ©tail dans le chapitre 6 : la premiĂšre Ă©tape, dans la conception d’un classifieur, est donc de chercher Ă  savoirsi les classes sont sĂ©parables deux Ă  deux. L’algorithme de Ho et Kashyap [HO et al. 1965], largement antĂ©-rieur aux rĂ©seaux de neurones, fournit rapidement une rĂ©ponse Ă  cette question :‱ si les classes sont linĂ©airement sĂ©parables, l’algorithme converge en un nombre fini d’itĂ©rations vers une

solution,‱ si les classes ne sont pas linĂ©airement sĂ©parables, l’algorithme l’indique Ă©galement aprĂšs un nombre fini

d’itĂ©rations (voir les complĂ©ments thĂ©oriques et algorithmiques Ă  la fin de ce chapitre).

Par exemple, pour la base de donnĂ©es de codes postaux fournie par le National Institute of Standards andTechnology, qui a servi de support Ă  de trĂšs nombreux travaux, les classes de chiffres sont linĂ©airementsĂ©parables deux Ă  deux, mĂȘme si l’on utilise une reprĂ©sentation par pixels [KNERR et al. 1992] ! De mĂȘme,il existe une base de donnĂ©es, relative Ă  des signaux sonar, qui a fait l’objet de trĂšs nombreuses Ă©tudes eta donnĂ© lieu Ă  la conception de nombreux classifieurs fort compliquĂ©s ; en moins de dix minutes de calculsur PC, l’algorithme de Ho et Kashyap, implantĂ© dans un programme Matlab non compilĂ©, montre que lesexemples des deux classes sont linĂ©airement sĂ©parables. Il est donc tout Ă  fait inutile, pour cette applica-tion, de concevoir un classifieur plus complexe qu’un rĂ©seau Ă  un neurone ; nous retrouverons cette appli-cation dans le chapitre 6.

MĂ©thodologie de conception d’un classifieur

Ces considĂ©rations conduisent Ă  dĂ©finir la stratĂ©gie suivante pour la conception d’un classifieur qui utilisedes rĂ©seaux de neurones (il faut donc prĂ©alablement s’assurer que le problĂšme posĂ© relĂšve bien d’un trai-tement statistique, comme nous l’avons discutĂ© plus haut) :‱ Ă©laborer une bonne reprĂ©sentation des objets Ă  classer, notamment dans des applications de reconnais-

sance de formes (on utilisera avec profit, si nĂ©cessaire, les techniques dĂ©crites dans le chapitre 3) ; cetteĂ©tape est d’une extrĂȘme importance et conditionne toute la suite, car une reprĂ©sentation bien discrimi-nante peut rendre le problĂšme de classification trivial ; ce point est illustrĂ© dans les applications dĂ©critesplus bas ;

x

++

+++

++

+

++

+

x

x

x

++ +

RĂ©f

lect

ivit Ă©

++

+

++

+++

+++++

+

x

xxxxxx

xx

+ +

+ +

++++ +

++

+ +xx

xx

x

++x

Surface de séparationplausible

x

x++

Aire

x

++

+++

++

+

++

+

x

x

x

++ +

RĂ©f

lect

ivit Ă©

++

+

++

+++

+++++

+

x

xxxxxx

xx

+ +

+ +

++++ +

++

+ +xx

xx

x

++x

Surface de séparationtrÚs peu plausible

x

x++

Aire

Page 39: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 139

‱ pour chaque paire de classes, effectuer la sĂ©lection des descripteurs selon les mĂ©thodes dĂ©crites dans lechapitre 2 ; en effet, il n’est pas du tout certain que les mĂȘmes descripteurs soient utiles pour sĂ©parer lesclasses A et B et pour sĂ©parer les classes A et C ;

‱ pour chaque paire de classes, tester la sĂ©parabilitĂ© linĂ©aire des classes deux Ă  deux Ă  l’aide de l’algo-rithme de Ho et Kashyap ;

‱ pour toutes les classes sĂ©parables deux Ă  deux, mettre en Ɠuvre les mĂ©thodes de sĂ©paration linĂ©aire(dĂ©crites dans le chapitre 6), et obtenir une estimation des probabilitĂ©s ;

‱ pour les classes non linĂ©airement sĂ©parables, mettre en Ɠuvre de petits perceptrons multicouche, ou desperceptrons sphĂ©riques dĂ©crits dans le chapitre 6, avec estimation des probabilitĂ©s ; mettre en Ɠuvre desmĂ©thodes de validation croisĂ©e ou de leave-one-out (voir chapitres 2 et 3) pour la sĂ©lection de modĂšles ;

‱ estimer la probabilitĂ© d’appartenance Ă  chaque classe Ă  partir des probabilitĂ©s dĂ©terminĂ©es Ă  l’étapeprĂ©cĂ©dente, selon la formule indiquĂ©e plus haut dans la section « Classification 2 Ă  2 » ;

‱ fixer les seuils de dĂ©cision pour dĂ©finir les classes de rejet.

Cette stratégie constitue une variante de la procédure STEPNET ([KNERR et al. 1990] [KNERR 1991]), quia été utilisée efficacement dans plusieurs applications industrielles.

Dans la planification d’un tel projet, il ne faut pas sous-estimer le temps nĂ©cessaire pour la premiĂšre etpour la derniĂšre Ă©tape : dans les applications rĂ©elles non triviales, ce sont frĂ©quemment les deux Ă©tapes lesplus longues, qui peuvent Ă©ventuellement remettre en cause les rĂ©sultats obtenus dans d’autres Ă©tapes.

L’application de cette stratĂ©gie est Ă©videmment limitĂ©e par le fait que le nombre de classifieurs varie commele carrĂ© du nombre de classes. NĂ©anmoins, chacun des classifieurs est trĂšs simple, de sorte que cettedĂ©marche s’applique sans difficultĂ© jusqu’à quelques dizaines de classes, ce qui couvre l’immense majoritĂ©des applications. Si le nombre de classes est plus Ă©levĂ©, il faut avoir recours Ă  des stratĂ©gies hiĂ©rarchiques.

Quelques exemples d’applications des rĂ©seaux de neurones Ă  divers domaines des sciences de l’ingĂ©nieur

IntroductionL’ambition de cet ouvrage est d’aider l’ingĂ©nieur ou le chercheur Ă  rĂ©pondre Ă  la question : les rĂ©seaux deneurones peuvent-ils m’aider Ă  rĂ©soudre mon problĂšme, et peuvent-ils le faire mieux que d’autres techniques ?

Pour donner les premiers Ă©lĂ©ments de rĂ©ponse raisonnĂ©s Ă  cette question, nous avons consacrĂ© le dĂ©but dece chapitre Ă  l’exposĂ© du contexte mathĂ©matique qui est essentiel pour comprendre ce que sont rĂ©ellementles rĂ©seaux de neurones et les principes sur lesquels repose leur mise en Ɠuvre. Certains aspects peuventparaĂźtre un peu « techniques », mais il est important d’avoir bien compris ces bases. En effet, la simplicitĂ©mĂȘme de mise en Ɠuvre des rĂ©seaux de neurones constitue un danger, car elle peut conduire Ă  une appli-cation irrĂ©flĂ©chie qui conduit Ă  des performances mĂ©diocres ou mauvaises. Les rĂ©ponses aux questionsque se pose tout ingĂ©nieur qui envisage d’utiliser des rĂ©seaux de neurones peuvent Ă©galement ĂȘtre Ă©clai-

Attention

Si le nombre d’exemples n’est pas grand devant la dimension du vecteur d’entrĂ©e dans la reprĂ©senta-tion choisie, il est inutile d’aller plus loin, en vertu du thĂ©orĂšme de Cover [COVER 1965] qui estprĂ©sentĂ© dans le chapitre 6 : il faut chercher une reprĂ©sentation plus « compacte », ou bien collecterd’autres exemples, ou encore adopter une mĂ©thode de rĂ©gularisation sĂ©vĂšre telle que la modĂ©ration despoids (weight decay, technique dĂ©crite dans le chapitre 2), avant de passer aux Ă©tapes suivantes ;

Page 40: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones40

rĂ©es par l’exposĂ© de quelques applications typiques. Bien entendu, il n’est pas question ici de faire unexposĂ© exhaustif des applications des rĂ©seaux de neurones : plusieurs livres n’y suffiraient pas. Il s’agitplutĂŽt de montrer quelques applications ayant un caractĂšre exemplaire, en insistant sur les raisons pourlesquelles les rĂ©seaux de neurones ont un apport important, voire dĂ©cisif.

Une application en reconnaissance de formes : la lecture automatique de codes postauxC’est sans doute dans le domaine de la reconnaissance de caractĂšres que les rĂ©seaux de neurones ontacquis leurs lettres de noblesse, et ont prouvĂ© qu’ils constituent des alternatives fiables Ă  d’autresmĂ©thodes de classification. Nous citerons ici quelques exemples et rĂ©sultats, qui s’appuient sur les consi-dĂ©rations pratiques donnĂ©es dans le paragraphe consacrĂ© aux rĂ©seaux de neurones pour la classification.

La reconnaissance automatique de codes postaux a probablement Ă©tĂ© l’un des problĂšmes de reconnais-sance d’images les plus Ă©tudiĂ©s. En effet, si le traitement automatique du courrier Ă  adresse dactylogra-phiĂ©e ou imprimĂ©e est relativement simple, celui du courrier Ă  adresse manuscrite est beaucoup pluscomplexe, en raison de la variabilitĂ© des styles d’écriture. Pour chaque objet postal, une machine automa-tique doit, soit identifier le code, soit indiquer qu’elle ne peut pas l’identifier, et donc faire appel Ă  unopĂ©rateur humain. Nous avons indiquĂ© plus haut qu’il est plus onĂ©reux de rectifier une erreur de tricommise par une machine que de faire lire un code postal par un opĂ©rateur, de sorte que le critĂšre deperformance le plus frĂ©quemment utilisĂ© pour les machines de lecture de codes postaux est le suivant :pour un taux d’erreur maximum fixĂ© (par exemple 1 %) sur les codes identifiĂ©s, quelle est la fraction ducourrier qui devra ĂȘtre traitĂ©e par un opĂ©rateur ? À l’heure actuelle, les machines les plus performantesfont appel Ă  des rĂ©seaux de neurones (conjointement Ă  d’autres techniques), et le taux de rejet est infĂ©rieurĂ  5 % pour un taux d’erreur de 1 %.

L’essor des Ă©tudes sur la reconnaissance des codes postaux est dĂ» Ă  deux facteurs : d’une part, l’enjeu Ă©cono-mique du problĂšme ; d’autre part, le fait que, dĂšs 1990, des bases de donnĂ©es de grande taille ont Ă©tĂ© misesdans le domaine public par le Service postal des États-Unis (USPS), puis par le National Institute of Scienceand Technology (NIST). Cette disponibilitĂ© de bases de donnĂ©es, accessibles Ă  tous, a permis Ă  de nombreuxlaboratoires, universitaires et industriels, de valider, de maniĂšre statistiquement significative, les mĂ©thodes etprocĂ©dures qu’ils avaient dĂ©veloppĂ©es. Cette politique a permis de faire progresser l’état de l’art sur la recon-naissance des codes postaux, et, de maniĂšre plus gĂ©nĂ©rale, sur les problĂšmes de classification complexes. Lafigure 1-32 prĂ©sente quelques extraits de la base USPS, qui comprend en tout 9000 caractĂšres (ce qui estencore relativement peu, eu Ă©gard Ă  la complexitĂ© du problĂšme). On observe immĂ©diatement la diversitĂ© desstyles et les difficultĂ©s auxquelles il faut faire face. ConsidĂ©rons l’exemple du code postal situĂ© en haut Ă droite de l’image (encadrĂ©) : on lit sans effort le code 68544, mais on constate‱ que le chiffre 6 est coupĂ© en deux morceaux,‱ que le 8 et le 5 sont attachĂ©s,‱ mais que le 5 est coupĂ© en deux, et sa partie droite attachĂ©e au 4 !

Donc, si l’on fonde la reconnaissance du code sur la reconnaissance de chacun de ses chiffres sĂ©parĂ©ment,il faut d’abord rĂ©soudre le problĂšme de la « segmentation » : comment sĂ©parer les chiffres les uns desautres ? Une fois ce difficile problĂšme rĂ©solu, il reste Ă  traiter la trĂšs grande diversitĂ© des styles, tailles,orientations, des chiffres isolĂ©s : il faut pour cela rĂ©soudre le problĂšme crucial de la « reprĂ©sentation » desformes Ă  classer, c’est-Ă -dire du choix des descripteurs qui seront utilisĂ©s par un ou plusieurs classifieurs,Ă©ventuellement neuronaux. Il est impossible de traiter ce problĂšme de reprĂ©sentation de maniĂšre gĂ©nĂ©rale,car il dĂ©pend complĂštement de l’application mise en Ɠuvre : il est Ă©vident que l’on ne peut pas reprĂ©-senter, de la mĂȘme maniĂšre, des images de trait telles que des caractĂšres manuscrits ou imprimĂ©s, desimages issues de satellites mĂ©tĂ©orologiques, ou encore des radiographies mĂ©dicales.

Page 41: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 141

Figure 1-32. Quelques morceaux choisis de la base de données NIST

En dĂ©pit de la grande diversitĂ© des traitements mis en Ɠuvre pour les images, il existe quelques opĂ©rationsde base que l’on retrouve dans toutes les applications rĂ©elles : dĂ©tection de contours, rehaussement decontraste, etc. (certaines de ces opĂ©rations se retrouvent Ă©galement dans le systĂšme visuel humain). Dans lecas de la reconnaissance de caractĂšres, la normalisation est Ă©galement incontournable, pour que tous les trai-tements portent sur des chiffres de mĂȘme taille. Comme nous l’avons dĂ©jĂ  indiquĂ©, l’ingĂ©nieur doit toujoursrĂ©aliser un compromis entre la complexitĂ© des prĂ©-traitements nĂ©cessaires pour aboutir Ă  la reprĂ©sentationchoisie, et la complexitĂ© de la classification : un prĂ©-traitement bien fait, qui extrait des caractĂ©ristiques biendiscriminantes, donc pertinentes pour la classification, peut permettre l’utilisation d’un classifieur d’unegrande simplicitĂ©, mais ce prĂ©-traitement ne doit pas ĂȘtre trop gourmand en temps de calcul ; en revanche,un prĂ©-traitement primitif (par exemple une simple normalisation) est extrĂȘmement rapide mais ne facilitepas la tĂąche du classifieur. Il faut donc trouver la solution qui prĂ©sente la meilleure performance compatibleavec le temps de calcul autorisĂ© par le cahier des charges de l’application. Nous allons prĂ©senter deux exem-ples qui mettent en jeu des stratĂ©gies trĂšs diffĂ©rentes pour rĂ©soudre le mĂȘme problĂšme.

Le premier exemple a Ă©tĂ© dĂ©veloppĂ© aux laboratoires AT&T. Il s’agit d’un rĂ©seau de neurones, connu sousle nom de LeNet [LE CUN et al. 1991], qui utilise une reprĂ©sentation par pixel (aprĂšs normalisation). LespremiĂšres couches du rĂ©seau rĂ©alisent des traitements locaux destinĂ©s Ă  extraire automatiquement descaractĂ©ristiques ; les derniĂšres couches effectuent la classification proprement dite. Ce rĂ©seau est reprĂ©-sentĂ© sur la figure 1-33.

Page 42: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones42

L’entrĂ©e du rĂ©seau est une matrice de16 × 16 pixels. Une premiĂšre couchede neurones cachĂ©s est composĂ©ede 12 ensembles de 64 neuronescachĂ©s, chacun des 64 neuronescachĂ©s recevant des informationsconcernant un « champ rĂ©ceptif »de 5 × 5 pixels. Ces ensembles de64 neurones sont appelĂ©s « cartesde caractĂ©ristiques » (en anglais,feature maps), car les entrĂ©es de tousles neurones d’une carte donnĂ©e sontaffectĂ©es des mĂȘmes poids (tech-nique des « poids partagĂ©s », dĂ©critedans le chapitre 2) : ainsi, on fait agirle mĂȘme opĂ©rateur, localement, surchaque ensemble de 25 pixels, desorte que l’ensemble des sorties d’ungroupe de 64 neurones constitue unecarte du rĂ©sultat de l’application del’opĂ©rateur Ă  l’image. Si la techniquedes opĂ©rateurs locaux est classiqueen traitement d’images, l’originalitĂ©

de la prĂ©sente mĂ©thode rĂ©side dans le fait que ces derniers ne sont pas conçus par l’ingĂ©nieur, mais qu’ils sontdĂ©terminĂ©s par l’apprentissage Ă  partir d’exemples. L’opĂ©ration est renouvelĂ©e dans une deuxiĂšme couched’opĂ©rateurs qui traitent les rĂ©sultats de la premiĂšre couche. On obtient ainsi 12 cartes de 16 neurones cachĂ©s,soit 192 neurones dont les sorties constituent le vecteur de descripteurs utilisĂ© pour la classification. Celle-ci esteffectuĂ©e avec un rĂ©seau Ă  une couche de 30 neurones cachĂ©s et 10 neurones de sortie. Les neurones de sortieutilisent un codage 1-parmi-C, que nous avons dĂ©fini plus haut : il y a autant de neurones dans la couche desortie que de classes, la sortie du neurone i doit ĂȘtre Ă©gale Ă  1 si la forme Ă  classer appartient Ă  la classe i, et doitĂȘtre Ă©gale Ă  0 sinon.

Ainsi, un tel rĂ©seau rĂ©alise automatiquement le prĂ©-traitement et la classification, opĂ©rations qui sonttraditionnellement conçues sĂ©parĂ©ment. Le prix Ă  payer est Ă©videmment une grande lourdeur d’apprentis-sage, et, compte tenu du grand nombre de poids, la nĂ©cessitĂ© de faire preuve d’une grande vigilance rela-tivement au surapprentissage.

Pour traiter le mĂȘme problĂšme, une approche trĂšs diffĂ©rente [KNERR et al. 1992] consiste Ă  rĂ©aliser un prĂ©-traitement de l’image plus Ă©laborĂ©, afin d’extraire des caractĂ©ristiques discriminantes qui permettentd’utiliser un classifieur relativement simple. Le prĂ©-traitement est la dĂ©tection de contours suivie d’unenormalisation, qui produit 4 cartes de caractĂ©ristiques de 64 Ă©lĂ©ments, soit un vecteur de 256 compo-santes. Mettant en Ɠuvre la mĂ©thodologie de conception d’un classifieur que nous avons dĂ©crite plus haut,les dix classes ont Ă©tĂ© sĂ©parĂ©es deux Ă  deux : 45 classifieurs diffĂ©rents ont Ă©tĂ© Ă©laborĂ©s, dont l’apprentis-sage a Ă©tĂ© effectuĂ© sĂ©parĂ©ment, et qui sont trĂšs simples puisque, dans l’application considĂ©rĂ©e, il se trouveque tous les exemples de l’ensemble d’apprentissage sont linĂ©airement sĂ©parables deux Ă  deux. Chacundes 45 classifieurs est donc en fait constituĂ© d’un seul neurone. La figure 1-34 montre les 18 erreurscommises par ce classifieur sur les 9000 caractĂšres de la base de donnĂ©es USPS. On remarquera notam-ment le cas du dernier chiffre (en bas Ă  droite de la figure) qui est reconnu comme un chiffre 1 alors qu’ilest classĂ© dans la base comme un chiffre 8, ce qui est Ă©videmment une erreur d’étiquetage.

256 entrées

12 x 64neurones cachés

12 x 16neurones cachés

Connectivité partielle (poids partagés)

Connectivité complÚte

Connectivité complÚte

30 neurones cachés

10 neurones de sortie

Connectivité partielle (poids partagés)

Figure 1-33. LeNet, un rĂ©seau de neurones qui effectue l’extraction des caractĂ©ristiques et la classification.

Page 43: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 143

Nous avons mentionnĂ© Ă  plusieurs reprises, notamment dans la section « MĂ©thodologie de conceptiond’un classifieur », l’importance du choix de la reprĂ©sentation pour ce type d’applications. Nous pouvonsle mettre en Ă©vidence dans ce cas. Pour les deux reprĂ©sentations que nous avons mentionnĂ©es (reprĂ©sen-tations par pixel d’une part, cartes de caractĂ©ristiques aprĂšs dĂ©tection des contours d’autre part), ladistance entre les barycentres des classes a Ă©tĂ© calculĂ©e ; elle est reprĂ©sentĂ©e sur la figure 1-35. On observeque les distances entre classes sont toujours supĂ©rieures, pour la reprĂ©sentation par cartes de caractĂ©risti-ques, Ă  ce qu’elles sont pour la reprĂ©sentation par pixel. Ainsi, la reprĂ©sentation par cartes Ă©loigne lesclasses les unes des autres, ce qui facilite Ă©videmment la tĂąche des classifieurs.

Figure 1-35. Distances entre classes pour deux représentations : la représentation par cartes de caractéristiques éloigne les classes les unes des autres, donc faci-lite le travail ulté-rieur des classifieurs.

Le tableau 1 met en Ă©vidence l’amĂ©lioration deperformances qui rĂ©sulte de la mise en Ɠuvred’une meilleure reprĂ©sentation : aprĂšs ajuste-ment des seuils de dĂ©cision afin d’obtenir, dansles deux cas, un taux d’erreur de 1 %, le taux derejet pour la reprĂ©sentation par pixel est beau-coup plus Ă©levĂ© que pour la reprĂ©sentation parcaractĂ©ristiques. Il faut noter que les deuxreprĂ©sentations ont la mĂȘme dimension (dansles deux cas, chaque chiffre est reprĂ©sentĂ© par

un vecteur de 256 composantes) : l’amĂ©lioration ne provient pas de la compacitĂ© de la reprĂ©sentation,mais de sa bonne adĂ©quation au problĂšme posĂ©. C’est la rĂ©flexion de l’ingĂ©nieur qui fait la diffĂ©rence...

Figure 1-34. Les 18 erreurs de classification commises par sĂ©paration linĂ©aire des classes deux Ă  deux. Pour chaque chiffre manuscrit, l’indication en haut Ă  droite est la classe d’appartenance du chiffre indiquĂ©e dans la base, et le chiffre en bas Ă  droite est la classe affectĂ©e par le clas-sifieur.

Couple de classes

0

0,2

0,4

0,6

0,8

1,0

1,2

1 5 9 13 17 21 25 29 33 37 41

Pixels Caractéristiques

Tableau 1-1

Taux de chiffres

bien classés

Taux de

rejet

Taux d’exemples mal classĂ©s

Représentation par pixels 70,9 % 28,1 % 1 %

Représentation par caractéristiques 90,3 % 8,7 % 1 %

Page 44: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones44

Une application en contrĂŽle non destructif : la dĂ©tection de dĂ©fauts dans des rails par courants de FoucaultL’exemple que nous venons de prĂ©senter est relatif Ă  la reconnaissance automatique d’images. Bienentendu, les formes que les rĂ©seaux de neurones peuvent classer ne sont pas nĂ©cessairement de cettenature. Nous prĂ©sentons ici un exemple de reconnaissance de signaux dans le domaine du contrĂŽle nondestructif. Cette application consiste Ă  dĂ©tecter les dĂ©fauts dans les rails du mĂ©tro parisien Ă  l’aide decourants de Foucault. Elle a Ă©tĂ© dĂ©veloppĂ©e par l’Institut national de la recherche sur les transports et leursĂ©curitĂ© (INRETS) pour la RATP [OUKHELLOU et al. 1997].

La dĂ©tection de dĂ©fauts dans les piĂšces mĂ©talliques Ă  l’aide de courants de Foucault est une technique clas-sique dans le domaine du contrĂŽle non destructif. Son principe est simple : un bobinage crĂ©e un champmagnĂ©tique alternatif dans la piĂšce Ă  contrĂŽler, ce qui engendre des courants de Foucault au voisinage decelui-ci, dans une Ă©paisseur qui dĂ©pend de la frĂ©quence du champ magnĂ©tique. Ces courants sont dĂ©tectĂ©spar un second bobinage ; la prĂ©sence de dĂ©fauts dans le mĂ©tal modifie le signal recueilli, Ă  la fois en ampli-tude et en phase. Ainsi, le signal induit constitue une « signature » des dĂ©fauts. Comme il existe toujoursplusieurs catĂ©gories de dĂ©fauts, qui peuvent ĂȘtre plus ou moins graves, il est important de pouvoir non seule-ment dĂ©tecter ces dĂ©fauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dĂ©fautset des phĂ©nomĂšnes normaux qui peuvent Ă©galement avoir une influence sur le signal : la jointure entre deuxrails provoque une modification des courants de Foucault, analogue Ă  celle qui est provoquĂ©e par une fissure,alors qu’il s’agit d’un Ă©vĂ©nement normal (mais sa position est connue, ce qui facilite la discrimination). Dansl’application considĂ©rĂ©e, le systĂšme de crĂ©ation et de dĂ©tection des courants de Foucault est montĂ© sous lavoiture, Ă  quelques dizaines de millimĂštres du rail, comme reprĂ©sentĂ© sur la figure 1-36.

Comme toujours, le choix des descripteursdu signal conditionne en grande partie l’effi-cacitĂ© de la discrimination. Comme il s’agitici d’images « mono-dimensionnelles » (paropposition aux images « bidimensionnelles »traitĂ©es prĂ©cĂ©demment), on peut utiliser unrelativement petit nombre de descripteurs quisont fondĂ©s sur les composantes de Fourierdu signal, Ă  condition que ces descripteurssoient bien choisis. La mĂ©thode de sĂ©lectiond’entrĂ©es appelĂ©e « mĂ©thode du vecteursonde », dĂ©crite dans le chapitre 2, a Ă©tĂ©utilisĂ©e pour dĂ©velopper cette application.[OUKHELLOU 1998]

Une application en prĂ©vision : l’estimation de la probabilitĂ© de succĂšs aux Ă©lections lĂ©gislativesLa lĂ©gislation sur les dĂ©penses de campagne oblige les candidats Ă  dĂ©clarer de maniĂšre prĂ©cise les sommesdĂ©pensĂ©es au cours de la campagne Ă©lectorale, et leur ventilation. À partir des donnĂ©es relatives aux Ă©lectionsde 1993, il a Ă©tĂ© possible d’évaluer la probabilitĂ© d’élection en fonction de la dĂ©pense effectuĂ©e, et de la venti-lation de ces dĂ©penses dans les diffĂ©rents postes. Il s’agit donc d’un problĂšme Ă  deux classes (« Ă©lu » ou« battu »), et les rĂ©seaux de neurones permettent d’évaluer la probabilitĂ© d’appartenance Ă  l’une des classes en

Figure 1-36. Photographie du systÚme de création et de détection des courants de Foucault

Page 45: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 145

fonction d’un ou plusieurs descripteurs. La figure 1-37 montre la probabilitĂ© d’appartenance Ă  la classe des Ă©lusen fonction de la dĂ©pense totale.

Cette application est de nature un peu diffĂ©rentedes prĂ©cĂ©dentes : dans ces derniĂšres, la classifi-cation avait pour objectif d’affecter une« forme » existante Ă  une classe, sachant que,vraisemblablement, on ne saurait jamais aveccertitude Ă  quelle classe la forme appartenaitrĂ©ellement. Ici, la situation est diffĂ©rente,puisque l’on sait avec certitude, dĂšs que lesrĂ©sultats des Ă©lections sont connus, Ă  quelleclasse appartient le candidat. Nous cherchonsdonc ici Ă  rĂ©aliser une prĂ©vision par simulation :afin d’optimiser ses chances de succĂšs, uncandidat peut estimer sa probabilitĂ© de succĂšsen fonction de la stratĂ©gie qu’il met en Ɠuvre pour dĂ©penser ses fonds de campagne de telle ou tellemaniĂšre. Il peut donc en dĂ©duire la stratĂ©gie la mieux adaptĂ©e Ă  sa situation.

Dans les sections des chapitres suivants qui sont consacrĂ©es Ă  la modĂ©lisation statique et dynamique, nousverrons que la prĂ©vision par simulation constitue un domaine d’excellence des rĂ©seaux de neurones.

Une application en fouille de donnĂ©es : le filtrage de documentsEn raison de l’augmentation constante du volume d’information accessible grĂące Ă  l’électronique, laconception et la mise en Ɠuvre d’outils efficaces, permettant notamment Ă  l’utilisateur de n’avoir accĂšsqu’à l’information qu’il juge pertinente, devient une nĂ©cessitĂ© absolue. Comme la plupart de ces outilssont destinĂ©s Ă  ĂȘtre utilisĂ©s dans un cadre professionnel, les exigences de fiabilitĂ© et de convivialitĂ© sonttrĂšs importantes ; les problĂšmes Ă  rĂ©soudre pour satisfaire ces exigences sont nombreux et difficiles.L’accĂšs Ă  l’information pertinente peut se faire en fournissant Ă  un utilisateur des documents pertinents,ou en lui proposant des passages de documents pertinents (ou des rĂ©ponses Ă  des questions). Le premiercas relĂšve du domaine de la recherche de textes, le second du domaine de l'extraction d'informations.

La catĂ©gorisation de textes, appelĂ©e Ă©galement filtrage, consiste Ă  trouver, dans un ensemble de docu-ments (comme un fil de dĂ©pĂȘches d’agence de presse, ou un ensemble de pages Web), ceux qui sont rela-tifs Ă  un sujet dĂ©fini par avance. On peut ainsi fournir Ă  un utilisateur, en temps rĂ©el, toutes les informa-tions importantes pour l’exercice de son mĂ©tier. Dans ce cas, l’utilisateur n’exprime pas son intĂ©rĂȘt parune requĂȘte, mais par un ensemble de documents pertinents qui dĂ©finissent un thĂšme ou une catĂ©gorie.Pour un thĂšme donnĂ©, la catĂ©gorisation consiste donc Ă  rĂ©soudre un problĂšme de classification supervisĂ©eĂ  deux classes ; celui-ci peut ĂȘtre rĂ©solu notamment par les mĂ©thodes dĂ©crites dans cet ouvrage : lesrĂ©seaux de neurones, les machines Ă  vecteurs supports (chapitre 6), ou les modĂšles de Markov cachĂ©s(chapitre 4).

C’est un problĂšme trĂšs difficile, qui va bien au-delĂ  de la recherche par mots-clĂ©s : en effet, supposons,que l’on cherche Ă  sĂ©lectionner, dans le flot des dĂ©pĂȘches de l’AFP, celles qui sont pertinentes pour lethĂšme « prises de participations entre entreprises » ; des textes qui contiennent les phrases : « la sociĂ©tĂ© Aa rachetĂ© la sociĂ©tĂ© B », ou bien « A est entrĂ© dans le capital de B Ă  hauteur de 10 % », ou encore « A vientde franchir Ă  la hausse le cap des 20 % des parts sociales de B », sont tous pertinents, et pourtant ils necontiennent aucun des mots qui dĂ©finissent le thĂšme ; en revanche, la phrase « la participation descommunistes au gouvernement inquiĂšte les chefs d’entreprises » n’est pas pertinente, bien qu’ellecontienne deux des mots du thĂšme.

Pro

babi

lité

d’él

ectio

n

0,8

0,6

0,4

0,2

0

DĂ©pense de campagne (kF)

0 100 200 300 400 500 600

Figure 1-37. Estima-tion, Ă  l’aide d’un rĂ©seau de neurones, de la probabilitĂ© d’élection en fonc-tion de la somme dĂ©pensĂ©e au cours de la campagne (Ă©lec-tions lĂ©gislatives de 1993).

Page 46: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones46

L’application que nous prĂ©sentons (extraite de [STRICKER 2000]) a Ă©tĂ© dĂ©veloppĂ©e pour la Caisse desdĂ©pĂŽts et consignations, qui offre, sur l’intranet du groupe, un service de filtrage de dĂ©pĂȘches de l’AFP entemps rĂ©el. Les objectifs sont doubles :‱ dĂ©veloppement d’une application permettant Ă  un utilisateur d’obtenir automatiquement un filtre

d’information sur un thĂšme de son choix, sous rĂ©serve de fournir des exemples de textes pertinents pourle thĂšme considĂ©rĂ©,

‱ dĂ©veloppement d’un outil permettant de surveiller l’obsolescence des filtres classiques, qui sont consti-tuĂ©s de systĂšmes Ă  base de rĂšgles.

Pour atteindre le second objectif, on fabrique une copie d’un filtre Ă  base de rĂšgles avec un filtre utilisantun rĂ©seau de neurones. Comme le rĂ©seau de neurones produit une probabilitĂ© de pertinence et non unerĂ©ponse binaire, il est possible d’analyser les plus grandes divergences entre les deux filtres : les docu-ments considĂ©rĂ©s comme pertinents par la mĂ©thode Ă  base de rĂšgles, mais obtenant une probabilitĂ© prochede zĂ©ro avec le rĂ©seau de neurones, et les documents considĂ©rĂ©s comme non pertinents avec le premier etobtenant une probabilitĂ© de pertinence proche de un avec le second [WOLINSKI et al. 2000].

Le premier de ces objectifs consiste en la conception et la rĂ©alisation d’un systĂšme de crĂ©ation automa-tique de filtres, dont la caractĂ©ristique majeure est l’absence d’intervention d’un expert, par opposition Ă la mise en Ɠuvre d’un systĂšme Ă  base de rĂšgles. Il s’agit donc de concevoir un systĂšme de discriminationĂ  deux classes : Ă  partir d’une base de documents Ă©tiquetĂ©s comme pertinents ou non pertinents pour lethĂšme considĂ©rĂ©, il faut :‱ trouver une reprĂ©sentation des textes par des nombres, reprĂ©sentation qui doit ĂȘtre aussi compacte que

possible,‱ concevoir et mettre en Ɠuvre un classifieur utilisant cette reprĂ©sentation.

Le problÚme de la représentation des textes, donc de la sélection des entrées, est évidemment central danscette application.

Sélection des entrées

L’approche la plus conventionnelle est la reprĂ©sentation en « sac de mots », dans laquelle un texte estreprĂ©sentĂ© par un vecteur dont chaque composante est un nombre, liĂ© Ă  la prĂ©sence ou l’absence d’un motdans le texte, ou Ă  sa frĂ©quence dans le texte. La difficultĂ© de cette approche est que la dimension de cevecteur est Ă©gale au nombre de mots du vocabulaire, ce qui est Ă©videmment Ă©norme ; on peut nĂ©anmoinsremarquer que tous les mots ne sont pas Ă©galement discriminants : les mots les plus frĂ©quents (de, la, et...)sont inutiles pour la discrimination, de mĂȘme que les mots trĂšs rares. Dans une premiĂšre Ă©tape, on cherchedonc, pour un thĂšme donnĂ©, Ă  trouver les mots les plus pertinents pour le thĂšme considĂ©rĂ©.

■ Codage des mots

Les mots sont codĂ©s de la maniĂšre suivante : soit FT(m, t) la frĂ©quence d’occurrence du terme m dans letexte t, et FT(t) la frĂ©quence moyenne des termes dans le texte t. Alors le mot m est dĂ©crit par la quantitĂ© :

dont on trouvera la justification dans [SINGHAL 1996.]

■ La loi de Zipf

Pour sĂ©lectionner les mots discriminants, on est aidĂ© par la loi de Zipf [ZIPF 1949] : soit un corpus de Ttextes ; appelons FC(m) la frĂ©quence d’occurrence du mot m sur le corpus T ; nous avons dĂ©fini, dans leparagraphe prĂ©cĂ©dent, la quantitĂ© FT(m, t), frĂ©quence du mot m dans le texte t. Construisons une liste de

x(m) =1 + log FT m, t

1 + log FT t,

Page 47: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 147

mots, classĂ©s par ordre de FC(m) dĂ©croissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipfs’énonce ainsi : FC(m) r(m) = K, oĂč K est une constante qui dĂ©pend du corpus considĂ©rĂ©. Il y a donc unpetit nombre de mots trĂšs frĂ©quents, et il y a un grand nombre de mots trĂšs rares qui n’apparaissent qu’unefois ou deux sur le corpus ; entre ces extrĂȘmes, il existe un ensemble de mots dans lesquels il faut chercherles mots discriminants.

■ Extraction du vocabulaire spĂ©cifique

Pour dĂ©terminer le vocabulaire spĂ©cifique Ă  un thĂšme donnĂ©,on dĂ©finit, pour chaque mot m de chaque texte pertinent t, lerapport R(m, t) = FT(m, t) / FC(m). On range les mots dutexte par ordre de R(m, t) dĂ©croissant, on supprime laseconde moitiĂ© de la liste, et l’on construit un vecteurboolĂ©en v(t) tel que vi(t) = 1 si le mot i est prĂ©sent dans la

liste, et 0 sinon. On calcule enfin le vecteur oĂč

la somme porte sur tous les documents pertinents : le voca-bulaire spĂ©cifique du thĂšme est l’ensemble des mots dontla composante dans v est non nulle. La figure 1-38 montreque, sur le corpus des dĂ©pĂȘches Reuters, la loi de Zipf estassez bien vĂ©rifiĂ©e, et que les mots du vocabulaire spĂ©ci-fique du thĂšme Falkland petroleum exploration sont bienau milieu de la distribution.

■ SĂ©lection finale

À l’intĂ©rieur du vocabulaire spĂ©cifique ainsi dĂ©fini, et qui peut ĂȘtre encore vaste (une Ă  quelques centainesde mots), une sĂ©lection finale est effectuĂ©e par la mĂ©thode du vecteur sonde, dĂ©crite dans le chapitre 2. Àla fin de cette Ă©tape, il apparaĂźt que, en moyenne sur 500 thĂšmes qui ont Ă©tĂ© Ă©tudiĂ©s, le vocabulaire spĂ©ci-fique d’un thĂšme comprend 25 mots, ce qui est tout Ă  fait raisonnable pour un vecteur d’entrĂ©e d’un rĂ©seaude neurones. NĂ©anmoins, cette reprĂ©sentation n’est pas encore satisfaisante, mĂȘme si elle est compacte.En effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenircompte du contexte.

DĂ©termination du contexte

Pour introduire le contexte dans la reprĂ©sentation des textes, on a cherchĂ© des mots de contexte dans unefenĂȘtre de 5 mots de part et d’autre du chaque mot du vocabulaire spĂ©cifique. On a dĂ©fini‱ des mots de contexte positifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-

laire spĂ©cifique, dans les documents pertinents,‱ des mots de contexte nĂ©gatifs, qui sont les mots que l’on trouve dans le voisinage des mots du vocabu-

laire spécifique, dans les documents non pertinents.

Pour sĂ©lectionner les mots de contexte, on utilise exactement la mĂȘme procĂ©dure que pour la dĂ©termina-tion du vocabulaire spĂ©cifique. Typiquement, pour l’exemple de « prise de participation entreentreprises », on constate que pour le mot « capital », qui fait partie du vocabulaire spĂ©cifique, les mots« dĂ©tient » et « droits » figurent dans les mots de contexte spĂ©cifique, et les mots « risque » et « fonds »dans le contexte nĂ©gatif.

En moyenne sur 500 thÚmes différents, un thÚme est défini par 25 mots de vocabulaire spécifique, chacunde ces mots ayant 3 mots de contexte.

0

1

2

3

4

5

6

Log

FC

(m)

0 1 2 3 4 5Log r (m)

Figure 1-38. Vérification expérimentale de la loi de Zipf sur le corpus Reuters, et représentation des mots du vocabulaire spécifique au thÚme « Falkland petroleum exploration »

v = v t∑t

,

Page 48: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones48

Conception et apprentissage des filtres

■ Filtres sans contexte

Si l’on ne tient pas compte du contexte, le filtre a pour entrĂ©es les mots du vocabulaire spĂ©cifique, codĂ©scomme indiquĂ© plus haut. ConformĂ©ment Ă  la mĂ©thodologie de conception de classifieurs que nous avonsprĂ©sentĂ©e dans la section consacrĂ©e Ă  la discrimination, la structure du classifieur dĂ©pend de la complexitĂ©du problĂšme. Sur les corpus et les thĂšmes testĂ©s, les ensembles d’apprentissage sont gĂ©nĂ©ralement linĂ©ai-rement sĂ©parables, de sorte que l’on utilise un rĂ©seau Ă  un seul neurone Ă  fonction d’activation sigmoĂŻde.

■ Filtres avec contexteFigure 1-39. Un filtre sans contexte est un clas-sifieur linĂ©aire qui reçoit en entrĂ©e le descrip-teur de chacun des mots du vocabulaire spĂ©cifique (rectangles en traits gras) ; dans un filtre avec contexte, les entrĂ©es sont les descripteurs des mots du vocabulaire spĂ©ci-fique (rectangles en traits gras) et les mots de contexte (rectangles en traits fins).

Le contexte doit modifier le descripteurcorrespondant Ă  chaque mot du vocabu-laire spĂ©cifique. Le filtre reprĂ©sentedonc chaque mot du vocabulaire par unneurone Ă  fonction d’activationsigmoĂŻde, dont les entrĂ©es sont ledescripteur du mot considĂ©rĂ© et les

descripteurs des mots de contexte de celui-ci. Les sorties de ces neurones sont sĂ©parĂ©es linĂ©airement parun neurone Ă  fonction d’activation sigmoĂŻde. La figure 1-39 reprĂ©sente un filtre avec contexte et un filtresans contexte

L’utilisation du contexte augmente Ă©videmment le nombre de paramĂštres. Typiquement, pour un thĂšmeavec 25 mots de vocabulaire spĂ©cifique, et 3 mots de contexte par mot du vocabulaire spĂ©cifique, le filtrecomprend 151 paramĂštres. Compte tenu du fait que le nombre de poids peut ĂȘtre du mĂȘme ordre de gran-deur que le nombre d’exemples (voire infĂ©rieur Ă  celui-ci), il est impĂ©ratif de mettre en Ɠuvre unemĂ©thode de rĂ©gularisation. La mĂ©thode de modĂ©ration des poids a Ă©tĂ© mise en Ɠuvre dans cetteapplication ; nous en verrons l’effet dans le chapitre 2, dans la section consacrĂ©e Ă  la rĂ©gularisation.

Validation des résultats

Dans le domaine du traitement automatique du langage, la compĂ©tition organisĂ©e chaque annĂ©e dans le cadrede la confĂ©rence TREC (Text REtrieval Conference) constitue une rĂ©fĂ©rence. La mĂ©thodologie prĂ©sentĂ©e ci-dessus a Ă©tĂ© mise en Ɠuvre dans le cadre de la compĂ©tition TREC-9, pour l’épreuve de « routing » : celle-ciconsiste Ă  classer un ensemble de textes par ordre de pertinence dĂ©croissante pour des thĂšmes imposĂ©s.L’épreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement Ă  63 et 500 thĂšmes, etcomprenant au total 294 000 documents. Il va de soi que le nombre de documents Ă  analyser, et le nombre dethĂšmes, rendent impossible tout traitement « manuel » ou « semi-automatique » des donnĂ©es, dans le tempsimparti Ă  la compĂ©tition. L’approche que nous avons dĂ©crite a remportĂ© l’épreuve, pour chacun des deuxthĂšmes ; la figure 1-40 reprĂ©sente les scores rĂ©alisĂ©s par les participants [STRICKER et al. 2001].

Filtre sans contexte

Filtre avec contexte




Page 49: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 149

Une application en bio-ingénierie : relations structure-activité (QSAR) pour la prédiction de propriétés chimiques de molécules

L’étude des relations structure-activitĂ© des molĂ©cules (QSAR pour Quantitative Structure-Activity Rela-tions) est un domaine en plein essor, en raison des progrĂšs trĂšs rapides de la simulation molĂ©culaire. Cestravaux ont pour objectif de prĂ©dire certaines propriĂ©tĂ©s chimiques de molĂ©cules Ă  partir de donnĂ©es struc-turales qui peuvent ĂȘtre calculĂ©es a priori par ordinateur, sans qu’il soit nĂ©cessaire de synthĂ©tiser lamolĂ©cule ; on peut donc Ă©viter une synthĂšse coĂ»teuse si l’on peut prĂ©dire que la molĂ©cule envisagĂ©e nepossĂšde pas les propriĂ©tĂ©s souhaitables [HANSCH et al. 1995]. Cette approche est particuliĂšrement utiledans le domaine de la bio-ingĂ©nierie, pour la prĂ©diction de propriĂ©tĂ©s pharmacologiques de molĂ©cules etl’aide Ă  la dĂ©couverte de nouveaux mĂ©dicaments, mais elle peut Ă©videmment ĂȘtre transposĂ©e Ă  n’importequel domaine (prĂ©diction de propriĂ©tĂ©s mĂ©caniques de matĂ©riaux complexes Ă  partir de leur formulation,prĂ©diction de paramĂštres thermodynamiques de mĂ©langes, etc.).

Pourquoi les rĂ©seaux de neurones peuvent-ils ĂȘtre mis en Ɠuvre avec profit dans ce contexte ? Si l’onadmet qu’il existe une relation dĂ©terministe entre certains descripteurs de la molĂ©cule et la propriĂ©tĂ© quel’on veut prĂ©dire, alors on est ramenĂ© Ă  un problĂšme de dĂ©termination de la fonction de rĂ©gression de lapropriĂ©tĂ© envisagĂ©e, en fonction des descripteurs choisis. Si cette fonction est non linĂ©aire, et si des basesde donnĂ©es utilisables existent, l’utilisation de rĂ©seaux de neurones est entiĂšrement justifiĂ©e.

Comme on l’a dĂ©jĂ  soulignĂ©, la premiĂšre question qu’il convient de se poser, lorsque l’on envisage dedĂ©velopper une application de rĂ©seaux de neurones, est celle des donnĂ©es utilisables pour l’apprentissageet pour l’évaluation des performances du rĂ©seau. Compte tenu de l’importance des enjeux, il existe denombreuses bases de donnĂ©es concernant des quantitĂ©s telles que le point d’ébullition, la solubilitĂ© dansl’eau ou le coefficient de partage eau-octanol. Cette derniĂšre propriĂ©tĂ© est particuliĂšrement importante :dans le domaine de la pharmacologie, elle dĂ©termine la capacitĂ© de la molĂ©cule Ă  atteindre le milieu danslequel le mĂ©dicament devient efficace, par franchissement de barriĂšres biologiques ; dans le domaine del’environnement, le coefficient de partage eau-octanol caractĂ©rise la maniĂšre dont les pesticides sontsusceptibles de se rĂ©pandre dans le milieu naturel.

Épreuve “OHSU” (63 thùmes)0,385

0,343 0,326 0,3170,237 0,234

0,185 0,1770,099 0,081

0

0,2

0,4

0,6

ICDC (S

2RNr2

)

Micr

osof

t (ok

9rf2

po)

Micr

osof

t (ok

9rfr2

po)

U. Nijm

egen

(KUNr1

)

U. Nijm

egen

(KUNr2

)

IRIT

/SIG

(Mer

9r2)

Rutge

rs U

. (an

trpno

00)

Rutge

rs U

. (an

trpo0

0)

ICDC (S

2RNr1

)

Score

0,335

0,253

0,158

0,00780

0,2

0,4

0,6

Sco

re

Épreuve “MeSH” (500 thùmes)

Rutgers U(antrpms00)

Rutgers U(antrpnms00)

Microsoft(ok9rfr2ps)

ICDC(S2RNsamp)

Figure 1-40. RĂ©sultats de l’épreuve de « routing » de TREC-9 ; en noir : rĂ©sultats obtenus par la mĂ©thode dĂ©crite ci-dessus ; en gris : rĂ©sultats obtenus par d’autres mĂ©thodes.

Page 50: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones50

La deuxiĂšme question Ă  se poser est celle des entrĂ©es pertinentes pour le rĂ©seau de neurones envisagĂ©. Ici,les connaissances du chimiste doivent nĂ©cessairement guider le choix des entrĂ©es. On considĂšre habituel-lement trois catĂ©gories de descripteurs :‱ des descripteurs chimiques tels que la masse molĂ©culaire, le nombre d’atomes de carbone, etc. ;‱ des descripteurs gĂ©omĂ©triques tels que le volume de la molĂ©cule, sa surface, son ovalitĂ©, etc. ;‱ des descripteurs Ă©lectriques tels que les charges portĂ©es par les diffĂ©rents atomes, le moment dipolaire, etc.

Pour chaque propriĂ©tĂ© que l’on cherche Ă  prĂ©dire, il faut doncĂ©tablir un ensemble de descripteurs que l’on peut supposerpertinents, et utiliser une technique de sĂ©lection, telle quecelles qui sont dĂ©crites dans le chapitre 2, afin de dĂ©terminerles descripteurs qui sont rĂ©ellement utiles pour les molĂ©culeset la propriĂ©tĂ© considĂ©rĂ©e. En raison de leur parcimonie, desrĂ©seaux de neurones de trĂšs petite taille (5 Ă  7 neuronescachĂ©s) fournissent des rĂ©sultats de meilleure qualitĂ© que lestechniques de rĂ©gression multilinĂ©aire habituellement misesen Ɠuvre dans ce domaine [DUPRAT et al. 1998].

Il est intĂ©ressant de remarquer que, pour certaines molĂ©cules,les valeurs de LogP sont systĂ©matiquement mal apprises(lorsque ces mesures font partie de l’ensemble d’apprentis-sage) ou systĂ©matiquement mal prĂ©dites (lorsque ces molĂ©-cules font partie de l’ensemble de validation). Dans un tel

cas, le premier problĂšme Ă  soupçonner est Ă©videmment une erreur de saisie ou de mesure. Si cette hypo-thĂšse est Ă  rejeter, il faut en conclure que ces Ă©lĂ©ments ont des particularitĂ©s qui sont absentes des autresexemples ; ici, il apparaĂźt que les molĂ©cules en question sont soit fortement chargĂ©es (tĂ©tracycline etcafĂ©ine, reprĂ©sentĂ©s sur la figure 1-41), soit au contraire ont trĂšs peu d’interactions avec le solvant(pĂ©rylĂšne, 1-4 pentadiĂšne, voir figure 1-41). Ainsi, les rĂ©seaux de neurones peuvent servir Ă  dĂ©tecter desanomalies de comportement ; c’est un des grands domaines d’applications des rĂ©seaux de neurones.

Une application en formulation : la prĂ©diction de la tempĂ©rature de liquidus de verresDans le mĂȘme esprit que l’application prĂ©cĂ©dente, on peut prĂ©dire des paramĂštres thermodynamiques dematĂ©riaux en fonction de la composition de ceux-ci. C’est le cas notamment pour la tempĂ©rature deliquidus de verres d’oxydes. Cette tempĂ©rature est la tempĂ©rature maximale Ă  laquelle des cristaux sonten Ă©quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prĂ©dire cettetempĂ©rature en fonction de la composition du verre, car la valeur de la viscositĂ© Ă  la tempĂ©rature deliquidus est un Ă©lĂ©ment important pour le choix des paramĂštres des procĂ©dĂ©s de formage des verres. LaprĂ©diction de cette tempĂ©rature en fonction de la composition du verre est difficile, car les diagrammesprĂ©sentent des variations brutales dans le domaine d’intĂ©rĂȘt ; compte tenu de cet intĂ©rĂȘt industriel, denombreuses Ă©tudes ont Ă©tĂ© menĂ©es (voir par exemple [KIM et al. 1991]), et des bases de donnĂ©es sontdisponibles. L’utilisation des rĂ©seaux de neurones s’est montrĂ©e avantageuse par rapport aux mĂ©thodestraditionnelles, notamment pour les verres ayant plus de trois composantes.

La figure 1-42 illustre, sur un exemple concret, la parcimonie des rĂ©seaux de neurones. Elle prĂ©sente des« diagrammes de dispersion » (scatter plot). Un tel diagramme constitue un outil graphique trĂšs commode pourvisualiser la prĂ©cision de l’approximation : on porte en abscisse, pour chaque Ă©lĂ©ment de la base de donnĂ©es, lavaleur mesurĂ©e, et en ordonnĂ©es la valeur prĂ©dite correspondante. Si la prĂ©diction Ă©tait parfaite, tous les pointsdevraient ĂȘtre alignĂ©s sur la bissectrice ; la dispersion autour de celle-ci donne une idĂ©e de la qualitĂ© de la modĂ©-

CH3 H HNMe2

OHOH O OH O

NH2

O

OHHO

TĂ©tracycline

PĂ©rylĂšne1,4-pentadiĂšne

CH3O

O

Caféine

CH3

CH3

N

N N

N

Figure 1-41. Molécules présentant des parti-cularités chimiques,dont les propriétés sont mal prédites par des réseaux de neurones.

Page 51: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 151

lisation (bien entendu, cela ne remplace pas les grandeurs telles que l’EQMT introduite plus haut, le score devalidation ou de leave-one-out dĂ©finis dans le chapitre 2, ou toute autre bonne estimation quantitative de l’erreurde modĂ©lisation). Les entrĂ©es des modĂšles sont les teneurs en oxydes, la sortie est l’estimation de la tempĂ©raturede liquidus. La figure 1-42(a) prĂ©sente le rĂ©sultat obtenu sur un verre de silice (composĂ©, outre de SiO2, d’oxydede potassium K2O et d’alumine Al2O3), obtenu avec un rĂ©seau Ă  6 neurones cachĂ©s (25 paramĂštres), et la figure1-42(b) le rĂ©sultat obtenu avec un polynĂŽme de degrĂ© 3, dont le nombre de paramĂštres est trĂšs voisin (19). Il estclair que, Ă  nombre de paramĂštres Ă  peu prĂšs Ă©quivalent, le rĂ©seau de neurones fournit un bien meilleur rĂ©sultat.La figure 1-42(c) indique, pour mĂ©moire, le rĂ©sultat obtenu avec un modĂšle linĂ©aire.

Une application en modĂ©lisation de procĂ©dĂ© industriel : la modĂ©lisation du soudage par pointsLe soudage par points est le procĂ©dĂ© de soudage le plus utilisĂ© dans l’industrie automobile : des millionsde soudures sont effectuĂ©es chaque jour. Le procĂ©dĂ© est schĂ©matisĂ© sur la figure 1-13 : le soudage desdeux tĂŽles est effectuĂ© en faisant passer un courant trĂšs intense (des dizaines de kiloampĂšres) pendant untemps trĂšs court (quelques centaines de millisecondes) entre deux Ă©lectrodes pressĂ©es contre la surface

Figure 1-42. Diagrammes de dispersion pour la prĂ©diction de la tempĂ©rature de liquidus de verres d’oxydes en fonction de la composition, pour trois modĂšles diffĂ©rents.

Page 52: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones52

des tĂŽles. L’échauffement produit par effet Joule fait fondre une zone des tĂŽles. AprĂšs refroidissement, lediamĂštre de la zone fondue (typiquement 5 mm) caractĂ©rise la qualitĂ© de la soudure ; si ce diamĂštre estinfĂ©rieur Ă  4 mm, la soudure est considĂ©rĂ©e comme dĂ©fectueuse. Le diamĂštre du point soudĂ© est donc unĂ©lĂ©ment crucial de la sĂ©curitĂ© du vĂ©hicule. À l’heure actuelle, il n’existe pas de mĂ©thode physique nondestructive qui permette d’évaluer rapidement le diamĂštre de la soudure. En consĂ©quence, une stratĂ©gieindustrielle typique consiste :

‱ Ă  utiliser une intensitĂ© de courant excessive, ce qui produit un trĂšs grand Ă©chauffement, donc l’éjectionde gouttelettes de mĂ©tal en fusion de la zone de soudage (c’est l’origine des « Ă©tincelles » que l’onobserve Ă  chaque soudure effectuĂ©e par les robots de soudage sur une chaĂźne de fabrication) ;

‱ Ă  rĂ©aliser des soudures en surnombre, afin que, avec une probabilitĂ© voisine de 1, on ait au moins unesoudure de bonne qualitĂ©.

L’excĂšs de courant et le trop grand nombre de soudures conduisent Ă  une dĂ©gradation rapide des Ă©lec-trodes, qui doivent ĂȘtre changĂ©es ou rĂ©-usinĂ©es frĂ©quemment.

Pour toutes ces raisons, la modĂ©lisation du processus en vue d’obtenir une prĂ©diction fiable du diamĂštrede la soudure, en temps rĂ©el, Ă  partir de mesures effectuĂ©es pendant le soudage, constitue un problĂšmeindustriel important. Il est trĂšs difficile de modĂ©liser la dynamique du processus de soudage, pourplusieurs raisons :

‱ le temps nĂ©cessaire pour intĂ©grer numĂ©riquement les Ă©quations diffĂ©rentielles et les Ă©quations aux dĂ©ri-vĂ©es partielles du modĂšle de connaissance est supĂ©rieur, de plusieurs ordres de grandeur, Ă  la durĂ©ed’une soudure ; on ne peut donc pas utiliser un tel modĂšle pour une prĂ©diction en temps rĂ©el ;

‱ certains paramĂštres physiques, qui interviennent dans les Ă©quations du modĂšle de connaissance, sontmal connus.

La modélisation « boßte noire » est donc une alternative intéressante à un modÚle de connaissance. Leprocédé étant non linéaire et présentant plusieurs variables, les réseaux de neurones sont de bons candi-dats pour effectuer une prédiction, en temps réel, du diamÚtre du point fondu, donc de la qualité de lasoudure, en fonction de mesures effectuées pendant la soudure [MONARI 1999].

Les difficultĂ©s sont, d’une part, le choix des variables d’entrĂ©e du modĂšle, et, d’autre part, le fait que lesdonnĂ©es disponibles sont relativement peu nombreuses, car coĂ»teuses Ă  obtenir.

Dans [MONARI 1999], les grandeurs candidates pour constituer des variables du modĂšle Ă©taient des gran-deurs mĂ©caniques et Ă©lectriques qui peuvent ĂȘtre mesurĂ©es durant le processus. La sĂ©lection des entrĂ©es aĂ©tĂ© effectuĂ©e Ă  l’aide des mĂ©thodes dĂ©crites dans le chapitre 2, et ce choix a Ă©tĂ© validĂ© par les expertsimpliquĂ©s dans le dĂ©veloppement du modĂšle de connaissance du procĂ©dĂ©.

Comme il n’existe pas de mĂ©thode non destructive simple pour prĂ©dire le diamĂštre du point fondu, la basede donnĂ©es est construite de la maniĂšre suivante : un ensemble de soudures est effectuĂ© dans des condi-tions bien contrĂŽlĂ©es ; elles sont ensuite arrachĂ©es (« dĂ©boutonnĂ©es »), et le diamĂštre du « bouton fondu »,qui reste solidaire d’une des tĂŽles, est mesurĂ©. C’est un processus long et coĂ»teux, de sorte que l’ensembled’apprentissage initial comprenait seulement 250 exemples. En utilisant l’estimation des intervalles deconfiance qui sera exposĂ©e dans le chapitre 2, un plan d’expĂ©riences a Ă©tĂ© Ă©tabli, qui a permis d’enrichirprogressivement la base de donnĂ©es disponible. La moitiĂ© de ces donnĂ©es a Ă©tĂ© utilisĂ©e pour l’apprentis-sage, l’autre pour le test ; la sĂ©lection de modĂšle a Ă©tĂ© effectuĂ©e par la procĂ©dure de « leave-one-outvirtuel » qui sera expliquĂ©e dans le chapitre 2, si bien qu’il n’a pas Ă©tĂ© nĂ©cessaire d’utiliser un ensemblede validation.

Page 53: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 153

La figure 1-43 prĂ©sentedes diagrammes de dis-persion typiques, oĂčchaque prĂ©diction figureavec son intervalle deconfiance. L’erreur degĂ©nĂ©ralisation estimĂ©e(score de leave-one-out,voir chapitre 2) est de0,27 mm, et l’EQMT del’ordre de 0,23 mm. CesquantitĂ©s Ă©tant de l’ordrede grandeur de l’incerti-tude de mesure, ces rĂ©sul-tats sont trĂšs satisfaisants.

Une application en robotique : la modĂ©lisation de l’actionneur hydraulique d’un bras de robot

On cherche Ă  concevoir unmodĂšle d’un bras de robot dontla position est commandĂ©e parun actionneur hydraulique. Laposition du bras dĂ©pend de lapression d’huile dans l’action-neur, pression commandĂ©e parl’ouverture d’une vanne. Lesvariations de l’ouverture de lavanne, c’est-Ă -dire la sĂ©quencede commande {u(k)}, et lapression d’huile correspon-dante, c’est-Ă -dire la sĂ©quencede sortie {yp(k)}, sont reprĂ©-sentĂ©es sur la figure 1-44. Cetensemble de donnĂ©es contient1024 points de mesure : lapremiĂšre moitiĂ© d’entre eux estutilisĂ©e pour l’apprentissage, laseconde pour l’estimation de laperformance (sĂ©quence detest). On ne dispose d’aucuneautre information sur leprocessus : on a donc nĂ©cessai-rement recours Ă  une modĂ©li-sation « boĂźte noire ».

Dia

mĂšt

re p

réd

it (

mm

)

2

3

4

5

6

7

8

2 3 4 5 6 7 8DiamÚtre mesuré (mm)

2

3

4

5

6

7

8

2 3 4 5 6 7 8DiamÚtre mesuré (mm)

Dia

mĂšt

re p

réd

it (

mm

)

Figure 1-43. Diagrammes de dispersion pour la prédiction du diamÚtre de soudures par points

(b)

-1.5

-1

-0.5

0

0.5

1

1.5

0 200 400 600 1000

-4

-2

0

2

4

0 200 400 600 800 1000

SĂ©quence d'apprentissage SĂ©quence de test

(a) 800

Commande

Sortie du processus

Figure 1-44. SĂ©quences d’apprentissage et de test pour la modĂ©lisation d’un bras de robot

Page 54: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones54

L’examen des donnĂ©es montre que le processus n’estcertainement pas linĂ©aire, et que, compte tenu des oscilla-tions observĂ©es en rĂ©ponse Ă  des variations de u(k) qui sontpresque des Ă©chelons, le processus est au moins d’ordre 2.On observe aussi que les sĂ©quences d’apprentissage et detest n’explorent qu’approximativement le mĂȘme domainede fonctionnement (signaux de sortie et de commande demĂȘme type et de mĂȘme amplitude). On note qu’auxinstants 600 et 850 environ de la sĂ©quence de validation,l’amplitude de la commande dĂ©passe les amplitudes maxi-males atteintes sur la sĂ©quence d’apprentissage. On ne setrouve pas dans les meilleures conditions possibles.

Nous analyserons en dĂ©tail cet exemple dans le chapitre 2.Les meilleurs rĂ©sultats ont Ă©tĂ© obtenus [OUSSAR 1998]avec un modĂšle d’état du second ordre, dont une des varia-bles d’état est la sortie elle-mĂȘme, avec trois neuronescachĂ©s. Il est reprĂ©sentĂ© sur la figure 1-45.

L’erreur quadratique moyenne obtenue avec le modĂšle dela figure 1-45 est de 0,07 sur la sĂ©quence d’apprentissage,et de 0,12 sur la sĂ©quence de validation, ce qui est une trĂšs

bonne performance compte tenu de la reprĂ©sentativitĂ© des donnĂ©es disponibles. Les rĂ©sultats obtenus surla sĂ©quence de test sont reprĂ©sentĂ©s sur la figure 1-46. Les dĂ©fauts de modĂ©lisation rĂ©sultent probablementdu fait qu’il y a des perturbations non mesurĂ©es, qui ne figurent pas dans les entrĂ©es du rĂ©seau.

Une application de la modĂ©lisation semi-physique Ă  un procĂ©dĂ© manufacturierNous prĂ©sentons ici une application de la mĂ©thode de modĂ©lisation semi-physique, qui sera dĂ©crite endĂ©tail dans le chapitre 2, Ă  un problĂšme industriel. Il s’agit de la modĂ©lisation du sĂ©chage du ruban adhĂ©sifScotch fabriquĂ© par la SociĂ©tĂ© 3M.

Un ruban adhĂ©sif est constituĂ© d’un film de matiĂšre plastique – le substrat – sur lequel est dĂ©posĂ© un filmliquide – le revĂȘtement – constituĂ© d’un polymĂšre adhĂ©sif dissous dans un solvant. L’ensemble passe dansun four, dans une atmosphĂšre gazeuse oĂč la pression partielle du solvant est trĂšs infĂ©rieure Ă  la pressionpartielle Ă  l’équilibre Ă  la tempĂ©rature du four ; en consĂ©quence, le solvant s’évapore, si bien que laconcentration du solvant dans le revĂȘtement au voisinage de la surface devient infĂ©rieure Ă  la concentra-tion du solvant dans le volume du revĂȘtement. Le solvant diffuse alors du volume vers la surface pourcompenser ce gradient de concentration, ce qui alimente encore l’évaporation. Le processus se poursuitjusqu’au sĂ©chage du revĂȘtement, de sorte que seul subsiste l’adhĂ©sif Ă  la surface du substrat.

1 u(k) x2(k)

q– 1

y(k + 1) = x1(k + 1)

y(k) = x1(k)

x2(k + 1)

Figure 1-45. ModĂšle neuronal d’état pour l’actionneur hydraulique. La sortie est l’une des variables d’état

-5

0

5

0 100 200 300 400 500

ypy

Figure 1-46. ModĂ©lisation d’état de l’actionneur hydraulique

Page 55: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 155

Traditionnellement, le solvant est de nature organique. Pour des raisons de sĂ©curitĂ© et d’environnement, il estsouhaitable de remplacer les solvants organiques par de l’eau. Un excellent modĂšle physique du sĂ©chage enprĂ©sence d’un solvant organique existe [PRICE et al. 1997] ; il est constituĂ© de treize Ă©quations algĂ©briques etdiffĂ©rentielles non linĂ©aires couplĂ©es ; lorsque le solvant organique est remplacĂ© par l’eau, certains Ă©lĂ©mentsde ce modĂšle ne sont plus valables, si bien que les prĂ©dictions du modĂšle sont beaucoup moins prĂ©cises.

La thĂ©orie de la dissolution du polymĂšre dans l’eau est bien moins bien connue que celle du polymĂšredans un solvant organique, si bien que l’on ne peut pas Ă©laborer un modĂšle de connaissance satisfaisant ;par ailleurs, des sĂ©quences de mesure du poids de l’échantillon en fonction du temps et de la tempĂ©raturedu four sont disponibles : l’utilisation d’un modĂšle semi-physique paraĂźt donc possible et opportune.

Les Ă©quations qui constituent le modĂšle expriment :‱ la conservation de la masse dans le volume du solvant : cette Ă©quation ne peut ĂȘtre remise en cause par

le changement du solvant ;‱ la loi qui rĂ©git le courant de solvant vers la surface (loi de Fick) ; la validitĂ© de cette loi n’est pas discu-

table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction dela concentration et de la tempĂ©rature est donnĂ©e par une thĂ©orie (thĂ©orie du volume libre) dont la vali-ditĂ©, dans le cas oĂč le solvant est de l’eau, est incertaine ;

‱ la condition de conservation de la masse Ă  la surface : toute molĂ©cule qui arrive Ă  la surface, ets’évapore, contribue Ă  la variation de la pression partielle du solvant dans le gaz ; cette loi ne peut ĂȘtreremise en cause ;

‱ la condition Ă  l’interface entre le revĂȘtement et le substrat : le substrat Ă©tant impermĂ©able au solvant, iln’y a aucun flux de solvant vers le substrat ;

‱ la valeur de la pression partielle de solvant dans le gaz, qui constitue la « force motrice » du processus ;cette grandeur est donnĂ©e par une loi dont la validitĂ© n’est pas remise en cause par les experts.

À la lumiĂšre de cette analyse, il apparaĂźt que c’est la variation du coefficient de diffusion qui doit ĂȘtrereprĂ©sentĂ©e par un rĂ©seau de neurones « boĂźte noire » au sein du modĂšle semi-physique. C’est ce qui a Ă©tĂ©fait, en suivant la mĂ©thode de conception qui a Ă©tĂ© esquissĂ©e plus haut, et qui est dĂ©crite en dĂ©tail dans lechapitre 2. Il faut noter que les Ă©quations du modĂšle ne sont pas des Ă©quations diffĂ©rentielles, mais desĂ©quations aux dĂ©rivĂ©es partielles ; cela n’est pas un obstacle Ă  l’utilisation de la mĂ©thode.

Le lecteur intĂ©ressĂ© par les dĂ©tails de la rĂ©alisation du modĂšle et par les rĂ©sultats obtenus pourra les trouverdans [OUSSAR et al. 2001]. On trouvera Ă©galement une autre application – la dĂ©tection automatique dedysfonctionnements dans une colonne Ă  distiller industrielle –, mettant en Ɠuvre la modĂ©lisation neuro-nale semi-physique, dans [PLOIX et al. 1997]. Mentionnons enfin que des applications sont opĂ©ration-nelles dans un groupe industriel français majeur, pour la formulation de matĂ©riaux et de produitsnouveaux.

Deux applications en contrĂŽle de l’environnement : pollution par l’ozone et hydrologie urbaineLes deux applications que nous prĂ©sentons ici relĂšvent de problĂ©matiques semblables : la prĂ©vision dephĂ©nomĂšnes non linĂ©aires dans le domaine de l’environnement.

PrĂ©vision des pics de pollution par l’ozone

La gĂ©nĂ©ralisation des mesures de concentration en ozone, ainsi que le dĂ©veloppement de modĂšles deconnaissance de la pollution atmosphĂ©rique, permettent d’envisager la prĂ©vision des pics de pollution. Dansle cadre d’un groupe de travail du club « IngĂ©nierie du traitement de l’information » de l’association ECRIN,des donnĂ©es relatives Ă  la pollution par l’ozone dans la rĂ©gion lyonnaise ont Ă©tĂ© mises Ă  la disposition des

Page 56: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones56

Ă©quipes de recherche françaises, en vue d’une prĂ©diction « boĂźte noire » Ă  l’aide de mĂ©thodes mettant en jeuun apprentissage. Les rĂ©seaux de neurones Ă©taient donc des candidats naturels pour rĂ©aliser cette tĂąche.

Comme il s’agissait d’une Ă©tude prĂ©liminaire de courte durĂ©e, on s’est contentĂ© d’utiliser les donnĂ©esissues d’un seul capteur d’ozone, pour lequel les donnĂ©es disponibles (mesures heure par heure pendantles annĂ©es 1995 Ă  1998) Ă©taient fiables. Les donnĂ©es des annĂ©es 1995 Ă  1997 ont Ă©tĂ© utilisĂ©es pourl’apprentissage, celles de l’annĂ©e 1998 pour le test. L’objectif est de prĂ©voir, 24 heures Ă  l’avance, si lapollution dĂ©passera le seuil d’alerte (180 ”g/m3 au moment oĂč l’étude a Ă©tĂ© effectuĂ©e).

Deux possibilitĂ©s peuvent ĂȘtre envisagĂ©es :‱ la classification : classer la journĂ©e Ă  venir en « polluĂ©e » ou « non polluĂ©e » (journĂ©e avec dĂ©passement

du seuil ou sans dĂ©passement), en fonction des donnĂ©es disponibles Ă  16 h GMT ;‱ la prĂ©vision : prĂ©dire la concentration en ozone, 24 heures Ă  l’avance.

Comme la dĂ©finition de la classe « polluĂ©e » dĂ©pend de la dĂ©finition du seuil, et que celle-ci peut varier enfonction de donnĂ©es administratives, politiques ou Ă©conomiques, il nous a paru prĂ©fĂ©rable d’éliminer laclassification au profit de la seconde approche, qui reste valable indĂ©pendamment de toute autre considĂ©-ration. On a donc Ă©laborĂ© un modĂšle neuronal « boĂźte noire » qui, Ă  partir des donnĂ©es disponibles Ă  14 hGMT, prĂ©dit les concentrations qui seront mesurĂ©es au cours des 24 heures suivantes.

Le processus Ă©tant essentiellement dynamique, avec des phĂ©nomĂšnes qui varient selon la pĂ©riode consi-dĂ©rĂ©e (jour ou nuit), il a semblĂ© naturel d’utiliser 24 rĂ©seaux de neurones qui effectuent tous la prĂ©dictionune heure Ă  l’avance, en fonction des donnĂ©es disponibles Ă  14 h GMT.

L’idĂ©e la plus simple consistait Ă  utiliser un modĂšledynamique non linĂ©aire (rĂ©seau de neuronesbouclĂ©). NĂ©anmoins, il est apparu que cette solutionrisquait de ne pas ĂȘtre adaptĂ©e, car une Ă©tude prĂ©li-minaire des donnĂ©es montre que les facteurs perti-nents pour la prĂ©vision de la pollution dĂ©pendent del’heure considĂ©rĂ©e ; or, dans un rĂ©seau bouclĂ©, lesentrĂ©es exogĂšnes sont Ă©videmment les mĂȘmesquelle que soit l’heure. Afin de pallier cet inconvĂ©-nient, un ensemble de 24 rĂ©seaux de neurones encascade a Ă©tĂ© conçu et rĂ©alisĂ©, chaque rĂ©seau Ă©tantspĂ©cialisĂ© dans la prĂ©diction correspondant Ă  unetranche horaire (figure 1-47) : le rĂ©seau N prĂ©dit laconcentration mesurĂ©e par le capteur considĂ©rĂ© Ă l’heure 14+N GMT ; pour chaque rĂ©seau, lesentrĂ©es candidates sont :‱ les prĂ©dictions des N – 1 rĂ©seaux prĂ©cĂ©dents ;‱ l’ensemble des donnĂ©es fournies, soit :

1 – les mesures des capteurs NO et NO2 Ă  14 hGMT,2 – la tempĂ©rature Ă  14 h le jour J,3 – la tempĂ©rature maximale mesurĂ©e le jour J,et la tempĂ©rature maximale prĂ©dite par MĂ©tĂ©o-France pour le jour J + 1,4 – les gĂ©opotentiels le jour J,5 – la sĂ©rie temporelle des mesures de la concen-tration en ozone avant 14 h.

PRÉDICTEUR+1 h

Série des mesures de O3 Géopotentiels NO et NO2 Températures jours J et J +1

PRÉDICTEUR+2 h

PRÉDICTEUR+3 h

PRÉDICTEUR+24 h

Figure 1-47. Structure d’un rĂ©seau de neurones pour la prĂ©vision, 24 heures Ă  l’avance, des pics de pollution par l’ozone

Page 57: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 157

Pour chaque réseau, une sélection des entrées qui figurent parmi la liste ci-dessus est effectuée selon lesméthodes décrites dans le chapitre 2. Ainsi, les entrées exogÚnes de chaque réseau sont adaptées à latranche horaire considérée.

Cette approche peut Ă©videmment ĂȘtre adaptĂ©e Ă  tout autre jeu de donnĂ©es, et elle offre la possibilitĂ© d’intĂ©-grer des connaissances expertes, lorsque celles-ci seront disponibles, dans un modĂšle semi-physique.

L’erreur de prĂ©diction moyenne sur l’annĂ©e de test (1998) est de 23 ”g/m3. La figure 1-48 illustre la diffi-cultĂ© du problĂšme : en dĂ©pit d’une prĂ©diction trĂšs prĂ©cise pendant 20 heures, soit presque toute la journĂ©e,celle-ci apparaĂźt comme un « faux nĂ©gatif » car la mesure dĂ©passe (de trĂšs peu) le seuil d’alerte. Il estprobable que, lorsque de tels outils seront opĂ©rationnels (ce qui n’est pas le cas de l’application prĂ©sentĂ©eici au moment oĂč ces lignes sont rĂ©digĂ©es), de nouvelles procĂ©dures d’alerte, plus subtiles que le simpledĂ©passement d’un seuil, pourront ĂȘtre mises en Ɠuvre.

ModĂ©lisation de la relation pluie-hauteur d’eau dans un collecteur d’eau pluviale

La « Direction de l’eau et de l’assainissement » du dĂ©partement de Seine-Saint-Denis a dĂ©veloppĂ© un systĂšmesophistiquĂ© de mesure des niveaux d’eau dans le systĂšme de collecte des eaux pluviales, et a procĂ©dĂ© Ă  desmesures systĂ©matiques des chutes de pluie et des niveaux d’eau correspondants. L’objectif est une utilisationoptimale du rĂ©seau et une bonne anticipation des difficultĂ©s qui peuvent rĂ©sulter de pluies importantes. La fiabi-litĂ© du systĂšme dĂ©pend donc largement de la fiabilitĂ© des capteurs des niveaux d’eau dans les collecteurs : il estdonc important de pouvoir dĂ©tecter automatiquement qu’un capteur est en panne [ROUSSEL et al. 2001].

Comme nous l’avons indiquĂ© plus haut, lacapacitĂ© des rĂ©seaux de neurones Ă  modĂ©-liser avec prĂ©cision des phĂ©nomĂšnes nonlinĂ©aires leur confĂšre une place impor-tante dans les systĂšmes de dĂ©tection dedysfonctionnements : si l’on dispose d’unmodĂšle prĂ©cis du fonctionnement normal,et que l’on observe une diffĂ©rence signifi-cative entre les prĂ©dictions du modĂšle etles mesures effectuĂ©es, on peut enconclure que le systĂšme est en fonction-nement anormal, ou, dans l’exempledĂ©crit ici, que le capteur considĂ©rĂ© est enpanne.

0

180”g/m 3

Mesure

14 h 19 h 24 h 05 h 10 h 14 h

Con

cent

ratio

n en

ozo

ne

Heure GMT

ModĂšle

Figure 1-48. Concentra-tions en ozone mesurée et prévue pour une journée de 1998 (« faux négatif »)

-0.12

-0.1

-0.08

-0.06

-0.04

-0.02

0

0.02

0.04

1 2 3 4 5 6 7 8 9 10 11 12 13

Jour

Err

eur

moy

enne

de

mod

Ă©lis

atio

n

DĂ©rive

Fonctionnement normal

Figure 1-49. DĂ©tection de panne de capteur dans un collecteur d’eau pluviale

Page 58: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones58

Deux types de pannes doivent ĂȘtre considĂ©rĂ©s :‱ capteur bloquĂ© (fournissant une mesure constante),‱ capteur subissant une dĂ©rive lente.

Ces deux types de pannes peuvent ĂȘtres dĂ©tectĂ©s en utilisant des rĂ©seaux de neurones bouclĂ©s, notammentdes modĂšles NARMAX (prĂ©sentĂ©s en dĂ©tail dans les chapitres 2 et 4). Ainsi, la figure 1-49 montre claire-ment la diffĂ©rence de comportement de l’erreur de modĂ©lisation lorsque le capteur est en fonctionnementnormal et lorsqu’il dĂ©rive.

Une application en robotique mobile : le pilotage automatique d’un vĂ©hicule autonomeCommander un processus, c’est dĂ©terminer les commandes Ă  lui appliquer, afin de lui assurer un compor-tement donnĂ© (dĂ©fini par un cahier des charges), en dĂ©pit de perturbations.

L’exemple que nous prĂ©sentons ici est celui d’un vĂ©hicule Mercedes 4 × 4 (baptisĂ© REMI), Ă©quipĂ©, par lasociĂ©tĂ© SAGEM, des capteurs et actionneurs nĂ©cessaires pour que le vĂ©hicule puisse ĂȘtre autonome.Commander ce processus, c’est envoyer aux actionneurs du volant, de l’accĂ©lĂ©rateur et du frein, lessignaux de commande nĂ©cessaires pour que le vĂ©hicule suive une trajectoire dĂ©finie Ă  l’avance, avec unprofil de vitesse dĂ©terminĂ© Ă  l’avance, en dĂ©pit des perturbations telles que la pente de la route, son dĂ©vers,les bourrasques de vent, des dĂ©rapages Ă©ventuels, etc.

Les rĂ©seaux de neurones sont de bons candidats pour ĂȘtre des Ă©lĂ©ments de systĂšmes de commande deprocessus non linĂ©aires. En effet, nous avons vu les capacitĂ©s des rĂ©seaux de neurones Ă  rĂ©aliser desmodĂšles, « boĂźtes noires » ou aidĂ©s de connaissances physiques. Or, pour ĂȘtre en mesure d’élaborer unsystĂšme de commande pour un processus, il faut gĂ©nĂ©ralement disposer d’un modĂšle de ce dernier ; lesrĂ©seaux de neurones interviennent donc dans les systĂšmes de commande non linĂ©aires comme modĂšles duprocessus, soit pendant la phase d’apprentissage, soit en tant qu’élĂ©ment du systĂšme de commande lui-mĂȘme (commande avec modĂšle interne, voir chapitre 5). Par ailleurs, l’élaboration du signal decommande (par exemple, l’angle selon lequel il faut faire tourner le volant, et la vitesse angulaire aveclaquelle il faut le faire tourner) Ă  partir de l’information de consigne (le cap que doit suivre le vĂ©hicule)implique gĂ©nĂ©ralement la rĂ©alisation d’une fonction non linĂ©aire : les rĂ©seaux de neurones peuvent doncavantageusement assurer cette fonction, qui est celle du correcteur.

Le vĂ©hicule REMI est un 4 × 4 expĂ©rimental Ă©quipĂ© d’actionneurs (moteur Ă©lectrique pour faire tourner levolant, actionneur hydraulique pour le circuit de freinage, moteur Ă©lectrique pour le papillon d’admissiond’air), et de capteurs de deux types :‱ des capteurs qui permettent de connaĂźtre l’état du vĂ©hicule (capteurs proprioceptifs) : odomĂštres sur les

roues, capteur angulaire sur le volant et le papillon d’admission d’air, capteur hydraulique sur le circuitde freinage ;

‱ des capteurs avec lesquels on peut connaĂźtre la position du vĂ©hicule par rapport au monde extĂ©rieur(capteurs extĂ©roceptifs) : une centrale inertielle.

Le systĂšme de navigation et de pilotage est constituĂ© des Ă©lĂ©ments suivants :‱ un module de planification, qui, Ă  partir de l’objectif Ă  atteindre et des contraintes (routes), dĂ©termine la

trajectoire que doit suivre le vĂ©hicule, et le profil de vitesse Ă  respecter durant le trajet ;‱ un module de guidage, qui Ă©labore les consignes de cap et de vitesse ;‱ un module de pilotage, qui dĂ©termine les positions souhaitĂ©es pour les actionneurs ;‱ un module de commande des actionneurs eux-mĂȘmes.

Dans cette structure, les réseaux de neurones interviennent au niveau du pilotage, pour déterminer lesactions souhaitables en fonction des consignes de cap et de vitesse [RIVALS et al. 1994] [RIVALS 1995].

Page 59: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 159

L’application a nĂ©cessitĂ© la conception et la rĂ©alisation de deux systĂšmes de commande destinĂ©s Ă  rĂ©aliserdeux tĂąches :‱ la commande du volant, pour maintenir le vĂ©hicule sur sa trajectoire : un rĂ©gulateur neuronal de la position

a Ă©tĂ© rĂ©alisĂ©, qui permet une erreur latĂ©rale maximale de 40 cm, pour des courbures jusqu’à 0,1 m-1, et desdĂ©vers jusqu’à 30 %, sur route et en tout-terrain ; cet asservissement a mis en Ɠuvre, en certains de sesĂ©lĂ©ments, une modĂ©lisation semi-physique ;

‱ la commande de l’accĂ©lĂ©rateur et du frein, pour respecter le profil de vitesse imposĂ© par le module de guidage.

Il faut noter que les divers rĂ©seaux de neurones mis en jeu dans cette application, qu’ils jouent le rĂŽle demodĂšles ou de correcteurs, sont tous de trĂšs petite taille (moins d’une dizaine de neurones cachĂ©s). Leurmise en Ɠuvre en temps rĂ©el n’a nĂ©cessitĂ© aucun matĂ©riel spĂ©cialisĂ© : ils ont Ă©tĂ© rĂ©alisĂ©s sous forme unique-ment logicielle, exĂ©cutĂ©s sur une carte Ă  microprocesseur standard qui remplissait diverses autres fonctions.

Conclusion

Dans ce chapitre, nous avons exposĂ© les Ă©lĂ©ments essentiels qui permettent de comprendre pourquoi, etdans quels cas, il est avantageux de mettre en Ɠuvre des rĂ©seaux de neurones. En prĂ©sentant quelquesapplications typiques, nous avons tentĂ© de montrer, concrĂštement, ce que l’ingĂ©nieur peut attendre decette technique.

Avant d’aller plus loin, il est sans doute utile de rappeler les points fondamentaux qu’il convient detoujours garder Ă  l’esprit lorsque l’on cherche Ă  mettre en Ɠuvre des rĂ©seaux de neurones :‱ les rĂ©seaux de neurones sont utilisĂ©s comme outils statistiques, qui permettent d’ajuster des fonctions non

linĂ©aires trĂšs gĂ©nĂ©rales Ă  des ensembles de points ; comme toute mĂ©thode statistique, l’utilisation derĂ©seaux de neurones nĂ©cessite que l’on dispose de donnĂ©es suffisamment nombreuses et reprĂ©sentatives ;

‱ les rĂ©seaux de neurones Ă  apprentissage supervisĂ© sont des approximateurs parcimonieux, qui permettentde modĂ©liser des phĂ©nomĂšnes statiques (rĂ©seaux non bouclĂ©s) et dynamiques (rĂ©seaux bouclĂ©s) ;

‱ les rĂ©seaux de neurones Ă  apprentissage supervisĂ© peuvent constituer d’excellents classifieurs, dont lesperformances peuvent approcher celles du classifieur bayĂ©sien thĂ©orique ; nĂ©anmoins, pour la classifi-cation en vue de la reconnaissance de formes, la reprĂ©sentation choisie pour les formes Ă  reconnaĂźtredĂ©termine souvent, d’une maniĂšre dĂ©cisive, la performance globale du systĂšme ; dans ce contexte, lesrĂ©seaux de neurones Ă  apprentissage non supervisĂ© peuvent apporter des Ă©lĂ©ments prĂ©cieux pour ladĂ©termination d’une bonne reprĂ©sentation des formes ;

‱ il est toujours souhaitable, et souvent possible, d’utiliser, pour la conception du rĂ©seau, les connais-sances mathĂ©matiques dont on dispose sur le phĂ©nomĂšne Ă  modĂ©liser ; les rĂ©seaux de neurones ne sontpas nĂ©cessairement des « boĂźtes noires ».

Les chapitres qui suivent reprennent en dĂ©tail les Ă©lĂ©ments exposĂ©s plus haut : le lecteur est invitĂ© Ă  se reporterĂ  l’avant-propos et guide de lecture pour naviguer dans cet ouvrage en fonction de ses centres d’intĂ©rĂȘt.

Compléments théoriques et algorithmiques

Quelques types de neurones usuelsOn peut distinguer deux types de neurones, en fonction de la maniĂšre dont interviennent leurs paramĂštres.

Page 60: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones60

Les neurones à entrées paramétrées

Les neurones les plus frĂ©quemment utilisĂ©s sont des neurones Ă  entrĂ©es paramĂ©trĂ©es. Pour cette catĂ©goriede neurones, un paramĂštre est associĂ© Ă  chaque entrĂ©e du neurone. La sortie d’un neurone Ă  n entrĂ©es {xi},i = 0 Ă  n–1, s’exprime donc sous la forme y = f ({xi, wi}, i = 0 Ă  n–1. Le plus souvent, la fonction f est lacomposition de deux opĂ©rations :‱ le calcul du « potentiel » du neurone, qui est la somme des entrĂ©es du neurone, pondĂ©rĂ©es par les

paramĂštres :

‱ le calcul d’une fonction non linĂ©aire du potentiel, dite « fonction d’activation » ; cette fonction est gĂ©nĂ©ra-lement en forme de « s », d’oĂč le nom gĂ©nĂ©rique de « sigmoĂŻde » ; on utilise toujours une fonction symĂ©-trique par rapport Ă  0, telle que la fonction tangente hyperbolique ou Arctangente, sauf si desconnaissances spĂ©ciales sur le problĂšme conduisent Ă  utiliser une autre fonction, mieux adaptĂ©e Ă  celui-ci.

RemarqueLes entrées du neurone comprennent généralement une entrée particuliÚre, appelée « biais », qui a une valeur constante égale à 1.

On lui attribue traditionnellement le numĂ©ro zĂ©ro, si bien que le potentiel peut ĂȘtre rĂ©crit sous la forme :

Ainsi, la sortie du neurone a pour expression : La figure 1-50 reprĂ©sente la sortie d’un neurone Ă  3 entrĂ©es (x0=1,

x1, x2) muni des paramùtres w = 0, w1 = 1, w2 = – 1.

Mentionnons deux variations sur cetype de neurones :‱ les neurones « d’ordre supĂ©rieur », dont

le potentiel n’est pas une fonction affinedes entrĂ©es, mais une fonction poly-nomiale ; ce sont les ancĂȘtres des« machines Ă  vecteurs supports »(Support Vector Machines ou SVM)utilisĂ©s pour la classification et dĂ©critsdans le chapitre 6 « La discrimina-tion » ;

‱ les « neurones de MacCulloch etPitts », ou « sĂ©parateurs linĂ©aires Ă seuil », ou encore « perceptrons »,qui sont les ancĂȘtres des neuronesutilisĂ©s actuellement ; leur emploipour la discrimination sera largementdĂ©veloppĂ© dans le chapitre 6.

Les neurones à non-linéarité paramétrée

Les paramĂštres de ces neurones sont attachĂ©s Ă  la non-linĂ©aritĂ© de ceux-ci : ils interviennent directementdans la fonction f : ainsi, cette derniĂšre peut ĂȘtre une « fonction radiale » (RBF pour Radial Basis Func-tion), ou encore une ondelette. Exemple : fonction radiale (RBF gaussienne isotrope) :

v = wixi∑i = 0

n – 1

,

y = f w0 + wixi∑j = 1

n

.

y = f w0 + wixi∑i = 1

n – 1

.

-5

0

5

-5

0

5-1

-0.5

0

0.5

1

Figure 1-50. Sortie d’un neurone Ă  3 entrĂ©es {x0=1, x1, x2} munies des poids {w0=0, w1=+1, w2=–1}, dont la fonction d’activation est une tangente hyperbolique : y=th(x1 – x2).

Page 61: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 161

Les paramĂštres {wi, i = 1 Ă  n} sont les coordonnĂ©es du centre de la gaussienne dans l’espace des entrĂ©es,et le paramĂštre wn+1 est son Ă©cart-type. La figure 1-51 reprĂ©sente une RBF gaussienne isotrope, centrĂ©e Ă l’origine, d’écart-type Ă©gal Ă  1/ .

RemarqueLes fonctions radiales de basetirent leur nom de ce qu’ellesforment, si elles sont convenable-ment choisies, une base de fonc-tions. Dans la pratique desrĂ©seaux de neurones, les RBF nesont jamais choisies de façon Ă former une base ; nous utiliseronsdonc simplement les termes de« fonction radiale » (nĂ©anmoins,nous suivrons l’usage enemployant l’abrĂ©viation RBF).

Figure 1-51. RBF gaussienne isotrope y = exp [ – (x1

2 + x22)] :

w0 = w1 = 0, w3 = 1/

L’algorithme de Ho et KashyapL’algorithme de Ho et Kashyap permet de dĂ©terminer, en un nombre fini d’itĂ©rations, si deux ensemblesd’exemples sont linĂ©airement sĂ©parables ; dans l’affirmative, cet algorithme fournit une solution (parmiune infinitĂ© de solutions possibles). Contrairement Ă  certains algorithmes dĂ©veloppĂ©s dans le chapitre 6, ilne fournit pas une solution optimisĂ©e. Son intĂ©rĂȘt essentiel est donc de dĂ©terminer si deux classes sontlinĂ©airement sĂ©parables, ou si elles ne le sont pas ; dans l’affirmative, on utilisera, pour trouver une bonnesolution, un des algorithmes prĂ©sentĂ©s dans le chapitre 6.

ConsidĂ©rons deux ensembles d’exemples, appartenant Ă  deux classes A et B, en nombre na et nb ; si lesexemples sont dĂ©crits par n descripteurs, chacun d’eux peut ĂȘtre reprĂ©sentĂ© par un vecteur dans un espacede dimension n. On dĂ©signe par xk

a le vecteur représentatif du k-iÚme exemple de la classe a (k = 1 à na),et par w le vecteur des paramÚtres du séparateur linéaire ; si un tel séparateur existe, il doit obéir auxconditions :

xka w > 0 pour tout k,

xkb w < 0 pour tout k.

Soit M la matrice dont les lignes sont les vecteurs représentatifs des exemples de A et les opposés desvecteurs représentatifs des vecteurs de B :

(oĂč l’exposant T dĂ©signe la transposition). Alors un sĂ©parateur linĂ©aire existe si et seulement si il existe unvecteur w tel queM w > 0

y = exp –

xi – wi2∑

i = 1

n

2 wn + 12

.

2

-2-1

01

2

-2

-1

0

1

20

0.2

0.4

0.6

0.8

1

2

M = x1a, x2

a, ..., xna

a , – x1b, – x2

b, ..., – xnb

b T

Page 62: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones62

soit encore s’il existe un vecteur y > 0 et un vecteur w tels que M w = y.

On a alors w = M* y, oĂč M*est la matrice pseudo-inverse de la matrice M : M* = MT (M MT)– 1, qui peutĂȘtre calculĂ©e par la mĂ©thode de Choleski [PRESS 1992].

L’algorithme de Ho et Kashyap est le suivant :

Cet algorithme converge en un nombre fini d’itĂ©rations.

BibliographieANTONIADIS A., BERRUYER J., CARMONA R. [1992], Régression non linéaire et applications, Economica.

BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEETransactions on Information Theory, 39, p. 930-945.

BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,Neural Information Processing Systems, p. 52-61.

BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-tion, 10th IFAC Symposium on Identification, Copenhague.

BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.

BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,p. 227-236 Springer.

BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,Complex Systems, 2, p. 321-355.

COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.

DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.

DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network designand performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-mation and Computer Sciences, 38, p. 586-594.

HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers andthe Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school, p. 159-172, Morgan Kaufmann.

HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;American Chemical Society.

Initialisation (itĂ©ration 0) : w(0) = M* y(0) oĂč y(0) est un vecteur positif quelconque

Itération i

α(i) = M* w(i) – y(i)y(i+1) = y(i) + ρ M* (α(i)+|α(i)|) oĂč ρ est un scalaire positif infĂ©rieur Ă  1w(i+1) = w(i) + ρ (α(i)+|α(i)|)Si α(i) = α(i+1) et y(i) < 0 alors les exemples ne sont pas linĂ©airement sĂ©parables.Si α(i) = α(i+1) et y(i) > 0 alors les exemples sont linĂ©airement sĂ©parables et w(i) est une solution.

Page 63: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones : pourquoi et pour quoi faire ?

CHAPITRE 163

HO E., KASHYAP R.L. [1965], An algorithm for linear inequalities and its applications, IEEE Transactionson Electronic Computers, 14, p. 683-688.

HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and frrdbackneural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.

HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal approxi-mators, Neural Networks, 2, p. 359-366.

HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping andits derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.

HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,p. 251-257.

KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicatesystems, Journal of the American Ceramics Society, 74, p. 1833-1840.

KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure forbuilding and training a neural network, Neurocomputing : algorithms, architectures and applications, p.41-50, Springer.

KNERR S. [1991], Un méthode nouvelle de création automatique de réseaux de neurones pour la clas-sification de données : application à la reconnaissance de chiffres manuscrits, ThÚse de Doctorat del'Université Pierre et Marie Curie, Paris.

KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks withSingle-layer Training, IEEE Transactions on Neural Networks, 3, p. 962-968.

LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.

MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.

McCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletinof Mathematical Biophysics, 5, p. 115-133.

MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unifiedframework for gradient algorithms used for filter adaptation and neural network training, InternationalJournal of Circuit Theory and Applications, 20, p. 159-200.

MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.

MONARI G. [1999], Sélection de modÚles non linéaires par leave-one-out ; étude théorique et applicationdes réseaux de neurones au procédé de soudage par points, ThÚse de Doctorat de l'Université Pierre etMarie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.

MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, NeuralComputation, 1, p. 281-294.

NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks andnon-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.

OUKHELLOU L., AKNIN P. [1997], Modified Fourier Descriptors : A new parametrization of eddy currentsignatures applied to the rail defect classification, III International workshop on advances in signalprocessing for non destructive evaluation of materials.

OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-tion: application to the classification of non destructive testing signatures, European SIgnal ProcessingCOnference (EUSIPCO'98).

Page 64: Les réseaux de neurones : pourquoi et pour quoi faire · PDF fileLes réseaux de neurones : pourquoi et pour quoi faire ? C HAPITRE 1 3 Par exemple, la sortie d’un neurone RBF à

Les réseaux de neurones64

OUSSAR Y. [1998], RĂ©seaux d’ondelettes et rĂ©seaux de neurones pour la modĂ©lisation statique et dyna-mique de processus, ThĂšse de Doctorat de l'UniversitĂ© Pierre et Marie Curie, Paris. Disponible sur le sitehttp://www.neurones.espci.fr.

OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-ting, 34, p. 131-143.

OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, NeuralNetworks, vol. 14, p. 1161-1172.

PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application ofknowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-tific.

POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms forapproximation, p. 143-167.

PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : theart of scientific computing, Cambridge University Press.

PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.

PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from dryingexperiments. AIChE Journal, 43, p. 1925-1934.

RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and intel-ligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles, p. 137-142

RIVALS I. [1995], ModĂ©lisation et commande de processus par rĂ©seaux de neurones : application au pilo-tage d’un vĂ©hicule autonome, ThĂšse de Doctorat de l’UniversitĂ© Pierre et Marie Curie, Paris – Disponiblesur le site http://www.neurones.espci.fr.

ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], ModĂ©lisation d’un processus dynamique Ă  l’aidede rĂ©seaux de neurones bouclĂ©s. Application Ă  la modĂ©lisation de la relation pluie-hauteur d’eau dans unrĂ©seau d’assainissement et Ă  la dĂ©tection de dĂ©faillances de capteurs, Innovative technologies in urbandrainage, 1, 919-926, G.R.A.I.E.

SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and MathematicalStatistics, John Wiley & Sons.

SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.

STOPPIGLIA H. [1997], MĂ©thodes statistiques de sĂ©lection de modĂšles neuronaux ; applications finan-ciĂšres et bancaires, ThĂšse de Doctorat de l’UniversitĂ© Pierre et Marie Curie, Paris. Disponible sur le sitehttp://www.neurones.espci.fr.

STRICKER M. [2000], Réseaux de neurones pour le traitement automatique du langage : conception etréalisation de filtres d'informations, ThÚse de Doctorat de l'Université Pierre et Marie Curie, Paris. Dispo-nible sur le site http://www.neurones.espci.fr.

STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networkswith few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.

VAPNIK V. [1995], The nature of statistical learning theory, Springer.

WOLINSKI F., VICHOT F., STRICKER M. [2000], Using learning-based filters to detect rule-based filteringobsolescence, ConfĂ©rence sur la Recherche d’Information AssistĂ©e par Ordinateur, RIAO'2000, Paris.

ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.


Recommended