1
Les réseaux de neurones :
pourquoi et pour quoi faire ?
Lors de lâĂ©mergence dâune nouvelle technique, lâingĂ©nieur se demande naturellement en quoi elle peut luiĂȘtre utile. Si elle est dotĂ©e dâun nom plus mĂ©taphorique que scientifique â ce qui est Ă©videmment le cas pourles rĂ©seaux de neurones â, la rĂ©ponse Ă cette question doit ĂȘtre particuliĂšrement prĂ©cise et motivĂ©e. Câest laraison pour laquelle ce chapitre est consacrĂ© Ă un exposĂ© des arguments thĂ©oriques et pratiques qui justi-fient lâutilisation des rĂ©seaux de neurones, suivi de la prĂ©sentation dâapplications exemplaires qui, bienquâelles soient en apparence trĂšs diverses, reposent toutes sur les mĂȘmes principes. La mise en Ćuvre desrĂ©seaux de neurones est gĂ©nĂ©ralement simple ; la tentation peut ĂȘtre grande dâappliquer cette techniquedâune maniĂšre irrĂ©flĂ©chie ou inadaptĂ©e, ce qui ne peut conduire quâĂ des dĂ©ceptions. VoilĂ pourquoi on necherchera pas Ă expliquer en dĂ©tail, dans ce chapitre,
comment
on met en Ćuvre les rĂ©seaux de neurones,mais plutĂŽt
pourquoi
ils peuvent ĂȘtre mis en Ćuvre de prĂ©fĂ©rence Ă dâautres outils, et
dans quel but.
Nous commencerons par introduire les dĂ©finitions essentielles : nous expliquerons ce quâest un neurone(formel), ce quâest un rĂ©seau de neurones, ce quâest lâapprentissage des rĂ©seaux de neurones (nous prĂ©ci-serons notamment les diffĂ©rences entre lâapprentissage supervisĂ© et lâapprentissage non supervisĂ©), etnous introduirons la distinction fondamentale entre rĂ©seaux de neurones non bouclĂ©s et rĂ©seaux deneurones bouclĂ©s (ou «
récurrents
»).
Nous pourrons alors introduire la propriĂ©tĂ© fondamentale des rĂ©seaux de neurones Ă apprentissagesupervisĂ© : lâapproximation non linĂ©aire parcimonieuse. Nous montrerons que cette propriĂ©tĂ© fait desrĂ©seaux de neurones dâexcellents outils de
modélisation non linéaire par apprentissage
. La notion
dâapprentissage
apparaĂźtra alors de maniĂšre trĂšs naturelle, et nous insisterons sur le fait que ce terme doitĂȘtre utilisĂ© avec prĂ©caution, car lâapprentissage des rĂ©seaux de neurones nâa rien Ă voir avec lâapprentis-sage au sens de la psychologie ou de lâintelligence artificielle : la mise en Ćuvre des rĂ©seaux de neuronesse rĂ©vĂ©lera, en grande partie, comme constituant une extension
non linéaire
de méthodes
statistiques
bienconnues, ce qui suffit Ă justifier la trĂšs grande Ă©tendue de leur champ dâapplication.
Nous introduirons ensuite les principes de mise en Ćuvre des rĂ©seaux de neurones Ă apprentissage : nousferons la liste des conditions qui doivent ĂȘtre replies pour que la rĂ©ussite dâune application soit garantie.
Nous insisterons particuliĂšrement sur lâutilisation des rĂ©seaux de neurones Ă apprentissage supervisĂ© pourla classification, qui prĂ©sente des particularitĂ©s importantes. Nous prĂ©senterons, dâune maniĂšre gĂ©nĂ©rale,le problĂšme de la classification (ou discrimination), sous son aspect probabiliste («
bayésien
») ; noussoulignerons le fait que les rĂ©seaux de neurones ne doivent pas ĂȘtre utilisĂ©s pour rĂ©soudre nâimporte quelproblĂšme de classification, et nous prĂ©ciserons le domaine dâexcellence des rĂ©seaux classifieurs. Nousproposerons une mĂ©thodologie gĂ©nĂ©rale de conception dâun classifieur neuronal.
Nous terminerons ce chapitre par la prĂ©sentation de diverses applications qui sont destinĂ©es Ă montrer lavariĂ©tĂ© des domaines oĂč les rĂ©seaux de neurones sont susceptibles dâapporter des solutions efficaces etĂ©lĂ©gantes : reconnaissance de formes, contrĂŽle non destructif, filtrage dâinformations textuelles, bio-
Les réseaux de neurones
2
ingĂ©nierie, formulation de matĂ©riaux nouveaux, modĂ©lisation de procĂ©dĂ©s industriels, contrĂŽle de lâenvi-ronnement, robotique, etc. Dâautres applications (interprĂ©tation de spectres, classification dâimages satel-litaires, classification de signaux de sonar, commande de processus) seront mentionnĂ©es ou dĂ©crites endĂ©tail dans les chapitres suivants.
Les réseaux de neurones : définitions et propriétés
Suivant en cela lâusage, nous utiliserons frĂ©quemment, par abus de langage, les termes de «
neuronelinéaire
» pour dĂ©signer une fonction paramĂ©trĂ©e linĂ©aire ou affine (qui nâest donc pas bornĂ©e).
Les variables sur lesquelles opĂšre le neurone sont habituellement dĂ©signĂ©essous le terme dâentrĂ©es du neurone, et la valeur de la fonction sous celui desortie ; il est commode de reprĂ©senter graphiquement un neurone commeindiquĂ© sur la figure 1-1. Cette reprĂ©sentation est le reflet de lâinspirationbiologique qui a Ă©tĂ© Ă lâorigine de la premiĂšre vague dâintĂ©rĂȘt pour lesneurones formels, dans les annĂ©es 1940 Ă 1970 [McC
ULLOCH
et al.
1943],[M
INSKY
et al.
1969].
Figure 1-1. Un neurone réalise une fonction non linéaire bornée y = f (x
1
, x
2
,... x
n
; w
1
, w
2
, ... w
p
) oĂč les {x
i
} sont les variables et les {w
j
} sont des paramĂštres.
La fonction
f
peut ĂȘtre paramĂ©trĂ©e de maniĂšre quelconque. Deux types de paramĂ©trages sont frĂ©quemmentutilisĂ©s :âą Les paramĂštres sont attachĂ©s aux entrĂ©es du neurone : la sortie du neurone est une fonction non linĂ©aire
dâune combinaison des entrĂ©es {
x
i
} pondérées par les paramÚtres {
w
i
}, qui sont alors souvent désignéssous le nom de «
poids
» ou, en raison de lâinspiration biologique des rĂ©seaux de neurones, «
poidssynaptiques
». ConformĂ©ment Ă lâusage (Ă©galement inspirĂ© par la biologie), cette combinaison linĂ©airesera appelĂ©e «
potentiel
» dans tout cet ouvrage. Le potentiel
v
le plus frĂ©quemment utilisĂ© est la sommepondĂ©rĂ©e, Ă laquelle sâajoute un terme constant ou «
biais
» :
La fonction
f
est appelée
fonction dâactivation
. Pour des raisons que nous exposerons plus bas, il estrecommandĂ© dâutiliser pour
f
une fonction « sigmoĂŻde » (câest-Ă -dire une fonction en forme de «
s
»)symĂ©trique par rapport Ă lâorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,dans la trĂšs grande majoritĂ© des applications qui seront dĂ©crites dans ce chapitre, la sortie dâun neuronea pour Ă©quation :
⹠Les paramÚtres sont attachés à la non-linéarité du neurone : ils interviennent directement dans la fonc-tion
f
; cette derniĂšre peut ĂȘtre une
fonction radiale
ou RBF (en anglais
Radial Basis Function
), ouencore une ondelette ; les premiĂšres tirent leur origine de la thĂ©orie de lâapproximation [P
OWELL
1987],les secondes de la théorie du signal [M
ALLAT
1989].
DĂ©finition
Un neurone est une fonction algébrique non linéaire, paramétrée, à valeurs bornées.
y
x1 x2 xn
f
v = w0 + wi xiâi = 1
n â 1
y = th w0 + wi xiâi = 1
n â 1
Les réseaux de neurones : pourquoi et pour quoi faire ?
C
HAPITRE
1
3
Par exemple, la sortie dâun neurone RBF Ă non-linĂ©aritĂ© gaussienne a pour Ă©quation :
oĂč les paramĂštres
w
i
,
i
= 1 Ă
n
sont les coordonnées du centre de la gaussienne, et
w
n
+ 1
est son Ă©cart-type.
Dans les complĂ©ments thĂ©oriques et algorithmiques, en fin de chapitre, nous prĂ©sentons dâautres exemplesde neurones.
La diffĂ©rence pratique essentielle entre les deux types de neurones que nous venons dâintroduire est lasuivante : les neurones tels que les RBF ou les ondelettes ont des non-linĂ©aritĂ©s
locales
, qui tendent verszĂ©ro dans toutes les directions de lâespace des entrĂ©es ; leur zone dâinfluence est donc limitĂ©e danslâespace, ce qui nâest pas le cas des neurones Ă potentiel Ă fonction dâactivation sigmoĂŻde.
Les réseaux de neurones
Comme nous venons de le voir, un neurone rĂ©alise simplement une fonction non linĂ©aire, paramĂ©trĂ©e, deses variables dâentrĂ©e. LâintĂ©rĂȘt des neurones rĂ©side dans les propriĂ©tĂ©s qui rĂ©sultent de leur association enrĂ©seaux, câest-Ă -dire de la
composition
des fonctions non linéaires réalisées par chacun des neurones.
On distingue deux types de réseaux de neurones : les réseaux non bouclés et les réseaux bouclés.
Les réseaux de neurones non bouclés
â
Forme générale
Un réseau de neurones non bouclé est donc représenté graphiquement par un ensemble de neurones«
connectés
» entre eux, lâinformation circulant des entrĂ©es vers les sorties sans «
retour en arriĂšre
» :
silâon reprĂ©sente le rĂ©seau comme un graphe dont les nĆuds sont les neurones et les arĂȘtes les«
connexions
» entre ceux-ci, le graphe dâun rĂ©seau non bouclĂ© est
acyclique
: si lâon se dĂ©place dans lerĂ©seau, Ă partir dâun neurone quelconque, en suivant les connexions, on ne peut pas revenir au neurone dedĂ©part. La reprĂ©sentation de la topologie dâun rĂ©seau par un graphe est trĂšs utile, notamment pour lesrĂ©seaux bouclĂ©s, comme nous le verrons dans le chapitre 2. Les neurones qui effectuent le dernier calculde la composition de fonctions sont les
neurones de sortie
; ceux qui effectuent des calculs intermédiairessont les
neurones cachés
(voir figure 1-2)
.
Remarque
Le terme de
«
connexions
»
doit ĂȘtre pris dans un sens mĂ©taphorique : dans la trĂšs grande majoritĂ© des applications, les opĂ©rations effec-tuĂ©es par un rĂ©seau de neurones sont programmĂ©es (nâimporte quel langage de programmation convient), et exĂ©cutĂ©es par un ordinateurconventionnel. Le rĂ©seau de neurones nâest donc pas, en gĂ©nĂ©ral, un objet physique tel quâun circuit Ă©lectronique, et les
«
connexions
»
nâont pas de rĂ©alitĂ© matĂ©rielle ; nĂ©anmoins, le terme de connexion, issu des origines biologiques des rĂ©seaux de neurones, est passĂ© danslâusage, car il est commode quoique trompeur. Il a mĂȘme donnĂ© naissance au terme de
connexionnisme
.
DĂ©finition
Un réseau de neurones non bouclé réalise une (ou plusieurs) fonctions
algébriques
de ses entrées, parcomposition des fonctions réalisées par chacun des neurones.
y = exp â
xi â wi2â
i = 1
n
2 wn+12
Les réseaux de neurones
4
â
RĂ©seaux Ă couches
La seule contrainte sur le graphe des connexionsdâun rĂ©seau de neurones non bouclĂ© est quâil necontienne pas de cycle. On peut donc imaginerune grande variĂ©tĂ© de topologies pour ces rĂ©seaux.NĂ©anmoins, pour des raisons que nous dĂ©veloppe-rons plus bas, la trĂšs grande majoritĂ© des applica-tions des rĂ©seaux de neurones mettent en jeu des«
réseaux à couches
», dont un exemple est repré-senté sur la figure 1-2.
Forme générale
Ce réseau réalise
N
o
fonctions algĂ©briques desvariables dâentrĂ©es du rĂ©seau ; chacune dessorties est une fonction, rĂ©alisĂ©e par le neuronede sortie correspondant, des fonctions nonlinĂ©aires rĂ©alisĂ©es par les neurones cachĂ©s.
Il convient dâinsister sur le fait que le temps ne joue aucun rĂŽle fonctionnel dans un rĂ©seau de neuronesnon bouclĂ© : si les entrĂ©es sont constantes, les sorties le sont Ă©galement. Le temps nĂ©cessaire pour le calculde la fonction rĂ©alisĂ©e par chaque neurone est nĂ©gligeable et, fonctionnellement, on peut considĂ©rer cecalcul comme instantanĂ©. Pour cette raison, les rĂ©seaux non bouclĂ©s sont souvent appelĂ©s «
réseauxstatiques
», par opposition aux réseaux bouclés ou «
dynamiques
» que nous introduirons plus bas.
Terminologie
Les rĂ©seaux de neurones non bouclĂ©s Ă couches, dont les neurones cachĂ©s ont une fonction dâactivation sigmoĂŻde, sont souvent appelĂ©s
perceptrons multicouche
(ou MLP pour
Multi-Layer Perceptron
).
Ă proscrire
On voit souvent des textes qui mentionnent, outre la couche cachée et la couche de sortie, une
«
couche dâentrĂ©e
»
, voire des
«
neurones dâentrĂ©e
»
. Cette expression est trompeuse, car les entrĂ©es (reprĂ©sentĂ©es par des carrĂ©s sur la figure 1-2) ne sont pas desneurones : elles ne rĂ©alisent aucun traitement de lâinformation, puisquâelles ne font que transmettre les valeurs des variables.
Réseaux à une couche cachée de sigmoïdes et un neurone de sortie linéaire
Pour terminer cette prĂ©sentation des rĂ©seaux de neurones non bouclĂ©s, considĂ©rons le cas, trĂšs importanten pratique, des rĂ©seaux Ă une couche cachĂ©e Ă fonction dâactivation sigmoĂŻde et un neurone de sortielinĂ©aire (Figure 1-3).
DĂ©finition
Un réseau de neurones non bouclé à n entrées,
N
c
neurones cachés et
N
O
neurones de sortie réalise
NOfonctions non linĂ©aires de ses n variables dâentrĂ©e par composition des Nc fonctions algĂ©briques rĂ©ali-sĂ©es par ses neurones cachĂ©s.
x 1 x 2 x 3 x n
n entrées
NO neurones de sortie
Nc neurones cachés
.....
....
.... Figure 1-2. Un réseau de neurones à n entrées, une couche de Nc neurones cachés, et No neurones de sortie
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 15
Figure 1-3. Un rĂ©seau de neurones Ă n+1 entrĂ©es,une couche de Nc neurones cachĂ©s Ă fonction dâacti-vation sigmoĂŻde et un neurone de sortie linĂ©aire. Sasortie g(x, w) est une fonction algĂ©brique nonlinĂ©aire du vecteur des entrĂ©es x, de composantes 1,x1, x2, ..., xN, et du vecteur des paramĂštres w, dontles composantes sont les (n+1)Nc+Nc+1 paramĂš-tres du rĂ©seau.
La sortie de ce réseau a pour expression :
oĂč x est le vecteur des entrĂ©es (de dimension n+1), et w est le vecteur des paramĂštres, de dimension(n + 1)Nc+(Nc+1). Les neurones cachĂ©s sont numĂ©rotĂ©s de 1 Ă Nc et le neurone de sortie est numĂ©rotĂ©Nc+1. Par convention, le paramĂštre wij est relatif Ă la connexion allant du neurone j (ou de lâentrĂ©e j) versle neurone i.
Quâest-ce quâun rĂ©seau de neurones Ă zĂ©ro neurones cachĂ©s ?Un rĂ©seau de neurones non bouclĂ© sans neurone cachĂ©, avec un neurone de sortie linĂ©aire, rĂ©alise simplement une fonction linĂ©aire deses entrĂ©es. On peut donc considĂ©rer tout systĂšme linĂ©aire comme un rĂ©seau de neurones. Cela ne prĂ©sente cependant aucun intĂ©rĂȘt, nithĂ©orique ni pratique.
Les « termes directs »Si la relation que lâon cherche Ă rĂ©aliser entre les entrĂ©es et les sorties prĂ©sente une importante composante linĂ©aire, il peut ĂȘtre utiledâajouter, Ă la structure de rĂ©seau Ă couches qui vient dâĂȘtre dĂ©crite, des termes linĂ©aires, parfois appelĂ©s « termes directs », qui se tradui-sent, dans la reprĂ©sentation graphique du rĂ©seau, par des connexions directes entre les entrĂ©es et le neurone de sortie (figure 1-4). Parexemple, pour un rĂ©seau dont les fonctions dâactivation sont des sigmoĂŻdes, lâexpression de la sortie devient :
TrĂšs important
La sortie du réseau g(x, w) est une fonction linéaire des poids de la derniÚre couche de connexions (quirelient les Nc neurones cachés au neurone de sortie, numéroté Nc+1), et elle est une fonction non linéairedes paramÚtres de la premiÚre couche de connexions (qui relient les n+1 entrées du réseau aux Ncneurones cachés). Cette propriété a des conséquences importantes que nous examinerons plus bas.
Ce quâil faut retenir
La sortie dâun rĂ©seau de neurones non bouclĂ© est une fonction algĂ©brique non linĂ©aire de ses entrĂ©es etde ses paramĂštres
Nc neurones cachĂ©s Ă fonction dâactivation
sigmoĂŻde
n entrĂ©es variables+ un âbiaisâ
....
....
x 0 = 1 x 1 x 2 x n
1
Nc
Un neurone caché linéaireN
c+1
g (x , w )
g x, w = wNc + 1, i th wij xjâj=1
n
+ wj0âi = 1
Nc
+ wNc + 1, 0
= wNc + 1, i th wij xjâj=0
n
âi = 1
Nc
+ wNc+ 1, 0
g x, w = wNc+1,i th wij xjâj=0
n
âi = 1
Nc
+ wNc + 1,j xjâj = 0
n
Les réseaux de neurones6
Figure 1-4. ReprĂ©sentation graphique dâun rĂ©seau de neuronesĂ couches comportant des termes directs. Sa sortie g(x, w) dĂ©penddu vecteur des entrĂ©es x, de composantes 1, x1, x2, ..., xn, et du vecteurdes paramĂštres w, dont les composantes sont les paramĂštres du rĂ©seau.
RĂ©seaux de RBF (fonctions radiales de base) ou dâondelettes
Dans ce cas, comme nous lâavons indiquĂ© plus haut, les para-mĂštres relatifs aux RBF ne sont pas attachĂ©s aux connexions,mais Ă la non-linĂ©aritĂ© elle-mĂȘme ; en revanche, le neurone desortie (linĂ©aire) rĂ©alise une somme pondĂ©rĂ©e des sorties desneurones cachĂ©s. La sortie du rĂ©seau a donc pour expression(pour des fonctions radiales gaussiennes) :
oĂč x est le vecteur des entrĂ©es du rĂ©seau (de dimension n), et w est le vecteur des paramĂštres du rĂ©seau (dedimension (n+2) Nc) ([BROOMHEAD et al. 1988], [MOODY et al. 1989]) ; les neurones cachĂ©s sont numĂ©-rotĂ©s de 1 Ă Nc, et le neurone de sortie porte le numĂ©ro Nc+1.
Remarquons que deux sortes de paramÚtres interviennent ici : les poids de la derniÚre couche (qui relientles Nc fonctions radiales au neurone de sortie), et les paramÚtres des fonctions radiales (centres et écarts-types pour des fonctions radiales gaussiennes). Les connexions de la premiÚre couche ont toutes des poidségaux à 1. Dans ces réseaux, la sortie est une fonction linéaire des poids de la derniÚre couche deconnexions, et elle est une fonction non linéaire des paramÚtres des gaussiennes. Nous examinerons ulté-rieurement les conséquences de cette propriété.
Les rĂ©seaux dâondelettes ont exactement la mĂȘme structure, lâĂ©quation de la gaussienne Ă©tant remplacĂ©epar celle dâune ondelette multidimensionnelle. Les paramĂštres attachĂ©s Ă la non-linĂ©aritĂ© sont alors lescentres et les dilatations des ondelettes ([BENVENISTE et al. 1994], [OUSSAR et al. 2000]).
Les réseaux de neurones bouclés (ou récurrents)
â Forme gĂ©nĂ©rale
Nous introduisons ici lâarchitecture la plus gĂ©nĂ©rale pour un rĂ©seau de neurones, les « rĂ©seaux bouclĂ©s »,dont le graphe des connexions est cyclique : lorsquâon se dĂ©place dans le rĂ©seau en suivant le sens desconnexions, il est possible de trouver au moins un chemin qui revient Ă son point de dĂ©part (un tel cheminest dĂ©signĂ© sous le terme de « cycle »). La sortie dâun neurone du rĂ©seau peut donc ĂȘtre fonction dâelle-mĂȘme ; cela nâest Ă©videmment concevable que si la notion de temps est explicitement prise en considĂ©ra-tion.
Ainsi, Ă chaque connexion dâun rĂ©seau de neurones bouclĂ© (ou Ă chaque arĂȘte de son graphe) est attachĂ©,outre un poids comme pour les rĂ©seaux non bouclĂ©s, un retard, multiple entier (Ă©ventuellement nul) delâunitĂ© de temps choisie. Une grandeur, Ă un instant donnĂ©, ne pouvant pas ĂȘtre fonction de sa proprevaleur au mĂȘme instant, tout cycle du graphe du rĂ©seau doit avoir un retard non nul.
Termesdirects
....
....
x 0 = 1 x 1 x 2 x n
1 N c
N c +1
g (x , w )
g x, w = wNc + 1, i exp -
xj â wij2â
j = 1
n
2 wi2â
i=1
Nc
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 17
La figure 1-5 reprĂ©sente un exemple de rĂ©seau deneurones bouclĂ©. Les chiffres dans les carrĂ©s indiquentle retard attachĂ© Ă chaque connexion, exprimĂ© enmultiple de lâunitĂ© de temps (ou pĂ©riode dâĂ©chantillon-nage) T. Ce rĂ©seau contient un cycle, qui part duneurone 3 et revient Ă celui-ci en passant par le neurone4 ; la connexion de 4 vers 3 ayant un retard de 1 unitĂ© detemps, ce rĂ©seau est causal.
ExplicationsĂ lâinstant kT : le neurone 3 reçoit en entrĂ©e les quantitĂ©s u1(kT),u2[(kâ1)T], y4[(kâ1)T] (oĂč k est un entier positif et y4(kT) est la sortie duneurone 4 Ă lâinstant kT), et il calcule sa sortie y3(kT) ; le neurone 4reçoit u2(kT) et y3(kT), et il calcule sa sortie y4(kT) ; le neurone 5 reçoity3(kT), u1(kT) et y4[(kâ1)T], et il calcule sa sortie, qui est la sortie durĂ©seau de neurones, g(kT).
â Forme canonique des rĂ©seaux de neurones bouclĂ©s
Dans la mesure oĂč les rĂ©seaux de neurones bouclĂ©s rĂ©alisent des Ă©quations aux diffĂ©rences non linĂ©aires,il est utile dâexaminer les liens entre ces modĂšles non linĂ©aires et les modĂšles linĂ©aires dynamiques habi-tuels, utilisĂ©s notamment en automatique des systĂšmes linĂ©aires.
La description la plus gĂ©nĂ©rale dâun systĂšme linĂ©aire est la description dâĂ©tat :
x(k+1) = A x(k) + B u(k)
y(k) = C x(k) + D u(k)
oĂč x(k) est le vecteur des variables dâĂ©tat Ă lâinstant (discret) kT, u(k) est le vecteur des entrĂ©es, y(k) est levecteur des sorties, et A, B, C, D sont des matrices. Rappelons que les variables dâĂ©tat sont un ensemblede variables, en nombre minimal, telles que lâon peut calculer leurs valeurs Ă lâinstant k+1 si lâon connaĂźtleurs valeurs initiales et si lâon connaĂźt les valeurs des entrĂ©es Ă tout instant compris entre 0 et k. Lenombre de variables dâĂ©tat est appelĂ© ordre du systĂšme.
De maniĂšre analogue, on dĂ©finit la forme canonique dâun systĂšme non linĂ©aire Ă temps discret par lesĂ©quations suivantes :
x(k) = Ï [x(k â 1), u(k â 1)]
y(k) = Ï [x(k)]
DĂ©finition
Un réseau de neurones bouclé à temps discret réalise une (ou plusieurs) équations aux différences nonlinéaires, par composition des fonctions réalisées par chacun des neurones et des retards associés à chacune des connexions.
Propriété
Tout cycle du graphe des connexions dâun rĂ©seau de neurones bouclĂ© doit comprendre au moins uneconnexion de retard non nul.
3 4
5
u1 (kT ) u2 (kT )
g (kT )
1
0 0
00
0
1
1
Figure 1-5. Un rĂ©seau de neurones bouclĂ© Ă deux entrĂ©es. Les chiffres dans les carrĂ©s indiquent le retard attachĂ© Ă chaque connexion, multiple de lâunitĂ© de temps (ou pĂ©riode dâĂ©chantillonnage) T. Le rĂ©seau contient un cycle, qui part du neurone 3, va au neurone 4, et revient au neurone 3.
Les réseaux de neurones8
oĂč Ï et Ï sont des fonctions non linĂ©aires (desrĂ©seaux de neurones par exemple), et x est levecteur des variables dâĂ©tat. LĂ encore, les varia-bles dâĂ©tat sont un ensemble de variables, ennombre minimal, qui permet de dĂ©crire complĂšte-ment le systĂšme Ă lâinstant k si lâon connaĂźt leursvaleurs initiales et si lâon connaĂźt les valeurs desentrĂ©es Ă tout instant compris entre 0 et kâ1. Onmontrera dans le chapitre 2 que tout rĂ©seau deneurones peut ĂȘtre mis sous une forme cano-nique, reprĂ©sentĂ©e sur la figure 1-6, oĂč lesymbole q-1 reprĂ©sente un retard dâune unitĂ© detemps. Ce symbole, habituel en automatique, serautilisĂ© systĂ©matiquement dans toute la suite delâouvrage, notamment dans les chapitres 2 et 4.
Figure 1-6. Forme canonique dâun rĂ©seau de neurones bouclĂ©.Le symbole q-1 reprĂ©sente un retard dâune unitĂ© de temps.
Par exemple, le rĂ©seau de neurones reprĂ©sentĂ©sur la figure 1-5 peut ĂȘtre mis sous la formecanonique indiquĂ©e sur la figure 1-7. Ce rĂ©seauprĂ©sente une seule variable dâĂ©tat (il est donc du1er ordre), qui est la sortie du neurone 3. Dans cetexemple, ce neurone est un neurone cachĂ©, mais,comme nous le verrons, un neurone dâĂ©tat peutaussi ĂȘtre un neurone de sortie.
Figure 1-7. Forme canonique (Ă droite) du rĂ©seau reprĂ©-sentĂ© sur la figure 1-5 (Ă gauche). Ce rĂ©seau possĂšde une variable dâĂ©tat x(kT)( la sortie du neurone 3) : câest un rĂ©seau du 1er ordre. La partie grisĂ©e de la forme cano-nique est un rĂ©seau de neurones non bouclĂ©.
ExplicationsĂ lâinstant kT : le neurone 4 reçoit u2[(kâ1)T] et x[(kâ1)T] = y3[(kâ1)T]) : il calcule donc la quantitĂ© y4[(kâ1)T] ; comme dans la forme noncanonique, le neurone 3 reçoit en entrĂ©e les quantitĂ©s u1(kT), u2[(kâ1)T], y4[(kâ1)T] : il calcule donc la quantitĂ© y3(kT) ; le neurone 5 reçoity3(kT), u1(kT) et y4[(kâ1)T] : il calcule donc sa sortie, qui est la sortie du rĂ©seau de neurones, g(kT). Les deux rĂ©seaux sont ainsi bien Ă©qui-valents fonctionnellement.
Les réseaux bouclés (et leur forme canonique) seront étudiés en détail dans les chapitres 2, 4 et 8.
Propriété
Tout rĂ©seau de neurones bouclĂ©, aussi complexe soit-il, peut ĂȘtre mis sous une forme canonique,comportant un rĂ©seau de neurones non bouclĂ© dont certaines sorties (les variables dâĂ©tat) sont rame-nĂ©es aux entrĂ©es par des bouclages de retard unitĂ© [NERRAND et al. 1993].
EntrĂ©es externesĂ l'instant k â 1
SortiesĂ l'instant k
g (k )
u (k - 1)
Variables d'Ă©tatĂ l'instant k â 1
Variables d'Ă©tatĂ l'instant k
Retards unitaires
x (k )
x (k - 1)
q -1 q -1
Réseau de neurones non bouclé
3 4
5
u1(kT ) u2(kT )
g (kT )
1
0 0
00
0
1
1
u1(kT ) u2[(k -1)T ]x [(k -1)T ]
x (kT )g (kT )
q -13
4
5
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 19
Résumé
Nous avons introduit, dans cette section, les définitions essentielles relatives aux réseaux de neurones quisont le sujet de cet ouvrage. Nous avons notamment distingué :⹠les réseaux de neurones non bouclés, statiques, qui réalisent des fonctions non linéaires,⹠les réseaux de neurones bouclés, dynamiques, qui réalisent des équations aux différences non linéaires.
Nous avons vu Ă©galement que tout rĂ©seau de neurones bouclĂ© peut ĂȘtre mis sous une forme canonique,comprenant un rĂ©seau de neurones non bouclĂ© dont les sorties dâĂ©tat sont ramenĂ©es Ă ses entrĂ©es avec unretard unitĂ©.
LâĂ©lĂ©ment de base est donc le rĂ©seau de neurones non bouclĂ© ; voilĂ pourquoi lâĂ©tude de ce dernier estfondamentale. Avant dâen indiquer les propriĂ©tĂ©s et les applications, nous allons introduire la notiondâapprentissage.
Lâapprentissage des rĂ©seaux de neurones
Dans le cadre de cette dĂ©finition, on peut distinguer deux types dâapprentissages : lâapprentissage« supervisĂ© » et lâapprentissage « non supervisĂ© ».
Lâaprentissage supervisĂ©
Nous avons vu, dans le paragraphe prĂ©cĂ©dent, quâun rĂ©seau non bouclĂ© rĂ©alise une relation algĂ©briqueentre ses entrĂ©es et ses sorties. On peut donc affecter Ă un tel rĂ©seau la tĂąche qui consiste Ă rĂ©aliser unefonction algĂ©brique non linĂ©aire ; celle-ci peut ĂȘtre :âą connue analytiquement : le rĂ©seau rĂ©alise alors une tĂąche dâapproximation de fonction,âą inconnue analytiquement, mais pour laquelle on dispose de valeurs, en nombre fini, qui sont entachĂ©es
de bruit si ces valeurs résultent de mesures effectuées sur un processus physique, chimique, écono-mique, biologique, etc. : le réseau réalise alors une tùche de modélisation statique ou une régression.
Câest essentiellement pour ce dernier type dâapplications que sont mis en Ćuvre les rĂ©seaux de neuronesĂ apprentissage supervisĂ©.
On connaĂźt donc, en tous points ou seulement en certains points, les valeurs que doit avoir la sortie durĂ©seau en fonction des entrĂ©es correspondantes : câest en ce sens que lâapprentissage est « supervisĂ© »,mĂ©taphore qui signifie quâun « professeur » peut fournir au rĂ©seau des « exemples » de ce que celui-cidoit faire. Lâessentiel du chapitre 2 de cet ouvrage est consacrĂ© Ă expliquer comment cette mĂ©taphore setraduit mathĂ©matiquement, et les algorithmes qui en rĂ©sultent. Les chapitres 3, 4, 5, et 6, de cet ouvragesont consacrĂ©s Ă la mise en Ćuvre et aux applications des rĂ©seaux Ă apprentissage supervisĂ© pour destĂąches de modĂ©lisation statique et dynamique, et de classification (discrimination) automatique.
Lâapprentissage non supervisĂ©
Un rĂ©seau de neurones non bouclĂ© peut Ă©galement ĂȘtre utilisĂ© dans un but de visualisation ou dâanalyse dedonnĂ©es : on dispose dâun ensemble de donnĂ©es, reprĂ©sentĂ©es par des vecteurs de grande dimension, etlâon cherche Ă les regrouper, selon des critĂšres de ressemblance qui sont inconnus a priori. Ce type de
DĂ©finition
On appelle « apprentissage » des réseaux de neurones la procédure qui consiste à estimer les para-mÚtres des neurones du réseau, afin que celui-ci remplisse au mieux la tùche qui lui est affectée.
Les réseaux de neurones10
tĂąches est connu en statistique sous le nom de mĂ©thodes « dâagrĂ©gation » (en anglais clustering). On peututiliser les rĂ©seaux de neurones non bouclĂ©s pour rĂ©aliser une tĂąche assez voisine : Ă partir de donnĂ©es,dĂ©crites par des vecteurs de grande dimension, trouver une reprĂ©sentation de ces donnĂ©es dans un espacede dimension beaucoup plus faible (typiquement de dimension 2) tout en conservant les « proximitĂ©s » ou« ressemblances » entre ces donnĂ©es. Il nây a donc pas lĂ de « professeur », puisque câest au rĂ©seau dedĂ©couvrir les ressemblances entre les Ă©lĂ©ments de la base de donnĂ©es, et de les traduire par une proximitĂ©dans la « carte » de dimension 2 quâil doit produire. Les rĂ©seaux Ă apprentissage non supervisĂ© les plusĂ©tudiĂ©s et utilisĂ©s sont les « cartes auto-organisatrices » ou « cartes de Kohonen ». Le chapitre 7 de cetouvrage est entiĂšrement consacrĂ© aux cartes auto-organisatrices et Ă leurs applications.
PropriĂ©tĂ© fondamentale des rĂ©seaux de neurones non bouclĂ©s Ă apprentissage supervisĂ© : lâapproximation parcimonieuse
Les réseaux de neurones à apprentissage supervisé sont des approximateurs universels
Cette propriĂ©tĂ©, qui nâest quâun thĂ©orĂšme dâexistence et ne donne pas de mĂ©thode pour trouver les para-mĂštres du rĂ©seau, nâest pas spĂ©cifique aux rĂ©seaux de neurones. Câest la propriĂ©tĂ© suivante qui leur estparticuliĂšre et fait tout leur intĂ©rĂȘt.
Certains réseaux de neurones sont des approximateurs parcimonieux
Dans la pratique, le nombre de fonctions nĂ©cessaires pour rĂ©aliser une approximation est un critĂšre impor-tant dans le choix dâun approximateur de prĂ©fĂ©rence Ă un autre. Nous montrerons dans le paragraphesuivant que le concepteur de modĂšle doit toujours faire en sorte que le nombre de paramĂštres ajustablessoit le plus faible possible : on dit que lâon cherche lâapproximation la plus parcimonieuse.
Propriété
Toute fonction bornĂ©e suffisamment rĂ©guliĂšre peut ĂȘtre approchĂ©e uniformĂ©ment, avec une prĂ©cisionarbitraire, dans un domaine fini de lâespace de ses variables, par un rĂ©seau de neurones comportant unecouche de neurones cachĂ©s en nombre fini, possĂ©dant tous la mĂȘme fonction dâactivation, et unneurone de sortie linĂ©aire [HORNIK et al. 1989], [HORNIK et al. 1990], [HORNIK 1991].
Propriété fondamentale
On montre [BARRON 1993] que, si lâapproximation dĂ©pend des paramĂštres ajustables de maniĂšre nonlinĂ©aire, elle est plus parcimonieuse que si elle dĂ©pend linĂ©airement des paramĂštres.
Plus prĂ©cisĂ©ment, on montre que le nombre de paramĂštres, pour une prĂ©cision donnĂ©e, croĂźt exponen-tiellement avec le nombre de variables dans le cas des approximateurs linĂ©aires par rapport Ă leursparamĂštres, alors quâil croĂźt linĂ©airement avec ce nombre pour les approximateurs non linĂ©aires parrapport Ă leurs paramĂštres. La parcimonie est donc dâautant plus importante que le nombre dâentrĂ©esdu modĂšle est grand : pour un modĂšle Ă 1 ou 2 entrĂ©es, on peut utiliser indiffĂ©remment un modĂšlelinĂ©aire par rapport Ă ses paramĂštres (polynĂŽme par exemple) ou un modĂšle non linĂ©aire par rapport Ă ses paramĂštres (rĂ©seau de neurones par exemple).
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 111
Or, nous avons vu que la sortie des rĂ©seaux de neurones Ă fonction dâactivation sigmoĂŻde nâest pas linĂ©airepar rapport aux poids du rĂ©seau, alors que la sortie des rĂ©seaux de RBF Ă centres et Ă©carts-types fixĂ©s (oudâondelettes Ă centres et dilatations fixĂ©s) est linĂ©aire par rapport aux poids. De mĂȘme, une approximationpar polynĂŽme est linĂ©aire par rapport aux coefficients des monĂŽmes. Ainsi, lâutilisation de neuronescachĂ©s Ă fonction dâactivation sigmoĂŻde permet une approximation plus parcimonieuse qu'une approxi-mation polynomiale, ou qu'une approximation par fonctions radiales Ă centres et Ă©carts-types fixes, ouencore quâune approximation par ondelettes Ă centres et dilatations fixĂ©s. Si, en revanche, on considĂšreque les centres et Ă©carts-types des RBF gaussiennes (ou les centres et les dilatations des ondelettes) sontdes paramĂštres ajustables au mĂȘme titre que les poids des connexions, il nây a pas, Ă lâheure actuelle,dâavantage mathĂ©matiquement dĂ©montrĂ© Ă utiliser un type de neurones plutĂŽt quâun autre. En revanche,des arguments pratiques dĂ©cisifs peuvent justifier une prĂ©fĂ©rence : connaissances a priori sur le type denon-linĂ©aritĂ© souhaitable, caractĂšre localisĂ© ou non de la fonction, rapiditĂ© de calcul, facilitĂ© dâinitialisa-tion de lâapprentissage (voir chapitre 2, paragraphe « Initialisation des paramĂštres »), facilitĂ© de rĂ©alisa-tion en circuit spĂ©cialisĂ©, etc.
Expliquons qualitativement lâorigine de la parcimonie. ConsidĂ©rons un modĂšle linĂ©aire par rapport Ă sesparamĂštres, un modĂšle polynomial par exemple :
g(x) = 4 + 2x + 4x2 â 0,5x3.
Le rĂ©sultat g(x) du modĂšle est une combinaison linĂ©aire des fonctions y = 1, y = x, y = x2, y = x3, avec lespoids w0 = 4, w1 = 2, w2 = 4, w3 = â0,5. Ces fonctions ont une forme qui est fixĂ©e une fois pour toutes.
ConsidĂ©rons Ă prĂ©sent le modĂšle neuronal reprĂ©sentĂ© sur la figure 1-8, dont lâĂ©quation est :
g(x) = 0,5 â 2 th(10x + 5) + 3 th(x + 0,25) â 2 th(3x â 0,25).
Le rĂ©sultat de ce modĂšle est aussi une combinaison linĂ©aire de fonctions (y= 1, y = th(10x + 5), y = th(x + 0,25), y = th(3x â 0,25)), mais la forme de cesfonctions dĂ©pend des valeurs des poids des connexions entre les entrĂ©es etles neurones cachĂ©s. Ainsi, au lieu de combiner des fonctions de formesfixes, on combine des fonctions dont la forme elle-mĂȘme est ajustĂ©e par desparamĂštres. On comprend facilement que ces degrĂ©s de libertĂ© supplĂ©men-taires permettent de rĂ©aliser une fonction donnĂ©e avec un plus petit nombrede fonctions Ă©lĂ©mentaires, ce qui est prĂ©cisĂ©ment la dĂ©finition de la parci-monie.
Figure 1-8. Un réseau de neurones non bouclé à une variable (donc deux entrées) et trois neurones cachés. Les nombres indiquent les valeurs des paramÚtres.
Un exemple élémentaire
ConsidĂ©rons la parabole dâĂ©quation
y = 16,71 x2 â 0,075.
Nous en prenons 20 Ă©chantillons rĂ©guliĂšrement espacĂ©s, que nous utilisons pour effectuer un apprentis-sage supervisĂ© dâun rĂ©seau Ă 2 neurones cachĂ©s (Ă fonction dâactivation Arctg) reprĂ©sentĂ© sur la figure 1-9(a).Un apprentissage Ă lâaide de lâalgorithme de Levenberg-Marquardt (voir chapitre 2) fournit, en quelquesdizaines dâitĂ©rations, les paramĂštres indiquĂ©s sur la figure 1-9(a). La figure 1-9(b) reprĂ©sente les points delâensemble dâapprentissage et la sortie du rĂ©seau, qui passe par ces points avec une excellente prĂ©cision.La figure 1-9(c) reprĂ©sente les sorties des neurones cachĂ©s, dont la combinaison linĂ©aire avec le biaisconstitue la sortie du rĂ©seau. La figure 1-9(d) montre les points dâun ensemble de test et la sortie durĂ©seau : lorsque lâon sâĂ©loigne du domaine dâapprentissage [â0,12, +0,12], la prĂ©cision de lâapproxima-
x 1
g
-2 3 -2 0,5
10 5 1 0,25 3 -0,250,25
Les réseaux de neurones12
tion se dĂ©grade, ce qui est normal. On notera la symĂ©trie dans les valeurs des poids, qui reflĂšte la symĂ©triedu problĂšme (simulation rĂ©alisĂ©e Ă lâaide du logiciel NeuroOneâą de NETRAL S.A.).
RemarqueBien entendu, approcher une parabole Ă une variable par un rĂ©seau de neurones ne prĂ©sente aucun intĂ©rĂȘt pratique, puisque la parabolea deux paramĂštres alors que le rĂ©seau de neurones en a sept ! La seule justification de cet exemple est que, Ă©tant mono-dimensionnel, ilpermet dâutiliser des reprĂ©sentations graphiques simples.
Ă quoi servent les rĂ©seaux de neurones non bouclĂ©s Ă apprentissage supervisĂ© ? ModĂ©lisation statique et discrimination (classification)Les propriĂ©tĂ©s mathĂ©matiques dĂ©crites dans la section prĂ©cĂ©dente sont fondamentales : elles donnent unebase solide aux applications des rĂ©seaux de neurones Ă apprentissage supervisĂ©. NĂ©anmoins, dans lapratique, il est rare que lâon cherche Ă rĂ©aliser une approximation uniforme dâune fonction connue.
Le plus souvent, le problĂšme qui se pose Ă lâingĂ©nieur est le suivant : il dispose dâun ensemble devariables mesurĂ©es {xk, k = 1 Ă N} et dâun ensemble de mesures {yp(xk), k = 1 Ă N} dâune grandeur zp rela-tive Ă un processus de nature quelconque (physique, chimique, Ă©conomique, financier...). Il suppose quâilexiste une relation entre le vecteur des variables {x} et la grandeur zp, et il cherche Ă dĂ©terminer une formemathĂ©matique de cette relation, valable dans le domaine oĂč les mesures ont Ă©tĂ© effectuĂ©es, sachant que (1)les mesures sont en nombre fini, et que (2) ces mesures sont certainement entachĂ©es de bruit. De plustoutes les variables qui dĂ©terminent zp ne sont pas forcĂ©ment mesurĂ©es. En dâautres termes, lâingĂ©nieur
0.05 0.1 0.15-0.15 -0.1 -0.05 0-0.1
-1 -0.5 0 0.5 1-8
-6
-4
-2
0
2
4
6
-1 -0.5 0 0.5 1-2
0
2
4
6
8
10
12
14
16
18
x
1 3 0 24
5 6
y Poids
0ïżœ -1,02
1ïżœ 2,73
2ïżœ 1,02
3ïżœ 2,73
4ïżœ 7,23
5ïżœ 4,58
6ïżœ - 4,57-0.05
0
0.05
0.1
0.15
(a)(b)
(c) (d)
1
Figure 1-9. Interpo-lation dâune para-bole par un rĂ©seau de neurones Ă 2 neurones cachĂ©s ; (a) rĂ©seau ; (b) points dâappren-tissage (croix) et sortie du rĂ©seau aprĂšs apprentissage ; (c) sorties des deux neurones cachĂ©s (sigmoĂŻdes) aprĂšs apprentissage ; (d) points de test (croix) et sortie du rĂ©seau aprĂšs apprentissage : lâapproximation se dĂ©grade en dehors de la zone dâapprentissage.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 113
cherche Ă Ă©tablir un modĂšle du processus quâil Ă©tudie, Ă partir des mesures dont il dispose, et dâellesseules : on dit quâil effectue une modĂ©lisation « boĂźte noire » . On notera que, dans le jargon des rĂ©seauxde neurones, les donnĂ©es Ă partir desquelles on cherche Ă construire le modĂšle sâappellent des exemples.Nous Ă©tudierons plus bas la modĂ©lisation « boĂźte noire » du comportement dâun processus (lâactionneurhydraulique dâun bras de robot) : lâensemble de variables {x} est constituĂ© dâune seule variable (lâangledâouverture de la vanne dâadmission dâhuile) et la grandeur zp est la pression dâhuile dans lâactionneur.Nous verrons Ă©galement un exemple de prĂ©diction de propriĂ©tĂ©s chimiques de molĂ©cules : on cherche unerelation dĂ©terministe entre une propriĂ©tĂ© des molĂ©cules (par exemple leurs points dâĂ©bullition) et des« descripteurs » de ces molĂ©cules (masse molaire, nombre dâatomes, « volume », moment dipolaire,etc.) ; on peut ainsi prĂ©dire le point dâĂ©bullition de molĂ©cules dont la synthĂšse nâa pas Ă©tĂ© effectuĂ©e. Lelecteur rencontrera dans cet ouvrage de nombreux cas de ce genre.
Les termes de « boĂźte noire » que nous venons dâintroduire sâopposent aux termes de « modĂšle deconnaissance » ou « modĂšle de comportement interne », qui dĂ©signent un modĂšle mathĂ©matique Ă©tabli Ă partir dâune analyse physique (ou chimique, physico-chimique, Ă©conomique, etc.) du processus que lâonĂ©tudie ; ce modĂšle peut contenir un nombre limitĂ© de paramĂštres ajustables, qui possĂšdent une significa-tion physique. Nous verrons plus bas que les rĂ©seaux de neurones peuvent ĂȘtre utilisĂ©s pour lâĂ©laborationde modĂšles « boĂźtes grises », intermĂ©diaires entre les modĂšles « boĂźtes noires » et les modĂšles de connais-sance.
En quoi la propriĂ©tĂ© dâapproximation parcimonieuse des rĂ©seaux de neurones peut-elle ĂȘtre utile pourrĂ©soudre le problĂšme de la modĂ©lisation « boĂźte noire » ? Nous ne rĂ©pondrons ici que trĂšs briĂšvement Ă cette question. Nous prĂ©senterons une rĂ©ponse trĂšs dĂ©taillĂ©e dans le chapitre 2, qui prĂ©sente une mĂ©thodo-logie de conception et de rĂ©alisation de modĂšles neuronaux, et dans le chapitre 3, qui propose, en complĂ©-ment mĂ©thodologique, des techniques trĂšs utiles de rĂ©duction de la dimension des entrĂ©es des modĂšlesdâune part, et dâĂ©valuation des performances et construction de modĂšles neuronaux dâautre part.
Modélisation statique
ConsidĂ©rons, pour simplifier, le cas dâun modĂšle Ă une seule variable x. Supposons que lâon puisse, pourchaque valeur de x, effectuer une infinitĂ© de mesures et en calculer la moyenne ; celle-ci nâest autre que lagrandeur zp recherchĂ©e ; elle est appelĂ©e « espĂ©rance mathĂ©matique » de yp pour la valeur x de la variable.Cette espĂ©rance mathĂ©matique est Ă©videmment une fonction de x, appelĂ©e « fonction de rĂ©gression » ; ornous savons que toute fonction (suffisamment rĂ©guliĂšre) peut ĂȘtre approchĂ©e par un rĂ©seau de neurones ;par consĂ©quent, lâingĂ©nieur peut espĂ©rer rĂ©soudre son problĂšme de modĂ©lisation « boĂźte noire » en esti-mant les paramĂštres dâun rĂ©seau de neurones qui rĂ©alise une approximation de la fonction de rĂ©gression,laquelle, rappelons-le, est inconnue.
Cette approximation ne sera pas une approximation uniforme telle que nous lâavons dĂ©finie et illustrĂ©edans le paragraphe prĂ©cĂ©dent. Pour des raisons qui seront expliquĂ©es en dĂ©tail dans le chapitre 2, lâingĂ©-nieur cherchera plutĂŽt une approximation au sens des moindres carrĂ©s, câest-Ă -dire quâil cherchera unefonction paramĂ©trĂ©e g(x, w), rĂ©alisĂ©e, par exemple, Ă lâaide dâun rĂ©seau de neurones, pour laquelle la fonc-tion de coĂ»t des moindres carrĂ©s
est « minimum ». Rappelons que, dans cette relation, {xk, k = 1 Ă N} est un ensemble de mesures desvariables dâentrĂ©e, et yp(xk) est la valeur mesurĂ©e de la grandeur Ă modĂ©liser, lorsque le vecteur dâentrĂ©evaut xk. Lâapprentissage dâun rĂ©seau ayant un nombre donnĂ© de neurones cachĂ©s consiste donc, dans cecas, en une procĂ©dure de minimisation qui permet de trouver un vecteur de poids w0 satisfaisant.
J w =12
yp xk â g xk, w 2âk = 1
N
Les réseaux de neurones14
Cette procédure pose aussitÎt deux questions, qui sont centrales dans la pratique des réseaux de neurones :
⹠comment, dans une famille de réseaux de neurones donnée, trouver celui qui minimise la fonction decoût des moindres carrés ?
âą une fois que celui-ci a Ă©tĂ© trouvĂ©, comment juger sâil est « satisfaisant » ?
Le lecteur trouvera dans cet ouvrage, notamment dans son chapitre 2, une méthodologie raisonnée qui luipermettra de résoudre ces problÚmes.
Dans cette tĂąche, nous serons aidĂ©s par le fait que les deux questions que nous venons de mentionner nesont guĂšre spĂ©cifiques aux rĂ©seaux de neurones : elles se posent depuis trĂšs longtemps, en des termespratiquement identiques, Ă tous ceux (ingĂ©nieurs, Ă©conomistes, financiers, biologistes, et, bien entendu,statisticiens) qui cherchent, Ă partir de donnĂ©es, Ă extraire une information pertinente ([SEBER et al. 1989],[ANTONIADIS et al. 1992], [DRAPER et al. 1998]). En fait, le cheminement que nous venons de rĂ©aliser,depuis lâapproximation de fonction jusquâĂ lâestimation des paramĂštres dâune rĂ©gression, est celui de toutstatisticien Ă la recherche dâun modĂšle : nous pourrons tirer largement profit de rĂ©sultats Ă©tablis, notam-ment dans le cadre de la rĂ©gression linĂ©aire, par ces derniers.
RĂ©sumons, Ă lâaide dâun exemple, les Ă©tapes que nous venons de dĂ©crire :
âą lorsquâon dĂ©sire Ă©tablir un modĂšle mathĂ©matique dâune dĂ©pendance entre des variables, on cherche Ă estimer la fonction de rĂ©gression, câest-Ă -dire la fonction que lâon obtiendrait si lâon pouvait faire, enchaque point, un nombre infini de mesures et en calculer la moyenne ; cette fonction de rĂ©gression nepeut donc jamais ĂȘtre dĂ©terminĂ©e exactement ; la figure 1-10 reprĂ©sente un signal yp(x) que lâon voudraitmodĂ©liser, câest-Ă -dire pour lequel on voudrait obtenir la meilleure approximation possible de la fonc-tion de rĂ©gression inconnue ;
Figure 1-10. Un signal que lâon voudrait modĂ©liser
⹠on effectue un nombre fini de mesures, comme illustré sur la figure 1-11 ;
âą un rĂ©seau de neurones tel que la fonction de coĂ»t des moindres carrĂ©s, câest-Ă -dire la somme des carrĂ©sdes diffĂ©rences entre les valeurs calculĂ©es par le rĂ©seau et les valeurs mesurĂ©es (en nombre fini), soitaussi petite que possible, permet de trouver une approximation de la fonction de rĂ©gression, commeindiquĂ© sur la figure 1-12.
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 115
Figure 1-11. La situation rĂ©elle dans laquelle se trouve lâingĂ©nieur : il ne dispose que dâun nombre fini de mesures. Noter que, dans cet exemple, les points de mesure sont rĂ©guliĂšrement espacĂ©s, mais cela nâest pas obligatoire.
Figure 1-12. Une approximation de la fonction de régression, réalisée par un réseau de neurones, à partir des points expéri-mentaux de la figure 1-11.
Ainsi, un rĂ©seau de neurones peut, Ă partir dâexemples, prĂ©voir la valeur que peut prendre une grandeurqui dĂ©pend de plusieurs variables, pour des valeurs de ces variables qui ne font pas partie de la basedâexemples utilisĂ©e pour calculer les coefficients du rĂ©seau. Dans le cas reprĂ©sentĂ© sur la figure 1-12, lerĂ©seau permet de trouver des valeurs du signal pour des points qui se trouvent entre les points de mesure.Cette propriĂ©tĂ© est appelĂ©e « infĂ©rence statistique » par les statisticiens, et, dans le domaine des rĂ©seauxde neurones, sous le terme de « gĂ©nĂ©ralisation ». Il faut bien comprendre que cette gĂ©nĂ©ralisation est nĂ©an-moins limitĂ©e : elle ne peut pas sâĂ©tendre au-delĂ des limites de la rĂ©gion de lâespace des entrĂ©es danslaquelle se trouvent les exemples qui servent Ă lâapprentissage, comme illustrĂ© sur la figure 1-9. LeproblĂšme de la qualitĂ© de la gĂ©nĂ©ralisation est largement abordĂ© dans les chapitres de cet ouvrage.
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
Les réseaux de neurones16
En quoi la parcimonie est-elle avantageuse ?
Dans ce contexte, en quoi la parcimonie des rĂ©seaux de neurones, sur laquelle nous avons insistĂ© dans lasection prĂ©cĂ©dente, est-elle un avantage ? Nous avons dĂ©jĂ mentionnĂ© le fait que la grande majoritĂ© desapplications des rĂ©seaux de neurones Ă apprentissage supervisĂ© concerne la modĂ©lisation de processus :on ajuste les paramĂštres du rĂ©seau, au cours de lâapprentissage Ă partir dâexemples, pour que celui-cireproduise la relation non linĂ©aire qui existe entre les entrĂ©es et les sorties. Or il est clair intuitivement quele nombre dâexemples nĂ©cessaires pour ajuster les paramĂštres de maniĂšre significative doit ĂȘtre granddevant le nombre de ces paramĂštres : on ne peut pas ajuster lâĂ©quation dâune droite avec un seul point, oulâĂ©quation dâun plan avec deux points. Les rĂ©seaux parcimonieux en paramĂštres sont donc Ă©galementparcimonieux en nombre dâexemples ; or ceux-ci, trĂšs souvent, coĂ»tent cher (notamment si ce sont desrĂ©sultats dâexpĂ©riences sur un processus industriel), et leur collecte peut ĂȘtre longue (par exemple, si lâonveut modĂ©liser un processus Ă©conomique Ă partir dâindices publiĂ©s une fois par mois par lâINSEE).
Lâavantage pratique des rĂ©seaux de neurones par rapport aux techniques classiques de modĂ©lisation nonlinĂ©aire rĂ©side donc dans leur capacitĂ© Ă rĂ©aliser des modĂšles de prĂ©cision Ă©quivalente avec moins dedonnĂ©es expĂ©rimentales (ou dans leur capacitĂ© Ă constituer des modĂšles plus prĂ©cis Ă partir du mĂȘmenombre dâexemples). De maniĂšre gĂ©nĂ©rale, les rĂ©seaux de neurones permettent de tirer le meilleur partides donnĂ©es numĂ©riques disponibles, pour construire des modĂšles Ă plusieurs entrĂ©es.
La figure 1-42 montre un exemple de parcimonie dans une application rĂ©elle : la prĂ©diction dâun para-mĂštre thermodynamique dâun verre.
Classification (discrimination)
Classer un ensemble dâobjets, câest attribuer Ă chacun une classe (ou « catĂ©gorie ») parmi plusieursclasses dĂ©finies Ă lâavance. Cette tĂąche est appelĂ©e « classification » ou « discrimination ». Un algorithmequi rĂ©alise automatiquement une classification est appelĂ© classifieur.
Les statisticiens appellent aussi « classification » la tĂąche qui consiste Ă regrouper des donnĂ©es qui seressemblent dans des classes qui ne sont pas dĂ©finies Ă lâavance, et nous avons vu que les rĂ©seaux deneurones Ă apprentissage non supervisĂ© peuvent rĂ©aliser ce genre de tĂąches ; il y a donc une certaineconfusion dans les termes. Nous nous efforcerons toujours de prĂ©ciser ce dont il sâagit, lorsque le contextene rend pas la distinction Ă©vidente. Dans tout ce paragraphe, nous nous plaçons dans le cas oĂč les classessont connues Ă lâavance.
Les applications des classifieurs sont trĂšs nombreuses : dans le domaine de la reconnaissance des formes(chiffres et caractĂšres manuscrits ou imprimĂ©s, images, parole, signaux temporels...), mais Ă©galementdans bien dâautres domaines (Ă©conomie, finance, sociologie, traitement du langage...). De maniĂšre gĂ©nĂ©-rale, nous dĂ©signerons sous le terme de « forme » nâimporte quel objet dĂ©crit par un ensemble de nombres(« descripteurs ») : ainsi, une image pourra ĂȘtre dĂ©crite par lâensemble des valeurs dâintensitĂ© de ses pixels(contraction de « picture elements » ou Ă©lĂ©ments dâimage), un signal temporel par ses valeurs successivesau cours dâune pĂ©riode de temps dĂ©finie, une entreprise par lâensemble des Ă©lĂ©ments de son bilan, un textepar lâensemble des mots importants quâil contient, etc. SchĂ©matiquement, la question Ă laquelle un clas-sifieur doit apporter un Ă©lĂ©ment de rĂ©ponse est du type : le caractĂšre inconnu est-il un a, un b, un c, etc. ?le signal observĂ© est-il normal ou anormal ? lâentreprise examinĂ©e constitue-t-elle un excellent, trĂšs bon,bon, mĂ©diocre, mauvais, trĂšs mauvais, support dâinvestissement ? la dĂ©pĂȘche dâagence reçue est-elle rela-tive Ă une prise de participation entre entreprises ? y aura-t-il demain une alerte Ă la pollution par lâozone ?
Il faut noter que le classifieur nâest pas nĂ©cessairement conçu pour donner une rĂ©ponse complĂšte : il peutapporter seulement un Ă©lĂ©ment de rĂ©ponse. Il faut bien, en effet, distinguer lâaide Ă la dĂ©cision et la dĂ©ci-sion elle-mĂȘme : un classifieur peut apporter une information qui aidera un ĂȘtre humain, ou un systĂšme
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 117
automatique, Ă prendre une dĂ©cision concernant lâappartenance de lâobjet inconnu Ă telle ou telle classe.Historiquement, les premiers rĂ©seaux de neurones utilisĂ©s pour la classification Ă©taient conçus pourfournir une dĂ©cision. GrĂące aux progrĂšs accomplis dans la comprĂ©hension des propriĂ©tĂ©s fondamentalesdes rĂ©seaux de neurones, on sait Ă prĂ©sent quâils peuvent donner une information beaucoup plus riche etfine quâune simple dĂ©cision binaire : ils peuvent estimer la probabilitĂ© dâappartenance de lâobjet inconnuĂ chacune des classes, ce qui leur permet notamment de sâintĂ©grer dans des systĂšmes de reconnaissancecomplexes qui utilisent plusieurs systĂšmes de classification diffĂ©rents, chacun dâeux fournissant une esti-mation de la probabilitĂ© dâappartenance de lâobjet inconnu Ă chacune des classes. La dĂ©cision finale estprise au vu de ces estimations, et en fonction, par exemple, des « spĂ©cialitĂ©s » de chacun des classifieurs.
De mĂȘme, dans le domaine de la « fouille de donnĂ©es » (data mining), une problĂ©matique de plus en plusfrĂ©quente est celle du « filtrage dâinformation » : trouver automatiquement, dans un corpus de donnĂ©es,les textes qui sont pertinents pour un thĂšme donnĂ©, et prĂ©senter ces textes par ordre de probabilitĂ© de perti-nence dĂ©croissante, afin que lâutilisateur puisse faire un choix rapide parmi les documents qui lui sontprĂ©sentĂ©s. LĂ encore, il est indispensable que le classifieur ne se contente pas de donner une rĂ©ponsebinaire (document pertinent ou non), mais bien quâil dĂ©termine une probabilitĂ© dâappartenance Ă uneclasse. Les rĂ©seaux de neurones non bouclĂ©s sont bien adaptĂ©s Ă ce type de tĂąche, dont lâimportance estde plus en plus Ă©vidente.
La section du présent chapitre intitulée « Réseaux de neurones à apprentissage supervisé etdiscrimination », et le chapitre 6 en entier, sont consacrés à la discrimination.
Ă quoi servent les rĂ©seaux de neurones Ă apprentissage non supervisĂ© ? Analyse et visualisation de donnĂ©esLes moyens modernes de traitement et de stockage de lâinformation permettent de disposer de trĂšsgrandes quantitĂ©s dâinformations, quâelles soient numĂ©riques (traitements numĂ©riques intensifs de rĂ©sul-tats expĂ©rimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait quâellesdoivent ĂȘtre prĂ©sentes dans les donnĂ©es, mais dont on ne sait pas bien comment les extraire, devient uneprĂ©occupation de plus en plus importante. Les progrĂšs du graphisme des ordinateurs permet des reprĂ©sen-tations des donnĂ©es de plus en plus claires et conviviales, mais lâopĂ©rateur est incapable de visualiser clai-rement des donnĂ©es de haute dimensionnalitĂ©. Il est donc trĂšs important de disposer de techniques dereprĂ©sentations des donnĂ©es Ă basse dimension (typiquement 2) qui permettent de retrouver lâinformation« prĂ©gnante » dans les donnĂ©es. Les rĂ©seaux de neurones Ă apprentissage non supervisĂ© offrent unensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entiĂšrement consacrĂ© Ă lâapprentissage non supervisĂ©, dĂ©crit en dĂ©tail debelles applications, notamment en tĂ©lĂ©dĂ©tection.
Ă quoi servent les rĂ©seaux de neurones bouclĂ©s Ă apprentissage supervisĂ© ? ModĂ©lisation dynamique « boĂźte noire » et « semi-physique » ; commande de processusNous avons vu, dans le paragraphe consacrĂ© aux rĂ©seaux de neurones bouclĂ©s, que tout rĂ©seau de neuronesnon bouclĂ© peut ĂȘtre mis sous une forme canonique, qui comprend un rĂ©seau de neurones non bouclĂ©s etdes bouclages (ou rĂ©currences) externes Ă celui-ci. Les propriĂ©tĂ©s des rĂ©seaux de neurones bouclĂ©s Ă apprentissage supervisĂ© sont donc directement liĂ©es Ă celles des rĂ©seaux non bouclĂ©s : de mĂȘme que lâonmet en Ćuvre les rĂ©seaux de neurones non bouclĂ©s pour modĂ©liser, de maniĂšre statique, des processus nonlinĂ©aires qui peuvent ĂȘtre utilement dĂ©crits par des Ă©quations algĂ©briques, de mĂȘme il est intĂ©ressant demettre en Ćuvre des rĂ©seaux de neurones bouclĂ©s pour modĂ©liser, de maniĂšre dynamique, des processus
Les réseaux de neurones18
qui peuvent ĂȘtre utilement dĂ©crits par des Ă©quations rĂ©currentes (ou Ă©quations aux diffĂ©rences). Une partiedu chapitre 2, et tout le chapitre 4, sont consacrĂ©s Ă la modĂ©lisation dynamique de processus.
Plusieurs motivations peuvent pousser lâingĂ©nieur Ă concevoir un modĂšle dynamique :âą utiliser le modĂšle comme « simulateur » pour prĂ©voir lâĂ©volution dâun processus dont la modĂ©lisation
de connaissance est trop complexe, ou dont il est possible dâĂ©crire un modĂšle qui contient des Ă©quationstrop incertaines ou dont les paramĂštres sont trop mal connus ;
âą utiliser le modĂšle comme simulateur dâun processus dont la modĂ©lisation de connaissance est possible,mais conduit Ă des Ă©quations diffĂ©rentielles, ou aux dĂ©rivĂ©es partielles, dont la rĂ©solution numĂ©rique estlourde et ne peut rĂ©pondre Ă des contraintes de fonctionnement en temps rĂ©el : on peut alors crĂ©er unensemble dâapprentissage Ă partir du code de rĂ©solution des Ă©quations, et concevoir un rĂ©seau deneurones qui fournit de trĂšs bonnes solutions dans des temps de calcul beaucoup plus courts ; lâarchi-tecture de ce rĂ©seau peut avantageusement ĂȘtre inspirĂ©e des Ă©quations diffĂ©rentielles du modĂšle deconnaissance : on conçoit alors un « modĂšle semi-physique » ou modĂšle « boĂźte grise » ;
âą utiliser le modĂšle comme prĂ©dicteur Ă trĂšs court terme (une pĂ©riode dâĂ©chantillonnage) afin de lâintĂ©grerĂ un systĂšme de commande.
La modélisation semi-physique
Il est trĂšs frĂ©quent, notamment dans lâindustrie manufacturiĂšre, que lâon dispose dâun modĂšle de connais-sance dâun procĂ©dĂ©, mais que celui-ci ne soit pas satisfaisant ; il peut y avoir Ă cela plusieurs raisons :âą le modĂšle peut ĂȘtre insuffisamment prĂ©cis pour lâobjectif que lâon sâest fixĂ© : par exemple, si lâon dĂ©sire
dĂ©tecter une anomalie de fonctionnement en analysant la diffĂ©rence entre lâĂ©tat du processus prĂ©vu parle modĂšle du fonctionnement normal et lâĂ©tat rĂ©ellement mesurĂ©, il faut que le modĂšle de fonctionne-ment normal soit prĂ©cis ;
âą le modĂšle peut ĂȘtre prĂ©cis, mais ĂȘtre trop complexe pour pouvoir ĂȘtre intĂ©grĂ© numĂ©riquement en tempsrĂ©el (pour une application de surveillance ou de commande, par exemple).
Si lâon dispose de mesures, on peut alors lĂ©gitimement dĂ©cider dâavoir recours Ă un modĂšle « boĂźtenoire », non linĂ©aire si nĂ©cessaire ; mais il serait nĂ©anmoins maladroit dâabandonner complĂštement toutesles connaissances accumulĂ©es lors de la conception du modĂšle, pour construire un autre modĂšle fondĂ©uniquement sur les mesures. La modĂ©lisation semi-physique permet de rĂ©concilier ces deux points de vue,en utilisant toutes les connaissances avĂ©rĂ©es dont on peut disposer sur le processus (sous rĂ©serve quâellessoient sous la forme dâĂ©quations algĂ©briques ou diffĂ©rentielles) pour structurer le rĂ©seau et dĂ©finir sonarchitecture. Nous prĂ©senterons plus bas un exemple dâapplication industrielle de la modĂ©lisation semi-physique ; la mĂ©thodologie de conception dâun tel modĂšle est dĂ©crite dans le chapitre 2.
La commande de processus
Commander un systĂšme, câest lui imposer une dynamique de rĂ©ponse Ă une sollicitation. Sâil sâagit dâunasservissement, il faut imposer au systĂšme de rester dans un Ă©tat dĂ©terminĂ© quelles que soient les pertur-bations, mesurables ou non, auxquelles il est soumis : pour un systĂšme de commande de vitesse dâunevoiture (cruise control), il faut agir automatiquement sur lâaccĂ©lĂ©rateur afin que la voiture conserve unevitesse constante Ă©gale Ă la vitesse de consigne, indĂ©pendamment de perturbations telles que bourrasquesde vent, changements de la pente de la route, etc. Sâil sâagit dâun systĂšme de poursuite, il faut imposer ausystĂšme de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systĂšme dechauffage pour que la tempĂ©rature suive un profil temporel dĂ©terminĂ© Ă lâavance, indĂ©pendamment de latempĂ©rature du four, de la tempĂ©rature des ingrĂ©dients que lâon ajoute durant la fermentation, des rĂ©ac-tions exo- ou endothermiques qui peuvent se produire, etc. Pour rĂ©aliser ces tĂąches, il faut gĂ©nĂ©ralementdisposer dâun modĂšle, qui, si les non-linĂ©aritĂ©s sont importantes, peut ĂȘtre un rĂ©seau de neurones. Lechapitre 5 est entiĂšrement consacrĂ© Ă la commande de processus non linĂ©aires.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 119
Ă quoi servent les rĂ©seaux de neurones bouclĂ©s sans apprentissage ? Lâoptimisation combinatoireLes utilisations des rĂ©seaux de neurones bouclĂ©s prĂ©sentĂ©es dans la section prĂ©cĂ©dente mettent Ă profit ladynamique forcĂ©e des modĂšles neuronaux, puisquâil sâagit de modĂ©liser la rĂ©ponse dâun processus auxsignaux de commande quâil reçoit. Il existe une autre classe dâapplications des rĂ©seaux de neuronesbouclĂ©s, dans lesquels câest au contraire la dynamique propre des modĂšles qui est mise Ă profit.
Il existe en effet des rĂ©seaux de neurones bouclĂ©s, constituĂ©s de neurones dont la fonction dâactivation estun Ă©chelon (neurones de McCulloch et Pitts), dont la dynamique est caractĂ©risĂ©e par lâexistence de pointsfixes : si un tel rĂ©seau est placĂ© dans un Ă©tat initial, et quâon le laisse Ă©voluer spontanĂ©ment, il aboutit, aubout dâun temps fini, dans un Ă©tat stable (qui dĂ©pend de lâĂ©tat de dĂ©part). Cet Ă©tat (câest-Ă -dire le vecteurdes sorties des neurones) Ă©tant binaire, il peut ĂȘtre considĂ©rĂ© comme le code binaire dâune information.De plus, on montre quâil existe une fonction de lâĂ©tat, dite fonction dâĂ©nergie, ou fonction de Liapounov,qui dĂ©croĂźt toujours pendant lâĂ©volution libre du rĂ©seau ; les Ă©tats stables de celui-ci sont donc des minimade cette fonction dâĂ©nergie.
On peut inverser le problĂšme : supposons que lâon se pose un problĂšme dâoptimisation combinatoire,câest-Ă -dire que lâon cherche le minimum (ou un « bon » minimum) dâune fonction, dite « fonction decoĂ»t », de variables binaires. Sâil existe un rĂ©seau de neurones bouclĂ© dont la fonction dâĂ©nergie estisomorphe de la fonction de coĂ»t que lâon cherche Ă minimiser, alors les points fixes de la dynamique dece rĂ©seau constituent des solutions au problĂšme dâoptimisation combinatoire que lâon cherche Ă rĂ©soudre.Si lâon peut construire un tel rĂ©seau, il peut alors trouver de lui-mĂȘme, Ă partir dâun Ă©tat initial quelconque,une solution au problĂšme dâoptimisation.
La mise en Ćuvre de cette idĂ©e nĂ©cessite doncâą de trouver un rĂ©seau de neurones dont la fonction dâĂ©nergie soit isomorphe de la fonction de coĂ»t du
problĂšme dâoptimisation,âą de dĂ©terminer les paramĂštres de ce rĂ©seau,âą de maĂźtriser la dynamique de celui-ci pour quâil trouve un « bon » minimum de la fonction de coĂ»t,
éventuellement en faisant appel à des techniques inspirées de la méthode du recuit simulé.
La mise en Ćuvre de cette technique puissante, et ses applications, font lâobjet du chapitre 8 de cetouvrage.
Quand et comment mettre en Ćuvre des rĂ©seaux de neurones Ă apprentissage supervisĂ© ?
AprĂšs avoir prĂ©sentĂ© les justifications thĂ©oriques de lâutilisation de rĂ©seaux de neurones, nous allons iciaborder les problĂšmes pratiques liĂ©s Ă leur mise en Ćuvre : nous rappellerons dâabord quand utiliser â etquand ne pas utiliser â les rĂ©seaux de neurones ; nous expliquerons briĂšvement ensuite comment il faut lesmettre en Ćuvre. Toutes les questions qui sont abordĂ©es ici sont approfondies dans les chapitres suivants.
Quand utiliser les rĂ©seaux de neurones ?Nous avons expliquĂ© prĂ©cĂ©demment le fondement thĂ©orique de lâutilisation des rĂ©seaux de neurones Ă apprentissage supervisĂ© : la propriĂ©tĂ© dâapprocher, de maniĂšre parcimonieuse, toute fonction de rĂ©gres-sion non linĂ©aire suffisamment rĂ©guliĂšre.
Les réseaux de neurones20
Il peut donc ĂȘtre avantageux de mettre en Ćuvre des rĂ©seaux de neurones pour toute application nĂ©cessi-tant de trouver, par des mĂ©thodes statistiques, une relation non linĂ©aire entre des donnĂ©es numĂ©riques.
Sous quelles conditions peut-on utiliser une telle approche ?⹠Une premiÚre condition, nécessaire mais non suffisante : puisque les réseaux de neurones entrent dans
le cadre des mĂ©thodes statistiques, il faut disposer dâĂ©chantillons de taille suffisamment grande, et bienreprĂ©sentatifs.
âą Une fois que ces donnĂ©es ont Ă©tĂ© recueillies, il faut sâassurer de lâintĂ©rĂȘt rĂ©el dâun modĂšle non linĂ©airepour lâapplication considĂ©rĂ©e : en effet, la mise en Ćuvre dâun modĂšle linĂ©aire (ou affine) est toujoursplus simple, et moins coĂ»teuse en temps de calcul, que celle dâun rĂ©seau de neurones. Par consĂ©quent,en lâabsence de toute connaissance a priori sur lâintĂ©rĂȘt dâun modĂšle non linĂ©aire, lâingĂ©nieur doitdâabord utiliser les mĂ©thodes simples et Ă©prouvĂ©es dâĂ©laboration dâun modĂšle linĂ©aire ; sâil sâavĂšre quela prĂ©cision du modĂšle est insuffisante bien que tous les facteurs pertinents soient prĂ©sents dans lesentrĂ©es du modĂšle, alors le concepteur de modĂšle doit envisager la mise en Ćuvre de modĂšles nonlinĂ©aires tels que les rĂ©seaux de neurones.
âą Si les donnĂ©es sont disponibles, et si lâon sâest assurĂ© quâun modĂšle non linĂ©aire est utile, il faut sâinter-roger sur lâopportunitĂ© dâutiliser un rĂ©seau de neurones de prĂ©fĂ©rence Ă une autre famille de fonctionsnon linĂ©aire, les polynĂŽmes par exemple. Câest ici quâintervient la notion de parcimonie : comme nouslâavons vu plus haut, pour une prĂ©cision donnĂ©e, le nombre de poids de la premiĂšre couche deconnexions varie linĂ©airement avec le nombre de variables, alors quâil varie exponentiellement dans lecas, par exemple, dâune approximation polynomiale (il existe nĂ©anmoins des mĂ©thodes de sĂ©lection desmonĂŽmes qui permettent, dans une certaine mesure, dâĂ©viter cette explosion combinatoire).Par consĂ©quent, les rĂ©seaux de neurones, notamment Ă fonction dâactivation sigmoĂŻde, sont dâautantplus avantageux que le nombre de variables est « grand » ; dans la majoritĂ© des cas, « grand » signifie,en pratique et de maniĂšre empirique, supĂ©rieur ou Ă©gal Ă 3.
En rĂ©sumĂ© : si lâon dispose de donnĂ©es numĂ©riques suffisamment nombreuses et reprĂ©sentatives, il estgĂ©nĂ©ralement avantageux dâutiliser des rĂ©seaux de neurones dans toute application mettant en jeu lâesti-mation dâune fonction de rĂ©gression non linĂ©aire possĂ©dant au moins trois variables. Si le nombre devariables est supĂ©rieur ou Ă©gal Ă 3, il est gĂ©nĂ©ralement avantageux dâutiliser des rĂ©seaux de neurones Ă fonction dâactivation sigmoĂŻde ; dans le cas contraire, des rĂ©seaux de neurones utilisant des RBF Ă centreset Ă©carts-types fixĂ©s, ou des ondelettes Ă centres et dilatations fixĂ©s, ou encore des polynĂŽmes, peuvent ĂȘtreaussi prĂ©cises, et plus simples Ă mettre en Ćuvre.
Bien entendu, si les donnĂ©es ne sont pas numĂ©riques (mais linguistiques par exemple), les rĂ©seaux deneurones ne peuvent les traiter directement. Il faut avoir recours Ă des prĂ©-traitements permettant de« quantifier » ces donnĂ©es (par exemple Ă lâaide de techniques issues de la thĂ©orie des ensembles flous).
Comment mettre en Ćuvre ces rĂ©seaux de neurones ?Les rĂ©seaux de neurones rĂ©alisent des fonctions non linĂ©aires paramĂ©trĂ©es ; ils peuvent approcher toutefonction de rĂ©gression si lâon trouve un rĂ©seau de neurones qui rend minimum la fonction de coĂ»t desmoindres carrĂ©s (somme des carrĂ©s des diffĂ©rences entre les valeurs calculĂ©es par le rĂ©seau de neurones etles valeurs mesurĂ©es). La mise en Ćuvre dâun rĂ©seau de neurones nĂ©cessite doncâą de dĂ©terminer les entrĂ©es pertinentes, câest-Ă -dire les grandeurs qui ont une influence significative sur le
phĂ©nomĂšne que lâon cherche Ă modĂ©liser,âą de collecter les donnĂ©es nĂ©cessaires Ă lâapprentissage et Ă lâĂ©valuation des performances du rĂ©seau de
neurones,⹠de trouver le nombre de neurones cachés nécessaires pour obtenir une approximation satisfaisante,
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 121
âą dâestimer les valeurs des paramĂštres correspondant Ă un minimum de la fonction de coĂ»t, câest-Ă -diredâeffectuer un apprentissage,
âą dâĂ©valuer les performances du rĂ©seau de neurones Ă lâissue de lâapprentissage.
En fonction des rĂ©sultats obtenus, il peut ĂȘtre nĂ©cessaire dâeffectuer plusieurs itĂ©rations de tout ou partiede cette procĂ©dure.
Nous allons aborder successivement ces différents points.
Les entrées pertinentes
Le problÚme de la détermination des entrées pertinentes se pose de maniÚre trÚs différente selon les appli-cations envisagées.
Si le processus que lâon veut modĂ©liser est un processus industriel conçu par des ingĂ©nieurs, le problĂšmeest important mais pas crucial, car, en gĂ©nĂ©ral, on connaĂźt bien les grandeurs qui interviennent et lesrelations causales entre celles-ci. Ainsi, dans un procĂ©dĂ© de soudage par points, on fait fondre localementles deux tĂŽles Ă souder en faisant passer un courant Ă©lectrique trĂšs important (quelques kiloampĂšres)pendant quelques millisecondes, entre deux Ă©lectrodes qui exercent une pression mĂ©canique sur les tĂŽles(figure 1-13). La qualitĂ© de la soudure, qui est caractĂ©risĂ©e par le diamĂštre de la zone fondue, dĂ©pendĂ©videmment de lâintensitĂ© du courant, de la durĂ©e pendant laquelle il est appliquĂ©, de lâeffort exercĂ© parles Ă©lectrodes pendant le passage du courant et pendant la phase de solidification, de lâĂ©tat de surface desĂ©lectrodes, de la nature des tĂŽles, et de quelques autres facteurs qui ont Ă©tĂ© trĂšs largement Ă©tudiĂ©s en raisonde lâimportance industrielle du procĂ©dĂ©. On connaĂźt donc la nature des entrĂ©es dĂ©sirables pour un modĂšle ;il peut ĂȘtre nĂ©anmoins utile de faire un choix parmi ces grandeurs, en ne prenant en considĂ©ration, enentrĂ©e du modĂšle, que celles qui agissent de maniĂšre trĂšs significative sur le processus (câest-Ă -dire cellesdont lâeffet est plus important que lâincertitude de la mesure).
En revanche, si le processus Ă modĂ©liser est un processusnaturel complexe (Ă©cologique par exemple), ou unprocessus Ă©conomique, social ou financier, la dĂ©termina-tion des entrĂ©es pertinentes peut ĂȘtre beaucoup plus dĂ©li-cate. Ainsi, si lâon veut prĂ©dire une propriĂ©tĂ© chimiquedâune molĂ©cule (cet exemple est dĂ©crit en dĂ©tail plusbas), le choix des descripteurs pertinents nâest pasĂ©vident ; de mĂȘme, pour dĂ©terminer la solvabilitĂ© dâunorganisme, ou la qualitĂ© dâune entreprise, il est trĂšsimportant de choisir des ratios appropriĂ©s pour dĂ©crire lasituation comptable, fiscale, commerciale, etc.
Ce problĂšme (et, plus gĂ©nĂ©ralement, le problĂšme de lasĂ©lection de modĂšle) nâest pas spĂ©cifique aux rĂ©seaux deneurones : il se pose pour toutes les techniques de modĂ©-lisation, quâelles soient linĂ©aires ou non. Nous verrons,
dans le chapitre 2, quâil est possible dâĂ©tendre aux rĂ©seaux de neurones des mĂ©thodes de sĂ©lection connuesdans le domaine de la modĂ©lisation linĂ©aire.
La collecte des données
Nous avons vu que, pour pouvoir effectuer lâapprentissage, il faut disposer de donnĂ©es. Celles-ci doiventĂȘtre en nombre suffisant, et ĂȘtre suffisamment reprĂ©sentatives des donnĂ©es qui seront prĂ©sentĂ©es aumodĂšle lors de son utilisation. Lorsque la grandeur que lâon veut modĂ©liser dĂ©pend de nombreux facteurs,
Transformateur
Figure 1-13. SchĂ©ma dâun processus industriel : le soudage par points
Les réseaux de neurones22
câest-Ă -dire lorsque le modĂšle possĂšde de nombreuses entrĂ©es, il nâest pas possible de rĂ©aliser un« pavage » rĂ©gulier dans tout le domaine de variation des entrĂ©es : il faut donc trouver une mĂ©thodepermettant de rĂ©aliser uniquement des expĂ©riences qui apportent une information significative pourlâapprentissage du modĂšle : il faut rĂ©aliser un « plan dâexpĂ©riences ». Pour les modĂšles linĂ©aires, lâĂ©labo-ration des plans dâexpĂ©riences est bien maĂźtrisĂ©e ; ce nâest pas le cas pour les modĂšles non linĂ©aires. NousprĂ©senterons dans le chapitre 2, section « Ălaboration de plans dâexpĂ©riences », quelques Ă©lĂ©ments quipermettent de construire itĂ©rativement un plan dâexpĂ©riences pour un modĂšle neuronal.
Le nombre de neurones cachés
LâĂ©cart entre lâapproximation rĂ©alisĂ©e par un rĂ©seau de neurones et la fonction Ă approcher est inverse-ment proportionnel au nombre de neurones cachĂ©s [BARRON 1993] ; malheureusement, ce rĂ©sultat,comme dâautres considĂ©rations thĂ©oriques telles que la dimension de Vapnik-Cervonenkis [VAPNIK 1995](introduite dans le chapitre 6) nâest pas constructif, en ce sens quâil ne peut que donner des estimations,ou des bornes larges, du nombre de neurones cachĂ©s nĂ©cessaires. Il nâexiste pas, Ă lâheure actuelle, derĂ©sultat thĂ©orique permettant de prĂ©voir le nombre de neurones cachĂ©s nĂ©cessaires pour obtenir uneperformance spĂ©cifiĂ©e du modĂšle, compte tenu des donnĂ©es disponibles. Il faut donc nĂ©cessairementmettre en Ćuvre une procĂ©dure numĂ©rique de conception de modĂšle. Nous allons tout dâabord dĂ©finir leproblĂšme de la conception dâun modĂšle statique non linĂ©aire « boĂźte noire » , et notamment (mais pasexclusivement), dâun rĂ©seau de neurones non bouclĂ©.
â La nĂ©cessitĂ© de la parcimonie
LâidĂ©e la plus naturelle consisterait Ă choisir le nombre de neurones cachĂ©s le plus grand possible, puisquecâest ce qui assure la plus grande prĂ©cision Ă lâapproximation uniforme dâune fonction. Ce serait oublierque le problĂšme rĂ©el que lâon se pose nâest pas un problĂšme dâapproximation uniforme, mais un problĂšmedâajustement dâune fonction Ă un nombre fini de points ; il faut donc, non seulement que la fonctionrĂ©alisĂ©e par le rĂ©seau de neurones passe « le plus prĂšs possible », au sens des moindres carrĂ©s, des pointsutilisĂ©s pour lâapprentissage (lâensemble de ces points est appelĂ© « ensemble dâapprentissage »), maisĂ©galement quâil soit capable de gĂ©nĂ©raliser de maniĂšre satisfaisante. Si le rĂ©seau de neurones possĂšde unnombre de paramĂštres excessif, en raison dâun nombre excessif de neurones cachĂ©s, sa sortie peut passeravec une trĂšs grande prĂ©cision par tous les points dâapprentissage, mais fournir des rĂ©sultats dĂ©pourvus designification entre ces points ; sâil possĂšde un nombre de paramĂštres trop restreint, le modĂšle nâest passuffisamment riche pour rendre compte de la complexitĂ© de la fonction de rĂ©gression inconnue. Cedilemme (appelĂ© « dilemme biais-variance ») est le problĂšme essentiel que doit affronter le concepteur demodĂšles : il rĂ©sulte du fait que la modĂ©lisation « boĂźte noire » entre dans la catĂ©gorie des problĂšmes dits« mal posĂ©s », en ce sens quâils ne peuvent pas ĂȘtre rĂ©solus complĂštement en fonction des donnĂ©es donton dispose.
La figure 1-14 prĂ©sente le rĂ©sultat de lâapprentissage, Ă partir des mĂȘmes points de mesure, de deuxrĂ©seaux Ă une couche cachĂ©e de neurones Ă fonction dâactivation sigmoĂŻde : Ă lâĂ©vidence, le rĂ©seau le plusparcimonieux en neurones cachĂ©s est celui qui prĂ©sente les meilleures capacitĂ©s de gĂ©nĂ©ralisation, tandisque le rĂ©seau qui a trop de paramĂštres conduit au phĂ©nomĂšne classique de « surajustement » (en anglaisoverfitting). En pratique, on sâefforcera toujours de faire en sorte que le nombre de paramĂštres ajustablessoit petit devant le nombre dâexemples : la parcimonie intrinsĂšque aux rĂ©seaux de neurones Ă fonctiondâactivation sigmoĂŻde permet de rĂ©aliser cette condition plus facilement que si lâon utilise une mĂ©thode derĂ©gression multilinĂ©aire par exemple.
Si, au vu des rĂ©sultats portĂ©s sur la figure 1-14, le choix entre les deux rĂ©seaux est Ă©vident, il nâen va pasde mĂȘme lorsque le modĂšle possĂšde plusieurs entrĂ©es, car il nâest alors pas possible de reprĂ©senter graphi-quement le rĂ©sultat de maniĂšre aussi simple. Il faut donc trouver un critĂšre global de jugement des perfor-
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 123
mances du rĂ©seau. Pour ce faire, il convient de constituer, outre lâensemble dâapprentissage utilisĂ© pour lecalcul des poids du rĂ©seau, un ensemble de test, constituĂ© de donnĂ©es diffĂ©rentes de celles de lâensembledâapprentissage, Ă partir duquel on estime les performances du rĂ©seau aprĂšs un apprentissage. Lâindice deperformance le plus frĂ©quemment utilisĂ© est lâerreur quadratique moyenne commise sur lâensemble detest (ou ensemble dâestimation des performances), dĂ©signĂ©e par EQMT :
oĂč NT est le nombre dâĂ©lĂ©ments de lâensemble de test, et oĂč, pour simplifier les notations, nous dĂ©signonspar yk les sorties mesurĂ©es du processus Ă modĂ©liser (nous nous plaçons ici, pour simplifier, dans le cas âtrĂšs frĂ©quent â dâun rĂ©seau de neurones Ă une sortie ; si le rĂ©seau a plusieurs sorties, lâEQMP est la sommedes Ă©carts quadratiques moyens relatifs Ă chacune des sorties) : yk = yp(xk).
Cette grandeur doit ĂȘtre comparĂ©e Ă lâerreur quadratique moyenne commise sur lâensemble dâapprentis-sage (EQMA) :
oĂč NA est le nombre dâexemples de lâensemble dâapprentissage.
En effet, on voit sur lâexemple prĂ©sentĂ© sur la figure 1-14, que lâEQMA du second rĂ©seau est certainementinfĂ©rieure Ă celle du premier, mais que son EQMP est certainement supĂ©rieure Ă celle du premier. Estimer
EQMT =1NT
yk â g xk, w 2âk = 1
NT
EQMA =1NA
yk â g xk, w 2âk = 1
NA
,
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
8 neurones cachés(25 poids)
4 neurones cachés(13 poids)
Figure 1-14. Toutes choses égales par ailleurs, le réseau de neurones le plus parcimonieux possÚde les meilleures propriétés de généralisation.
Les réseaux de neurones24
les performances dâun modĂšle sur la base de sa seule EQMA serait donc erronĂ© et conduirait systĂ©mati-quement Ă concevoir des modĂšles possĂ©dant trop de paramĂštres, donc souffrant de surajustement.
Remarquons que si la modĂ©lisation Ă©tait parfaite, câest-Ă -dire si la sortie du modĂšle g(x, w) Ă©tait identiqueĂ la fonction de rĂ©gression, et si le nombre dâĂ©lĂ©ments des ensembles dâapprentissage et de test Ă©tait trĂšsgrand, lâEQMA et lâEQMP seraient Ă©gales, et de lâordre de grandeur de lâĂ©cart-type du bruit de mesure.Lâobjectif de la modĂ©lisation peut donc sâexprimer de la maniĂšre suivante : trouver le modĂšle (parexemple le rĂ©seau de neurones non bouclĂ©) le plus parcimonieux possible, tel que lâerreur quadratiquemoyenne sur lâensemble d'apprentissage et lâerreur quadratique moyenne sur lâensemble de test soient dumĂȘme ordre de grandeur, et aussi petites que possible, câest-Ă -dire de lâordre de grandeur de lâĂ©cart-typedu bruit.
â Comment faire en pratique ?
Lâobjectif de cet ouvrage est de prĂ©senter des mĂ©thodologies pratiques, mais bien fondĂ©es thĂ©oriquement,pour concevoir des modĂšles, que ce soit par apprentissage supervisĂ© ou non supervisĂ©. Pour lâapprentis-sage supervisĂ©, le lecteur trouvera une mĂ©thodologie complĂšte dans le chapitre 2 (et des complĂ©mentsdans le chapitre 3), et, pour lâapprentissage non supervisĂ©, dans le chapitre 7.
Lâapprentissage des rĂ©seaux de neurones non bouclĂ©s : un problĂšme dâoptimisation
Une fois que le nombre de neurones cachĂ©s est dĂ©fini, on doit procĂ©der Ă lâapprentissage, câest-Ă -dire Ă lâestimation des paramĂštres du rĂ©seau de neurones qui, avec le nombre de neurones cachĂ©s dont il dispose,permet dâobtenir une erreur quadratique minimum sur les points de lâensemble dâapprentissage.Lâapprentissage est donc un problĂšme numĂ©rique dâoptimisation.
ConsidĂ©rons, pour simplifier, un rĂ©seau de neurones Ă une sortie g(x, w). On dispose dâun ensemble dâappren-tissage comprenant N exemples. Nous avons dĂ©fini plus haut la fonction de coĂ»t des moindres carrĂ©s :
oĂč xk dĂ©signe le vecteur des valeurs des variables pour lâexemple k, yp(xk) la valeur de la mesure corres-pondante, w dĂ©signe le vecteur des poids du rĂ©seau de neurones, et g(xk, w) est la valeur calculĂ©e par lerĂ©seau de neurones muni des poids w pour le vecteur xk de variables. La fonction de coĂ»t est donc unefonction de tous les paramĂštres ajustables w de tous les neurones et de toutes les connexions du rĂ©seau.Lâapprentissage consiste donc Ă trouver lâensemble des paramĂštres w qui rendent J(w) « minimum ».âą Si lâon met en Ćuvre des rĂ©seaux dont la sortie est linĂ©aire par rapport aux paramĂštres (par exemple des
fonctions radiales gaussiennes dont les centres et Ă©carts-types sont fixĂ©s) la fonction de coĂ»t J estquadratique par rapport aux paramĂštres : on peut alors utiliser les techniques, simples et bien connues,des moindres carrĂ©s ordinaires. Leur simplicitĂ© et leur rapiditĂ© de calcul se paient nĂ©anmoins de deuxmaniĂšres : dâune part, la qualitĂ© du rĂ©sultat dĂ©pend essentiellement du choix des centres et des Ă©carts-types des fonctions non linĂ©aires mises en Ćuvre ; ce choix est loin dâĂȘtre simple. Dâautre part, cesrĂ©seaux nâont pas la propriĂ©tĂ© de parcimonie.
âą Si, en revanche, on met en Ćuvre des rĂ©seaux de neurones dont la sortie nâest pas linĂ©aire par rapportaux paramĂštres, tels que des perceptrons multicouche ou les RBF Ă centres et Ă©carts-types variables, ondoit rĂ©soudre un problĂšme dâoptimisation non linĂ©aire multivariable. Les mĂ©thodes utilisĂ©es Ă cet effetseront exposĂ©es en dĂ©tail dans le chapitre 2. Il sâagit de techniques itĂ©ratives, qui, Ă partir dâun rĂ©seaumuni de poids dont les valeurs sont alĂ©atoires, modifient ces paramĂštres jusquâĂ ce quâun minimum dela fonction de coĂ»t soit atteint, ou quâun critĂšre dâarrĂȘt soit satisfait.
J w =12
yp xk â g xk, w 2âk = 1
N
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 125
Ces techniques sont toutes des mĂ©thodes de gradient : elles sont fondĂ©es sur le calcul, Ă chaque itĂ©ration,du gradient de la fonction de coĂ»t par rapport aux paramĂštres, gradient qui est ensuite utilisĂ© pour calculerune modification de ceux-ci. Le calcul du gradient peut ĂȘtre effectuĂ© de diverses maniĂšres ; il en est une,appelĂ©e rĂ©tropropagation (voir chapitre 2), qui est gĂ©nĂ©ralement plus Ă©conome que les autres en termesde nombres dâopĂ©rations arithmĂ©tiques Ă effectuer pour Ă©valuer le gradient. Contrairement Ă une idĂ©e troprĂ©pandue, la rĂ©tropropagation nâest pas un algorithme dâapprentissage : câest simplement une techniquedâĂ©valuation du gradient de la fonction de coĂ»t, qui est frĂ©quemment, mais pas obligatoirement, utilisĂ©eau sein dâalgorithmes dâapprentissage. Il faut noter que, contrairement Ă bien des affirmations, ce nâest paslâinvention de la rĂ©tropropagation qui a permis lâapprentissage des rĂ©seaux de neurones Ă couches ; eneffet, les spĂ©cialistes de traitement du signal connaissaient, bien avant la rĂ©tropropagation, des mĂ©thodesdâĂ©valuation du gradient dâune fonction de coĂ»t quadratique, mĂ©thodes qui auraient pu ĂȘtre mises enĆuvre pour effectuer lâapprentissage de rĂ©seaux [MARCOS et al. 1992].
(a) (b)
(c) (d)
0
- 2
- 1,5
- 1
- 0,5
- 0
0,5
1
1,5
2
- 2
- 1,5
- 1
- 0,5
- 0
0,5
1
1,5
2
3020100 40 50 3020100 40 50
(a)
- 2
- 1,5
- 1
- 0,5
- 0
0,5
1
1,5
2
3020100 40 50
(c)
- 2
- 1,5
- 1
- 0,5
- 0
0,5
1
1,5
2
3020100 40 50
(d)
(b)
0
Figure 1-15. Apprentissage dâun rĂ©seau de neurones Ă une variable et 3 neurones cachĂ©s. Le trait continu reprĂ©-sente la sortie du rĂ©seau de neurones. Initialement, la sortie du rĂ©seau est pratique-ment nulle. Elle Ă©volue au cours de lâapprentis-sage : (a) Ă©tat initial ; (b) aprĂšs une itĂ©ration ; (c) aprĂšs 6 itĂ©rations ; (d) aprĂšs 13 itĂ©rations (reproduit avec lâautorisation de NETRAL S.A.).
Les réseaux de neurones26
Ces algorithmes dâapprentissage ont fait dâĂ©norme progrĂšs au cours des derniĂšres annĂ©es. Alors que, audĂ©but des annĂ©es 1990, les publications faisaient Ă©tat de dizaines ou de centaines de milliers dâitĂ©rations,reprĂ©sentant des journĂ©es de calcul sur des ordinateurs puissants, les nombres dâitĂ©rations typiques Ă lâheure actuelle sont de lâordre de quelques dizaines Ă quelques centaines. La figure 1-15 montre le dĂ©rou-lement de lâapprentissage dâun modĂšle Ă une variable. Les croix reprĂ©sentent les mesures de lâensembledâapprentissage. Initialement, on donne aux poids du rĂ©seau des valeurs « petites » (nous expliqueronsprĂ©cisĂ©ment ce que cela signifie dans le chapitre 2, paragraphe « Initialisation des paramĂštres »), si bienque la sortie du rĂ©seau est quasi nulle. Le rĂ©sultat obtenu au bout de 13 itĂ©rations est satisfaisant« visuellement » ; quantitativement, lâEQMA et lâEQMP (cette derniĂšre Ă©tant mesurĂ©e sur un ensemblede points non reprĂ©sentĂ©s sur la figure) sont du mĂȘme ordre de grandeur, et de lâordre de lâĂ©cart-type dubruit, de sorte que le modĂšle est satisfaisant.
ConclusionDans ce paragraphe, nous avons expliquĂ© quand et comment utiliser les rĂ©seaux de neurones. Rappelonsque lâutilisation des rĂ©seaux de neurones peut ĂȘtre avantageuse chaque fois que lâon cherche Ă Ă©tablir unerelation non linĂ©aire entre des donnĂ©es numĂ©riques. Les rĂ©seaux de neurones entrent donc dans le cadredes mĂ©thodes statistiques, notamment de la rĂ©gression non linĂ©aire. Nous avons prĂ©sentĂ© une vue gĂ©nĂ©ralede la mise en Ćuvre de ces mĂ©thodes, en insistant sur les conditions qui doivent ĂȘtre remplies pour quâunrĂ©seau de neurones donne des rĂ©sultats satisfaisants. Les techniques dâapprentissage proprement dites,dont lâefficacitĂ© conditionne en grande partie les performances des rĂ©seaux, seront abordĂ©es en dĂ©tail dansle chapitre 2.
RĂ©seaux de neurones Ă apprentissage supervisĂ© et discrimination (classification)Le lecteur qui nâaurait abordĂ© les rĂ©seaux de neurones que par lâintermĂ©diaire de revues ou dâouvrages devulgarisation pourrait avoir lâimpression quâils sont avant tout des outils de classification pour la recon-naissance des formes, et sâĂ©tonner de lâimportance que nous donnons ici Ă la rĂ©gression non linĂ©aire. Eneffet, les premiĂšres applications industrielles des rĂ©seaux de neurones Ă©taient relatives Ă la reconnaissancede formes ou de signaux. Nous allons donc consacrer le paragraphe suivant Ă une prĂ©sentation de ce quâestun problĂšme de classification ; nous montrerons que tout problĂšme de classification peut se ramener Ă unproblĂšme trĂšs voisin de celui de la rĂ©gression non linĂ©aire : câest ce qui justifie lâutilisation de rĂ©seaux deneurones comme classifieurs. Lâobjectif de cette section est seulement de prĂ©senter le problĂšme de la clas-sification et le lien avec les notions dĂ©veloppĂ©es dans les paragraphes prĂ©cĂ©dents. Le lecteur trouvera uneprĂ©sentation beaucoup plus dĂ©taillĂ©e dans le chapitre 6 de cet ouvrage.
Nous utiliserons ici indifféremment le terme de « classification » ou celui de « discrimination ».
Quâest-ce quâun problĂšme de classification ?Comme nous lâavons indiquĂ© plus haut, classer un ensemble dâobjets, câest attribuer Ă chacun une classe(ou « catĂ©gorie ») parmi plusieurs classes dĂ©finies Ă lâavance. Un algorithme qui rĂ©alise automatiquementune classification est appelĂ© classifieur.
Avant de considérer le cas des classifieurs neuronaux, il est important de bien comprendre les caractéristi-ques générales des problÚmes de classification. Considérons pour cela un exemple : pour une application detri automatique, on désire discriminer, dans une image, des condensateurs et des circuits intégrés qui défilent
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 127
devant une camĂ©ra, afin quâun bras de robot puisse saisir un condensateur ou un circuit intĂ©grĂ© pour le placerdans le rĂ©ceptacle correspondant. En gros, les condensateurs apparaissent comme des rectangles plutĂŽt petitset brillants, alors que les circuits intĂ©grĂ©s sont des rectangles plutĂŽt grands et sombres.
On peut donc considĂ©rer que lâaire A et la rĂ©flectivitĂ© R des rectanglesconstituent des facteurs discriminants pour le problĂšme posĂ© :chaque objet sera ainsi caractĂ©risĂ© par 2 descripteurs. Supposons quelâon ait prĂ©levĂ© des Ă©chantillons de circuits intĂ©grĂ©s et de condensa-teurs, et que lâon en ait mesurĂ© lâaire et la rĂ©flectivitĂ© : on peut reprĂ©-senter chaque Ă©chantillon par un point dans un espace Ă deux dimen-sions, comme indiquĂ© sur la figure 1-16. Nous allons utiliser cetexemple pour introduire les idĂ©es de base de la classification.
Figure 1-16. Chaque Ă©chantillon est reprĂ©sentĂ© par un point dans le plan rĂ©flectivitĂ©-aire. Les condensateurs sont reprĂ©-sentĂ©s par des âxâ et les circuits intĂ©grĂ©s par des â+â.
Quand est-il opportun dâutiliser un classifieur statistique tel quâun rĂ©seau de neurones ?Les ingrĂ©dients dâun problĂšme de classification sont donc :âą une population de N objets,âą n variables descriptives (ou descripteurs) qui permettent de dĂ©crire les objets, lâensemble des descrip-
teurs constituant la reprĂ©sentation des objets,âą un ensemble de C classes dans lesquelles on cherche Ă ranger les individus (une des classes peut ĂȘtre une
classe de rejet Ă laquelle appartiennent tous les objets que lâon ne peut attribuer Ă aucune autre classe).
RĂ©soudre un problĂšme de classification, câest donc trouver une application de lâensemble des objets Ă classer dans lâensemble des classes. Lâalgorithme ou la procĂ©dure qui rĂ©alise cette application est appelĂ©classifieur.
Lorsque lâon se pose un problĂšme de classification, il faut dâabord analyser le type de mĂ©thode quâilconvient de mettre en Ćuvre pour le rĂ©soudre. En effet, les rĂ©seaux de neurones et, plus gĂ©nĂ©ralement, lesclassifieurs statistiques, ne sont pas forcĂ©ment adaptĂ©s au problĂšme, et il y a bien dâautres mĂ©thodes declassification que les rĂ©seaux de neurones. Afin de dĂ©limiter le domaine dâutilisation des rĂ©seaux deneurones en classification, considĂ©rons quelques exemples plus ou moins acadĂ©miques, qui illustrentplusieurs aspects de cette tĂąche. Pour chacun des exemples, nous nous poserons trois questions :âą les connaissances a priori sur le problĂšme permettent-elles de dĂ©terminer simplement des descripteurs
pertinents ?âą ces descripteurs sont-ils mesurables (ou calculables Ă partir de mesures) ?âą quel est le rĂŽle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu lâoccasion dâutiliser un distributeur de tickets de mĂ©tro, ou une barriĂšre de pĂ©age de parking,qui reconnaĂźt les piĂšces de monnaie utilisĂ©es en paiement, et rejette les piĂšces fausses ou Ă©trangĂšres.ConsidĂ©rons ce problĂšme sous lâangle des trois questions ci-dessus :âą il est facile de dĂ©terminer des descripteurs pertinents : le diamĂštre de la piĂšce, son poids, son Ă©paisseur,
la composition de lâalliage, etc. ; ces descripteurs sont en petit nombre ; les nouvelles piĂšces de monnaiesont conçues de maniĂšre Ă faciliter la discrimination ;
âą les descripteurs sont des grandeurs physiques mesurables ;âą la classe de rejet peut ĂȘtre aussi grande que lâon veut : elle nâest limitĂ©e que par la patience des usagers
qui nâaiment pas voir leurs piĂšces rejetĂ©es sans raison ; ainsi, dans lâespace des descripteurs, les classes
+
x
Aire
RĂ©f
lect
ivit Ă©
Un condensateur
Un circuit intégré
Les réseaux de neurones28
sont de petits « parallĂ©lĂ©pipĂšdes » dĂ©limitĂ©s par les seuils de tolĂ©rance qui tiennent compte de la varia-bilitĂ© de la fabrication et des erreurs de mesure ; tout le reste de lâespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en Ćuvre des rĂšgles simples portantsur les descripteurs des piĂšces Ă classer. Ces rĂšgles rĂ©sultent dâune analyse du problĂšme, effectuĂ©e par lesconcepteurs de la machine, qui a conduit Ă un arbre de dĂ©cision implantĂ© dans lâautomate. Dans un tel cas,lâutilisation dâune mĂ©thode statistique de classification supervisĂ©e telle que les rĂ©seaux de neurones nâestpas appropriĂ©e.
ConsidĂ©rons Ă prĂ©sent lâĂ©valuation du confort dâune voiture. Pour prĂ©voir les rĂ©actions des clients poten-tiels Ă la mise sur le marchĂ© dâun nouveau modĂšle, les constructeurs automobiles ont recours Ă des« panels » dâindividus, supposĂ©s reprĂ©sentatifs de la clientĂšle, qui doivent Ă©mettre un jugement sur leconfort. Mais quâest-ce que le confort ? Câest une notion complexe dans laquelle interviennent la qualitĂ©de la suspension, la conception des siĂšges, lâinsonorisation du vĂ©hicule, la visibilitĂ©, etc. Exprimer unjugement (classer le confort du vĂ©hicule dans une des trois classes « bon », « moyen », « insuffisant ») estalors un processus impossible Ă formaliser, fondĂ© sur des impressions plus que sur des mesures. CeproblĂšme a donc les caractĂ©ristiques suivantes :âą les descripteurs ne sont pas forcĂ©ment tous connus et exprimĂ©s clairement par les membres des panels ;
mĂȘme si les descripteurs sont bien dĂ©finis, les jugements sont trĂšs variables : deux personnes placĂ©esdans les mĂȘmes conditions peuvent Ă©mettre des jugements diffĂ©rents,
âą les descripteurs ne sont pas forcĂ©ment mesurables,âą il nây a pas de classe de rejet : un consommateur a forcĂ©ment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas nĂ©cessairement mesurables empĂȘche (ou rend trĂšsdifficile) lâutilisation dâune mĂ©thode de classification statistique. Dans ce contexte, une mĂ©thode de clas-sification floue serait mieux adaptĂ©e.
La reconnaissance automatique des chiffres manuscrits, par exemple des codes postaux, a fait lâobjet denombreuses Ă©tudes et rĂ©alisations. ConsidĂ©rons ce problĂšme sous les mĂȘmes angles que les deux exem-ples prĂ©cĂ©dents :âą contrairement au cas du tri des piĂšces de monnaie, la variabilitĂ© des styles dâĂ©criture pose un problĂšme
majeur pour le choix des descripteurs ; nĂ©anmoins, contrairement au cas de lâĂ©valuation du confort, lespersonnes qui savent lire donnent gĂ©nĂ©ralement des rĂ©ponses identiques pour une image de chiffredonnĂ©e (sauf si le chiffre est vraiment mal Ă©crit) ;
âą les descripteurs sont des nombres que lâon peut extraire de lâimage : dans le cas dâune description de basniveau, câest lâintensitĂ© des pixels ; dans le cas dâune description de haut niveau, câest le nombre deboucles, de pointes, leur position, lâorientation et la position des segments, etc. ;
âą la taille de la classe de rejet constitue un critĂšre de performance : pour un taux dâerreur donnĂ©, le pour-centage de rejet doit ĂȘtre aussi faible que possible. En effet, toute enveloppe rejetĂ©e nĂ©cessite lâinterven-tion dâun prĂ©posĂ©, et il est plus coĂ»teux dâenvoyer une lettre dans une mauvaise direction que dâavoirrecours Ă une intervention humaine. Le cahier des charges est donc exprimĂ© de la maniĂšre suivante :pour un taux dâerreur donnĂ© (par exemple 1 %), on veut un taux de rejet aussi faible que possible. Eneffet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffirait quâil ne prennejamais de dĂ©cision. Compte tenu des donnĂ©es Ă©conomiques du problĂšme que nous considĂ©rons ici, unbon classifieur est un classifieur qui prend une dĂ©cision le plus souvent possible, tout en ne se trompantpas plus dâune fois sur cent. Si les conditions Ă©conomiques Ă©taient inversĂ©es, câest-Ă -dire si une erreurcoĂ»tait moins cher que lâintervention dâun expert, le critĂšre de qualitĂ© serait diffĂ©rent : on chercherait Ă obtenir le taux dâerreur le plus petit possible pour un taux de rejet donnĂ© (câest le cas pour les diagnos-tics mĂ©dicaux automatisĂ©s Ă lâĂ©chelle de toute une population, oĂč lâintervention dâun mĂ©decin coĂ»teplus cher quâune erreur de diagnostic...).
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 129
Dans ces conditions, la mise en Ćuvre dâune mĂ©thode statistique telle que les rĂ©seaux de neurone estopportune, sous rĂ©serve que lâon dispose dâune base de donnĂ©es suffisamment fournie. Le problĂšmecentral est celui du choix de la reprĂ©sentation des donnĂ©es. Câest dâailleurs le cas dans la majoritĂ© desproblĂšmes de classification non acadĂ©miques : la rĂ©flexion du concepteur, jointe aux techniques de prĂ©-traitement des donnĂ©es dĂ©crites dans le chapitre 3, est, dans la majoritĂ© des cas, aussi importante quelâalgorithme de classification lui-mĂȘme.
Classification probabiliste et formule de BayesSupposons donc quâune analyse prĂ©alable du problĂšme ait conduit au choix de la mise en Ćuvre dâunemĂ©thode statistique de classification, de prĂ©fĂ©rence Ă un arbre de dĂ©cision par exemple. Les mĂ©thodes declassification probabiliste reposent sur lâidĂ©e que lâon peut traiter les descripteurs et les classes commesâil sâagissait de variables alĂ©atoires (le lecteur qui nâest pas familier avec la notion de variable alĂ©atoiretrouvera les dĂ©finitions utiles au dĂ©but du chapitre 2). Ainsi, si lâon tire au hasard un objet parmi ceux quelâon veut reconnaĂźtre, la classe Ă laquelle il appartient est une rĂ©alisation dâune variable alĂ©atoire dont lavaleur est le numĂ©ro de la classe (câest donc une variable discrĂšte). De mĂȘme, les valeurs des descripteursdâun objet que lâon tire au hasard peuvent aussi ĂȘtre considĂ©rĂ©es comme les rĂ©alisations de variables alĂ©a-toires (ce sont en gĂ©nĂ©ral des variables continues). Dans lâexemple de la discrimination entre condensa-teurs et circuits intĂ©grĂ©s (figure 1-16), on peut dĂ©cider que la variable alĂ©atoire « classe » vaut zĂ©ro pourun condensateur et 1 pour un circuit intĂ©grĂ©. La rĂ©flectivitĂ© R et lâaire A peuvent ĂȘtre considĂ©rĂ©es commedes variables alĂ©atoires continues.
Dans ce cadre, le problĂšme de la classification sâexprime de façon trĂšs simple : Ă©tant donnĂ© un objetnouveau, dont la rĂ©flectivitĂ© vaut r et lâaire a (aux erreurs de mesure prĂšs), quelle est la probabilitĂ© pourque la variable alĂ©atoire « classe » soit Ă©gale Ă zĂ©ro (câest-Ă -dire pour que lâobjet soit un condensateur) ?Cette probabilitĂ© est la probabilitĂ© a posteriori de la classe « condensateur » pour lâobjet inconnu consi-dĂ©rĂ©, notĂ©e
Pr(classe = 0 {r , a}).
ConsidĂ©rons un Ă©chantillon de condensateurs et de circuits intĂ©grĂ©s ; on connaĂźt la classe, et la valeur desdescripteurs, de chaque Ă©lĂ©ment de cet Ă©chantillon. On peut les utiliser pour estimer deux grandeurs trĂšsimportantes :âą la probabilitĂ© a priori de chaque classe : un Ă©lĂ©ment tirĂ© au hasard dans lâĂ©chantillon a une certaine
probabilitĂ© dâappartenir Ă lâune ou lâautre classe ; on note Pr(Ci) la probabilitĂ© de tirer au hasard unĂ©chantillon de la classe Ci ; elle est appelĂ©e probabilitĂ© a priori de la classe Ci. Si lâon suppose que toutobjet appartient nĂ©cessairement Ă lâune des classes (il nây a pas de « non-formes »), on a Ă©videmment
Cette information est pertinente pour la classification : en effet, supposons que lâon sache que la proba-bilitĂ© a priori de la classe « condensateur » est de 0,9, et donc la probabilitĂ© a priori de la classe « circuitintĂ©grĂ© » est de 0,1 ; alors, un classifieur « stupide » qui dĂ©ciderait toujours que lâobjet est un conden-sateur, quelles que soient son aire et sa rĂ©flectivitĂ©, ne se tromperait, en moyenne, que dans 10 % descas.
âą la densitĂ© de probabilitĂ© conditionnelle de chaque descripteur: si lâon tire au hasard un circuit intĂ©grĂ©,quelle est la probabilitĂ© pour que son aire A ait pour valeur a ± ÎŽa, oĂč ÎŽa est un petit intervalle ? CetteprobabilitĂ© est Ă©videmment proportionnelle Ă ÎŽa. De maniĂšre gĂ©nĂ©rale, on note p(a Ci) la densitĂ© deprobabilitĂ© de a conditionnelle Ă la classe Ci, ou vraisemblance de la classe Ci, Ă©tant donnĂ© le descripteura : par dĂ©finition, la probabilitĂ© pour que le descripteur A ait pour valeur a ± ÎŽa sachant quâil appartient Ă
Ciâi
= 1.
Les réseaux de neurones30
la classe Ci vaut p(a Ci) ÎŽa. Puisque lâobjet dont on mesure le descripteur A appartient certainement Ă laclasse Ci, on a p(a Ci) da = 1.
La figure 1-17 reprĂ©sente une estimation de la densitĂ© deprobabilitĂ© p(a Classe = « circuit intĂ©grĂ© ») en fonctionde a. Bien entendu, on pourrait de mĂȘme tracer une esti-mation de la densitĂ© de probabilitĂ© conditionnelle de larĂ©flectivitĂ© R, pour la classe « circuit intĂ©grĂ© », en fonctionde r.
On peut donc disposer, Ă partir dâun Ă©chantillon des objetsĂ classer, dâestimations des probabilitĂ©s a priori desclasses {Pr(Ci)}, et des densitĂ©s de probabilitĂ© condition-nelles des descripteurs p(x Ci). Alors, la formule de Bayesfournit la solution du problĂšme de classification, câest-Ă -dire la probabilitĂ© a posteriori dâappartenance dâun objet Ă chaque classe, en fonction des estimations prĂ©cĂ©dentes :
Bien entendu, cette estimation nâest correcte que si lesdescripteurs de lâobjet inconnu obĂ©issent aux mĂȘmesdensitĂ©s de probabilitĂ© conditionnelles que celles desĂ©chantillons qui ont servi Ă les estimer. Câest en ce sensque lâĂ©chantillonnage doit ĂȘtre reprĂ©sentatif de lâensembledes objets Ă classer.
Notons que :⹠si les probabilités a priori sont égales, les probabilités a posteriori sont indépendantes des probabilités
a priori, de sorte que la classification repose entiĂšrement sur les vraisemblances des classes ;âą si les vraisemblances des classes sont Ă©gales, câest-Ă -dire si les descripteurs choisis ne sont absolument
pas discriminants, la classification est fondée entiÚrement sur les probabilités a priori.
NĂ©anmoins, aussi Ă©lĂ©gante que soit la formulation « bayĂ©sienne » des problĂšmes de classification, elle seheurte Ă une difficultĂ© pratique majeure : lâestimation des quantitĂ©s qui apparaissent dans le membre dedroite. Une bonne estimation des probabilitĂ©s a priori des classes Pr(Ci) peut gĂ©nĂ©ralement ĂȘtre obtenuefacilement, par simple dĂ©nombrement permettant dâestimer les frĂ©quences dâapparition de chaque classedans lâĂ©chantillon. En revanche, lâestimation des densitĂ©s de probabilitĂ© conditionnelles p(x Ci) se heurteau problĂšme connu sous le nom de malĂ©diction de la dimension. En effet, rappelons que, en gĂ©nĂ©ral, laquantitĂ© x est un vecteur de descripteurs : sa dimension peut ĂȘtre grande. Or il est trĂšs difficile dâestimerles densitĂ©s de probabilitĂ© dĂšs que la dimension du problĂšme devient importante : en effet, la taille delâĂ©chantillon nĂ©cessaire croĂźt de façon exponentielle avec le nombre de descripteurs. Lorsque lâon utiliseune reprĂ©sentation des formes trĂšs primitive, le nombre de descripteurs peut ĂȘtre trĂšs grand : câest le caspar exemple si une image est dĂ©crite par lâintensitĂ© de ses pixels, car la dimension du vecteur x est alorsĂ©gale au nombre de pixels de lâimage... Comme nous allons le voir, les rĂ©seaux de neurones offrent unealternative intĂ©ressante aux mĂ©thodes bayĂ©siennes de classification, car elles permettent une estimationdirecte des probabilitĂ©s a posteriori, sans passer par lâintermĂ©diaire des probabilitĂ©s a priori et des vrai-semblances.
â«
+ +
+ + +
+ +
+
+ +
+
+ + +
Aire
RĂ©f
lect
ivit Ă©
+ + +
+ +
+ + + +
+ + + + + + + + + + +
clas
se =
circ
uit i
ntég
ré
pa
Aire a
(a)
(b)
Figure 1-17. (a) ReprĂ©sentation d'un Ă©chantillon de la classe des circuits intĂ©grĂ©s dans le plan rĂ©flectivitĂ©-aire. (b) Estimation de la densitĂ© de probabilitĂ© conditionnelle de lâaire de lâobjet si celui-ci appartient Ă la classe des circuits intĂ©grĂ©s.
Pr Ci x =p x Ci Pr Ci
p x Ci Pr Ciâj
Les réseaux de neurones : pourquoi et pour quoi faire ?
C
HAPITRE
1
31
ConsidĂ©rons un exemple dâapplication de la formule de Bayes : supposons que la distribution des tailles desfemmes dans la population française suive une loi gaussienne de moyenne 1,65 m et dâĂ©cart-type 0,16 m :
et que celle des hommes soit une gaussienne de moyenne 1,75 m et dâĂ©cart-type 0,15 m :
Ces densitĂ©s de probabilitĂ© sont reprĂ©sentĂ©es sur lafigure 1-18. Le recouvrement important de ces deuxgaussiennes montre que le descripteur choisi estpeu discriminant. Sâil sâagissait dâun problĂšme rĂ©el,ces courbes suggĂ©reraient au concepteur de semettre Ă la recherche dâun autre descripteur (ou deplusieurs autres descripteurs).
Supposons Ă©galement quâil y ait autant dâhommes quede femmes dans la population considĂ©rĂ©e. Ătant donnĂ©un individu de cette population qui mesure 1,60 m,quelle est la probabilitĂ© pour que ce soit une femme ?La formule de Bayes fournit directement la rĂ©ponse :
Bien entendu, Pr(
H
1,60) = 40 %.
Compte tenu de ces rĂ©sultats, il est natureldâaffecter lâindividu en question Ă la classe
F
, qui ala plus grande probabilitĂ© : câest une application dela
rÚgle de décision de Bayes
,
que nous justifieronsplus bas. La frontiÚre entre classes ainsi définie estreprésentée sur la figure 1-19.
Les probabilités
a priori
étant supposées égalespour les deux classes, la discrimination reposeentiÚrement sur les vraisemblances des classes.
Supposons Ă prĂ©sent que lâindividu observĂ© soitchoisi au hasard dans les tribunes dâun stade fran-çais au cours dâun match de football. Alors les vrai-semblances des classes «
homme
» et «
femme
»,compte tenu de la taille, sont les mĂȘmes que prĂ©cĂ©-demment, mais les probabilitĂ©s
a priori
sont diffĂ©-rentes, car il y a gĂ©nĂ©ralement plus dâhommes quede femmes parmi les spectateurs dâun match ;supposons que les proportions soient de 30 % defemmes et 70 % dâhommes. Alors les probabilitĂ©s
aposteriori
, calculées par la formule de Bayes avec les nouvelles probabilités
a priori
, deviennentPr(
F
1,60) = 39 % et Pr(
H
1,60) = 61 %. Les rĂ©sultats ont donc complĂštement changĂ© : lâindividu est Ă
p t F =1
0,16 2Ïexp â
12
t â 1,650,16
2
p t H =1
0,15 2Ïexp â
12
t â 1,750,15
2
.
1.5 1.6 1.7 1.8 1.9 2 2.10
0.5
1
1.5
2
2.5
Taille (en m)
Hommes
Femmes
Figure 1-18. Densités de probabilité des tailles pour les individus de la population considérée
Pr F 1,60 =0,5 p 1,60 F
0,5 p 1,60 F + 0,5 p 1,60 Hâ 60 %.
1.5 1.6 1.7 1.8 1.9 2 2.10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Taille (en m)
Hommes
Femmes
Seuil de classificationdonnée par la rÚgle de Bayes
Figure 1-19. ProbabilitĂ©s a posteriori dâappartenance aux classes « homme » et « femme » en fonction de la taille, et frontiĂšre entre classes, lorsque lâindividu est tirĂ© de lâensemble de la population française.
Les réseaux de neurones
32
prĂ©sent classĂ© dans la classe des hommes si lâon utilise la mĂȘme rĂšgle que prĂ©cĂ©demment (affecter lâobjetĂ la classe la plus probable) ; le changement observĂ© est important parce que les vraisemblances desclasses sont peu diffĂ©rentes (le descripteur «
taille
» est peu discriminant), si bien que la classification est
déterminée, en grande partie, par les probabilités
a priori
. Ce résultat est illustré sur la figure 1-20.
Cet exemple simple montre lâutilisation de laformule de Bayes pour estimer les probabilitĂ©s
aposteriori
,
qui servent ensuite Ă prendre la dĂ©cisiondâaffectation Ă une classe, objectif final de toutsystĂšme de classification.
Rappelons que, dans la pratique, et contrairement à ce que nous venons de présenter, les vraisemblanceset les probabilités
a priori
ne sont pas connues
exac-tement
et exprimables
analytiquement
, mais fontlâobjet dâune
estimation
Ă partir dâun ensembledâobservations
O
,
de taille finie.
En toute rigueur, lavraisemblance devrait donc ĂȘtre notĂ©e
p
(
x
C
i
,
O
) etles probabilités
a posteriori
devraient ĂȘtre notĂ©esPr(
C
i
x
,
O
) car leur estimation dépend de
O
. Nousnâutiliserons pas cette notation en raison de sa lour-deur, mais il faut toujours garder Ă lâesprit le fait que,dans la pratique, les densitĂ©s de probabilitĂ© ou lesprobabilitĂ©s que nous estimons sont toujours condi-tionnĂ©es par lâensemble des observations utilisĂ© pources estimations.
RÚgle de décision de Bayes
Pour affecter un objet Ă une classe, on minimise le risque dâerreur en prenant la dĂ©cision dâaffecter lâobjetĂ la classe dont la probabilitĂ© a posteriori est la plus grande.
Pour justifier cette rĂšgle, considĂ©rons le cas dâun problĂšme Ă deux classes
C
1
et
C
2
, et un descripteur. Il estĂ©vident que la probabilitĂ© dâerreur de classification est dâautant plus grande que le descripteur de lâobjetconsidĂ©rĂ© est plus proche de la frontiĂšre entre les classes. Mais, au cours de lâutilisation du classifieur,celui-ci est amenĂ© Ă traiter des objets dĂ©crits par toutes les valeurs possibles de
x
: nous cherchons donc Ă minimiser la probabilitĂ© dâerreur globale plutĂŽt que la probabilitĂ© dâerreur locale : il faut donc trouver la
rÚgle de décision qui rend minimale la quantité
oĂč
E
dĂ©signe lâĂ©vĂ©nement
«
erreur de classification
». La densité de probabilité
p
(
x
) Ă©tant positive, lâintĂ©grale est minimale siPr(
E
x
) est minimale pour toute valeur du descripteur : on minimise donc lâerreur globale en minimisantlâerreur locale. Or Pr(
E
x
) nâest rien dâautre que la probabilitĂ©
a posteriori
de
C
1
si lâon prend la dĂ©cisiondâaffecter lâobjet Ă
C
2
, et la probabilité
a posteriori
de
C
2
si lâon prend la dĂ©cision dâaffecter lâobjet Ă
C
1
.On minimise donc Pr(
E
x) en prenant la dĂ©cision dâaffecter lâobjet Ă la classe de plus grande probabilitĂ©.
Ce raisonnement se traduit gĂ©omĂ©triquement de la maniĂšre suivante (figure 1-21) : si lâon utilise la rĂšglede Bayes, la probabilitĂ© dâerreur est reprĂ©sentĂ©e par lâaire grisĂ©e : tout autre choix de frontiĂšre a pourconsĂ©quence dâaugmenter cette aire.
Le rĂ©sultat sâĂ©tend aisĂ©ment au cas oĂč il y a plus de deux classes et oĂč lâobjet est dĂ©crit par un vecteur dedescripteurs.
1.5 1.6 1.7 1.8 1.9 2 2.10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Taille (en m)
Femmes
Hommes
Limite de classification donnée par la rÚgle de Bayes
Figure 1-20. ProbabilitĂ©s a posteriori dâappartenance aux classes « homme » et « femme » en fonction de la taille, et frontiĂšre entre classes, lorsque lâindividu est tirĂ© de lâensemble des spectateurs dâun match de football.
Pr (E) = Pr E x p(x) dxâ â
+ â
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 133
Naturellement, ce choix est satisfaisantsi les coĂ»ts des erreurs des deux classessont les mĂȘmes ; nĂ©anmoins, il peut ĂȘtreplus grave, ou plus coĂ»teux, decommettre une erreur de type « fauxpositif » (on considĂšre que lâobjet estdans la classe A alors quâil est dans laclasse B) que de commettre une erreurde type « faux nĂ©gatif » (on considĂšreque lâobjet est dans la classe B alors quâilest dans A). Par exemple, en fouille dedonnĂ©es, une entreprise qui commercia-lise des filtres dâinformations peutprĂ©fĂ©rer proposer Ă ses clients un filtrequi rejette des documents alors quâils
sont pertinents pour le sujet considĂ©rĂ©, plutĂŽt quâun filtre qui laisse passer des documents non pertinents (eneffet, lâutilisateur sâaperçoit tout de suite que le filtre lui prĂ©sente des documents non pertinents, alors quâil nesâapercevra peut-ĂȘtre jamais que tel ou tel document pertinent lui a Ă©chappĂ©...). Ce type de considĂ©ration, dansla pratique, reprĂ©sente une part importante du travail de conception dâun systĂšme de classification rĂ©aliste, quâilsâagisse de reconnaissance de formes, de fouilles de donnĂ©es, dâapplications bancaires, etc. VoilĂ pourquoi il esttrĂšs important dâestimer les probabilitĂ©s avant de prendre la dĂ©cision, et il faut Ă©viter, sauf dans des cas trĂšssimples, de concevoir des classifieurs qui prennent directement une dĂ©cision.
La combinaison de la formule de Bayes et de la rĂšgle de dĂ©cision de Bayes constitue le classifieur deBayes, qui prĂ©sente la meilleure performance possible si les probabilitĂ©s a priori et les vraisemblancessont connues exactement. Comme, dans la pratique, il est rare que cette condition soit remplie, le classi-fieur de Bayes prĂ©sente un intĂ©rĂȘt plus thĂ©orique que pratique. Il peut nĂ©anmoins servir de rĂ©fĂ©rencelorsque lâon cherche Ă Ă©valuer la qualitĂ© dâun classifieur : on peut appliquer celui-ci Ă un problĂšme fictifpour lequel les probabilitĂ©s a priori et les vraisemblances sont connues exactement, et comparer sesperformances Ă celle du classifieur de Bayes sur ce mĂȘme problĂšme. Câest ce que nous ferons dans la suitepour les classifieurs que nous prĂ©senterons ; nous introduisons ici le problĂšme fictif qui nous servira Ă tester quelques classifieurs.
Ce problĂšme porte sur des objetspouvant appartenir Ă deux classes,dĂ©crits par un descripteur ; lesĂ©lĂ©ments de la classe A sont engendrĂ©spar une distribution qui est la sommede deux gaussiennes ; ceux de laclasse B sont engendrĂ©s par une distri-bution uniforme dans un intervallebornĂ© (figure 1-22). On peut donccalculer analytiquement les probabi-litĂ©s a posteriori (figure 1-23), etdĂ©terminer les limites de chaqueclasse (figure 1-24). Pour estimer letaux dâerreur, on rĂ©alise un grandnombre dâexemples de chaque classeet lâon compte la proportion de ces
Descripteur x
Erreur de classification
Autre frontiĂšreFrontiĂšre deBayes
Pr(C1 x) p(x) = Pr(C1) p(x C1) Pr(C2 x) p(x) = Pr(C2) p(x C2)
â 5â 10â 15 0 + 5 + 10
Classe A Classe B
0
0,5
1
â 15 â 10 â 5 0 + 5
Figure 1-22. Densités de probabilité pour les classes A et B
Figure 1-23. Probabilité a posteriori de la classe A, calculée par la formulede Bayes
Figure 1-21. InterprĂ©tation gĂ©omĂ©trique de la rĂšgle de dĂ©cision de Bayes ; la surface grisĂ©e reprĂ©sente la probabilitĂ© de commettre une erreur en choisissant la rĂšgle de dĂ©cision de Bayes ; la surface hachurĂ©e correspond Ă lâaugmentation de la probabilitĂ© dâerreur rĂ©sultant dâun choix de frontiĂšre diffĂ©rent.
Les réseaux de neurones34
réalisations qui se trouve « du mauvais cÎté »des limites déterminées par le classifieur deBayes ; dans cet exemple, on dispose de 600exemples pour chaque classe (figure 1-25), à partir desquels, par simple dénombrement,
on estime le taux dâerreur Ă 30,1 %. Ainsi, on peut affirmer que, pour ce problĂšme, aucun classifieur, aussi bienconçu soit-il, ne peut rĂ©aliser une performance meilleure que 69,9 % de classification correcte ; le meilleur clas-sifieur rĂ©el est celui qui sâapproche le plus de cette limite thĂ©orique.
Classification et rĂ©gressionAyant Ă©tabli les bases probabilistes de la classification, nous allons montrer Ă prĂ©sent en quoi les rĂ©seauxde neurones, dont nous avons vu quâils sont des outils de modĂ©lisation avantageux en raison de leur capa-citĂ© Ă approcher toute fonction de rĂ©gression non linĂ©aire, peuvent ĂȘtre pertinents pour la classification.
ProblĂšme Ă deux classes
ConsidĂ©rons tout dâabord un problĂšme Ă deux classes C1 et C2, auxquelles nous associons une variable alĂ©a-toire Î, fonction du vecteur de descripteurs x ; cette variable alĂ©atoire vaut 1 lorsque lâobjet Ă classer appar-tient Ă la classe A, et 0 dans le cas contraire. Nous allons dĂ©montrer le rĂ©sultat suivant : la fonction de rĂ©gres-sion de la variable alĂ©atoire Î est la probabilitĂ© a posteriori dâappartenance de lâobjet Ă la classe A.
En effet, soit y(x) la fonction de rĂ©gression recherchĂ©e, câest-Ă -dire lâespĂ©rance mathĂ©matique de Î Ă©tantdonnĂ© x : . Or
ce qui démontre le résultat.
Figure 1-26. Estimation de la probabilitĂ© a posteriori dâappartenance Ă la classe C1, et dĂ©termination du seuil de dĂ©cision par la rĂšgle de Bayes
Or, comme cela a Ă©tĂ© vu plus haut, silâon dispose dâĂ©chantillons dâunefonction, il est possible dâestimer larĂ©gression, par exemple Ă lâaide derĂ©seaux de neurones. Il est doncpossible dâestimer, Ă lâaide desmĂȘmes outils, les probabilitĂ©s a poste-riori dâappartenance aux classes,comme illustrĂ© par la figure 1-26.
â 15 â 10 â 5 0 + 5
A B A B A
Figure 1-24. Classification réalisée par le classifieur de Bayes
+ 0,00
â 10,00â 15,00 â 5,00 + 0,00 + 5,00 + 10,00
RĂ©partition des 1 200 exemples
600 exemples (B)
600 exemples (A)
Figure 1-25. Exemples utilisĂ©s pour lâestimation du taux dâerreur. En haut : classe A ; en bas : classe B.
y x = E Î x
E Î x = Pr Î = 1 x Ă 1 + Pr Î = 0 Ă 0 = Pr Î = 1 x
0
Estimation de la probabilitĂ© a posteriori dâappartenance de la forme dĂ©crite par le descripteur de valeur x1 Ă la classe C1
0
x
1
x 1
FrontiĂšre entreles classes
0.5
0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Classe C1 Classe C2
Pr
(C1
| x)
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 135
Comme les rĂ©seaux de neurones sont de bons candidats pour rĂ©aliser une approximation de toute fonction derĂ©gression, ils peuvent notamment rĂ©aliser une estimation des probabilitĂ©s a posteriori : câest ce qui justifielâutilisation de rĂ©seaux de neurones pour la classification. On trouvera une exposition lucide et dĂ©taillĂ©e decette approche dans lâexcellent ouvrage de Christopher Bishop [BISHOP 1995].
ProblĂšme Ă C classes
Lorsque le problÚme de classification est un problÚme à plus de deux classes, plusieurs approches sontpossibles :⹠résoudre globalement le problÚme en estimant simultanément, pour un objet donné, ses probabilités
dâappartenance a posteriori aux diffĂ©rentes classes,âą diviser le problĂšme en sous-problĂšmes Ă deux classes, concevoir un ensemble de « classifieurs deux Ă
deux », et combiner les résultats de ces derniers pour estimer les probabilités a posteriori globales.
Nous allons examiner successivement ces deux approches.
â Approche globale
Cette approche est frĂ©quemment mise en Ćuvre, bien quâelle nesoit pas toujours la plus efficace pour des problĂšmes difficiles. Elleconsiste Ă utiliser un rĂ©seau de neurones Ă C sorties (figure 1-27),le rĂ©sultat Ă©tant codĂ© Ă lâaide dâun code 1-parmi-C : Ă lâĂ©vĂ©nement« lâobjet appartient Ă la classe Ci » est associĂ© un vecteur de sortieg dont seule la composante i est Ă©gale Ă 1, les autres composantesĂ©tant Ă©gales Ă 0. De maniĂšre analogue au cas Ă deux classes, ondĂ©montre facilement que lâespĂ©rance mathĂ©matique de chacunedes composantes est Ă©gale Ă la probabilitĂ© a posteriori de la classecorrespondante.
Figure 1-27. Perceptron multicouche Ă C sorties Ă fonction dâactivation sigmoĂŻde
TerminologieDans le jargon des réseaux de neurones, un codage « un-parmi-C » est appelé « codage grand-mÚre ». Cette appellation provient de laneurobiologie : une des théories de la représentation des informations dans les systÚmes nerveux soutient que certains de nos neuronessont spécialisés dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mÚre.
Il convient de noter plusieurs différences pratiques entre un perceptron multicouche pour la classificationet un perceptron multicouche pour la modélisation statique :⹠contrairement aux réseaux pour la modélisation, dont les neurones de sortie sont linéaires, les neurones
de sortie dâun rĂ©seau pour la classification ont une fonction dâactivation sigmoĂŻde : en effet, les sorties,Ă©tant des probabilitĂ©s, doivent ĂȘtre comprises entre 0 et 1 (un changement de variable simple ramĂšne lessorties Ă â1 et +1, comme il convient pour une non-linĂ©aritĂ© en tangente hyperbolique) ; on trouveradans le chapitre 6 une justification thĂ©orique Ă lâutilisation de la tangente hyperbolique comme fonctiondâactivation des neurones de sortie pour la classification ;
âą pour la classification, il est plus naturel, pour estimer les probabilitĂ©s, de minimiser la fonction de coĂ»tdâentropie croisĂ©e plutĂŽt que la fonction de coĂ»t des moindres carrĂ©s ([HOPFIELD 1987], [BAUM et al.1988], [HAMPSHIRE et al. 1990]) ; les algorithmes dâapprentissage qui seront prĂ©sentĂ©s dans le chapitre2 sâappliquent sans difficultĂ© pour cette fonction de coĂ»t :
x 1 x 2 x 3 x n
Descripteurs
.....
....
....
C neurones Ă fonction dâactivation sigmoĂŻde
J = â Îłik Log
gi xk
Îłik
+ 1 â Îłik Log
1 â gi xk
1 â Îłikâ
i = 1
C
âk
Les réseaux de neurones36
oĂč Îłik est la valeur (0 ou 1) dĂ©sirĂ©e pour la sortie i lorsque lâon prĂ©sente Ă lâentrĂ©e lâexemple k, dĂ©crit par
le vecteur de descripteurs xk, et gi(xk) est la valeur de la sortie i du classifieur. On montre que cette fonc-tion est minimum lorsque tous les exemples sont correctement classés.
Bien entendu, il convientde vĂ©rifier que la sommedes sorties vaut 1 Ă la finde lâapprentissage. LamĂ©thode Softmax permetde garantir que cettecondition est automatique-ment remplie [BRIDLE etal. 1990]. Cette difficultĂ©ne se prĂ©sente Ă©videmmentpas si lâon utilise unensemble de classifieurs« deux Ă deux », commenous le verrons dans lasection suivante.
Il va de soi que le problĂšmedu surapprentissage, quenous avons rencontrĂ© pourla rĂ©gression, existe aussipour la discrimination : sile rĂ©seau a trop de paramĂš-tres, il sâajuste trop fine-ment aux exemples delâensemble dâapprentissageet donne de mauvais rĂ©sul-tats en gĂ©nĂ©ralisation. Ilfaut donc mettre en Ćuvre,pour sĂ©lectionner lemeilleur modĂšle, les tech-niques de validation croisĂ©eexposĂ©es dans le chapitre 2.Essentiellement, il faut
trouver un rĂ©seau dont les taux dâerreurs de classification sur lâensemble dâapprentissage et sur unensemble de validation soient du mĂȘme ordre de grandeur, et les plus petits possibles. La figure 1-28montre un exemple de surapprentissage dans lâestimation de la probabilitĂ© dâappartenance Ă la classe Apour lâexemple prĂ©sentĂ© sur la figure 1-23 ; on voit que le rĂ©seau Ă 4 neurones cachĂ©s est trop peucomplexe pour estimer correctement la probabilitĂ©, alors quâun rĂ©seau Ă 6 neurones cachĂ©s sâajuste sur lesfluctuations de la densitĂ© des points utilisĂ©s pour lâapprentissage. Pour le rĂ©seau Ă 5 neurones cachĂ©s, letaux de classification incorrecte, estimĂ© sur un ensemble de validation de plusieurs milliers de points, estde 30,3 %, alors que, comme nous lâavons vu plus haut, le classifieur thĂ©orique de Bayes donne une erreur« minimum » de 30,1 %. On vĂ©rifie bien ici que les rĂ©seaux de neurones peuvent approcher les meilleuresperformances possibles.
â 10,00â 15,00 â 5,00 + 0,00 + 5,00 + 10,00
â 10,00â 15,00 â 5,00 + 0,00 + 5,00 + 10,00
+ 0,50
+ 1,00
+ 0,00
+ 0,50
+ 1,00
+ 0,00
+ 0,50
+ 1,00
+ 0,00
Classification : Théorique Estimée avec 4 neurones caches
Classification : Théorique Estimée avec 5 neurones caches
Classification : Théorique Estimée avec 6 neurones caches
(a)
(b)
(c)
â 10,00â 15,00 â 5,00 + 0,00 + 5,00 + 10,00
Figure 1-28. Estimation des probabilitĂ©s dâappartenance Ă la classe A avec trois architectures : (a) 4 neurones cachĂ©s (complexitĂ© insuffisante), (b) 5 neurones cachĂ©s (performance trĂšs proche de la meilleure performance thĂ©orique, (c) 6 neurones cachĂ©s (surapprentissage manifeste).
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 137
â Classification « 2 Ă 2 »
Il est souvent beaucoup plus sûr, pour des problÚmes difficiles, de décomposer une classification à Cclasses en C(C-1)/2 problÚmes de classification à 2 classes, pour les raisons suivantes :⹠on peut bénéficier de nombreux résultats et algorithmes, notamment concernant la séparation linéaire
entre classes ; ces éléments sont largement développés dans le chapitre 6 ; nous les introduisons trÚsbriÚvement dans le paragraphe suivant, intitulé « séparabilité linéaire » ;
âą on obtient des rĂ©seaux beaucoup plus petits, dont lâapprentissage est court et la manipulation simple ;chacun dâeux ayant une seule sortie, son interprĂ©tation comme une probabilitĂ© est immĂ©diate ;
âą les descripteurs pertinents pour sĂ©parer la classe A de la classe B ne sont pas nĂ©cessairement les mĂȘmesque ceux qui sont utiles pour discriminer la classe A de la classe C ; notamment en reconnaissance deformes, le fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue unavantage considĂ©rable ; les techniques de sĂ©lection des entrĂ©es qui seront expliquĂ©es dans le chapitre 2sont directement utilisables.
Une fois que les C(C-1)/2 probabilitĂ©s des classes deux Ă deux ont Ă©tĂ© estimĂ©es, Ă©ventuellement par desimples rĂ©seaux sans couche cachĂ©e, la probabilitĂ© pour quâun objet dĂ©crit par le vecteur de descripteursx appartienne Ă la classe Ci est calculĂ©e par la relation [PRICE et al. 1994] :
oĂč C est le nombre de classes et Prij est la probabilitĂ© dâappartenance de lâobjet Ă la classe i ou Ă la classej, estimĂ©e par le rĂ©seau de neurones qui sĂ©pare la classe Ci de la classe Cj.
â La sĂ©parabilitĂ© linĂ©aire
Deux ensembles dâobjets, dĂ©crits dans un espace de N descripteurs, appartenant Ă deux classes diffĂ©-rentes, sont dits « linĂ©airement sĂ©parables » sâils se trouvent de part et dâautre dâun hyperplan danslâespace des descripteurs.
Si des exemples sont linĂ©airement sĂ©parables, un rĂ©seau de neurones Ă un seul neurone (Ă©galement appelé« perceptron » peut les sĂ©parer. Rappelons en effet que la sortie dâun neurone possĂ©dant n entrĂ©es a pour
Ă©quation . Cette fonction varie entre â1 et +1 ; pour interprĂ©ter la sortie y comme une proba-
bilitĂ© P, il suffit donc de faire le changement de variable P = (y + 1)/2. Si lâon utilise la rĂšgle de dĂ©cisionde Bayes, lâĂ©quation de la surface de sĂ©paration entre les classes est le lieu des points oĂč P = 0,5, soity = 0. LâĂ©quation de la surface de sĂ©paration entre les classes dĂ©terminĂ©e par le neurone est donc :
On a donc v > 0 pour tous les exemples dâune des classes, et v < 0 pour tousles exemples de lâautre. Dans un espace Ă deux dimensions, cette surface estune droite ; dans un espace Ă trois dimensions, câest un plan ; dans un espacede plus grande dimension, on lâappelle un « hyperplan ». La figure 1-29montre, dans lâexemple des condensateurs et des circuits intĂ©grĂ©s, une surfacede sĂ©paration susceptible dâĂȘtre dĂ©finie par un rĂ©seau Ă un neurone.
Figure 1-29. Séparation linéaire par un réseau à 1 neurone. 10 % des exemples sont mal classés.
Pr Ci |x =1
1Prij
âj=1, j â i
C
â (C â 2)
y = th wi xiâi = 1
n
v = wi xiâi = 1
n
= 0.
Aire
x
++
+++
++
+
++
+
x
x
x
++ +
RĂ©f
lect
ivit Ă©
+++
++
+++
+++++
+
x
xxxxxx
xx
+ +
+ +
++++ +
++
+ +xx
xx
x
++x
Surface de séparation plausible
xx
++
Les réseaux de neurones38
Lâintroduction de neurones cachĂ©s permet de dĂ©finir des surfaces desĂ©paration plus complexes, comme celle reprĂ©sentĂ©e sur la figure 1-30.
Figure 1-30. Séparation par un réseau ayant un petit nombre de neurones cachés. Trois exemples de chaque classe sont mal classés.
Bien entendu, si lâon ajoute suffisamment de neurones cachĂ©s, on peutrĂ©duire lâerreur sur lâensemble dâapprentissage, au dĂ©triment de laqualitĂ© de la gĂ©nĂ©ralisation. La figure 1-31 prĂ©sente un cas manifeste desurajustement.
Figure 1-31. Séparation par un réseau de neurones trop complexe. Tous les exemples sont bien classés, mais la capacité de généralisation est faible.
Lorsque lâon dĂ©compose le problĂšme en sous-problĂšmes de sĂ©parationde classes deux Ă deux, il apparaĂźt que la sĂ©paration linĂ©aire entre deuxclasses prĂ©sente trĂšs souvent une complexitĂ© suffisante ; il est mĂȘmefrĂ©quent que, dans des problĂšmes multi-classe rĂ©putĂ©s « difficiles », les
exemples soient, en fait linĂ©airement sĂ©parables si lâon considĂšre les classes deux Ă deux. Or, dans ce derniercas, des algorithmes simples et Ă©lĂ©gants permettent de trouver une trĂšs bonne solution, comme expliquĂ© endĂ©tail dans le chapitre 6 : la premiĂšre Ă©tape, dans la conception dâun classifieur, est donc de chercher Ă savoirsi les classes sont sĂ©parables deux Ă deux. Lâalgorithme de Ho et Kashyap [HO et al. 1965], largement antĂ©-rieur aux rĂ©seaux de neurones, fournit rapidement une rĂ©ponse Ă cette question :âą si les classes sont linĂ©airement sĂ©parables, lâalgorithme converge en un nombre fini dâitĂ©rations vers une
solution,âą si les classes ne sont pas linĂ©airement sĂ©parables, lâalgorithme lâindique Ă©galement aprĂšs un nombre fini
dâitĂ©rations (voir les complĂ©ments thĂ©oriques et algorithmiques Ă la fin de ce chapitre).
Par exemple, pour la base de donnĂ©es de codes postaux fournie par le National Institute of Standards andTechnology, qui a servi de support Ă de trĂšs nombreux travaux, les classes de chiffres sont linĂ©airementsĂ©parables deux Ă deux, mĂȘme si lâon utilise une reprĂ©sentation par pixels [KNERR et al. 1992] ! De mĂȘme,il existe une base de donnĂ©es, relative Ă des signaux sonar, qui a fait lâobjet de trĂšs nombreuses Ă©tudes eta donnĂ© lieu Ă la conception de nombreux classifieurs fort compliquĂ©s ; en moins de dix minutes de calculsur PC, lâalgorithme de Ho et Kashyap, implantĂ© dans un programme Matlab non compilĂ©, montre que lesexemples des deux classes sont linĂ©airement sĂ©parables. Il est donc tout Ă fait inutile, pour cette applica-tion, de concevoir un classifieur plus complexe quâun rĂ©seau Ă un neurone ; nous retrouverons cette appli-cation dans le chapitre 6.
MĂ©thodologie de conception dâun classifieur
Ces considĂ©rations conduisent Ă dĂ©finir la stratĂ©gie suivante pour la conception dâun classifieur qui utilisedes rĂ©seaux de neurones (il faut donc prĂ©alablement sâassurer que le problĂšme posĂ© relĂšve bien dâun trai-tement statistique, comme nous lâavons discutĂ© plus haut) :âą Ă©laborer une bonne reprĂ©sentation des objets Ă classer, notamment dans des applications de reconnais-
sance de formes (on utilisera avec profit, si nĂ©cessaire, les techniques dĂ©crites dans le chapitre 3) ; cetteĂ©tape est dâune extrĂȘme importance et conditionne toute la suite, car une reprĂ©sentation bien discrimi-nante peut rendre le problĂšme de classification trivial ; ce point est illustrĂ© dans les applications dĂ©critesplus bas ;
x
++
+++
++
+
++
+
x
x
x
++ +
RĂ©f
lect
ivit Ă©
++
+
++
+++
+++++
+
x
xxxxxx
xx
+ +
+ +
++++ +
++
+ +xx
xx
x
++x
Surface de séparationplausible
x
x++
Aire
x
++
+++
++
+
++
+
x
x
x
++ +
RĂ©f
lect
ivit Ă©
++
+
++
+++
+++++
+
x
xxxxxx
xx
+ +
+ +
++++ +
++
+ +xx
xx
x
++x
Surface de séparationtrÚs peu plausible
x
x++
Aire
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 139
âą pour chaque paire de classes, effectuer la sĂ©lection des descripteurs selon les mĂ©thodes dĂ©crites dans lechapitre 2 ; en effet, il nâest pas du tout certain que les mĂȘmes descripteurs soient utiles pour sĂ©parer lesclasses A et B et pour sĂ©parer les classes A et C ;
âą pour chaque paire de classes, tester la sĂ©parabilitĂ© linĂ©aire des classes deux Ă deux Ă lâaide de lâalgo-rithme de Ho et Kashyap ;
âą pour toutes les classes sĂ©parables deux Ă deux, mettre en Ćuvre les mĂ©thodes de sĂ©paration linĂ©aire(dĂ©crites dans le chapitre 6), et obtenir une estimation des probabilitĂ©s ;
âą pour les classes non linĂ©airement sĂ©parables, mettre en Ćuvre de petits perceptrons multicouche, ou desperceptrons sphĂ©riques dĂ©crits dans le chapitre 6, avec estimation des probabilitĂ©s ; mettre en Ćuvre desmĂ©thodes de validation croisĂ©e ou de leave-one-out (voir chapitres 2 et 3) pour la sĂ©lection de modĂšles ;
âą estimer la probabilitĂ© dâappartenance Ă chaque classe Ă partir des probabilitĂ©s dĂ©terminĂ©es Ă lâĂ©tapeprĂ©cĂ©dente, selon la formule indiquĂ©e plus haut dans la section « Classification 2 Ă 2 » ;
⹠fixer les seuils de décision pour définir les classes de rejet.
Cette stratégie constitue une variante de la procédure STEPNET ([KNERR et al. 1990] [KNERR 1991]), quia été utilisée efficacement dans plusieurs applications industrielles.
Dans la planification dâun tel projet, il ne faut pas sous-estimer le temps nĂ©cessaire pour la premiĂšre etpour la derniĂšre Ă©tape : dans les applications rĂ©elles non triviales, ce sont frĂ©quemment les deux Ă©tapes lesplus longues, qui peuvent Ă©ventuellement remettre en cause les rĂ©sultats obtenus dans dâautres Ă©tapes.
Lâapplication de cette stratĂ©gie est Ă©videmment limitĂ©e par le fait que le nombre de classifieurs varie commele carrĂ© du nombre de classes. NĂ©anmoins, chacun des classifieurs est trĂšs simple, de sorte que cettedĂ©marche sâapplique sans difficultĂ© jusquâĂ quelques dizaines de classes, ce qui couvre lâimmense majoritĂ©des applications. Si le nombre de classes est plus Ă©levĂ©, il faut avoir recours Ă des stratĂ©gies hiĂ©rarchiques.
Quelques exemples dâapplications des rĂ©seaux de neurones Ă divers domaines des sciences de lâingĂ©nieur
IntroductionLâambition de cet ouvrage est dâaider lâingĂ©nieur ou le chercheur Ă rĂ©pondre Ă la question : les rĂ©seaux deneurones peuvent-ils mâaider Ă rĂ©soudre mon problĂšme, et peuvent-ils le faire mieux que dâautres techniques ?
Pour donner les premiers Ă©lĂ©ments de rĂ©ponse raisonnĂ©s Ă cette question, nous avons consacrĂ© le dĂ©but dece chapitre Ă lâexposĂ© du contexte mathĂ©matique qui est essentiel pour comprendre ce que sont rĂ©ellementles rĂ©seaux de neurones et les principes sur lesquels repose leur mise en Ćuvre. Certains aspects peuventparaĂźtre un peu « techniques », mais il est important dâavoir bien compris ces bases. En effet, la simplicitĂ©mĂȘme de mise en Ćuvre des rĂ©seaux de neurones constitue un danger, car elle peut conduire Ă une appli-cation irrĂ©flĂ©chie qui conduit Ă des performances mĂ©diocres ou mauvaises. Les rĂ©ponses aux questionsque se pose tout ingĂ©nieur qui envisage dâutiliser des rĂ©seaux de neurones peuvent Ă©galement ĂȘtre Ă©clai-
Attention
Si le nombre dâexemples nâest pas grand devant la dimension du vecteur dâentrĂ©e dans la reprĂ©senta-tion choisie, il est inutile dâaller plus loin, en vertu du thĂ©orĂšme de Cover [COVER 1965] qui estprĂ©sentĂ© dans le chapitre 6 : il faut chercher une reprĂ©sentation plus « compacte », ou bien collecterdâautres exemples, ou encore adopter une mĂ©thode de rĂ©gularisation sĂ©vĂšre telle que la modĂ©ration despoids (weight decay, technique dĂ©crite dans le chapitre 2), avant de passer aux Ă©tapes suivantes ;
Les réseaux de neurones40
rĂ©es par lâexposĂ© de quelques applications typiques. Bien entendu, il nâest pas question ici de faire unexposĂ© exhaustif des applications des rĂ©seaux de neurones : plusieurs livres nây suffiraient pas. Il sâagitplutĂŽt de montrer quelques applications ayant un caractĂšre exemplaire, en insistant sur les raisons pourlesquelles les rĂ©seaux de neurones ont un apport important, voire dĂ©cisif.
Une application en reconnaissance de formes : la lecture automatique de codes postauxCâest sans doute dans le domaine de la reconnaissance de caractĂšres que les rĂ©seaux de neurones ontacquis leurs lettres de noblesse, et ont prouvĂ© quâils constituent des alternatives fiables Ă dâautresmĂ©thodes de classification. Nous citerons ici quelques exemples et rĂ©sultats, qui sâappuient sur les consi-dĂ©rations pratiques donnĂ©es dans le paragraphe consacrĂ© aux rĂ©seaux de neurones pour la classification.
La reconnaissance automatique de codes postaux a probablement Ă©tĂ© lâun des problĂšmes de reconnais-sance dâimages les plus Ă©tudiĂ©s. En effet, si le traitement automatique du courrier Ă adresse dactylogra-phiĂ©e ou imprimĂ©e est relativement simple, celui du courrier Ă adresse manuscrite est beaucoup pluscomplexe, en raison de la variabilitĂ© des styles dâĂ©criture. Pour chaque objet postal, une machine automa-tique doit, soit identifier le code, soit indiquer quâelle ne peut pas lâidentifier, et donc faire appel Ă unopĂ©rateur humain. Nous avons indiquĂ© plus haut quâil est plus onĂ©reux de rectifier une erreur de tricommise par une machine que de faire lire un code postal par un opĂ©rateur, de sorte que le critĂšre deperformance le plus frĂ©quemment utilisĂ© pour les machines de lecture de codes postaux est le suivant :pour un taux dâerreur maximum fixĂ© (par exemple 1 %) sur les codes identifiĂ©s, quelle est la fraction ducourrier qui devra ĂȘtre traitĂ©e par un opĂ©rateur ? Ă lâheure actuelle, les machines les plus performantesfont appel Ă des rĂ©seaux de neurones (conjointement Ă dâautres techniques), et le taux de rejet est infĂ©rieurĂ 5 % pour un taux dâerreur de 1 %.
Lâessor des Ă©tudes sur la reconnaissance des codes postaux est dĂ» Ă deux facteurs : dâune part, lâenjeu Ă©cono-mique du problĂšme ; dâautre part, le fait que, dĂšs 1990, des bases de donnĂ©es de grande taille ont Ă©tĂ© misesdans le domaine public par le Service postal des Ătats-Unis (USPS), puis par le National Institute of Scienceand Technology (NIST). Cette disponibilitĂ© de bases de donnĂ©es, accessibles Ă tous, a permis Ă de nombreuxlaboratoires, universitaires et industriels, de valider, de maniĂšre statistiquement significative, les mĂ©thodes etprocĂ©dures quâils avaient dĂ©veloppĂ©es. Cette politique a permis de faire progresser lâĂ©tat de lâart sur la recon-naissance des codes postaux, et, de maniĂšre plus gĂ©nĂ©rale, sur les problĂšmes de classification complexes. Lafigure 1-32 prĂ©sente quelques extraits de la base USPS, qui comprend en tout 9000 caractĂšres (ce qui estencore relativement peu, eu Ă©gard Ă la complexitĂ© du problĂšme). On observe immĂ©diatement la diversitĂ© desstyles et les difficultĂ©s auxquelles il faut faire face. ConsidĂ©rons lâexemple du code postal situĂ© en haut Ă droite de lâimage (encadrĂ©) : on lit sans effort le code 68544, mais on constateâą que le chiffre 6 est coupĂ© en deux morceaux,âą que le 8 et le 5 sont attachĂ©s,âą mais que le 5 est coupĂ© en deux, et sa partie droite attachĂ©e au 4 !
Donc, si lâon fonde la reconnaissance du code sur la reconnaissance de chacun de ses chiffres sĂ©parĂ©ment,il faut dâabord rĂ©soudre le problĂšme de la « segmentation » : comment sĂ©parer les chiffres les uns desautres ? Une fois ce difficile problĂšme rĂ©solu, il reste Ă traiter la trĂšs grande diversitĂ© des styles, tailles,orientations, des chiffres isolĂ©s : il faut pour cela rĂ©soudre le problĂšme crucial de la « reprĂ©sentation » desformes Ă classer, câest-Ă -dire du choix des descripteurs qui seront utilisĂ©s par un ou plusieurs classifieurs,Ă©ventuellement neuronaux. Il est impossible de traiter ce problĂšme de reprĂ©sentation de maniĂšre gĂ©nĂ©rale,car il dĂ©pend complĂštement de lâapplication mise en Ćuvre : il est Ă©vident que lâon ne peut pas reprĂ©-senter, de la mĂȘme maniĂšre, des images de trait telles que des caractĂšres manuscrits ou imprimĂ©s, desimages issues de satellites mĂ©tĂ©orologiques, ou encore des radiographies mĂ©dicales.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 141
Figure 1-32. Quelques morceaux choisis de la base de données NIST
En dĂ©pit de la grande diversitĂ© des traitements mis en Ćuvre pour les images, il existe quelques opĂ©rationsde base que lâon retrouve dans toutes les applications rĂ©elles : dĂ©tection de contours, rehaussement decontraste, etc. (certaines de ces opĂ©rations se retrouvent Ă©galement dans le systĂšme visuel humain). Dans lecas de la reconnaissance de caractĂšres, la normalisation est Ă©galement incontournable, pour que tous les trai-tements portent sur des chiffres de mĂȘme taille. Comme nous lâavons dĂ©jĂ indiquĂ©, lâingĂ©nieur doit toujoursrĂ©aliser un compromis entre la complexitĂ© des prĂ©-traitements nĂ©cessaires pour aboutir Ă la reprĂ©sentationchoisie, et la complexitĂ© de la classification : un prĂ©-traitement bien fait, qui extrait des caractĂ©ristiques biendiscriminantes, donc pertinentes pour la classification, peut permettre lâutilisation dâun classifieur dâunegrande simplicitĂ©, mais ce prĂ©-traitement ne doit pas ĂȘtre trop gourmand en temps de calcul ; en revanche,un prĂ©-traitement primitif (par exemple une simple normalisation) est extrĂȘmement rapide mais ne facilitepas la tĂąche du classifieur. Il faut donc trouver la solution qui prĂ©sente la meilleure performance compatibleavec le temps de calcul autorisĂ© par le cahier des charges de lâapplication. Nous allons prĂ©senter deux exem-ples qui mettent en jeu des stratĂ©gies trĂšs diffĂ©rentes pour rĂ©soudre le mĂȘme problĂšme.
Le premier exemple a Ă©tĂ© dĂ©veloppĂ© aux laboratoires AT&T. Il sâagit dâun rĂ©seau de neurones, connu sousle nom de LeNet [LE CUN et al. 1991], qui utilise une reprĂ©sentation par pixel (aprĂšs normalisation). LespremiĂšres couches du rĂ©seau rĂ©alisent des traitements locaux destinĂ©s Ă extraire automatiquement descaractĂ©ristiques ; les derniĂšres couches effectuent la classification proprement dite. Ce rĂ©seau est reprĂ©-sentĂ© sur la figure 1-33.
Les réseaux de neurones42
LâentrĂ©e du rĂ©seau est une matrice de16 Ă 16 pixels. Une premiĂšre couchede neurones cachĂ©s est composĂ©ede 12 ensembles de 64 neuronescachĂ©s, chacun des 64 neuronescachĂ©s recevant des informationsconcernant un « champ rĂ©ceptif »de 5 Ă 5 pixels. Ces ensembles de64 neurones sont appelĂ©s « cartesde caractĂ©ristiques » (en anglais,feature maps), car les entrĂ©es de tousles neurones dâune carte donnĂ©e sontaffectĂ©es des mĂȘmes poids (tech-nique des « poids partagĂ©s », dĂ©critedans le chapitre 2) : ainsi, on fait agirle mĂȘme opĂ©rateur, localement, surchaque ensemble de 25 pixels, desorte que lâensemble des sorties dâungroupe de 64 neurones constitue unecarte du rĂ©sultat de lâapplication delâopĂ©rateur Ă lâimage. Si la techniquedes opĂ©rateurs locaux est classiqueen traitement dâimages, lâoriginalitĂ©
de la prĂ©sente mĂ©thode rĂ©side dans le fait que ces derniers ne sont pas conçus par lâingĂ©nieur, mais quâils sontdĂ©terminĂ©s par lâapprentissage Ă partir dâexemples. LâopĂ©ration est renouvelĂ©e dans une deuxiĂšme couchedâopĂ©rateurs qui traitent les rĂ©sultats de la premiĂšre couche. On obtient ainsi 12 cartes de 16 neurones cachĂ©s,soit 192 neurones dont les sorties constituent le vecteur de descripteurs utilisĂ© pour la classification. Celle-ci esteffectuĂ©e avec un rĂ©seau Ă une couche de 30 neurones cachĂ©s et 10 neurones de sortie. Les neurones de sortieutilisent un codage 1-parmi-C, que nous avons dĂ©fini plus haut : il y a autant de neurones dans la couche desortie que de classes, la sortie du neurone i doit ĂȘtre Ă©gale Ă 1 si la forme Ă classer appartient Ă la classe i, et doitĂȘtre Ă©gale Ă 0 sinon.
Ainsi, un tel rĂ©seau rĂ©alise automatiquement le prĂ©-traitement et la classification, opĂ©rations qui sonttraditionnellement conçues sĂ©parĂ©ment. Le prix Ă payer est Ă©videmment une grande lourdeur dâapprentis-sage, et, compte tenu du grand nombre de poids, la nĂ©cessitĂ© de faire preuve dâune grande vigilance rela-tivement au surapprentissage.
Pour traiter le mĂȘme problĂšme, une approche trĂšs diffĂ©rente [KNERR et al. 1992] consiste Ă rĂ©aliser un prĂ©-traitement de lâimage plus Ă©laborĂ©, afin dâextraire des caractĂ©ristiques discriminantes qui permettentdâutiliser un classifieur relativement simple. Le prĂ©-traitement est la dĂ©tection de contours suivie dâunenormalisation, qui produit 4 cartes de caractĂ©ristiques de 64 Ă©lĂ©ments, soit un vecteur de 256 compo-santes. Mettant en Ćuvre la mĂ©thodologie de conception dâun classifieur que nous avons dĂ©crite plus haut,les dix classes ont Ă©tĂ© sĂ©parĂ©es deux Ă deux : 45 classifieurs diffĂ©rents ont Ă©tĂ© Ă©laborĂ©s, dont lâapprentis-sage a Ă©tĂ© effectuĂ© sĂ©parĂ©ment, et qui sont trĂšs simples puisque, dans lâapplication considĂ©rĂ©e, il se trouveque tous les exemples de lâensemble dâapprentissage sont linĂ©airement sĂ©parables deux Ă deux. Chacundes 45 classifieurs est donc en fait constituĂ© dâun seul neurone. La figure 1-34 montre les 18 erreurscommises par ce classifieur sur les 9000 caractĂšres de la base de donnĂ©es USPS. On remarquera notam-ment le cas du dernier chiffre (en bas Ă droite de la figure) qui est reconnu comme un chiffre 1 alors quâilest classĂ© dans la base comme un chiffre 8, ce qui est Ă©videmment une erreur dâĂ©tiquetage.
256 entrées
12 x 64neurones cachés
12 x 16neurones cachés
Connectivité partielle (poids partagés)
Connectivité complÚte
Connectivité complÚte
30 neurones cachés
10 neurones de sortie
Connectivité partielle (poids partagés)
Figure 1-33. LeNet, un rĂ©seau de neurones qui effectue lâextraction des caractĂ©ristiques et la classification.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 143
Nous avons mentionnĂ© Ă plusieurs reprises, notamment dans la section « MĂ©thodologie de conceptiondâun classifieur », lâimportance du choix de la reprĂ©sentation pour ce type dâapplications. Nous pouvonsle mettre en Ă©vidence dans ce cas. Pour les deux reprĂ©sentations que nous avons mentionnĂ©es (reprĂ©sen-tations par pixel dâune part, cartes de caractĂ©ristiques aprĂšs dĂ©tection des contours dâautre part), ladistance entre les barycentres des classes a Ă©tĂ© calculĂ©e ; elle est reprĂ©sentĂ©e sur la figure 1-35. On observeque les distances entre classes sont toujours supĂ©rieures, pour la reprĂ©sentation par cartes de caractĂ©risti-ques, Ă ce quâelles sont pour la reprĂ©sentation par pixel. Ainsi, la reprĂ©sentation par cartes Ă©loigne lesclasses les unes des autres, ce qui facilite Ă©videmment la tĂąche des classifieurs.
Figure 1-35. Distances entre classes pour deux représentations : la représentation par cartes de caractéristiques éloigne les classes les unes des autres, donc faci-lite le travail ulté-rieur des classifieurs.
Le tableau 1 met en Ă©vidence lâamĂ©lioration deperformances qui rĂ©sulte de la mise en Ćuvredâune meilleure reprĂ©sentation : aprĂšs ajuste-ment des seuils de dĂ©cision afin dâobtenir, dansles deux cas, un taux dâerreur de 1 %, le taux derejet pour la reprĂ©sentation par pixel est beau-coup plus Ă©levĂ© que pour la reprĂ©sentation parcaractĂ©ristiques. Il faut noter que les deuxreprĂ©sentations ont la mĂȘme dimension (dansles deux cas, chaque chiffre est reprĂ©sentĂ© par
un vecteur de 256 composantes) : lâamĂ©lioration ne provient pas de la compacitĂ© de la reprĂ©sentation,mais de sa bonne adĂ©quation au problĂšme posĂ©. Câest la rĂ©flexion de lâingĂ©nieur qui fait la diffĂ©rence...
Figure 1-34. Les 18 erreurs de classification commises par sĂ©paration linĂ©aire des classes deux Ă deux. Pour chaque chiffre manuscrit, lâindication en haut Ă droite est la classe dâappartenance du chiffre indiquĂ©e dans la base, et le chiffre en bas Ă droite est la classe affectĂ©e par le clas-sifieur.
Couple de classes
0
0,2
0,4
0,6
0,8
1,0
1,2
1 5 9 13 17 21 25 29 33 37 41
Pixels Caractéristiques
Tableau 1-1
Taux de chiffres
bien classés
Taux de
rejet
Taux dâexemples mal classĂ©s
Représentation par pixels 70,9 % 28,1 % 1 %
Représentation par caractéristiques 90,3 % 8,7 % 1 %
Les réseaux de neurones44
Une application en contrĂŽle non destructif : la dĂ©tection de dĂ©fauts dans des rails par courants de FoucaultLâexemple que nous venons de prĂ©senter est relatif Ă la reconnaissance automatique dâimages. Bienentendu, les formes que les rĂ©seaux de neurones peuvent classer ne sont pas nĂ©cessairement de cettenature. Nous prĂ©sentons ici un exemple de reconnaissance de signaux dans le domaine du contrĂŽle nondestructif. Cette application consiste Ă dĂ©tecter les dĂ©fauts dans les rails du mĂ©tro parisien Ă lâaide decourants de Foucault. Elle a Ă©tĂ© dĂ©veloppĂ©e par lâInstitut national de la recherche sur les transports et leursĂ©curitĂ© (INRETS) pour la RATP [OUKHELLOU et al. 1997].
La dĂ©tection de dĂ©fauts dans les piĂšces mĂ©talliques Ă lâaide de courants de Foucault est une technique clas-sique dans le domaine du contrĂŽle non destructif. Son principe est simple : un bobinage crĂ©e un champmagnĂ©tique alternatif dans la piĂšce Ă contrĂŽler, ce qui engendre des courants de Foucault au voisinage decelui-ci, dans une Ă©paisseur qui dĂ©pend de la frĂ©quence du champ magnĂ©tique. Ces courants sont dĂ©tectĂ©spar un second bobinage ; la prĂ©sence de dĂ©fauts dans le mĂ©tal modifie le signal recueilli, Ă la fois en ampli-tude et en phase. Ainsi, le signal induit constitue une « signature » des dĂ©fauts. Comme il existe toujoursplusieurs catĂ©gories de dĂ©fauts, qui peuvent ĂȘtre plus ou moins graves, il est important de pouvoir non seule-ment dĂ©tecter ces dĂ©fauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dĂ©fautset des phĂ©nomĂšnes normaux qui peuvent Ă©galement avoir une influence sur le signal : la jointure entre deuxrails provoque une modification des courants de Foucault, analogue Ă celle qui est provoquĂ©e par une fissure,alors quâil sâagit dâun Ă©vĂ©nement normal (mais sa position est connue, ce qui facilite la discrimination). Danslâapplication considĂ©rĂ©e, le systĂšme de crĂ©ation et de dĂ©tection des courants de Foucault est montĂ© sous lavoiture, Ă quelques dizaines de millimĂštres du rail, comme reprĂ©sentĂ© sur la figure 1-36.
Comme toujours, le choix des descripteursdu signal conditionne en grande partie lâeffi-cacitĂ© de la discrimination. Comme il sâagitici dâimages « mono-dimensionnelles » (paropposition aux images « bidimensionnelles »traitĂ©es prĂ©cĂ©demment), on peut utiliser unrelativement petit nombre de descripteurs quisont fondĂ©s sur les composantes de Fourierdu signal, Ă condition que ces descripteurssoient bien choisis. La mĂ©thode de sĂ©lectiondâentrĂ©es appelĂ©e « mĂ©thode du vecteursonde », dĂ©crite dans le chapitre 2, a Ă©tĂ©utilisĂ©e pour dĂ©velopper cette application.[OUKHELLOU 1998]
Une application en prĂ©vision : lâestimation de la probabilitĂ© de succĂšs aux Ă©lections lĂ©gislativesLa lĂ©gislation sur les dĂ©penses de campagne oblige les candidats Ă dĂ©clarer de maniĂšre prĂ©cise les sommesdĂ©pensĂ©es au cours de la campagne Ă©lectorale, et leur ventilation. Ă partir des donnĂ©es relatives aux Ă©lectionsde 1993, il a Ă©tĂ© possible dâĂ©valuer la probabilitĂ© dâĂ©lection en fonction de la dĂ©pense effectuĂ©e, et de la venti-lation de ces dĂ©penses dans les diffĂ©rents postes. Il sâagit donc dâun problĂšme Ă deux classes (« Ă©lu » ou« battu »), et les rĂ©seaux de neurones permettent dâĂ©valuer la probabilitĂ© dâappartenance Ă lâune des classes en
Figure 1-36. Photographie du systÚme de création et de détection des courants de Foucault
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 145
fonction dâun ou plusieurs descripteurs. La figure 1-37 montre la probabilitĂ© dâappartenance Ă la classe des Ă©lusen fonction de la dĂ©pense totale.
Cette application est de nature un peu diffĂ©rentedes prĂ©cĂ©dentes : dans ces derniĂšres, la classifi-cation avait pour objectif dâaffecter une« forme » existante Ă une classe, sachant que,vraisemblablement, on ne saurait jamais aveccertitude Ă quelle classe la forme appartenaitrĂ©ellement. Ici, la situation est diffĂ©rente,puisque lâon sait avec certitude, dĂšs que lesrĂ©sultats des Ă©lections sont connus, Ă quelleclasse appartient le candidat. Nous cherchonsdonc ici Ă rĂ©aliser une prĂ©vision par simulation :afin dâoptimiser ses chances de succĂšs, uncandidat peut estimer sa probabilitĂ© de succĂšsen fonction de la stratĂ©gie quâil met en Ćuvre pour dĂ©penser ses fonds de campagne de telle ou tellemaniĂšre. Il peut donc en dĂ©duire la stratĂ©gie la mieux adaptĂ©e Ă sa situation.
Dans les sections des chapitres suivants qui sont consacrĂ©es Ă la modĂ©lisation statique et dynamique, nousverrons que la prĂ©vision par simulation constitue un domaine dâexcellence des rĂ©seaux de neurones.
Une application en fouille de donnĂ©es : le filtrage de documentsEn raison de lâaugmentation constante du volume dâinformation accessible grĂące Ă lâĂ©lectronique, laconception et la mise en Ćuvre dâoutils efficaces, permettant notamment Ă lâutilisateur de nâavoir accĂšsquâĂ lâinformation quâil juge pertinente, devient une nĂ©cessitĂ© absolue. Comme la plupart de ces outilssont destinĂ©s Ă ĂȘtre utilisĂ©s dans un cadre professionnel, les exigences de fiabilitĂ© et de convivialitĂ© sonttrĂšs importantes ; les problĂšmes Ă rĂ©soudre pour satisfaire ces exigences sont nombreux et difficiles.LâaccĂšs Ă lâinformation pertinente peut se faire en fournissant Ă un utilisateur des documents pertinents,ou en lui proposant des passages de documents pertinents (ou des rĂ©ponses Ă des questions). Le premiercas relĂšve du domaine de la recherche de textes, le second du domaine de l'extraction d'informations.
La catĂ©gorisation de textes, appelĂ©e Ă©galement filtrage, consiste Ă trouver, dans un ensemble de docu-ments (comme un fil de dĂ©pĂȘches dâagence de presse, ou un ensemble de pages Web), ceux qui sont rela-tifs Ă un sujet dĂ©fini par avance. On peut ainsi fournir Ă un utilisateur, en temps rĂ©el, toutes les informa-tions importantes pour lâexercice de son mĂ©tier. Dans ce cas, lâutilisateur nâexprime pas son intĂ©rĂȘt parune requĂȘte, mais par un ensemble de documents pertinents qui dĂ©finissent un thĂšme ou une catĂ©gorie.Pour un thĂšme donnĂ©, la catĂ©gorisation consiste donc Ă rĂ©soudre un problĂšme de classification supervisĂ©eĂ deux classes ; celui-ci peut ĂȘtre rĂ©solu notamment par les mĂ©thodes dĂ©crites dans cet ouvrage : lesrĂ©seaux de neurones, les machines Ă vecteurs supports (chapitre 6), ou les modĂšles de Markov cachĂ©s(chapitre 4).
Câest un problĂšme trĂšs difficile, qui va bien au-delĂ de la recherche par mots-clĂ©s : en effet, supposons,que lâon cherche Ă sĂ©lectionner, dans le flot des dĂ©pĂȘches de lâAFP, celles qui sont pertinentes pour lethĂšme « prises de participations entre entreprises » ; des textes qui contiennent les phrases : « la sociĂ©tĂ© Aa rachetĂ© la sociĂ©tĂ© B », ou bien « A est entrĂ© dans le capital de B Ă hauteur de 10 % », ou encore « A vientde franchir Ă la hausse le cap des 20 % des parts sociales de B », sont tous pertinents, et pourtant ils necontiennent aucun des mots qui dĂ©finissent le thĂšme ; en revanche, la phrase « la participation descommunistes au gouvernement inquiĂšte les chefs dâentreprises » nâest pas pertinente, bien quâellecontienne deux des mots du thĂšme.
Pro
babi
lité
dâĂ©l
ectio
n
0,8
0,6
0,4
0,2
0
DĂ©pense de campagne (kF)
0 100 200 300 400 500 600
Figure 1-37. Estima-tion, Ă lâaide dâun rĂ©seau de neurones, de la probabilitĂ© dâĂ©lection en fonc-tion de la somme dĂ©pensĂ©e au cours de la campagne (Ă©lec-tions lĂ©gislatives de 1993).
Les réseaux de neurones46
Lâapplication que nous prĂ©sentons (extraite de [STRICKER 2000]) a Ă©tĂ© dĂ©veloppĂ©e pour la Caisse desdĂ©pĂŽts et consignations, qui offre, sur lâintranet du groupe, un service de filtrage de dĂ©pĂȘches de lâAFP entemps rĂ©el. Les objectifs sont doubles :âą dĂ©veloppement dâune application permettant Ă un utilisateur dâobtenir automatiquement un filtre
dâinformation sur un thĂšme de son choix, sous rĂ©serve de fournir des exemples de textes pertinents pourle thĂšme considĂ©rĂ©,
âą dĂ©veloppement dâun outil permettant de surveiller lâobsolescence des filtres classiques, qui sont consti-tuĂ©s de systĂšmes Ă base de rĂšgles.
Pour atteindre le second objectif, on fabrique une copie dâun filtre Ă base de rĂšgles avec un filtre utilisantun rĂ©seau de neurones. Comme le rĂ©seau de neurones produit une probabilitĂ© de pertinence et non unerĂ©ponse binaire, il est possible dâanalyser les plus grandes divergences entre les deux filtres : les docu-ments considĂ©rĂ©s comme pertinents par la mĂ©thode Ă base de rĂšgles, mais obtenant une probabilitĂ© prochede zĂ©ro avec le rĂ©seau de neurones, et les documents considĂ©rĂ©s comme non pertinents avec le premier etobtenant une probabilitĂ© de pertinence proche de un avec le second [WOLINSKI et al. 2000].
Le premier de ces objectifs consiste en la conception et la rĂ©alisation dâun systĂšme de crĂ©ation automa-tique de filtres, dont la caractĂ©ristique majeure est lâabsence dâintervention dâun expert, par opposition Ă la mise en Ćuvre dâun systĂšme Ă base de rĂšgles. Il sâagit donc de concevoir un systĂšme de discriminationĂ deux classes : Ă partir dâune base de documents Ă©tiquetĂ©s comme pertinents ou non pertinents pour lethĂšme considĂ©rĂ©, il faut :âą trouver une reprĂ©sentation des textes par des nombres, reprĂ©sentation qui doit ĂȘtre aussi compacte que
possible,âą concevoir et mettre en Ćuvre un classifieur utilisant cette reprĂ©sentation.
Le problÚme de la représentation des textes, donc de la sélection des entrées, est évidemment central danscette application.
Sélection des entrées
Lâapproche la plus conventionnelle est la reprĂ©sentation en « sac de mots », dans laquelle un texte estreprĂ©sentĂ© par un vecteur dont chaque composante est un nombre, liĂ© Ă la prĂ©sence ou lâabsence dâun motdans le texte, ou Ă sa frĂ©quence dans le texte. La difficultĂ© de cette approche est que la dimension de cevecteur est Ă©gale au nombre de mots du vocabulaire, ce qui est Ă©videmment Ă©norme ; on peut nĂ©anmoinsremarquer que tous les mots ne sont pas Ă©galement discriminants : les mots les plus frĂ©quents (de, la, et...)sont inutiles pour la discrimination, de mĂȘme que les mots trĂšs rares. Dans une premiĂšre Ă©tape, on cherchedonc, pour un thĂšme donnĂ©, Ă trouver les mots les plus pertinents pour le thĂšme considĂ©rĂ©.
â Codage des mots
Les mots sont codĂ©s de la maniĂšre suivante : soit FT(m, t) la frĂ©quence dâoccurrence du terme m dans letexte t, et FT(t) la frĂ©quence moyenne des termes dans le texte t. Alors le mot m est dĂ©crit par la quantitĂ© :
dont on trouvera la justification dans [SINGHAL 1996.]
â La loi de Zipf
Pour sĂ©lectionner les mots discriminants, on est aidĂ© par la loi de Zipf [ZIPF 1949] : soit un corpus de Ttextes ; appelons FC(m) la frĂ©quence dâoccurrence du mot m sur le corpus T ; nous avons dĂ©fini, dans leparagraphe prĂ©cĂ©dent, la quantitĂ© FT(m, t), frĂ©quence du mot m dans le texte t. Construisons une liste de
x(m) =1 + log FT m, t
1 + log FT t,
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 147
mots, classĂ©s par ordre de FC(m) dĂ©croissant ; soit r(m) le rang du mot m dans cette liste. La loi de ZipfsâĂ©nonce ainsi : FC(m) r(m) = K, oĂč K est une constante qui dĂ©pend du corpus considĂ©rĂ©. Il y a donc unpetit nombre de mots trĂšs frĂ©quents, et il y a un grand nombre de mots trĂšs rares qui nâapparaissent quâunefois ou deux sur le corpus ; entre ces extrĂȘmes, il existe un ensemble de mots dans lesquels il faut chercherles mots discriminants.
â Extraction du vocabulaire spĂ©cifique
Pour dĂ©terminer le vocabulaire spĂ©cifique Ă un thĂšme donnĂ©,on dĂ©finit, pour chaque mot m de chaque texte pertinent t, lerapport R(m, t) = FT(m, t) / FC(m). On range les mots dutexte par ordre de R(m, t) dĂ©croissant, on supprime laseconde moitiĂ© de la liste, et lâon construit un vecteurboolĂ©en v(t) tel que vi(t) = 1 si le mot i est prĂ©sent dans la
liste, et 0 sinon. On calcule enfin le vecteur oĂč
la somme porte sur tous les documents pertinents : le voca-bulaire spĂ©cifique du thĂšme est lâensemble des mots dontla composante dans v est non nulle. La figure 1-38 montreque, sur le corpus des dĂ©pĂȘches Reuters, la loi de Zipf estassez bien vĂ©rifiĂ©e, et que les mots du vocabulaire spĂ©ci-fique du thĂšme Falkland petroleum exploration sont bienau milieu de la distribution.
â SĂ©lection finale
Ă lâintĂ©rieur du vocabulaire spĂ©cifique ainsi dĂ©fini, et qui peut ĂȘtre encore vaste (une Ă quelques centainesde mots), une sĂ©lection finale est effectuĂ©e par la mĂ©thode du vecteur sonde, dĂ©crite dans le chapitre 2. Ăla fin de cette Ă©tape, il apparaĂźt que, en moyenne sur 500 thĂšmes qui ont Ă©tĂ© Ă©tudiĂ©s, le vocabulaire spĂ©ci-fique dâun thĂšme comprend 25 mots, ce qui est tout Ă fait raisonnable pour un vecteur dâentrĂ©e dâun rĂ©seaude neurones. NĂ©anmoins, cette reprĂ©sentation nâest pas encore satisfaisante, mĂȘme si elle est compacte.En effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenircompte du contexte.
DĂ©termination du contexte
Pour introduire le contexte dans la reprĂ©sentation des textes, on a cherchĂ© des mots de contexte dans unefenĂȘtre de 5 mots de part et dâautre du chaque mot du vocabulaire spĂ©cifique. On a dĂ©finiâą des mots de contexte positifs, qui sont les mots que lâon trouve dans le voisinage des mots du vocabu-
laire spĂ©cifique, dans les documents pertinents,âą des mots de contexte nĂ©gatifs, qui sont les mots que lâon trouve dans le voisinage des mots du vocabu-
laire spécifique, dans les documents non pertinents.
Pour sĂ©lectionner les mots de contexte, on utilise exactement la mĂȘme procĂ©dure que pour la dĂ©termina-tion du vocabulaire spĂ©cifique. Typiquement, pour lâexemple de « prise de participation entreentreprises », on constate que pour le mot « capital », qui fait partie du vocabulaire spĂ©cifique, les mots« dĂ©tient » et « droits » figurent dans les mots de contexte spĂ©cifique, et les mots « risque » et « fonds »dans le contexte nĂ©gatif.
En moyenne sur 500 thÚmes différents, un thÚme est défini par 25 mots de vocabulaire spécifique, chacunde ces mots ayant 3 mots de contexte.
0
1
2
3
4
5
6
Log
FC
(m)
0 1 2 3 4 5Log r (m)
Figure 1-38. Vérification expérimentale de la loi de Zipf sur le corpus Reuters, et représentation des mots du vocabulaire spécifique au thÚme « Falkland petroleum exploration »
v = v tât
,
Les réseaux de neurones48
Conception et apprentissage des filtres
â Filtres sans contexte
Si lâon ne tient pas compte du contexte, le filtre a pour entrĂ©es les mots du vocabulaire spĂ©cifique, codĂ©scomme indiquĂ© plus haut. ConformĂ©ment Ă la mĂ©thodologie de conception de classifieurs que nous avonsprĂ©sentĂ©e dans la section consacrĂ©e Ă la discrimination, la structure du classifieur dĂ©pend de la complexitĂ©du problĂšme. Sur les corpus et les thĂšmes testĂ©s, les ensembles dâapprentissage sont gĂ©nĂ©ralement linĂ©ai-rement sĂ©parables, de sorte que lâon utilise un rĂ©seau Ă un seul neurone Ă fonction dâactivation sigmoĂŻde.
â Filtres avec contexteFigure 1-39. Un filtre sans contexte est un clas-sifieur linĂ©aire qui reçoit en entrĂ©e le descrip-teur de chacun des mots du vocabulaire spĂ©cifique (rectangles en traits gras) ; dans un filtre avec contexte, les entrĂ©es sont les descripteurs des mots du vocabulaire spĂ©ci-fique (rectangles en traits gras) et les mots de contexte (rectangles en traits fins).
Le contexte doit modifier le descripteurcorrespondant Ă chaque mot du vocabu-laire spĂ©cifique. Le filtre reprĂ©sentedonc chaque mot du vocabulaire par unneurone Ă fonction dâactivationsigmoĂŻde, dont les entrĂ©es sont ledescripteur du mot considĂ©rĂ© et les
descripteurs des mots de contexte de celui-ci. Les sorties de ces neurones sont sĂ©parĂ©es linĂ©airement parun neurone Ă fonction dâactivation sigmoĂŻde. La figure 1-39 reprĂ©sente un filtre avec contexte et un filtresans contexte
Lâutilisation du contexte augmente Ă©videmment le nombre de paramĂštres. Typiquement, pour un thĂšmeavec 25 mots de vocabulaire spĂ©cifique, et 3 mots de contexte par mot du vocabulaire spĂ©cifique, le filtrecomprend 151 paramĂštres. Compte tenu du fait que le nombre de poids peut ĂȘtre du mĂȘme ordre de gran-deur que le nombre dâexemples (voire infĂ©rieur Ă celui-ci), il est impĂ©ratif de mettre en Ćuvre unemĂ©thode de rĂ©gularisation. La mĂ©thode de modĂ©ration des poids a Ă©tĂ© mise en Ćuvre dans cetteapplication ; nous en verrons lâeffet dans le chapitre 2, dans la section consacrĂ©e Ă la rĂ©gularisation.
Validation des résultats
Dans le domaine du traitement automatique du langage, la compĂ©tition organisĂ©e chaque annĂ©e dans le cadrede la confĂ©rence TREC (Text REtrieval Conference) constitue une rĂ©fĂ©rence. La mĂ©thodologie prĂ©sentĂ©e ci-dessus a Ă©tĂ© mise en Ćuvre dans le cadre de la compĂ©tition TREC-9, pour lâĂ©preuve de « routing » : celle-ciconsiste Ă classer un ensemble de textes par ordre de pertinence dĂ©croissante pour des thĂšmes imposĂ©s.LâĂ©preuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement Ă 63 et 500 thĂšmes, etcomprenant au total 294 000 documents. Il va de soi que le nombre de documents Ă analyser, et le nombre dethĂšmes, rendent impossible tout traitement « manuel » ou « semi-automatique » des donnĂ©es, dans le tempsimparti Ă la compĂ©tition. Lâapproche que nous avons dĂ©crite a remportĂ© lâĂ©preuve, pour chacun des deuxthĂšmes ; la figure 1-40 reprĂ©sente les scores rĂ©alisĂ©s par les participants [STRICKER et al. 2001].
Filtre sans contexte
Filtre avec contexte
âŠ
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 149
Une application en bio-ingénierie : relations structure-activité (QSAR) pour la prédiction de propriétés chimiques de molécules
LâĂ©tude des relations structure-activitĂ© des molĂ©cules (QSAR pour Quantitative Structure-Activity Rela-tions) est un domaine en plein essor, en raison des progrĂšs trĂšs rapides de la simulation molĂ©culaire. Cestravaux ont pour objectif de prĂ©dire certaines propriĂ©tĂ©s chimiques de molĂ©cules Ă partir de donnĂ©es struc-turales qui peuvent ĂȘtre calculĂ©es a priori par ordinateur, sans quâil soit nĂ©cessaire de synthĂ©tiser lamolĂ©cule ; on peut donc Ă©viter une synthĂšse coĂ»teuse si lâon peut prĂ©dire que la molĂ©cule envisagĂ©e nepossĂšde pas les propriĂ©tĂ©s souhaitables [HANSCH et al. 1995]. Cette approche est particuliĂšrement utiledans le domaine de la bio-ingĂ©nierie, pour la prĂ©diction de propriĂ©tĂ©s pharmacologiques de molĂ©cules etlâaide Ă la dĂ©couverte de nouveaux mĂ©dicaments, mais elle peut Ă©videmment ĂȘtre transposĂ©e Ă nâimportequel domaine (prĂ©diction de propriĂ©tĂ©s mĂ©caniques de matĂ©riaux complexes Ă partir de leur formulation,prĂ©diction de paramĂštres thermodynamiques de mĂ©langes, etc.).
Pourquoi les rĂ©seaux de neurones peuvent-ils ĂȘtre mis en Ćuvre avec profit dans ce contexte ? Si lâonadmet quâil existe une relation dĂ©terministe entre certains descripteurs de la molĂ©cule et la propriĂ©tĂ© quelâon veut prĂ©dire, alors on est ramenĂ© Ă un problĂšme de dĂ©termination de la fonction de rĂ©gression de lapropriĂ©tĂ© envisagĂ©e, en fonction des descripteurs choisis. Si cette fonction est non linĂ©aire, et si des basesde donnĂ©es utilisables existent, lâutilisation de rĂ©seaux de neurones est entiĂšrement justifiĂ©e.
Comme on lâa dĂ©jĂ soulignĂ©, la premiĂšre question quâil convient de se poser, lorsque lâon envisage dedĂ©velopper une application de rĂ©seaux de neurones, est celle des donnĂ©es utilisables pour lâapprentissageet pour lâĂ©valuation des performances du rĂ©seau. Compte tenu de lâimportance des enjeux, il existe denombreuses bases de donnĂ©es concernant des quantitĂ©s telles que le point dâĂ©bullition, la solubilitĂ© danslâeau ou le coefficient de partage eau-octanol. Cette derniĂšre propriĂ©tĂ© est particuliĂšrement importante :dans le domaine de la pharmacologie, elle dĂ©termine la capacitĂ© de la molĂ©cule Ă atteindre le milieu danslequel le mĂ©dicament devient efficace, par franchissement de barriĂšres biologiques ; dans le domaine delâenvironnement, le coefficient de partage eau-octanol caractĂ©rise la maniĂšre dont les pesticides sontsusceptibles de se rĂ©pandre dans le milieu naturel.
Ăpreuve âOHSUâ (63 thĂšmes)0,385
0,343 0,326 0,3170,237 0,234
0,185 0,1770,099 0,081
0
0,2
0,4
0,6
ICDC (S
2RNr2
)
Micr
osof
t (ok
9rf2
po)
Micr
osof
t (ok
9rfr2
po)
U. Nijm
egen
(KUNr1
)
U. Nijm
egen
(KUNr2
)
IRIT
/SIG
(Mer
9r2)
Rutge
rs U
. (an
trpno
00)
Rutge
rs U
. (an
trpo0
0)
ICDC (S
2RNr1
)
Score
0,335
0,253
0,158
0,00780
0,2
0,4
0,6
Sco
re
Ăpreuve âMeSHâ (500 thĂšmes)
Rutgers U(antrpms00)
Rutgers U(antrpnms00)
Microsoft(ok9rfr2ps)
ICDC(S2RNsamp)
Figure 1-40. RĂ©sultats de lâĂ©preuve de « routing » de TREC-9 ; en noir : rĂ©sultats obtenus par la mĂ©thode dĂ©crite ci-dessus ; en gris : rĂ©sultats obtenus par dâautres mĂ©thodes.
Les réseaux de neurones50
La deuxiĂšme question Ă se poser est celle des entrĂ©es pertinentes pour le rĂ©seau de neurones envisagĂ©. Ici,les connaissances du chimiste doivent nĂ©cessairement guider le choix des entrĂ©es. On considĂšre habituel-lement trois catĂ©gories de descripteurs :âą des descripteurs chimiques tels que la masse molĂ©culaire, le nombre dâatomes de carbone, etc. ;âą des descripteurs gĂ©omĂ©triques tels que le volume de la molĂ©cule, sa surface, son ovalitĂ©, etc. ;âą des descripteurs Ă©lectriques tels que les charges portĂ©es par les diffĂ©rents atomes, le moment dipolaire, etc.
Pour chaque propriĂ©tĂ© que lâon cherche Ă prĂ©dire, il faut doncĂ©tablir un ensemble de descripteurs que lâon peut supposerpertinents, et utiliser une technique de sĂ©lection, telle quecelles qui sont dĂ©crites dans le chapitre 2, afin de dĂ©terminerles descripteurs qui sont rĂ©ellement utiles pour les molĂ©culeset la propriĂ©tĂ© considĂ©rĂ©e. En raison de leur parcimonie, desrĂ©seaux de neurones de trĂšs petite taille (5 Ă 7 neuronescachĂ©s) fournissent des rĂ©sultats de meilleure qualitĂ© que lestechniques de rĂ©gression multilinĂ©aire habituellement misesen Ćuvre dans ce domaine [DUPRAT et al. 1998].
Il est intĂ©ressant de remarquer que, pour certaines molĂ©cules,les valeurs de LogP sont systĂ©matiquement mal apprises(lorsque ces mesures font partie de lâensemble dâapprentis-sage) ou systĂ©matiquement mal prĂ©dites (lorsque ces molĂ©-cules font partie de lâensemble de validation). Dans un tel
cas, le premier problĂšme Ă soupçonner est Ă©videmment une erreur de saisie ou de mesure. Si cette hypo-thĂšse est Ă rejeter, il faut en conclure que ces Ă©lĂ©ments ont des particularitĂ©s qui sont absentes des autresexemples ; ici, il apparaĂźt que les molĂ©cules en question sont soit fortement chargĂ©es (tĂ©tracycline etcafĂ©ine, reprĂ©sentĂ©s sur la figure 1-41), soit au contraire ont trĂšs peu dâinteractions avec le solvant(pĂ©rylĂšne, 1-4 pentadiĂšne, voir figure 1-41). Ainsi, les rĂ©seaux de neurones peuvent servir Ă dĂ©tecter desanomalies de comportement ; câest un des grands domaines dâapplications des rĂ©seaux de neurones.
Une application en formulation : la prĂ©diction de la tempĂ©rature de liquidus de verresDans le mĂȘme esprit que lâapplication prĂ©cĂ©dente, on peut prĂ©dire des paramĂštres thermodynamiques dematĂ©riaux en fonction de la composition de ceux-ci. Câest le cas notamment pour la tempĂ©rature deliquidus de verres dâoxydes. Cette tempĂ©rature est la tempĂ©rature maximale Ă laquelle des cristaux sonten Ă©quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prĂ©dire cettetempĂ©rature en fonction de la composition du verre, car la valeur de la viscositĂ© Ă la tempĂ©rature deliquidus est un Ă©lĂ©ment important pour le choix des paramĂštres des procĂ©dĂ©s de formage des verres. LaprĂ©diction de cette tempĂ©rature en fonction de la composition du verre est difficile, car les diagrammesprĂ©sentent des variations brutales dans le domaine dâintĂ©rĂȘt ; compte tenu de cet intĂ©rĂȘt industriel, denombreuses Ă©tudes ont Ă©tĂ© menĂ©es (voir par exemple [KIM et al. 1991]), et des bases de donnĂ©es sontdisponibles. Lâutilisation des rĂ©seaux de neurones sâest montrĂ©e avantageuse par rapport aux mĂ©thodestraditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 1-42 illustre, sur un exemple concret, la parcimonie des rĂ©seaux de neurones. Elle prĂ©sente des« diagrammes de dispersion » (scatter plot). Un tel diagramme constitue un outil graphique trĂšs commode pourvisualiser la prĂ©cision de lâapproximation : on porte en abscisse, pour chaque Ă©lĂ©ment de la base de donnĂ©es, lavaleur mesurĂ©e, et en ordonnĂ©es la valeur prĂ©dite correspondante. Si la prĂ©diction Ă©tait parfaite, tous les pointsdevraient ĂȘtre alignĂ©s sur la bissectrice ; la dispersion autour de celle-ci donne une idĂ©e de la qualitĂ© de la modĂ©-
CH3 H HNMe2
OHOH O OH O
NH2
O
OHHO
TĂ©tracycline
PĂ©rylĂšne1,4-pentadiĂšne
CH3O
O
Caféine
CH3
CH3
N
N N
N
Figure 1-41. Molécules présentant des parti-cularités chimiques,dont les propriétés sont mal prédites par des réseaux de neurones.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 151
lisation (bien entendu, cela ne remplace pas les grandeurs telles que lâEQMT introduite plus haut, le score devalidation ou de leave-one-out dĂ©finis dans le chapitre 2, ou toute autre bonne estimation quantitative de lâerreurde modĂ©lisation). Les entrĂ©es des modĂšles sont les teneurs en oxydes, la sortie est lâestimation de la tempĂ©raturede liquidus. La figure 1-42(a) prĂ©sente le rĂ©sultat obtenu sur un verre de silice (composĂ©, outre de SiO2, dâoxydede potassium K2O et dâalumine Al2O3), obtenu avec un rĂ©seau Ă 6 neurones cachĂ©s (25 paramĂštres), et la figure1-42(b) le rĂ©sultat obtenu avec un polynĂŽme de degrĂ© 3, dont le nombre de paramĂštres est trĂšs voisin (19). Il estclair que, Ă nombre de paramĂštres Ă peu prĂšs Ă©quivalent, le rĂ©seau de neurones fournit un bien meilleur rĂ©sultat.La figure 1-42(c) indique, pour mĂ©moire, le rĂ©sultat obtenu avec un modĂšle linĂ©aire.
Une application en modĂ©lisation de procĂ©dĂ© industriel : la modĂ©lisation du soudage par pointsLe soudage par points est le procĂ©dĂ© de soudage le plus utilisĂ© dans lâindustrie automobile : des millionsde soudures sont effectuĂ©es chaque jour. Le procĂ©dĂ© est schĂ©matisĂ© sur la figure 1-13 : le soudage desdeux tĂŽles est effectuĂ© en faisant passer un courant trĂšs intense (des dizaines de kiloampĂšres) pendant untemps trĂšs court (quelques centaines de millisecondes) entre deux Ă©lectrodes pressĂ©es contre la surface
Figure 1-42. Diagrammes de dispersion pour la prĂ©diction de la tempĂ©rature de liquidus de verres dâoxydes en fonction de la composition, pour trois modĂšles diffĂ©rents.
Les réseaux de neurones52
des tĂŽles. LâĂ©chauffement produit par effet Joule fait fondre une zone des tĂŽles. AprĂšs refroidissement, lediamĂštre de la zone fondue (typiquement 5 mm) caractĂ©rise la qualitĂ© de la soudure ; si ce diamĂštre estinfĂ©rieur Ă 4 mm, la soudure est considĂ©rĂ©e comme dĂ©fectueuse. Le diamĂštre du point soudĂ© est donc unĂ©lĂ©ment crucial de la sĂ©curitĂ© du vĂ©hicule. Ă lâheure actuelle, il nâexiste pas de mĂ©thode physique nondestructive qui permette dâĂ©valuer rapidement le diamĂštre de la soudure. En consĂ©quence, une stratĂ©gieindustrielle typique consiste :
âą Ă utiliser une intensitĂ© de courant excessive, ce qui produit un trĂšs grand Ă©chauffement, donc lâĂ©jectionde gouttelettes de mĂ©tal en fusion de la zone de soudage (câest lâorigine des « Ă©tincelles » que lâonobserve Ă chaque soudure effectuĂ©e par les robots de soudage sur une chaĂźne de fabrication) ;
⹠à réaliser des soudures en surnombre, afin que, avec une probabilité voisine de 1, on ait au moins unesoudure de bonne qualité.
LâexcĂšs de courant et le trop grand nombre de soudures conduisent Ă une dĂ©gradation rapide des Ă©lec-trodes, qui doivent ĂȘtre changĂ©es ou rĂ©-usinĂ©es frĂ©quemment.
Pour toutes ces raisons, la modĂ©lisation du processus en vue dâobtenir une prĂ©diction fiable du diamĂštrede la soudure, en temps rĂ©el, Ă partir de mesures effectuĂ©es pendant le soudage, constitue un problĂšmeindustriel important. Il est trĂšs difficile de modĂ©liser la dynamique du processus de soudage, pourplusieurs raisons :
âą le temps nĂ©cessaire pour intĂ©grer numĂ©riquement les Ă©quations diffĂ©rentielles et les Ă©quations aux dĂ©ri-vĂ©es partielles du modĂšle de connaissance est supĂ©rieur, de plusieurs ordres de grandeur, Ă la durĂ©edâune soudure ; on ne peut donc pas utiliser un tel modĂšle pour une prĂ©diction en temps rĂ©el ;
âą certains paramĂštres physiques, qui interviennent dans les Ă©quations du modĂšle de connaissance, sontmal connus.
La modélisation « boßte noire » est donc une alternative intéressante à un modÚle de connaissance. Leprocédé étant non linéaire et présentant plusieurs variables, les réseaux de neurones sont de bons candi-dats pour effectuer une prédiction, en temps réel, du diamÚtre du point fondu, donc de la qualité de lasoudure, en fonction de mesures effectuées pendant la soudure [MONARI 1999].
Les difficultĂ©s sont, dâune part, le choix des variables dâentrĂ©e du modĂšle, et, dâautre part, le fait que lesdonnĂ©es disponibles sont relativement peu nombreuses, car coĂ»teuses Ă obtenir.
Dans [MONARI 1999], les grandeurs candidates pour constituer des variables du modĂšle Ă©taient des gran-deurs mĂ©caniques et Ă©lectriques qui peuvent ĂȘtre mesurĂ©es durant le processus. La sĂ©lection des entrĂ©es aĂ©tĂ© effectuĂ©e Ă lâaide des mĂ©thodes dĂ©crites dans le chapitre 2, et ce choix a Ă©tĂ© validĂ© par les expertsimpliquĂ©s dans le dĂ©veloppement du modĂšle de connaissance du procĂ©dĂ©.
Comme il nâexiste pas de mĂ©thode non destructive simple pour prĂ©dire le diamĂštre du point fondu, la basede donnĂ©es est construite de la maniĂšre suivante : un ensemble de soudures est effectuĂ© dans des condi-tions bien contrĂŽlĂ©es ; elles sont ensuite arrachĂ©es (« dĂ©boutonnĂ©es »), et le diamĂštre du « bouton fondu »,qui reste solidaire dâune des tĂŽles, est mesurĂ©. Câest un processus long et coĂ»teux, de sorte que lâensembledâapprentissage initial comprenait seulement 250 exemples. En utilisant lâestimation des intervalles deconfiance qui sera exposĂ©e dans le chapitre 2, un plan dâexpĂ©riences a Ă©tĂ© Ă©tabli, qui a permis dâenrichirprogressivement la base de donnĂ©es disponible. La moitiĂ© de ces donnĂ©es a Ă©tĂ© utilisĂ©e pour lâapprentis-sage, lâautre pour le test ; la sĂ©lection de modĂšle a Ă©tĂ© effectuĂ©e par la procĂ©dure de « leave-one-outvirtuel » qui sera expliquĂ©e dans le chapitre 2, si bien quâil nâa pas Ă©tĂ© nĂ©cessaire dâutiliser un ensemblede validation.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 153
La figure 1-43 prĂ©sentedes diagrammes de dis-persion typiques, oĂčchaque prĂ©diction figureavec son intervalle deconfiance. Lâerreur degĂ©nĂ©ralisation estimĂ©e(score de leave-one-out,voir chapitre 2) est de0,27 mm, et lâEQMT delâordre de 0,23 mm. CesquantitĂ©s Ă©tant de lâordrede grandeur de lâincerti-tude de mesure, ces rĂ©sul-tats sont trĂšs satisfaisants.
Une application en robotique : la modĂ©lisation de lâactionneur hydraulique dâun bras de robot
On cherche Ă concevoir unmodĂšle dâun bras de robot dontla position est commandĂ©e parun actionneur hydraulique. Laposition du bras dĂ©pend de lapression dâhuile dans lâaction-neur, pression commandĂ©e parlâouverture dâune vanne. Lesvariations de lâouverture de lavanne, câest-Ă -dire la sĂ©quencede commande {u(k)}, et lapression dâhuile correspon-dante, câest-Ă -dire la sĂ©quencede sortie {yp(k)}, sont reprĂ©-sentĂ©es sur la figure 1-44. Cetensemble de donnĂ©es contient1024 points de mesure : lapremiĂšre moitiĂ© dâentre eux estutilisĂ©e pour lâapprentissage, laseconde pour lâestimation de laperformance (sĂ©quence detest). On ne dispose dâaucuneautre information sur leprocessus : on a donc nĂ©cessai-rement recours Ă une modĂ©li-sation « boĂźte noire ».
Dia
mĂšt
re p
réd
it (
mm
)
2
3
4
5
6
7
8
2 3 4 5 6 7 8DiamÚtre mesuré (mm)
2
3
4
5
6
7
8
2 3 4 5 6 7 8DiamÚtre mesuré (mm)
Dia
mĂšt
re p
réd
it (
mm
)
Figure 1-43. Diagrammes de dispersion pour la prédiction du diamÚtre de soudures par points
(b)
-1.5
-1
-0.5
0
0.5
1
1.5
0 200 400 600 1000
-4
-2
0
2
4
0 200 400 600 800 1000
SĂ©quence d'apprentissage SĂ©quence de test
(a) 800
Commande
Sortie du processus
Figure 1-44. SĂ©quences dâapprentissage et de test pour la modĂ©lisation dâun bras de robot
Les réseaux de neurones54
Lâexamen des donnĂ©es montre que le processus nâestcertainement pas linĂ©aire, et que, compte tenu des oscilla-tions observĂ©es en rĂ©ponse Ă des variations de u(k) qui sontpresque des Ă©chelons, le processus est au moins dâordre 2.On observe aussi que les sĂ©quences dâapprentissage et detest nâexplorent quâapproximativement le mĂȘme domainede fonctionnement (signaux de sortie et de commande demĂȘme type et de mĂȘme amplitude). On note quâauxinstants 600 et 850 environ de la sĂ©quence de validation,lâamplitude de la commande dĂ©passe les amplitudes maxi-males atteintes sur la sĂ©quence dâapprentissage. On ne setrouve pas dans les meilleures conditions possibles.
Nous analyserons en dĂ©tail cet exemple dans le chapitre 2.Les meilleurs rĂ©sultats ont Ă©tĂ© obtenus [OUSSAR 1998]avec un modĂšle dâĂ©tat du second ordre, dont une des varia-bles dâĂ©tat est la sortie elle-mĂȘme, avec trois neuronescachĂ©s. Il est reprĂ©sentĂ© sur la figure 1-45.
Lâerreur quadratique moyenne obtenue avec le modĂšle dela figure 1-45 est de 0,07 sur la sĂ©quence dâapprentissage,et de 0,12 sur la sĂ©quence de validation, ce qui est une trĂšs
bonne performance compte tenu de la reprĂ©sentativitĂ© des donnĂ©es disponibles. Les rĂ©sultats obtenus surla sĂ©quence de test sont reprĂ©sentĂ©s sur la figure 1-46. Les dĂ©fauts de modĂ©lisation rĂ©sultent probablementdu fait quâil y a des perturbations non mesurĂ©es, qui ne figurent pas dans les entrĂ©es du rĂ©seau.
Une application de la modĂ©lisation semi-physique Ă un procĂ©dĂ© manufacturierNous prĂ©sentons ici une application de la mĂ©thode de modĂ©lisation semi-physique, qui sera dĂ©crite endĂ©tail dans le chapitre 2, Ă un problĂšme industriel. Il sâagit de la modĂ©lisation du sĂ©chage du ruban adhĂ©sifScotch fabriquĂ© par la SociĂ©tĂ© 3M.
Un ruban adhĂ©sif est constituĂ© dâun film de matiĂšre plastique â le substrat â sur lequel est dĂ©posĂ© un filmliquide â le revĂȘtement â constituĂ© dâun polymĂšre adhĂ©sif dissous dans un solvant. Lâensemble passe dansun four, dans une atmosphĂšre gazeuse oĂč la pression partielle du solvant est trĂšs infĂ©rieure Ă la pressionpartielle Ă lâĂ©quilibre Ă la tempĂ©rature du four ; en consĂ©quence, le solvant sâĂ©vapore, si bien que laconcentration du solvant dans le revĂȘtement au voisinage de la surface devient infĂ©rieure Ă la concentra-tion du solvant dans le volume du revĂȘtement. Le solvant diffuse alors du volume vers la surface pourcompenser ce gradient de concentration, ce qui alimente encore lâĂ©vaporation. Le processus se poursuitjusquâau sĂ©chage du revĂȘtement, de sorte que seul subsiste lâadhĂ©sif Ă la surface du substrat.
1 u(k) x2(k)
qâ 1
y(k + 1) = x1(k + 1)
y(k) = x1(k)
x2(k + 1)
Figure 1-45. ModĂšle neuronal dâĂ©tat pour lâactionneur hydraulique. La sortie est lâune des variables dâĂ©tat
-5
0
5
0 100 200 300 400 500
ypy
Figure 1-46. ModĂ©lisation dâĂ©tat de lâactionneur hydraulique
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 155
Traditionnellement, le solvant est de nature organique. Pour des raisons de sĂ©curitĂ© et dâenvironnement, il estsouhaitable de remplacer les solvants organiques par de lâeau. Un excellent modĂšle physique du sĂ©chage enprĂ©sence dâun solvant organique existe [PRICE et al. 1997] ; il est constituĂ© de treize Ă©quations algĂ©briques etdiffĂ©rentielles non linĂ©aires couplĂ©es ; lorsque le solvant organique est remplacĂ© par lâeau, certains Ă©lĂ©mentsde ce modĂšle ne sont plus valables, si bien que les prĂ©dictions du modĂšle sont beaucoup moins prĂ©cises.
La thĂ©orie de la dissolution du polymĂšre dans lâeau est bien moins bien connue que celle du polymĂšredans un solvant organique, si bien que lâon ne peut pas Ă©laborer un modĂšle de connaissance satisfaisant ;par ailleurs, des sĂ©quences de mesure du poids de lâĂ©chantillon en fonction du temps et de la tempĂ©raturedu four sont disponibles : lâutilisation dâun modĂšle semi-physique paraĂźt donc possible et opportune.
Les Ă©quations qui constituent le modĂšle expriment :âą la conservation de la masse dans le volume du solvant : cette Ă©quation ne peut ĂȘtre remise en cause par
le changement du solvant ;âą la loi qui rĂ©git le courant de solvant vers la surface (loi de Fick) ; la validitĂ© de cette loi nâest pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction dela concentration et de la tempĂ©rature est donnĂ©e par une thĂ©orie (thĂ©orie du volume libre) dont la vali-ditĂ©, dans le cas oĂč le solvant est de lâeau, est incertaine ;
âą la condition de conservation de la masse Ă la surface : toute molĂ©cule qui arrive Ă la surface, etsâĂ©vapore, contribue Ă la variation de la pression partielle du solvant dans le gaz ; cette loi ne peut ĂȘtreremise en cause ;
âą la condition Ă lâinterface entre le revĂȘtement et le substrat : le substrat Ă©tant impermĂ©able au solvant, ilnây a aucun flux de solvant vers le substrat ;
âą la valeur de la pression partielle de solvant dans le gaz, qui constitue la « force motrice » du processus ;cette grandeur est donnĂ©e par une loi dont la validitĂ© nâest pas remise en cause par les experts.
Ă la lumiĂšre de cette analyse, il apparaĂźt que câest la variation du coefficient de diffusion qui doit ĂȘtrereprĂ©sentĂ©e par un rĂ©seau de neurones « boĂźte noire » au sein du modĂšle semi-physique. Câest ce qui a Ă©tĂ©fait, en suivant la mĂ©thode de conception qui a Ă©tĂ© esquissĂ©e plus haut, et qui est dĂ©crite en dĂ©tail dans lechapitre 2. Il faut noter que les Ă©quations du modĂšle ne sont pas des Ă©quations diffĂ©rentielles, mais desĂ©quations aux dĂ©rivĂ©es partielles ; cela nâest pas un obstacle Ă lâutilisation de la mĂ©thode.
Le lecteur intĂ©ressĂ© par les dĂ©tails de la rĂ©alisation du modĂšle et par les rĂ©sultats obtenus pourra les trouverdans [OUSSAR et al. 2001]. On trouvera Ă©galement une autre application â la dĂ©tection automatique dedysfonctionnements dans une colonne Ă distiller industrielle â, mettant en Ćuvre la modĂ©lisation neuro-nale semi-physique, dans [PLOIX et al. 1997]. Mentionnons enfin que des applications sont opĂ©ration-nelles dans un groupe industriel français majeur, pour la formulation de matĂ©riaux et de produitsnouveaux.
Deux applications en contrĂŽle de lâenvironnement : pollution par lâozone et hydrologie urbaineLes deux applications que nous prĂ©sentons ici relĂšvent de problĂ©matiques semblables : la prĂ©vision dephĂ©nomĂšnes non linĂ©aires dans le domaine de lâenvironnement.
PrĂ©vision des pics de pollution par lâozone
La gĂ©nĂ©ralisation des mesures de concentration en ozone, ainsi que le dĂ©veloppement de modĂšles deconnaissance de la pollution atmosphĂ©rique, permettent dâenvisager la prĂ©vision des pics de pollution. Dansle cadre dâun groupe de travail du club « IngĂ©nierie du traitement de lâinformation » de lâassociation ECRIN,des donnĂ©es relatives Ă la pollution par lâozone dans la rĂ©gion lyonnaise ont Ă©tĂ© mises Ă la disposition des
Les réseaux de neurones56
Ă©quipes de recherche françaises, en vue dâune prĂ©diction « boĂźte noire » Ă lâaide de mĂ©thodes mettant en jeuun apprentissage. Les rĂ©seaux de neurones Ă©taient donc des candidats naturels pour rĂ©aliser cette tĂąche.
Comme il sâagissait dâune Ă©tude prĂ©liminaire de courte durĂ©e, on sâest contentĂ© dâutiliser les donnĂ©esissues dâun seul capteur dâozone, pour lequel les donnĂ©es disponibles (mesures heure par heure pendantles annĂ©es 1995 Ă 1998) Ă©taient fiables. Les donnĂ©es des annĂ©es 1995 Ă 1997 ont Ă©tĂ© utilisĂ©es pourlâapprentissage, celles de lâannĂ©e 1998 pour le test. Lâobjectif est de prĂ©voir, 24 heures Ă lâavance, si lapollution dĂ©passera le seuil dâalerte (180 ”g/m3 au moment oĂč lâĂ©tude a Ă©tĂ© effectuĂ©e).
Deux possibilitĂ©s peuvent ĂȘtre envisagĂ©es :âą la classification : classer la journĂ©e Ă venir en « polluĂ©e » ou « non polluĂ©e » (journĂ©e avec dĂ©passement
du seuil ou sans dĂ©passement), en fonction des donnĂ©es disponibles Ă 16 h GMT ;âą la prĂ©vision : prĂ©dire la concentration en ozone, 24 heures Ă lâavance.
Comme la dĂ©finition de la classe « polluĂ©e » dĂ©pend de la dĂ©finition du seuil, et que celle-ci peut varier enfonction de donnĂ©es administratives, politiques ou Ă©conomiques, il nous a paru prĂ©fĂ©rable dâĂ©liminer laclassification au profit de la seconde approche, qui reste valable indĂ©pendamment de toute autre considĂ©-ration. On a donc Ă©laborĂ© un modĂšle neuronal « boĂźte noire » qui, Ă partir des donnĂ©es disponibles Ă 14 hGMT, prĂ©dit les concentrations qui seront mesurĂ©es au cours des 24 heures suivantes.
Le processus Ă©tant essentiellement dynamique, avec des phĂ©nomĂšnes qui varient selon la pĂ©riode consi-dĂ©rĂ©e (jour ou nuit), il a semblĂ© naturel dâutiliser 24 rĂ©seaux de neurones qui effectuent tous la prĂ©dictionune heure Ă lâavance, en fonction des donnĂ©es disponibles Ă 14 h GMT.
LâidĂ©e la plus simple consistait Ă utiliser un modĂšledynamique non linĂ©aire (rĂ©seau de neuronesbouclĂ©). NĂ©anmoins, il est apparu que cette solutionrisquait de ne pas ĂȘtre adaptĂ©e, car une Ă©tude prĂ©li-minaire des donnĂ©es montre que les facteurs perti-nents pour la prĂ©vision de la pollution dĂ©pendent delâheure considĂ©rĂ©e ; or, dans un rĂ©seau bouclĂ©, lesentrĂ©es exogĂšnes sont Ă©videmment les mĂȘmesquelle que soit lâheure. Afin de pallier cet inconvĂ©-nient, un ensemble de 24 rĂ©seaux de neurones encascade a Ă©tĂ© conçu et rĂ©alisĂ©, chaque rĂ©seau Ă©tantspĂ©cialisĂ© dans la prĂ©diction correspondant Ă unetranche horaire (figure 1-47) : le rĂ©seau N prĂ©dit laconcentration mesurĂ©e par le capteur considĂ©rĂ© Ă lâheure 14+N GMT ; pour chaque rĂ©seau, lesentrĂ©es candidates sont :âą les prĂ©dictions des N â 1 rĂ©seaux prĂ©cĂ©dents ;âą lâensemble des donnĂ©es fournies, soit :
1 â les mesures des capteurs NO et NO2 Ă 14 hGMT,2 â la tempĂ©rature Ă 14 h le jour J,3 â la tempĂ©rature maximale mesurĂ©e le jour J,et la tempĂ©rature maximale prĂ©dite par MĂ©tĂ©o-France pour le jour J + 1,4 â les gĂ©opotentiels le jour J,5 â la sĂ©rie temporelle des mesures de la concen-tration en ozone avant 14 h.
PRĂDICTEUR+1 h
Série des mesures de O3 Géopotentiels NO et NO2 Températures jours J et J +1
PRĂDICTEUR+2 h
PRĂDICTEUR+3 h
PRĂDICTEUR+24 h
Figure 1-47. Structure dâun rĂ©seau de neurones pour la prĂ©vision, 24 heures Ă lâavance, des pics de pollution par lâozone
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 157
Pour chaque réseau, une sélection des entrées qui figurent parmi la liste ci-dessus est effectuée selon lesméthodes décrites dans le chapitre 2. Ainsi, les entrées exogÚnes de chaque réseau sont adaptées à latranche horaire considérée.
Cette approche peut Ă©videmment ĂȘtre adaptĂ©e Ă tout autre jeu de donnĂ©es, et elle offre la possibilitĂ© dâintĂ©-grer des connaissances expertes, lorsque celles-ci seront disponibles, dans un modĂšle semi-physique.
Lâerreur de prĂ©diction moyenne sur lâannĂ©e de test (1998) est de 23 ”g/m3. La figure 1-48 illustre la diffi-cultĂ© du problĂšme : en dĂ©pit dâune prĂ©diction trĂšs prĂ©cise pendant 20 heures, soit presque toute la journĂ©e,celle-ci apparaĂźt comme un « faux nĂ©gatif » car la mesure dĂ©passe (de trĂšs peu) le seuil dâalerte. Il estprobable que, lorsque de tels outils seront opĂ©rationnels (ce qui nâest pas le cas de lâapplication prĂ©sentĂ©eici au moment oĂč ces lignes sont rĂ©digĂ©es), de nouvelles procĂ©dures dâalerte, plus subtiles que le simpledĂ©passement dâun seuil, pourront ĂȘtre mises en Ćuvre.
ModĂ©lisation de la relation pluie-hauteur dâeau dans un collecteur dâeau pluviale
La « Direction de lâeau et de lâassainissement » du dĂ©partement de Seine-Saint-Denis a dĂ©veloppĂ© un systĂšmesophistiquĂ© de mesure des niveaux dâeau dans le systĂšme de collecte des eaux pluviales, et a procĂ©dĂ© Ă desmesures systĂ©matiques des chutes de pluie et des niveaux dâeau correspondants. Lâobjectif est une utilisationoptimale du rĂ©seau et une bonne anticipation des difficultĂ©s qui peuvent rĂ©sulter de pluies importantes. La fiabi-litĂ© du systĂšme dĂ©pend donc largement de la fiabilitĂ© des capteurs des niveaux dâeau dans les collecteurs : il estdonc important de pouvoir dĂ©tecter automatiquement quâun capteur est en panne [ROUSSEL et al. 2001].
Comme nous lâavons indiquĂ© plus haut, lacapacitĂ© des rĂ©seaux de neurones Ă modĂ©-liser avec prĂ©cision des phĂ©nomĂšnes nonlinĂ©aires leur confĂšre une place impor-tante dans les systĂšmes de dĂ©tection dedysfonctionnements : si lâon dispose dâunmodĂšle prĂ©cis du fonctionnement normal,et que lâon observe une diffĂ©rence signifi-cative entre les prĂ©dictions du modĂšle etles mesures effectuĂ©es, on peut enconclure que le systĂšme est en fonction-nement anormal, ou, dans lâexempledĂ©crit ici, que le capteur considĂ©rĂ© est enpanne.
0
180”g/m 3
Mesure
14 h 19 h 24 h 05 h 10 h 14 h
Con
cent
ratio
n en
ozo
ne
Heure GMT
ModĂšle
Figure 1-48. Concentra-tions en ozone mesurée et prévue pour une journée de 1998 (« faux négatif »)
-0.12
-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
1 2 3 4 5 6 7 8 9 10 11 12 13
Jour
Err
eur
moy
enne
de
mod
Ă©lis
atio
n
DĂ©rive
Fonctionnement normal
Figure 1-49. DĂ©tection de panne de capteur dans un collecteur dâeau pluviale
Les réseaux de neurones58
Deux types de pannes doivent ĂȘtre considĂ©rĂ©s :âą capteur bloquĂ© (fournissant une mesure constante),âą capteur subissant une dĂ©rive lente.
Ces deux types de pannes peuvent ĂȘtres dĂ©tectĂ©s en utilisant des rĂ©seaux de neurones bouclĂ©s, notammentdes modĂšles NARMAX (prĂ©sentĂ©s en dĂ©tail dans les chapitres 2 et 4). Ainsi, la figure 1-49 montre claire-ment la diffĂ©rence de comportement de lâerreur de modĂ©lisation lorsque le capteur est en fonctionnementnormal et lorsquâil dĂ©rive.
Une application en robotique mobile : le pilotage automatique dâun vĂ©hicule autonomeCommander un processus, câest dĂ©terminer les commandes Ă lui appliquer, afin de lui assurer un compor-tement donnĂ© (dĂ©fini par un cahier des charges), en dĂ©pit de perturbations.
Lâexemple que nous prĂ©sentons ici est celui dâun vĂ©hicule Mercedes 4 Ă 4 (baptisĂ© REMI), Ă©quipĂ©, par lasociĂ©tĂ© SAGEM, des capteurs et actionneurs nĂ©cessaires pour que le vĂ©hicule puisse ĂȘtre autonome.Commander ce processus, câest envoyer aux actionneurs du volant, de lâaccĂ©lĂ©rateur et du frein, lessignaux de commande nĂ©cessaires pour que le vĂ©hicule suive une trajectoire dĂ©finie Ă lâavance, avec unprofil de vitesse dĂ©terminĂ© Ă lâavance, en dĂ©pit des perturbations telles que la pente de la route, son dĂ©vers,les bourrasques de vent, des dĂ©rapages Ă©ventuels, etc.
Les rĂ©seaux de neurones sont de bons candidats pour ĂȘtre des Ă©lĂ©ments de systĂšmes de commande deprocessus non linĂ©aires. En effet, nous avons vu les capacitĂ©s des rĂ©seaux de neurones Ă rĂ©aliser desmodĂšles, « boĂźtes noires » ou aidĂ©s de connaissances physiques. Or, pour ĂȘtre en mesure dâĂ©laborer unsystĂšme de commande pour un processus, il faut gĂ©nĂ©ralement disposer dâun modĂšle de ce dernier ; lesrĂ©seaux de neurones interviennent donc dans les systĂšmes de commande non linĂ©aires comme modĂšles duprocessus, soit pendant la phase dâapprentissage, soit en tant quâĂ©lĂ©ment du systĂšme de commande lui-mĂȘme (commande avec modĂšle interne, voir chapitre 5). Par ailleurs, lâĂ©laboration du signal decommande (par exemple, lâangle selon lequel il faut faire tourner le volant, et la vitesse angulaire aveclaquelle il faut le faire tourner) Ă partir de lâinformation de consigne (le cap que doit suivre le vĂ©hicule)implique gĂ©nĂ©ralement la rĂ©alisation dâune fonction non linĂ©aire : les rĂ©seaux de neurones peuvent doncavantageusement assurer cette fonction, qui est celle du correcteur.
Le vĂ©hicule REMI est un 4 Ă 4 expĂ©rimental Ă©quipĂ© dâactionneurs (moteur Ă©lectrique pour faire tourner levolant, actionneur hydraulique pour le circuit de freinage, moteur Ă©lectrique pour le papillon dâadmissiondâair), et de capteurs de deux types :âą des capteurs qui permettent de connaĂźtre lâĂ©tat du vĂ©hicule (capteurs proprioceptifs) : odomĂštres sur les
roues, capteur angulaire sur le volant et le papillon dâadmission dâair, capteur hydraulique sur le circuitde freinage ;
⹠des capteurs avec lesquels on peut connaßtre la position du véhicule par rapport au monde extérieur(capteurs extéroceptifs) : une centrale inertielle.
Le systĂšme de navigation et de pilotage est constituĂ© des Ă©lĂ©ments suivants :âą un module de planification, qui, Ă partir de lâobjectif Ă atteindre et des contraintes (routes), dĂ©termine la
trajectoire que doit suivre le vĂ©hicule, et le profil de vitesse Ă respecter durant le trajet ;âą un module de guidage, qui Ă©labore les consignes de cap et de vitesse ;âą un module de pilotage, qui dĂ©termine les positions souhaitĂ©es pour les actionneurs ;âą un module de commande des actionneurs eux-mĂȘmes.
Dans cette structure, les réseaux de neurones interviennent au niveau du pilotage, pour déterminer lesactions souhaitables en fonction des consignes de cap et de vitesse [RIVALS et al. 1994] [RIVALS 1995].
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 159
Lâapplication a nĂ©cessitĂ© la conception et la rĂ©alisation de deux systĂšmes de commande destinĂ©s Ă rĂ©aliserdeux tĂąches :âą la commande du volant, pour maintenir le vĂ©hicule sur sa trajectoire : un rĂ©gulateur neuronal de la position
a Ă©tĂ© rĂ©alisĂ©, qui permet une erreur latĂ©rale maximale de 40 cm, pour des courbures jusquâĂ 0,1 m-1, et desdĂ©vers jusquâĂ 30 %, sur route et en tout-terrain ; cet asservissement a mis en Ćuvre, en certains de sesĂ©lĂ©ments, une modĂ©lisation semi-physique ;
âą la commande de lâaccĂ©lĂ©rateur et du frein, pour respecter le profil de vitesse imposĂ© par le module de guidage.
Il faut noter que les divers rĂ©seaux de neurones mis en jeu dans cette application, quâils jouent le rĂŽle demodĂšles ou de correcteurs, sont tous de trĂšs petite taille (moins dâune dizaine de neurones cachĂ©s). Leurmise en Ćuvre en temps rĂ©el nâa nĂ©cessitĂ© aucun matĂ©riel spĂ©cialisĂ© : ils ont Ă©tĂ© rĂ©alisĂ©s sous forme unique-ment logicielle, exĂ©cutĂ©s sur une carte Ă microprocesseur standard qui remplissait diverses autres fonctions.
Conclusion
Dans ce chapitre, nous avons exposĂ© les Ă©lĂ©ments essentiels qui permettent de comprendre pourquoi, etdans quels cas, il est avantageux de mettre en Ćuvre des rĂ©seaux de neurones. En prĂ©sentant quelquesapplications typiques, nous avons tentĂ© de montrer, concrĂštement, ce que lâingĂ©nieur peut attendre decette technique.
Avant dâaller plus loin, il est sans doute utile de rappeler les points fondamentaux quâil convient detoujours garder Ă lâesprit lorsque lâon cherche Ă mettre en Ćuvre des rĂ©seaux de neurones :âą les rĂ©seaux de neurones sont utilisĂ©s comme outils statistiques, qui permettent dâajuster des fonctions non
linĂ©aires trĂšs gĂ©nĂ©rales Ă des ensembles de points ; comme toute mĂ©thode statistique, lâutilisation derĂ©seaux de neurones nĂ©cessite que lâon dispose de donnĂ©es suffisamment nombreuses et reprĂ©sentatives ;
⹠les réseaux de neurones à apprentissage supervisé sont des approximateurs parcimonieux, qui permettentde modéliser des phénomÚnes statiques (réseaux non bouclés) et dynamiques (réseaux bouclés) ;
âą les rĂ©seaux de neurones Ă apprentissage supervisĂ© peuvent constituer dâexcellents classifieurs, dont lesperformances peuvent approcher celles du classifieur bayĂ©sien thĂ©orique ; nĂ©anmoins, pour la classifi-cation en vue de la reconnaissance de formes, la reprĂ©sentation choisie pour les formes Ă reconnaĂźtredĂ©termine souvent, dâune maniĂšre dĂ©cisive, la performance globale du systĂšme ; dans ce contexte, lesrĂ©seaux de neurones Ă apprentissage non supervisĂ© peuvent apporter des Ă©lĂ©ments prĂ©cieux pour ladĂ©termination dâune bonne reprĂ©sentation des formes ;
âą il est toujours souhaitable, et souvent possible, dâutiliser, pour la conception du rĂ©seau, les connais-sances mathĂ©matiques dont on dispose sur le phĂ©nomĂšne Ă modĂ©liser ; les rĂ©seaux de neurones ne sontpas nĂ©cessairement des « boĂźtes noires ».
Les chapitres qui suivent reprennent en dĂ©tail les Ă©lĂ©ments exposĂ©s plus haut : le lecteur est invitĂ© Ă se reporterĂ lâavant-propos et guide de lecture pour naviguer dans cet ouvrage en fonction de ses centres dâintĂ©rĂȘt.
Compléments théoriques et algorithmiques
Quelques types de neurones usuelsOn peut distinguer deux types de neurones, en fonction de la maniĂšre dont interviennent leurs paramĂštres.
Les réseaux de neurones60
Les neurones à entrées paramétrées
Les neurones les plus frĂ©quemment utilisĂ©s sont des neurones Ă entrĂ©es paramĂ©trĂ©es. Pour cette catĂ©goriede neurones, un paramĂštre est associĂ© Ă chaque entrĂ©e du neurone. La sortie dâun neurone Ă n entrĂ©es {xi},i = 0 Ă nâ1, sâexprime donc sous la forme y = f ({xi, wi}, i = 0 Ă nâ1. Le plus souvent, la fonction f est lacomposition de deux opĂ©rations :âą le calcul du « potentiel » du neurone, qui est la somme des entrĂ©es du neurone, pondĂ©rĂ©es par les
paramĂštres :
âą le calcul dâune fonction non linĂ©aire du potentiel, dite « fonction dâactivation » ; cette fonction est gĂ©nĂ©ra-lement en forme de « s », dâoĂč le nom gĂ©nĂ©rique de « sigmoĂŻde » ; on utilise toujours une fonction symĂ©-trique par rapport Ă 0, telle que la fonction tangente hyperbolique ou Arctangente, sauf si desconnaissances spĂ©ciales sur le problĂšme conduisent Ă utiliser une autre fonction, mieux adaptĂ©e Ă celui-ci.
RemarqueLes entrées du neurone comprennent généralement une entrée particuliÚre, appelée « biais », qui a une valeur constante égale à 1.
On lui attribue traditionnellement le numĂ©ro zĂ©ro, si bien que le potentiel peut ĂȘtre rĂ©crit sous la forme :
Ainsi, la sortie du neurone a pour expression : La figure 1-50 reprĂ©sente la sortie dâun neurone Ă 3 entrĂ©es (x0=1,
x1, x2) muni des paramĂštres w = 0, w1 = 1, w2 = â 1.
Mentionnons deux variations sur cetype de neurones :âą les neurones « dâordre supĂ©rieur », dont
le potentiel nâest pas une fonction affinedes entrĂ©es, mais une fonction poly-nomiale ; ce sont les ancĂȘtres des« machines Ă vecteurs supports »(Support Vector Machines ou SVM)utilisĂ©s pour la classification et dĂ©critsdans le chapitre 6 « La discrimina-tion » ;
âą les « neurones de MacCulloch etPitts », ou « sĂ©parateurs linĂ©aires Ă seuil », ou encore « perceptrons »,qui sont les ancĂȘtres des neuronesutilisĂ©s actuellement ; leur emploipour la discrimination sera largementdĂ©veloppĂ© dans le chapitre 6.
Les neurones à non-linéarité paramétrée
Les paramĂštres de ces neurones sont attachĂ©s Ă la non-linĂ©aritĂ© de ceux-ci : ils interviennent directementdans la fonction f : ainsi, cette derniĂšre peut ĂȘtre une « fonction radiale » (RBF pour Radial Basis Func-tion), ou encore une ondelette. Exemple : fonction radiale (RBF gaussienne isotrope) :
v = wixiâi = 0
n â 1
,
y = f w0 + wixiâj = 1
n
.
y = f w0 + wixiâi = 1
n â 1
.
-5
0
5
-5
0
5-1
-0.5
0
0.5
1
Figure 1-50. Sortie dâun neurone Ă 3 entrĂ©es {x0=1, x1, x2} munies des poids {w0=0, w1=+1, w2=â1}, dont la fonction dâactivation est une tangente hyperbolique : y=th(x1 â x2).
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 161
Les paramĂštres {wi, i = 1 Ă n} sont les coordonnĂ©es du centre de la gaussienne dans lâespace des entrĂ©es,et le paramĂštre wn+1 est son Ă©cart-type. La figure 1-51 reprĂ©sente une RBF gaussienne isotrope, centrĂ©e Ă lâorigine, dâĂ©cart-type Ă©gal Ă 1/ .
RemarqueLes fonctions radiales de basetirent leur nom de ce quâellesforment, si elles sont convenable-ment choisies, une base de fonc-tions. Dans la pratique desrĂ©seaux de neurones, les RBF nesont jamais choisies de façon Ă former une base ; nous utiliseronsdonc simplement les termes de« fonction radiale » (nĂ©anmoins,nous suivrons lâusage enemployant lâabrĂ©viation RBF).
Figure 1-51. RBF gaussienne isotrope y = exp [ â (x1
2 + x22)] :
w0 = w1 = 0, w3 = 1/
Lâalgorithme de Ho et KashyapLâalgorithme de Ho et Kashyap permet de dĂ©terminer, en un nombre fini dâitĂ©rations, si deux ensemblesdâexemples sont linĂ©airement sĂ©parables ; dans lâaffirmative, cet algorithme fournit une solution (parmiune infinitĂ© de solutions possibles). Contrairement Ă certains algorithmes dĂ©veloppĂ©s dans le chapitre 6, ilne fournit pas une solution optimisĂ©e. Son intĂ©rĂȘt essentiel est donc de dĂ©terminer si deux classes sontlinĂ©airement sĂ©parables, ou si elles ne le sont pas ; dans lâaffirmative, on utilisera, pour trouver une bonnesolution, un des algorithmes prĂ©sentĂ©s dans le chapitre 6.
ConsidĂ©rons deux ensembles dâexemples, appartenant Ă deux classes A et B, en nombre na et nb ; si lesexemples sont dĂ©crits par n descripteurs, chacun dâeux peut ĂȘtre reprĂ©sentĂ© par un vecteur dans un espacede dimension n. On dĂ©signe par xk
a le vecteur représentatif du k-iÚme exemple de la classe a (k = 1 à na),et par w le vecteur des paramÚtres du séparateur linéaire ; si un tel séparateur existe, il doit obéir auxconditions :
xka w > 0 pour tout k,
xkb w < 0 pour tout k.
Soit M la matrice dont les lignes sont les vecteurs représentatifs des exemples de A et les opposés desvecteurs représentatifs des vecteurs de B :
(oĂč lâexposant T dĂ©signe la transposition). Alors un sĂ©parateur linĂ©aire existe si et seulement si il existe unvecteur w tel queM w > 0
y = exp â
xi â wi2â
i = 1
n
2 wn + 12
.
2
-2-1
01
2
-2
-1
0
1
20
0.2
0.4
0.6
0.8
1
2
M = x1a, x2
a, ..., xna
a , â x1b, â x2
b, ..., â xnb
b T
Les réseaux de neurones62
soit encore sâil existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, oĂč M*est la matrice pseudo-inverse de la matrice M : M* = MT (M MT)â 1, qui peutĂȘtre calculĂ©e par la mĂ©thode de Choleski [PRESS 1992].
Lâalgorithme de Ho et Kashyap est le suivant :
Cet algorithme converge en un nombre fini dâitĂ©rations.
BibliographieANTONIADIS A., BERRUYER J., CARMONA R. [1992], Régression non linéaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEETransactions on Information Theory, 39, p. 930-945.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,Complex Systems, 2, p. 321-355.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network designand performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-mation and Computer Sciences, 38, p. 586-594.
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers andthe Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school, p. 159-172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;American Chemical Society.
Initialisation (itĂ©ration 0) : w(0) = M* y(0) oĂč y(0) est un vecteur positif quelconque
Itération i
α(i) = M* w(i) â y(i)y(i+1) = y(i) + Ï M* (α(i)+|α(i)|) oĂč Ï est un scalaire positif infĂ©rieur Ă 1w(i+1) = w(i) + Ï (α(i)+|α(i)|)Si α(i) = α(i+1) et y(i) < 0 alors les exemples ne sont pas linĂ©airement sĂ©parables.Si α(i) = α(i+1) et y(i) > 0 alors les exemples sont linĂ©airement sĂ©parables et w(i) est une solution.
Les réseaux de neurones : pourquoi et pour quoi faire ?
CHAPITRE 163
HO E., KASHYAP R.L. [1965], An algorithm for linear inequalities and its applications, IEEE Transactionson Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and frrdbackneural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal approxi-mators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping andits derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicatesystems, Journal of the American Ceramics Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure forbuilding and training a neural network, Neurocomputing : algorithms, architectures and applications, p.41-50, Springer.
KNERR S. [1991], Un méthode nouvelle de création automatique de réseaux de neurones pour la clas-sification de données : application à la reconnaissance de chiffres manuscrits, ThÚse de Doctorat del'Université Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks withSingle-layer Training, IEEE Transactions on Neural Networks, 3, p. 962-968.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
McCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletinof Mathematical Biophysics, 5, p. 115-133.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unifiedframework for gradient algorithms used for filter adaptation and neural network training, InternationalJournal of Circuit Theory and Applications, 20, p. 159-200.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Sélection de modÚles non linéaires par leave-one-out ; étude théorique et applicationdes réseaux de neurones au procédé de soudage par points, ThÚse de Doctorat de l'Université Pierre etMarie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, NeuralComputation, 1, p. 281-294.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks andnon-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
OUKHELLOU L., AKNIN P. [1997], Modified Fourier Descriptors : A new parametrization of eddy currentsignatures applied to the rail defect classification, III International workshop on advances in signalprocessing for non destructive evaluation of materials.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-tion: application to the classification of non destructive testing signatures, European SIgnal ProcessingCOnference (EUSIPCO'98).
Les réseaux de neurones64
OUSSAR Y. [1998], RĂ©seaux dâondelettes et rĂ©seaux de neurones pour la modĂ©lisation statique et dyna-mique de processus, ThĂšse de Doctorat de l'UniversitĂ© Pierre et Marie Curie, Paris. Disponible sur le sitehttp://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, NeuralNetworks, vol. 14, p. 1161-1172.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application ofknowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-tific.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms forapproximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : theart of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from dryingexperiments. AIChE Journal, 43, p. 1925-1934.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and intel-ligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles, p. 137-142
RIVALS I. [1995], ModĂ©lisation et commande de processus par rĂ©seaux de neurones : application au pilo-tage dâun vĂ©hicule autonome, ThĂšse de Doctorat de lâUniversitĂ© Pierre et Marie Curie, Paris â Disponiblesur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], ModĂ©lisation dâun processus dynamique Ă lâaidede rĂ©seaux de neurones bouclĂ©s. Application Ă la modĂ©lisation de la relation pluie-hauteur dâeau dans unrĂ©seau dâassainissement et Ă la dĂ©tection de dĂ©faillances de capteurs, Innovative technologies in urbandrainage, 1, 919-926, G.R.A.I.E.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and MathematicalStatistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
STOPPIGLIA H. [1997], MĂ©thodes statistiques de sĂ©lection de modĂšles neuronaux ; applications finan-ciĂšres et bancaires, ThĂšse de Doctorat de lâUniversitĂ© Pierre et Marie Curie, Paris. Disponible sur le sitehttp://www.neurones.espci.fr.
STRICKER M. [2000], Réseaux de neurones pour le traitement automatique du langage : conception etréalisation de filtres d'informations, ThÚse de Doctorat de l'Université Pierre et Marie Curie, Paris. Dispo-nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networkswith few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using learning-based filters to detect rule-based filteringobsolescence, ConfĂ©rence sur la Recherche dâInformation AssistĂ©e par Ordinateur, RIAO'2000, Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.