Réseaux de neuronespageperso.lif.univ-mrs.fr/~liva.ralaivola/teachings20062005/mlsi/... ·...

Réseaux de neuronesLiva Ralaivola

liva@lif.univ-mrs.fr

Laboratoire d’Informatique Fondamentale de Marseille

UMR 6166 CNRS – Université de Provence

http://www.lif.univ-mrs.fr

Réseaux de neurones – p.1

Contexte

Classification supervisée (pattern recognition)S = {(x1, y1), . . . , (x`, y`)} ensemble d’apprentissageX = R

d, Y = {0, 1}m

xi de classe c⇔ yi =

‘1’ en ceme position

Utilisationtemps d’apprentissage long autoriséet/ou apprentissage en ligne requisnombre de données assez grandinterprétabilité du modèle non nécessairepossible bruit sur les données Réseaux de neurones – p.2

HistoriquePerceptron linéairePerceptron multi-couches

Historique (1/2)

Motivations biologiquessystèmes apprenants composés de réseaux connectés deplusieurs unitéscapacités de mémoire/adaptabilité de ces systèmes

Historique (2/2)

Caractéristiques réseau de neurones biologiquenombre de neurones dans le cerveau : 1011 neurones chacunétant connecté à 104 autres neuronestemps de transmission de l’information entre deux neuronesdu cerveau : 10−3

mais temps d’activation du réseau très rapide : 10−1 secondespour la reconnaissance d’un procheconnexions en boucles

Caractéristiques réseau de neurones artificielsnombre de neurones : de l’ordre de quelques centaines aumaximum avec quelques dizaines de connexionstemps de transmission de l’information entre deux neurones :10−10 secondesdifficulté d’apprentissage avec des connexions en boucle

Perceptron linéaire (1/4)

Séparateur linéaire

biais : activation = 1

σ(∑

i=1 wixi + w0)x1

Classification de x effectuée en fonction de l’hyperplan

w · x̃ = 0 où w =

et x̃ =

Algorithme d’apprentissage IClassification binaire yi ∈ {−1, +1}Initialisation w = 0

Répéter jusqu’à convergence ou bien atteinte d’un nombremax d’itérations

pour tous les exemples (xp, yp) faire– si σ(w · x̃p) = yp

ne rien faire– sinon

w← w + ypx̃p

Algorithme d’apprentissage II (descente de gradient)Initialiser w aléatoirementRépéter jusqu’à convergence ou atteinte d’un nombre maxd’itérations

Initialiser ∆wi à 0Pour tous les exemples (xp, yp)

calculer la sortie s = w · x̃p

pour chaque composante wi

∆wi ← ∆wi + η(yp − s)xpi

pour chaque composante wi faire

wi ← wi + ∆wi

Propriétés du perceptron linéaireconvergence de l’algorithme du perceptron garantie siséparabilité des exemples possibleséparation impossible du XOR

Extensionsperceptron multi-coucheskernel adatron [Friess et al., 1998]voted perceptron [Freund and Schapire, 1999]

Perceptron multi-couches(1/9)

Neurone formel

wjisi, ai

σ(x) = 11+exp(−x)

σ(x) = tanh(x)

wkj sk, ak

sj =∑

i wjiai

aj = σ(sj)

Perceptron multi-couches

biais : activation = 1

i kj = y

Fonction implémentée : f : Rd → R

Erreur quadratique, en posant op = f(xp)

E(w) =∑̀

Ep(w) avec Ep(w) =1

2‖op−yp‖

(opq−ypq)2

autres fonctions possibles (e.g. cross-entropy)Descente de gradient

wt+1 = wt − η∇wE(w), η > 0

Descente de gradient stochastique, à la présentation del’exemple (xp,yp)

wt+1 = wt − ηt∇wEp(w), η > 0Réseaux de neurones – p.11

η, ηt : pas d’apprentissage, pas d’apprentissage adaptatifPropriétés de ηt pour descente de gradient stochastique

ηt →∞,∑

ηt <∞

ExercicesMontrer que pour η assez petit la descente de gradient permetde diminuer à chaque étape l’erreur E

De quelle forme peut être ηt ?

Rétropropagation du gradient (jneurone caché, k neurone de sor-tie), activation logistique i j k

wjisi, aiwkj sk, ak

sj =∑

i wjiai

aj = σ(sj)

dérivation en chaîne : ∂Ep

∂wji=

∂sjai = δjai

Montrer que pour k et tous les neurones de la couche de sortie

δk =∂Ep

= −(ypk − ak)ak(1− ak)

Montrer que pour j et tous les neurones de la couche cachée

δj = aj(1− aj)∑

k∈Succ(j)

δkwkj

Algo. apprentissage : 1 couche cachée, σ(x) = (1 + e−x)−1

Répéter jusqu’à convergencepour chaque exemple (xp,yp) faire– propager l’information– pour chaque neurone de sortie k calculer

δk ← ak(1− ak)(ypk − ak)

– pour chaque neurone caché j calculerδj ← aj(1− aj)

k∈Succ(j) δkwkj

– calculer le pas ∆wtij par

∆wtij = −ηδjai

– mettre à jour les wji avecwji ← wji + ∆wt

– passer à l’itération suivantet← t + 1

Ajout d’un moment : mise à jour selon wji ← wji + ∆wtij avec

∆twij ← −ηδjai + α∆t−1ij wij , 0 ≤ α < 1

accélère la convergence de l’algorithmen’a pas d’effet sur la généralisation

Couches cachéesrétropropagation du gradient marche pour n’importe quelnombre de couches cachéescouche cachée : changement de représentation (cf exercices)

Perceptron mutli-couches(7/9)

Exemple d’autres fonctions d’erreursErreur quadratique pénalisée (weight decay)

E(w) =∑̀

Ep + γ∑

w2ij , γ > 0

pénalise les réseaux avec des poids importantsexercice : ré-écrire l’équation de mise à jour de wij

correspondanteEntropy croisée (cross-entropy), cas binaire yp ∈ {0, 1}, 1neurone de sortie

E(w) = −∑̀

(yp log(op) + (1− yp) log(1− op)) , op = f(xp)

Capacités de modélisation des perceptrons multi-couches[Cybenko, 1988, Cybenko, 1989]

toute fonction continue bornée peut être approchée avec uneerreur arbitrairement petite par un PMC à une couche cachéetoute fonction peut être approchée avec une erreurarbitrairement petite par un PMC à deux couches cachées

Importance de la régularisation [Bartlett, 1997]contrôle de la taille des poids pour la généralisation

Notions non présentéespartage de poidssélection automatique de la structure

par ajout de neuronespar suppression de connexions

gradient conjuguégradient exponentiel. . .

Réseaux récurrentsRéseaux RBF

Conclusion

Perceptron linéairealgorithmes d’apprentissagelimitation du perceptron linéaire

Perceptron multi-couchesneurone formel avec activation sigmoidalecalcul de gradient par rétropropagation

qualité de l’apprentissage malgré les minima locauxgradient stochastiquechoix de l’architecturerégularisation

Références[Bartlett, 1997] Bartlett, P. L. (1997). For valid generalization the size of the weights

is more important than the size of the network. In Adv. in Neural Information Pro-cessing Systems, volume 9, page 134.

[Cybenko, 1988] Cybenko, G. (1988). Continuous valued neural networks with twohidden layers are sufficient. Technical report, Department of Computer Science,Tufts University, Medford, MA.

[Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidalfunction. Mathematics of Control, Signals, and Systems, 2 :303–314.

[Freund and Schapire, 1999] Freund, Y. and Schapire, R. E. (1999). Large MarginClassification Using the Perceptron Algorithm. Machine Learning, 37(3) :277–296.

[Friess et al., 1998] Friess, T., Cristianini, N., and Campbell, N. (1998). The Kernel-Adatron Algorithm : a Fast and Simple Learning Procedure for Support Vector Ma-chines. In Shavlik, J., editor, Machine Learning : Proc. of the 15th Int. Conf. MorganKaufmann Publishers.

Réseaux de neuronespageperso.lif.univ-mrs.fr/~liva.ralaivola/teachings20062005/mlsi/... ·...

Documents

Activitesf2 - irem.univ-mrs.fr

Simplification des formulespageperso.lif.univ-mrs.fr/~arnaud.labourel/FI/cours6.pdfIConstante 1 = mon^ome sans facteur premier Arnaud Labourel, arnaud.labourel@lif.univ-mrs.fr Simpli

Statistics for Bioinformatics - pedagogix-tagc.univ-mrs.fr

les Réseaux Les Réseaux Informatiqueschristian.caleca.free.fr/pdf/Les Reseaux.pdf · Les Réseaux Les réseaux informatiques Avant propos

Foreword by B LA ST - pedagogix-tagc.univ-mrs.fr

repository.unika.ac.idrepository.unika.ac.id/17676/2/08.93.0020 Achmad Adhipatria BAB 1.… · Nasional tahun 2004 - 2009 ditetapkan bahwa salah satu mlSi dari . pernbangunan nasional

La révolution verte - pedagogix-tagc.univ-mrs.fr

Réseaux Sans Fil Réseaux Cellulaires Réseaux Satellites

welcome [csl16.lif.univ-mrs.fr]csl16.lif.univ-mrs.fr/static/csl2016-welcome-booklet.pdf · Amphithéâtre Sciences Naturelles (PLRR) and Amphithéâtre Chimie (LCC): see map on page

B.G. Sidharth - ffp14.cpt.univ-mrs.fr

Réseaux : TD n 1 - pageperso.lif.univ-mrs.frpageperso.lif.univ-mrs.fr/~emmanuel.godard/ens/reseaux/TD01_phy... · Réseaux : TD n 1 OSI, Couche Physique, Couche Liaison 2018/19 A

PEMBANGUNAN MODEL LATIHAN SPIRITUAL ISLAM (MLSI) …umpir.ump.edu.my/id/eprint/26614/1/Pembangunan... · pemupukan kualiti personal diri seseorang pelajar universiti. Justeru, objektif

Maquette Did@VDI+ > Réseaux > Architecture Réseaux Réseaux

Réseaux : TD n 2pageperso.lif.univ-mrs.fr/~emmanuel.godard/ens/reseaux/TD02_codes… · Réseaux : TD n 2 Liaison de Données 2017/18 A Couches de Questions A.1 Quel est le rôle

Statut Formation - cpt.univ-mrs.fr

M1 Informatique Réseaux - LIS lab rese… · Source : A. Tanenbaum Réseaux 9. Réseaux : Cours 2 RÉSEAUX M1 Informatique 10. Réseaux : Cours 2 RÉSEAUX M1 Informatique 6 Contrôle

LCA D3 TQS NB - cybertim.timone.univ-mrs.fr

Le Criblage Virtuel - lism.cnrs-mrs.fr · Institut de Biologie Structurale et Microbiologie Laboratoire IMR (*) morelli@ibsm.cnrs-mrs.fr Le Criblage Virtuel “Une Accélération

EAU - biologie.univ-mrs.fr

Complexité des algorithmes - dil.univ-mrs.fr