Algorithmes d'optimisation
7 avril 2020
Table des matiĂšres
Table des matiĂšres 1
1 Existence, unicité, convexité 51.1 Existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Condition nécessaire d'optimalité . . . . . . . . . . . . . . . . . . . . 71.3 Convexité et condition susante d'optimalité . . . . . . . . . . . . . 71.4 Stricte convexité et unicité du minimiseur . . . . . . . . . . . . . . . 91.5 Convexité et hessienne . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Descente de gradient Ă pas optimal 112.1 MĂ©thode de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Descente de gradient Ă pas optimal . . . . . . . . . . . . . . . . . . . 12
3 Descente de gradient à pas optimal II 153.1 Forte convexité et stabilité du minimum . . . . . . . . . . . . . . . . 153.2 Vitesse de convergence du gradient à pas optimal . . . . . . . . . . . 173.3 Une condition susante pour la forte convexité . . . . . . . . . . . . 18
4 Descente de gradient prĂ©conditionnĂ© Ă rebroussement 194.1 Choix du pas par rebroussement . . . . . . . . . . . . . . . . . . . . 194.2 Convergence de l'algorithme de descente de gradient prĂ©conditionnĂ© Ă
rebroussement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 MĂ©thode de Newton 235.1 MĂ©thode de Newton pure . . . . . . . . . . . . . . . . . . . . . . . . 235.2 MĂ©thode de Newton amortie . . . . . . . . . . . . . . . . . . . . . . . 26
1
TABLE DES MATIĂRES 2
6 Projection et gradient projeté 296.1 Projection sur un convexe fermé . . . . . . . . . . . . . . . . . . . . . 306.2 Condition d'optimalité pour l'optimisation sous contraintes . . . . . 32
7 Optimisation avec contraintes d'inégalités 367.1 Méthode de pénalisation . . . . . . . . . . . . . . . . . . . . . . . . . 377.2 ThéorÚme de Karush-Kush-Tucker . . . . . . . . . . . . . . . . . . . 39
8 Dualité lagrangienne 438.1 ProblÚme dual et dualité faible . . . . . . . . . . . . . . . . . . . . . 448.2 Dualité forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468.3 Algorithme d'Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Introduction
Motivation Dans de nombreuses applications, la formulation naturelle du pro-blÚme qu'on cherche à résoudre est un problÚme d'optimisation : Dans la méthode des moindres carrés, on remplace un systÚme linéaire Ax = b
surdéterminé et/ou n'ayant pas de solution (par exemple car certaines deségalités se contredisent) par le problÚme d'optimisation suivant :
minxâRN
âAxâ bâ2 . (1)
Le minimiseur xâ de ce problĂšme vĂ©rie au mieux la famille d'Ă©quation Ax =b. Au contraire, lorsqu'un systĂšme linĂ©aire Ax = b admet plusieurs solutions,on peut en sĂ©lectionner une en considĂ©rant le problĂšme
minxâKâxâ2 K = x â RN | Ax = b (2)
Si x â RN reprĂ©sente un signal 1D Ă©chantillonĂ© avec du bruit (xi reprĂ©sentantpar exemple la mesure eectuĂ©e en un temps ti), on peut dĂ©bruiter le signal enconsidĂ©rant le problĂšme d'optimisation suivant, oĂč λ > 0 est un paramĂštre :
minxâRN
âxâ xâ2 + λâ
1â€iâ€Nâ1
|xi+1 â xi|2 (3)
un compromis entre deux comportements : xâ doit ĂȘtre proche de x (c'est le rĂŽledu premier terme âxâ xâ2 de la fonction optimisĂ©e) mais doit Ă©galement ĂȘtrerĂ©gulier, au sens oĂč deux valeurs successives xi et xi+1 doivent ĂȘtre proches(second terme
âi |xi+1 â xi|2).
En nance, on peut considĂ©rer le problĂšme de l'optimisation de portefeuille.Ătant donnĂ©s N actifs, il s'agit de dĂ©terminer le pourcentage xi â„ 0 du por-tefeuille que l'on investit dans l'actif i. Comme on souhaite investir 100%du portefeuille, ce problĂšme d'optimisation est accompagnĂ© d'une contrainteâ
1â€iâ€N xi = 1. On pourra donc considĂ©rer des problĂšmes d'optimisation aveccontraintes de la forme
minxââ
f(x) oĂč â = x â RN | âi, xi â„ 0 etâi
xi = 1. (4)
La fonction f est typiquement de la forme f(x) = 1Δ |ăc|xă â r|
2 + ăx|Qxă :c â RN reprĂ©sente le rendement des actifs et le premier terme cherche Ă xer
3
TABLE DES MATIĂRES 4
le niveau de rendement ăc|xă =â
i cixi Ă r. Le second terme de la fonctionăx|Qxă est une mesure de risque : Q est une matrice symĂ©trique mesurantles corrĂ©lations entre actifs, et on cherche un investissement minimisant cettecorrĂ©lation.
En apprentissage automatique (machine learning), de nombreux problĂšmespeuvent ĂȘtre formulĂ©s comme des problĂšmes d'optimisation. Nous verrons parexemple des problĂšmes de classication, que l'on rĂ©soudra par rĂ©gression logis-tique ou par machine Ă vecteurs support (support vector machine).
Pour plus d'exemple, on renvoie au livre de Boyd et Vanderberghe, qui est disponiblegratuitement (en anglais) en ligne : http://web.stanford.edu/~boyd/cvxbook/.
ProblĂšmes avec/sans contrainte On peut sĂ©parer les problĂšmes en deux grandesclasses. Il y a d'une part les problĂšmes d'optimisation sans contraintes, oĂč l'on chercheĂ minimiser une fonctionnelle sur Rd ou sur son domaine de dĂ©nition ouvert (lesproblĂšmes (1), (3) et la rĂ©gression logistique sont de ce type). D'autre part, lesproblĂšmes d'optimisation avec contraintes, oĂč l'on cherche Ă minimiser sur l'ensembledes points de RN vĂ©riant un certain nombre de contraintes d'Ă©galitĂ© ou d'inĂ©galitĂ©(les problĂšmes (2), (4) et les machines Ă vecteurs support sont de ce type).
ConvexitĂ© Tout les algorithmes et exemples prĂ©sentĂ©s dans ce cours relĂšvent del'optimisation convexe, oĂč aussi bien la fonction optimisĂ©e que le domaine d'optimi-sation sont supposĂ©s convexes. La raison fondamentale pour laquelle on se restreintĂ ce cas est que pour les problĂšmes d'optimisation convexe, un minimiseur local estautomatiquement minimiseur global.
Chapitre 1
Existence, unicité, convexité
Contents
1.1 Existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Condition nécessaire d'optimalité . . . . . . . . . . . . . . . . . . 7
1.3 Convexité et condition susante d'optimalité . . . . . . . . . . . . 7
1.4 Stricte convexité et unicité du minimiseur . . . . . . . . . . . . . . 9
1.5 Convexité et hessienne . . . . . . . . . . . . . . . . . . . . . . . . 9
Dans cette premiĂšre partie, on s'intĂ©resse Ă un problĂšme de minimisation d'unefonction f â C1(Rd) :
infxâRd
f(x) (P)
DĂ©nition 1. On appelle :(i) inmum ou valeur du problĂšme de (P) la valeur infRd f .(ii) minimiseur global (ou simplement minimiseur) de (P) tout Ă©lĂ©ment xâ â
Rd vĂ©riant f(xâ) = infRd f . On note arg minRd f l'ensemble des minimi-seurs de f (qui peut ĂȘtre vide), i.e.
arg minRd
f = x â Rd | f(x) = infRdf.
(iii) On appelle suite minimisante pour (P) toute suite x(0), . . . , x(k), . . . d'Ă©lĂ©-ments de Rd telle que limkâ+â f(x(k)) = infxâRd f(x).
Remarque 1. Il est possible que le problĂšme (P) n'admette pas de minimiseur : penserpar exemple Ă f(x) = exp(x) sur R.
Lemme 1. Il existe une suite minimisante pour le problĂšme (P).
DĂ©monstration. Par dĂ©nition de l'inmum, pour tout k > 0, il existe un Ă©lĂ©mentx(k) â Rd tel que infRd f †f(x(k)) †infRd f+ 1
k , soit limkâ+â f(x(k)) = infRd f .
5
CHAPITRE 1. EXISTENCE, UNICITĂ, CONVEXITĂ 6
1.1 Existence
Proposition 2. Soit f â C0(Rd). On suppose de plus qu'il existe x0 â Rd telque le sous-niveau S = x â Rd | f(x) †f(x0) est compact. Alors le problĂšmed'optimisation (P) admet un minimiseur global.
DĂ©monstration. Si f(x0) = infRd f on a dĂ©jĂ l'existence d'un minimum, Ă savoir lepoint x0 lui-mĂȘme. On suppose donc maintenant que f(x0) > infRd f . Soit (x(k))kâ„0
une suite minimisante, qui vĂ©rie donc limkâ+â f(x(k)) = infRd f < f(x0). Alors,pour k susamment grand, on a f(x(k)) †f(x0), soit x(k) â S. Comme l'ensemble Sest compact, on peut extraire une sous-suite (x(Ï(k)))kâ„0 qui converge vers un pointxâ â S. Alors, par continuitĂ© de f et par dĂ©nition d'une suite minimisante on af(xâ) = limkâ+â f(x(Ï(k))) = infRd f, et x
â minimise donc f sur Rd.
Corollaire 3. Soit f â C0(Rd) vĂ©riant
limâxââ+â
f(x) = +â,
c'est-Ă -dire que
âL â R,âR â„ 0 t.q. âxâ â„ R =â f(x) â„ L.
Alors (P) admet un minimiseur global.
DĂ©monstration. Soit x0 â Rd quelconque et S = x â Rd | f(x) †f(x0). Pour mon-trer l'existence d'un minimiseur, il sut de dĂ©montrer que S est compact. L'ensembleS est fermĂ© comme sous-niveau d'une fonction continue. Supposons S non bornĂ© :pour tout k, il existe alors x(k) â S tel que
â„â„x(k)â„â„ â„ qk. Ainsi, limkâ+â x
(k) = +âet f(x(k)) †f(x0), contredisant l'hypothĂšse.
Corollaire 4. Soit f â C0(Rd) et vĂ©riant la propriĂ©tĂ© suivante :
âx â Rd, f(x) â„ C âxâp +D,
oĂč C > 0, D â R et p > 0. Alors le problĂšme (P) admet un minimiseur.
DĂ©monstration. Soit x0 â Rd quelconque et S = x â Rd | f(x) †f(x0). Pourpouvoir appliquer le thĂ©orĂšme prĂ©cĂ©dent, il sut de dĂ©montrer que S est compact.Comme on sait dĂ©jĂ que S est fermĂ© comme sous-niveau d'une fonction continue, ilsut de dĂ©montrer que cet ensemble est bornĂ©. Or, pour tout x â S, on a
C âxâp +D †f(x) †f(x(0))
soit âxâp †E :=âŁâŁf(x(0))âD
âŁâŁ /C. Ainsi, l'ensemble S est contenu dans la boulecentrĂ©e en 0 et de rayon p
âE et est donc bornĂ©.
CHAPITRE 1. EXISTENCE, UNICITĂ, CONVEXITĂ 7
1.2 Condition nécessaire d'optimalité
DĂ©nition 2. Soit f â C1(Rd). On appelle gradient de f en x0 â Rd le vecteurdes dĂ©rivĂ©es partielles, oĂč l'on a notĂ© (ei)1â€iâ€d la base canonique de Rd :
âf(x) =
(âf
âei(x)
)1â€iâ€d
oĂčâf
âei(x) = lim
Δâ0
1
Δ(f(x+ Δei)â f(x)).
Remarque 2 (Calcul du gradient). Soit f â C0(Rd) et x â Rd. On rappelle que si l'onpeut Ă©crire un dĂ©veloppement limitĂ© d'ordre 1 pour f en x, de la forme
f(x+ v) = f(x) + ăg|vă+ o(âvâ), (1.1)
alors f est diĂ©rentiable au point x et âf(x) = g.
Exemple 1. ConsidĂ©rons f(x) = âxâ2 sur Rd. En dĂ©veloppant le carrĂ© de la norme,on obtient f(x + v) = âxâ2 + ă2x|vă + âvâ2, qui est de le forme (1.1) avec g = 2x.On en dĂ©duit que âf(x) = 2x, ce qui est conforme avec le calcul.
ThĂ©orĂšme 5 (Fermat). Soit f â C1(Rd), et xâ un minimiseur de (P). Alorsâf(xâ) = 0.
Remarque 3. La contraposĂ©e est fausse : prendre f(x) = x3 sur Ω = R : le point 0vĂ©rie f âČ(0) = 0 mais n'est pas un minimiseur (mĂȘme local).
DĂ©monstration. Si xâ est un minimiseur de f sur Ω, on a pout tout Δ â R, f(xâ +Δei) â„ f(xâ). Ainsi,
â0 < Δ †Δ0,f(xâ + Δei)â f(xâ)
Δ℠0.
En passant Ă la limite, on obtient âfâei
(xâ) â„ 0. De mĂȘme, en considĂ©rant le cas Δ < 0
â â Δ0 †Δ < 0,f(xâ + Δei)â f(xâ)
Δ†0,
d'oĂč l'on tire en passant Ă la limite âfâei
(xâ) †0, soit in ne âfâei
(xâ) = 0.
1.3 Convexité et condition susante d'optimalité
DĂ©nition 3. Une fonction f : Rd â R est convexe si
â(x, y) â Rd,ât â [0, 1], f((1â t)x+ ty) †(1â t)f(x) + tf(y).
CHAPITRE 1. EXISTENCE, UNICITĂ, CONVEXITĂ 8
Exercice 1. Soit f : Rd â R une fonction convexe. Montrer que l'ensemble
x â Rd | f(x) †C
est convexe quel que soit C. En déduire que l'ensemble des minimiseurs de (P) estun ensemble convexe fermé (possiblement vide).
Proposition 6. Soit f â C1(Rd). Alors les propositions suivantes sont Ă©quiva-lentes :(i) f est convexe sur Rd,(ii) âx, y â Rd, la fonction g : t â [0, 1] 7â f((1â t)x+ ty) est convexe.(iii) âx, y â Rd, f(y) â„ f(x) + ăy â x|âf(x)ă,(iv) âx, y â Rd, ăâf(x)ââf(y)|xâ yă â„ 0.
Lemme 7. Soit f â C1(Rd). Ătant donnĂ©s x â Ω et v â Rd, on dĂ©nit xt = x + tvet g(t) = f(xt). Alors,
gâČ(t) = ăâf(xt)|vă. (1.2)
DĂ©monstration de la proposition 6. (i)ââ(ii) consĂ©quence directe de la dĂ©nition.
(ii)=â(iii). Soit x, y dans Rd et g : t 7â f(xt) oĂč xt = (1â t)x+ tv = x+ t(y â x),qui est convexe par hypothĂšse. Par convexitĂ©, on a g(t) â„ g(0) + tgâČ(0), soit par lelemme f(x) + ăâf(x)|y â xă+ †f(y).
(iii)=â(iv) Il sut de sommer l'inĂ©galitĂ© (iii) et la mĂȘme inĂ©galitĂ© oĂč l'on a inversĂ©le rĂŽle de x et y.(iv)=â(ii) Soit encore g : t 7â f(xt) oĂč xt = (1 â t)x + tv = x + t(y â x). CommegâČ(t) = ăâf(xt)|y â xă, (lemme 7) l'inĂ©galitĂ© (iv) appliquĂ©e en xs et xt (oĂč t > s)nous donne
gâČ(t)â gâČ(s) = ăâf(xt)ââf(xs)|y â xă =1
tâ săâf(xt)ââf(xs)|xt â xsă â„ 0,
et gâČ est donc croissante sur [0, 1]. Ainsi, g est convexe.
ThĂ©orĂšme 8. Soit Ω â Rd un ouvert convexe et f â C1(Ω) convexe. Alorsxâ â Ω est un minimiseur de (P) si et seulement si âf(xâ) = 0.
DĂ©monstration. Le thĂ©orĂšme de Fermat nous donne dĂ©jĂ le sens direct. Pour la rĂ©ci-proque, il sut de remarquer que si âf(xâ) = 0, la proposition prĂ©cĂ©dente donne
ây â Ω, f(y) â„ f(xâ) + ăy â xâ|âf(xâ)ă = f(xâ),
de sorte que xâ est bien un minimiseur de (P).
CHAPITRE 1. EXISTENCE, UNICITĂ, CONVEXITĂ 9
1.4 Stricte convexité et unicité du minimiseur
DĂ©nition 4. Une fonction f : Rd â R est strictement convexe si
âx 6= y â Rd,ât â]0, 1[, f((1â t)x+ ty) < (1â t)f(x) + tf(y).
Proposition 9. Soit f : Rd â R strictement convexe. Alors f admet au plusun minimiseur sur Rd.
DĂ©monstration. Par l'absurde, supposons que f admette deux minimiseurs distinctsxâ 6= yâ â Rd. Alors, par stricte convexitĂ© de la fonction f on a f(zâ) < 1
2(f(xâ) +f(yâ)) = f(xâ), oĂč zâ = 1
2(xâ+ yâ), contredisant l'hypothĂšse que xâ minimise f .
Remarque 4. Cette proposition ne dit rien de l'existence d'un minimiseur.
1.5 Convexité et hessienne
DĂ©nition 5. Soit f â C2(Ω), oĂč Ω â Rd est un ouvert. On appelle hessiennede f en x0 â Ω la matrice des dĂ©rivĂ©es partielles secondes :
D2f(x) =
(â2f
âeiâej(x)
)1â€i,jâ€d
,
oĂč l'on a notĂ© (ei)1â€iâ€d la base canonique de Rd. et oĂč
DĂ©nition 6. Ă toute matrice symĂ©trique A â Md,d(R) on peut associer unefonction (appelĂ©e forme quadratique) qA : x â Rd 7â ăx|Axă.(i) Une matrice symĂ©trique A est dite positive (ce qu'on note A 0) si et
seulement si la forme quadratique associée qA est positive, i.e.
âx â Rd, ăx|Axă â„ 0.
(ii) Une matrice symétrique est dite dénie positive si
âx â Rd \ 0, ăx|Axă > 0.
(iii) Soient A,B deux matrices symĂ©triques. On note A B si et seulementsi AâB 0, ou de maniĂšre Ă©quivalente si qA â„ qB.
CHAPITRE 1. EXISTENCE, UNICITĂ, CONVEXITĂ 10
Exemple 2. En particulier, on λId A ÎId si et seulement si
âx â Rd, λ âxâ2 †ăx|Axă †Πâxâ2 .
Proposition 10. Soit f â C2(Rd). Si âx â Rd,D2f(x) 0, alors f est convexe.
Lemme 11 (Taylor-Lagrange). Soit f â C2(Rd), x, v â Rd et xt = x+ tv. Alors,
ât â„ 0,âs â [0, t], f(xt) = f(x) + tăâf(x)|vă+t2
2ăD2f(xs)v|vă.
Lemme 12. Soit Ω â Rd ouvert, f â C2(Ω), x â Ω et v â Rd et g : t 7â f(xt) oĂčxt = x+ tv. Alors,
gâČâČ(t) = ăD2f(xt)v|vă. (1.3)
Démonstration. On fait le calcul en coordonnées, en notant (ek)k la base canonique :
g(t) = f(x+âk
tvkek)
gâČ(t) =âi
viâf
âei
(x+
âk
tvkek
)= ăâf(xt)|vă
gâČâČ(t) =âi
âj
vivjâ2f
âejâei
(x+
âk
tvkek
)= ăD2f(xt)v|vă
DĂ©monstration de la proposition 10. ConsidĂ©rons x, y â Ω et g(t) = f(xt) oĂč xt =(1â t)x+ ty. Alors, gâČâČ(t) = ăD2f(xt)(yâx)|yâxă est positif par hypothĂšse, de sorteque par Taylor-Lagrange
g(1) = g(0) + gâČ(0) +s2
2gâČâČ(s) â„ g(0) + gâČ(0),
soit f(y) â„ f(x) + ăâf(x)|y â xă. La proposition 6 montre que f est convexe.
Chapitre 2
Descente de gradient Ă pas optimal
On souhaite rĂ©soudre numĂ©riquement le problĂšme de minimisation d'une fonctionf â C0(Rd). Comme en gĂ©nĂ©ral il n'est pas raisonnable d'espĂ©rer calculer de maniĂšreexacte un minimiseur ou mĂȘme la valeur de l'inmum du problĂšme (P), on chercheraĂ l'approcher. Il s'agira de construire une suite (x(k))kâ„0 de points vĂ©riant une desdeux propriĂ©tĂ©s suivantes :(a) la suite x(k) est minimisante pour (P), i.e. limkâ+â f(x(k)) = infRd f .(b) la suite x(k) converge vers un minimiseur de f sur Rd.
Dans ce chapitre, nous nous intéresserons à la construction de suites x(k) vériant laseconde propriété (qui est bien sûr plus forte que la premiÚre).
2.1 MĂ©thode de descente
Vocabulaire On appelle méthode de descente un procédé algorithmique permet-tant de construire itérativement une suite vériant (a) ou (b). Typiquement, uneméthode de descente prend la forme suivante
d(k) = . . . direction de descente
t(k) = . . . pas de descente
x(k+1) = x(k) + t(k)d(k)
Un tel algorithme est appelĂ© mĂ©thode de descente si f(x(k+1)) †f(x(k)). Dans cecours, on considĂšrera les possibilitĂ©s suivantes :(a) La direction de descente peut ĂȘtre Ă©gale Ă l'opposĂ© du gradient, d(k) = ââf(x(k)),
auquel cas on parle de mĂ©thode de descente de gradient. Lorsque f est C2, ilpeut ĂȘtre plus avantageux de choisir d(k) = âD2f(x(k))â1âf(x(k)), auquel cason parle de mĂ©thode de Newton.
(b) Le pas de descente peut ĂȘtre choisi constant (t(k) = Ï), optimal (cf (2.1)), ouobtenu par des constructions un peu plus complexes, permettant de garantirla convergence de la mĂ©thode.
DĂ©nition 7. Soit f â C0(Rd). On appelle direction de descente en x â Rd toutvecteur v tel que âÏ > 0, ât â [0, Ï ], f(x+ tv) < f(x).
11
CHAPITRE 2. DESCENTE DE GRADIENT Ă PAS OPTIMAL 12
Exercice 2. Si f â C1(Rd) et ăv|âf(x)ă < 0, alors v est une direction de descente.
Si f est diĂ©rentiable en x, on a f(x+ tv) = f(x)+ tăâf(x)|vă+o(t). On cherchenaturellement une direction de descente rendant le produit scalaire ăâf(x)|vă le pluspetit possible, menant au choix de d(k) = ââf(x(k)) :
Lemme 13. Soit f â C1(Rd) et x0 â Rd. Alors, minâvâ=1 dx0f(v) = âââf(x0)â etsi âf(x0) 6= 0, l'unique minimiseur est v = ââf(x0)/ ââf(x0)â.
DĂ©monstration. On a dx0f(v) = ăâf(x0)|vă â„ âââf(x0)â âvâ par Cauchy-Schwarz,avec Ă©galitĂ© si et seulement si v est positivement homogĂšne Ă ââf(x0). Commeâvâ = 1, on a v = ââf(x0)/ ââf(x0)â.
2.2 Descente de gradient Ă pas optimal
DĂ©nition 8. Soit f â C1(Rd). L'algorithme de descente de gradient Ă pasoptimal est donnĂ© par :
d(k) = ââf(x(k))
t(k) â arg mint f(x(k) + td(k))
x(k+1) = x(k) + t(k)d(k)
(2.1)
Remarque 5. Par construction, les itérées vérient
f(x(k+1)) †f(x(k))
ăâf(x(k+1))|âf(x(k))ă = 0.
Pour la deuxiÚme égalité, il sut de remarquer que si l'on pose g(t) = f(x(k) +td(k)),alors par dénition de t(k),
gâČ(t(k)) = 0 = ăâf(x(k) + t(k)d(k))|d(k)ă = ăâf(x(k+1))|âf(x(k))ă.
Remarque 6. Pour pouvoir mettre en ÷uvre cet algorithme il faut pouvoir calculerle pas optimal t(k) à chaque itération, ce qui implique de résoudre un problÚmed'optimisation (sur R). Ceci n'est faisable de maniÚre exacte que dans un nombretrÚs limité de cas. En général, on préfÚrera d'autre méthode de calcul du pas.
Exemple 3. Soit f : x â Rd 7â 12ăQx|xă + ăb|xă oĂč Q est une matrice symĂ©trique
dĂ©nie positive. Alors f est strictement convexe et âf(x) = Qx+ b. Soit x(k) â Rd,d(k) = ââf(x(k)). Pour calculer le pas t(k) â R, on cherche le minimum de g :t â R 7â f(xt) oĂč xt = x(k) + td(k). La fonction g est convexe et atteint donc sonminimum en l'unique point t(k) vĂ©riant gâČ(t(k)) = 0. Or, gâČ(t) = ăâf(xt)|d(k)ă, soit
gâČ(t(k)) = 0ââ ăQ(x(k) + t(k)d(k)) + b|d(k)ă = 0
ââ t(k)ăQd(k)|d(k)ă â ăd(k)|d(k)ă = 0.
CHAPITRE 2. DESCENTE DE GRADIENT Ă PAS OPTIMAL 13
Ainsi, t(k) = ăd(k)|d(k)ă/ăQd(k)|d(k)ă. En rĂ©sumĂ©, dans le cas d'une fonction f de laforme considĂ©rĂ©e, l'algorithme de descente de gradient Ă pas optimal s'Ă©crit
d(k) = â(Qx(k) + b)
t(k) = ăd(k)|d(k)ăăQd(k)|d(k)ă
x(k+1) = x(k) + t(k)d(k).
(2.2)
On suppose dans la suite que l'ensemble
S = x â Rd | f(x) †f(x(0)) est compact, (2.3)
ce qui garantit (proposition 2) l'existence d'un minimiseur de f sur Ω.
Lemme 14. Sous l'hypothÚse (2.3), le minimum dans la dénition du pas est atteint.
DĂ©monstration. Il s'agit de dĂ©montrer que la fonction g : t 7â f(x(k) + td(k)) atteintson minimum. On suppose que d(k) est non nul : sinon g est constante et atteintĂ©videmment son minimum. GrĂące Ă la proposition 2, il sut de montrer que lesous-niveau Sg := t â R | g(t) †f(x(k)) est compact. Ce sous-niveau est fermĂ©comme image inverse du fermĂ© ]ââ, f(x(k))] par la fonction continue g. Montronsmaintenant que Sg est bornĂ©. Pour cela, nous utilisons l'hypothĂšse que S est compactdonc bornĂ© : âR â„ 0,âx â S, âxâ †R. Si t â Sg, alors x(k) + td(k) â S, de sorte queâ„â„â„x(k) + td(k)
â„â„℠†Rsoit
|t| â€R+
â„â„x(k)â„â„
d(k).
Ainsi Sg est compact et par la proposition 2, g atteint son minimum sur R.
ThĂ©orĂšme 15. Soit f â C2(Rd) vĂ©riant(i) le sous-niveau S = x â Rd | f(x) †f(x(0)) est compact.(ii) âM > 0, âx â S, D2f(x) M Id,(iii) f est strictement convexe,Alors les itĂ©rĂ©es de l'algorithme (2.1) convergent vers l'unique minimiseur globalde f sur Ω.
On utilisera la proposition suivante :
Proposition 16. Soit (xk)kâ„1 une suite bornĂ©e de Rd admettant une unique valeurd'adhĂ©rence x. 1 Alors, limkâ+â xk = x.
1. On rappelle que x est valeur d'adhĂ©rence de la suite (xk)kâ„1 si et seulement si il existe une
suite extraite (xÏ(k))kâ„1 dont la limite est x
CHAPITRE 2. DESCENTE DE GRADIENT Ă PAS OPTIMAL 14
DĂ©monstration du thĂ©orĂšme 15. Soit k â„ 1 et g(t) = f(x(k) + td(k)) = f(x(k) âtâf(x(k))). Par dĂ©nition du pas optimal t(k) on a
f(x(k+1)) = mintf(x(k) + td(k)) = min
tg(t),
et nous allons utiliser un développement de Taylor pour estimer le minimum de g.Par le lemme 12, et en posant xt = x(k) + td(k) on a
gâČ(t) = ăâf(xt)|d(k)ă, gâČâČ(t) = ăD2f(xt)d(k)|d(k)ă.
Soit Ï = t â R | xt â S et t â Ï. Par Taylor-Lagrange, pour tout t â Ï, il existes â [0, t] tel que g(t) = g(0) + tgâČ(0) + t2
2 gâČâČ(s). Ainsi,
g(t) = g(0) + tgâČ(0) +t2
2gâČâČ(s)
= f(x(k))â tâ„â„â„âf(x(k))
â„â„â„2+t2
2ăD2f(xs)âf(x(k))|âf(x(k))ă
Comme s â [0, t], alors s = Îłt avec Îł â [0, 1] de sorte que f(xs) = f((1âÎł)x0+Îłxt) â€f(x(0)). Ainsi, xs â S. Par hypothĂšse, on a donc D2f(xs) †M id, ce qui donne enutilisant (ii)
g(t) †f(x(k)) +
(M
2t2 â t
)â„â„â„âf(x(k))â„â„â„2
Le minimum de ce second membre est atteint en t = 1/M et on a donc
f(x(k+1)) †mintg(t) †f(x(k))â 1
2M
â„â„â„âf(x(k))â„â„â„2,
de sorte que â„â„â„âf(x(k))â„â„â„2†2M(f(x(k))â f(x(k+1))). (2.4)
Ainsi, pour tout K â„ 0 on aâ0â€kâ€K
â„â„â„âf(x(k))â„â„â„2†2M(f(x(0))â f(x(K))) †2M(f(x(0))â inf
Rdf).
La sĂ©rie de terme gĂ©nĂ©ralâ„â„âf(x(k))
â„â„2est donc convergente, d'oĂč l'on dĂ©duit que
limkâ+ââ„â„âf(x(k))
â„â„ = 0.Montrons enn que limkâ+â x
(k) = xâ, oĂč xâ est l'unique minimum de f surRd, l'unicitĂ© provenant de la stricte convexitĂ© de f et de la proposition 9. Commef(x(k)) †f(x(0)), le point x(k) appartient Ă S, qui est par hypothĂšse compact doncbornĂ©. Pour montrer que la suite x(k) converge vers xâ, il sut par la proposition 16de dĂ©montrer qu'elle admet xâ pour seule valeur d'adhĂ©rence. Soit donc (x(Ï(k))) unesous-suite convergeant vers une valeur d'adhĂ©rence x â S. Alors, comme f â C1(Rd),âf(x) = limkâ+ââf(x(Ï(k))) = 0. Par convexitĂ© (thĂ©orĂšme 8), on sait que x est unminimiseur de f sur Rd. Par unicitĂ© du minimiseur, on en dĂ©duit que x = xâ.
Chapitre 3
Descente de gradient Ă pas
optimal II
3.1 Forte convexité et stabilité du minimum
Motivation. Soit f â C0(Rd) atteignant son minimum xâ sur Rd. On a vu dans laproposition 9 que si f est strictement convexe, alors f admet au plus un minimiseurxâ. Une maniĂšre de reformuler cette propriĂ©tĂ© est la suivante :
f(x) †f(xâ) =â x = xâ.
En pratique, nos algorithmes sont incapables de calculer xâ mais permettent au mieuxde calculer une suite x(k) tel que f(x(k)) †f(xâ)+Δk oĂč limkâ+â Δk = 0. On aimeraitpouvoir en dĂ©duire que x(k) est proche de la solution xâ, i.e.
â„â„x(k) â xââ„℠†CΔαk
pour un certain exposant α > 0 et une constante C > 0. Nous verrons qu'une telleinégalité est vraie pour α = 1
2 si la fonction f est fortement convexe.
DĂ©nition 9. Un sous-ensemble X de Rd est dit convexe s'il contient toutsegment reliant deux de ses points, c'est-Ă -dire :
â(x, y) â X,ât â [0, 1], (1â t)x+ ty â X.
DĂ©nition 10. Une fonction f : Rd â R est dite m-fortement convexe sur unensemble convexe X â Rd, oĂč m > 0, si la fonction f â m
2 â·â2 est convexe.
Exercice 3. Si f est m-fortement convexe, alors elle est aussi strictement convexe.
15
CHAPITRE 3. DESCENTE DE GRADIENT Ă PAS OPTIMAL II 16
Proposition 17. Soit f â C1(Rd) et X â Rd convexe. Alors les implicationssuivantes sont vraies (i)=â(ii)ââ(iii)ââ(iv), oĂč(i) f â C2(Rd) et âx â X, D2f(x) mId ;(ii) f est m-fortement convexe sur X ;(iii) âx, y â X, f(y) â„ f(x) + ăâf(x)|y â xă+ m
2 âxâ yâ2
(iv) âx, y â X, ăâf(y)ââf(x)|y â xă â„ m âxâ yâ2
DĂ©monstration. La fonction f est m-fortement convexe si et seulement si la fonctiong = f â m
2 â·â2 est convexe. L'Ă©quivalence est s'obtient et utilisant les proposition 6
10 pour caractériser la convexité de g.
Exemple 4. La fonction f : t 7â exp(t) n'est pas fortement convexe sur R, maiselle est m-fortement convexe sur tout segment [a, b] pour m = mintâ[a,b] exp(t). DemĂȘme, fonction t 7â t4 n'est pas fortement convexe sur R mais est fortement convexesur tout segment ne contenant pas l'origine.
Corollaire 18. Soit f â C1(Rd) admettant un minimiseur xâ â Rd. On suppose quef est m-fortement convexe sur un ensemble convexe S contenant xâ. Alors, pour toutx â S,(i) âxâ xââ2 †2
m(f(x)â f(xâ))(ii) âxâ xââ †1
m ââf(x)â(iii) f(x)â f(xâ) †1
2m ââf(x)â2
Remarque 7. Le point (i) montre immĂ©diatement qu'il n'existe pas d'autre minimi-seur de f dans S : si x est un autre minimiseur, on a f(x) = f(xâ), de sorte quepar (i), x = xâ. Mais il faut surtout retenir que si x est presqu'un minimiseur, ausens oĂč f(x) †f(xâ) + Δ, alors x est proche du minimiseur xâ, plus prĂ©cisĂ©mentâxâ xââ â€
â2Δ/m. On tire des conclusions similaires du point (ii) : si la condition
d'optimalitĂ© (âf(xâ) = 0) est presque vĂ©riĂ©e, i.e. si ââf(x)â †Δ est petit, alorsâxâ xââ †Δ/m.
Exemple 5. Pour f(t) = t4, on a xâ = 0 et l'inĂ©galitĂ© (i), qui s'Ă©crit t2 †2m t
4, n'estvraie pour aucun m > 0.
Démonstration. (i) est une conséquence immédiate de la formulation équivalente dela forte convexité donnée dans la proposition 17.(ii) :
f(x) â„ f(xâ) + ăxâ xâ|âf(xâ)ă+m
2âxâ xââ = f(xâ) +
m
2âxâ xââ2 ,
oĂč l'on a utilisĂ© âf(xâ) = 0 par optimalitĂ© de xâ. (ii) s'obtient de la mĂȘme maniĂšre,en utilisant proposition 17.(iii).(iii) Par l'inĂ©galitĂ© (ii) de la proposition 17, on a pour tout x, y â S
f(y) â„ Q(x, y) := f(x) + ăy â x|âf(x)ă+m
2ây â xâ2 .
CHAPITRE 3. DESCENTE DE GRADIENT Ă PAS OPTIMAL II 17
Ainsi, f(y) â„ infz g(z) oĂč g(z) = Q(x, z). Comme g est convexe sur Rd, son uniqueminimiseur zâ est solution de l'Ă©quation
âg(zâ) = 0 = âf(x) +m(zâ â x),
c'est-Ă -dire que zâ = xâ 1mâf(x). Ainsi, nous venons de dĂ©montrer que
ây â S, f(y) â„ g(zâ) = f(x)â 1
mââf(x)â2+
m
2
â„â„â„â„ 1
mâf(x)
â„â„â„â„2
= f(x)â 1
2mââf(x)â2 .
En prenant y = xâ dans l'inĂ©galitĂ© prĂ©cĂ©dente, on obtient le rĂ©sultat voulu.
3.2 Vitesse de convergence du gradient Ă pas optimal
DĂ©nition 11 (Convergence linĂ©aire). Soit (uk)kâ„0 une suite de limite uâ. Lasuite (uk) converge linĂ©airement vers uâ s'il existe 0 †Îș < 1 et k0 â N telleque
âk â„ k0, âuk+1 â uââ †Îș âuk â uââ .
ThĂ©orĂšme 19. Soit f â C2(Rd) vĂ©riant(i) le sous-niveau S = x â Rd | f(x) †f(x(0)) est compact.(ii) âM, âx â S, D2f(x) M Id,(iii) âm > 0, âx â S, D2f(x) mId,Alors les itĂ©rĂ©es de l'algorithme (2.1) convergent vers l'unique minimiseur globalde f sur Rd, et de plus, en posant c = M/m,
f(x(k+1))â f(xâ) â€(
1â 1
c
)(f(x(k))â f(xâ)
). (3.1)
Remarque 8. En d'autres termes, (f(x(k)))kâ„0 converge linĂ©airement vers f(xâ).
Remarque 9. Si une fonction f â C2(Rd), vĂ©rie mId D2f(x) †M Id, on pourradira que le conditionnement de f est majorĂ© par c = M
m . L'inĂ©galitĂ© (3.1) montre quecette quantitĂ© est cruciale pour comprendre la vitesse de convergence de l'algorithmede descente de gradient. Par exemple, si l'on souhaite estimer f(xâ) à Δ > 0 prĂšs,d'aprĂšs l'inĂ©galitĂ© (3.1), il sut d'interrompre l'algorithme de descente de gradientĂ pas optimal aprĂšs k itĂ©rations oĂč(
1â 1
c
)k(f(x(0))â f(x(â))) †Δ,
soit
k â„log(f(x(0))âf(x(â))
Δ
)log(
11â1/c
) âŒcâ+â c log
(f(x(0))â f(x(â))
Δ
)Ainsi, dans le cas c 1, le nombre d'itération est proportionnel au conditionnement !
CHAPITRE 3. DESCENTE DE GRADIENT Ă PAS OPTIMAL II 18
Démonstration du théorÚme 19. Le corollaire (18) nous donne
f(xk)â f(xâ) †1
2m
â„â„â„âf(x(k))â„â„â„2.
En combinant avec l'inégalité (2.4), on obtient
2m(f(xk)â f(xâ)) â€â„â„â„âf(x(k))
â„â„â„2†2M(f(x(k))â f(x(k+1))),
de sorte qu'en posant c = M/m, on obtient bien l'inégalité voulue.
3.3 Une condition susante pour la forte convexité
Proposition 20. Soit f â C2(Rd) et S â Rd compact tel que âx â S, D2f(x) estdĂ©nie positive. Alors âM â„ m > 0 tels que
âx â S,mId D2f(x) M Id.
DĂ©monstration. L'ensemble K = (x, v) â S Ă Rd | âvâ = 1 est compact commefermĂ© bornĂ©. La fonction (x, v) â K 7â ăD2f(x)v|vă est continue. Elle es donc bornĂ©esur K et atteint ses bornes : ainsi
â(x, v) â K,m †ăD2f(x)v|vă â€M,
et il existe (xm, vm) â K tels que m = ăD2f(xm)vm|vmă > 0 par hypothĂšses etcomme v0 6= 0 (car âv0â = 1). On en dĂ©duit l'inĂ©galitĂ© voulue en remarquant que
âw â Rd, ăD2f(x)w|wă = ăD2f(x)w
âwâ| wâwâă âwâ2 ,
de sorte que m âwâ2 †ăD2f(x)w|wă â€M âwâ2 comme souhaitĂ©.
Cette proposition permet d'énoncer une variante non-quantitative du théorÚme 19
Corollaire 21. Soit f â C2(Rd) vĂ©riant(i) le sous-niveau S = x â Rd | f(x) †f(x(0)) est compact,(ii) âx â S, D2f(x) est dĂ©nie positive.
Alors les itĂ©rĂ©es de l'algorithme (2.1) convergent vers l'unique minimiseur globalxâ de f sur Rd, et de plus (f(x(k)))kâ„0 converge linĂ©airement vers f(xâ).
Chapitre 4
Descente de gradient
préconditionné à rebroussement
Une des objections Ă l'algorithme de descente de gradient Ă pas optimal est lecalcul du pas demande de rĂ©soudre un problĂšme d'optimisation 1D Ă chaque itĂ©ration.Nous verrons dans ce chapitre une maniĂšre simple de choisir le pas qui donne lesmĂȘme garanties de convergence. Nous allons Ă©galement un peu relaxer l'hypothĂšseque d(k) = ââf(x(k)) an de prĂ©parer le terrain Ă l'analyse de l'algorithme deNewton dans le chapitre suivant. Nous supposerons donc que la direction de descenteest dĂ©nie de la maniĂšre suivante, oĂč B(k) est une matrice symĂ©trique dĂ©nie positive
d(k) = âB(k)âf(x(k)) (4.1)
Le fait que B(k) est dĂ©nie positive garantit que ăd(k)|âf(x(k))ă < 0, c'est-Ă -dire qued(k) est bien une direction de descente.
Remarque 10. Une mĂ©thode de descente oĂč la direction d(k) est dĂ©nie par la relation(4.1) est souvent appelĂ© descente de gradient prĂ©conditionnĂ©, et la matrice B(k) estappelĂ©e prĂ©conditionneur.
4.1 Choix du pas par rebroussement
4.1.1 Rebroussement naĂŻf
Comme nous souhaitons construire une méthode de descente, il serait assez na-turel de considérer le pas suivant,
t(k) = maxt â„ 0 | â` â N, t = 2â` et f(x(k) + td(k)) †f(x(k)).
Autrement dit étant donné x(k), d(k) on teste les pas de 1, 12 ,
14 , . . . ,
12`
et on s'arrĂȘte
dĂšs que que la condition de descente f(x(k) + 2â`d(k)) †f(x(k)) est satisfaite. Cetalgorithme, assez naturel, est en fait non-convergent en gĂ©nĂ©ral. ConsidĂ©rons f(x) =x2 sur R et x(0) = 1, d(k) = âf âČ(x(k)) = â2x(k). Alors le pas t(k) = 1 est admissibleet on obtient donc x(k) = (â1)k qui ne converge pas vers le minimum de f .
19
CHAPITRE 4. DESCENTE DE GRADIENT PRĂCONDITIONNĂ ĂREBROUSSEMENT 20
4.1.2 Rebroussement d'Armijo
L'idée est de renforcer la condition de descente f(x(k) + t(k)d(k)) †f(x(k)) par lacondition plus forte (4.2) appellée condition d'Armijo :
Lemme 22. Soit f â C1(Rd), v â Rd tel que ăâf(x)|vă < 0, et 0 < α < 12 . Alors, il
existe t0 > 0 tel que ât â [0, t0],
f(x+ tv) †f(x) + αtăâf(x)|vă. (4.2)
Démonstration. C'est une conséquence immédiate de l'égalité
f(x+ tv) = f(x) + αtăâf(x)|vă+ (1â α)tăâf(x)|vă+ o(t).
DĂ©nition 12 (Pas d'Armijo). Soit f â C1(Rd). Ătant donnĂ© x(k), d(k) onappellera pas d'Armijo de paramĂštres 0 < α < 1
2 et 0 < ÎČ < 1 le pas t(k) dĂ©nipar
t(k) = maxt |` â N, t = ÎČ`,
f(x(k) + td(k)) †f(x(k)) + tαăâf(x(k))|d(k)ă(4.3)
Remarque 11. En d'autres termes, le pas d'Armijo peut ĂȘtre calculĂ© par la procĂ©dureâŁâŁâŁâŁâŁâŁâŁâŁâŁâŁâŁâŁ
pas_armijo(x(k), d(k)) :
tâ 1
tant que f(x(k) + td(k)) > f(x(k)) + tαăâf(x(k))|d(k)ă :
tâ ÎČt
retourner t
DĂ©nition 13 (MĂ©thode de descente avec pas d'Armijo). On appelle algorithmede descente de gradient prĂ©conditionnĂ© la mĂ©thode itĂ©rative suivante, oĂč pour toutk â N, B(k) = A(k)A(k) et A(k) est une matrices symĂ©triques dĂ©nies positives :
d(k) = âB(k)âf(x(k))
t(k) = donné par (4.3)
x(k) = x(k) + t(k)d(k).
CHAPITRE 4. DESCENTE DE GRADIENT PRĂCONDITIONNĂ ĂREBROUSSEMENT 21
4.2 Convergence de l'algorithme de descente de gradient
préconditionné à rebroussement
ThĂ©orĂšme 23. Soit Ω â Rd un ouvert convexe et f â C2(Ω) vĂ©riant(i) le sous-niveau S = x â Ω | f(x) †f(x(0)) est compact.(ii) â0 < λ < Î, âx â S,âk â N, λId A(k)D2f(x)A(k) ÎId,
Alors les itĂ©rĂ©es x(k) de l'algorithme de descente avec pas d'Armijo (DĂ©f. 13)convergent vers l'unique minimiseur global de f sur Ω, et de plus, en posantc = 2αλmin(1, ÎČ/Î),
f(x(k+1))â f(xâ) †(1â c)(f(x(k))â f(xâ)
). (4.4)
Remarque 12. Cette analyse suggĂšre une maniĂšre simple d'amĂ©liorer l'algorithmede descente de gradient : il sut de choisir B(k) tel que le conditionnement Î/λsoit aussi proche de 1 que possible. Dans le cas f(x1, x2) = Kx2
1 + x22, dont la
hessienne est H = diag(K, 1) (constante), l'idĂ©al est bien sĂ»r de prendre B = A2 oĂčA = diag(Kâ1/2, 1), soit B = Hâ1. Plus gĂ©nĂ©ralement, le choix B(k) = D2f(x(k))â1
est souvent judicieux : il donne ce qu'on appelle la méthode de Newton.
Lemme 24. Soit f â C2(Ω) et B(k) = (A(k))2 telles que que
âx â S, A(k)D2f(x)A(k) ÎId.
Alors, le pas d'Armijo déni par (4.3) vérie
t(k) â„ min
(1,ÎČ
Î
).
Remarque 13. Cette inĂ©galitĂ© permet de dire que l'algorithme pas_armijo calculantle pas d'Armijo termine dĂšs que ÎČk †ÎČ/Î. En d'autres termes, le nombre d'itĂ©rationde l'algorithme de recherche du pas est au plus log(Î/ÎČ)/ log(1/ÎČ).
DĂ©monstration. Ătant donnĂ© t â R, on pose xt = x(k) + td(k). Si t est tel que xt â S,alors le segment [x0, xt] est inclus dans S et on montre donc comme dans la preuvedu thĂ©orĂšme 15 que
f(xt) = f(x(k)) + tăâf(x(k))|d(k)ă+t2
2ăD2f(xs)d
(k)|d(k)ă
Par (4.1), on a d(k) = âB(k)âf(x(k)) = âA2âf(x(k)) oĂč on a notĂ© A = A(k). Ainsi,
ăD2f(xs)d(k)|d(k)ă = ăD2f(xs)A
2âf(x(k))|A2âf(x(k))ă= ăAD2f(xs)A(Aâf(x(k)))|Aâf(x(k))ă
†Îâ„â„â„Aâf(x(k))
â„â„â„2= ÎăA2âf(x(k))|âf(x(k))ă = âăâf(x(k))|d(k)ă
CHAPITRE 4. DESCENTE DE GRADIENT PRĂCONDITIONNĂ ĂREBROUSSEMENT 22
de sorte que
f(xt) †f(x(k)) + (1â Î
2t)tăâf(x(k))|d(k)ă.
Ainsi, la condition d'Armijo
f(xt) †f(x(k)) + αtăâf(x(k))|d(k)ă
est vĂ©riĂ©e dĂšs que 1â Î2 t ℠α. Comme α †1
2 , il sut pour cela que t †Î.
Lemme 25. Soit X â Ω â Rd avec X convexe et Ω ouvert. Soit f â C2(Ω) et Aune matrice symĂ©trique dĂ©nie positive vĂ©riant âx â X,AD2f(x)A ℠λId. Alors
2λ(f(x)â f(xâ)) †âAâf(x)â2 .
DĂ©monstration. On considĂšre g(y) = f(Ay). Alors âg(y) = Aâf(Ay) et D2g(y) =AD2f(Ay)A. On a supposĂ© AD2f(x)A ℠λId, et par le corollaire (18) on a
2λ(g(y)â g(yâ)) †ââg(y)â2 ,
oĂč yâ = Aâ1xâ. Ainsi, en posant y = Aâ1x, 2λ(f(x)â f(xâ)) †âAâf(x)â2 .
Démonstration du théorÚme 23. Par dénition du pas d'Armijo, on sait que
f(x(k+1)) †f(x(k)) + αt(k)ăâf(x(k))|d(k)ă= f(x(k))â αt(k)ăâf(x(k))|B(k)âf(x(k)ă= f(x(k))â αt(k)ăA(k)âf(x(k))|A(k)âf(x(k)ă
†f(x(k))â Δâ„â„â„A(k)âf(x(k))
â„â„â„2oĂč Δ = αmin(1, ÎČ/Î)
oĂč on a utilisĂ© le lemme 24 pour minorer t(k). En combinant avec le lemme prĂ©cĂ©denton obtient
f(x(k+1)) †f(x(k))â 2λΔ(f(xk)â f(xâ))
f(x(k+1))â f(xâ) †(1â c)(f(x(k))â f(xâ)) oĂč c = 2λΔ.
Chapitre 5
MĂ©thode de Newton
5.1 MĂ©thode de Newton pure
5.1.1 Construction des itérées
Soit f â C2(Rd), vĂ©riant âx â Rd,D2f(x) 0. La mĂ©thode de Newton estune mĂ©thode itĂ©rative, qui repose sur le dĂ©veloppement de Taylor Ă l'ordre 2 de lafonction au point courant x(k) : f(x(k) + d) = g(d) + o(âdâ2) oĂč
g(d) = f(x(k)) + ăd|âf(x(k))ă+1
2ăD2f(x(k))d|dă.
Comme par hypothÚse D2f(x(k)) 0, la fonction g est strictement convexe et admetun unique minimum, que l'on notera d(k). Ce minimum vérie
âg(d(k)) = D2f(x(k))d(k) +âf(x(k)) = 0,
soit d(k) = â[D2f(x(k))]â1âf(x(k)). On arrive Ă la dĂ©nition suivante :
DĂ©nition 14. Les itĂ©rĂ©es de la mĂ©thode de Newton pure sont donnĂ©es pard(k) = â[D2f(x(k))]â1âf(x(k))
t(k) = 1
x(k+1) = x(k) + t(k)d(k)
Le terme pur fait référence au choix du pas t(k) = 1, par opposition à la méthodede Newton amortie, introduite dans 5.2.
Remarque 14. La direction d(k) est appelĂ©e direction de Newton. Il s'agit d'une direc-tion de descente si car ăâf(x(k))|d(k)ă = âăâf(x(k))|D2f(x(k))âf(x(k))ă > 0, maisen gĂ©nĂ©ral il est possible que f(x(k+1)) 6†f(x(k)). La mĂ©thode de Newton pure n'estdonc pas une mĂ©thode de descente.
Remarque 15. Dans le cas d = 1. Posons h(x) = f âČ(x). La mĂ©thode de Newton s'Ă©critalors sous la forme
x(k+1) = x(k) â f âČ(x(k))/f âČâČ(x(k)) = x(k) â h(x(k))/hâČ(x(k)).
23
CHAPITRE 5. MĂTHODE DE NEWTON 24
On reconnaĂźt alors la mĂ©thode de Newton classique permettant de trouver un zĂ©rode la fonction h = f âČ, ce qui revient dans ce cas Ă trouver un minimum de la fonctionconvexe f .
5.1.2 Convergence quadratique locale
DĂ©nition 15 (Convergence quadratique). Soit (uk)kâ„0 une suite de limite uâ.La suite (uk) converge quadratiquement vers uâ s'il existe Îł > 0 telle que
âuk+1 â uââ †γ âuk â uââ2 .
ThĂ©orĂšme 26. Soit f â C3(Rd) vĂ©riant(i) f admet un minimiseur xâ sur R ;(ii) âx â Rd,D2f(x) 0.
Alors, il existe r > 0 tel que pour tout x(0) â B(xâ, r), la suite (x(k)) construitepar la mĂ©thode de Newton pure est dĂ©nie pour tout k â„ 0 et converge quadra-tiquement vers xâ.
Remarque 16. Soit Δk = Îłâ„â„x(k) â xâ
â„â„, oĂč Îł est la constante dans la dĂ©nition de
convergence quadratique. Alors, Δk+1 †Δ2k, de sorte que Δk †Δ2k
0 . Ainsi, si l'on
souhaite une erreur Δk †η = 10â15, il sut que Δ2k0 †η soit 2k log2(Δ0) †log2(η).
Ainsi, si Δ = 1/2 et en prenant la minoration η â„ 2â50, il sut que 2k â„ 50, soitk = 6.
DĂ©monstration. Soit xâ l'unique minimiseur de f sur Rd et R > 0. Comme f est declasse C3, il existe une constante L telle que âx, xâČ â Kâ©B(xâ, R),
â„â„D2f(x)âD2f(xâČ)â„â„ â€
L âxâ xâČâ. Soit x â K et xt = (1â t)xâ + tx = xâ + t(xâ xâ). Alors,
âf(x) = âf(xâ) +
â« 1
0D2f(xt)(xâ xâ)dt
= D2f(x)(xâ xâ) +
â« 1
0(D2f(xt)âD2f(x))(xâ xâ)dt
= D2f(x)(xâ xâ) +R(x, xâ)
oĂč
âR(x, xâ)â †L âxâ xâââ« 1
0âxt â xâ dt =
L
2âxâ xââ2
On considĂšre maintenant l'application N : x â Rd 7â xâD2f(x)â1âf(x). Les itĂ©rĂ©esde l'algorithme de Newton vĂ©rient x(k+1) = N(x(k)). On a de plus pour tout x â K,
âN(x)â xââ =â„â„xâD2f(x)â1âf(x)â xâ
â„℠†â„â„D2f(x)â1â„â„ âR(x, xâ)â2 †L
2mâxâ xââ2 .
CHAPITRE 5. MĂTHODE DE NEWTON 25
Pour que l'algorithme de Newton soit bien dĂ©ni, on chercher 0 < r †R telle queN(B(xâ, r)) â B(xâ,min(r,R)). Pour cela, il sut que L
2mr2 †min(r,R), et on peut
donc prendre r < min(2m/L,â
2mR/L).Si x(0) â B(xâ, r), on a alors x(1) = N(x(0)) â B(xâ, r), et par rĂ©currence la suite
des itĂ©rĂ©es x(k) est bien dĂ©nie pour tout k â N. De plus, on a bienâ„â„â„x(k+1) â xââ„â„â„ =
â„â„â„N(x(k))â xââ„â„℠†L
2m
â„â„â„x(k) â xââ„â„â„2.
Soit Δk = L2m
â„â„x(k) â xââ„â„, de sorte que Δk+1 †Δ2
k soit par récurrence Δk †Δ2k0 .
De plus, comme r < 2m/L, on a Δ0 < 1, de sorte que limkâ+â Δk = 0. Ceci prouvela convergence quadratique de la suite x(k) vers xâ.
5.1.3 Invariance par reparamétrisation ane
Un autre avantage de la méthode de Newton que contrairement à la méthodede descente de gradient, elle est invariante par reparamétrisation ane (c'est-à -direqu'elle ne dépend pas de la base choisie pour l'espace).
Proposition 27. Soit f : Rd â R, A une matrice carrĂ©e inversible et g : Aâ1Ωâ RddĂ©nie par g(y) = f(Ay) . Soient maintenant
x(k+1) = x(k) âD2f(x(k))â1âf(x(k))
y(k+1) = y(k) âD2g(y(k))â1âg(y(k))
x(k) = Ay(k).
Si l'on suppose de plus que x(0) = x(0), alors âk â N, x(k) = x(k).
Démonstration. Calculons d'abord le gradient et la hessienne de g, en les identiantsdans le développement de Taylor à l'ordre 2 :
g(y + v) = f(A(y + v)) = f(Ay) + ăâf(Ay)|Avă+1
2ăD2f(Ay)Av|Avă+ o(âAvâ2)
= g(y) + ăATâf(Ay)|vă+1
2ăATD2f(Ay)Av|vă+ o(âvâ2)
On trouve donc âg(y) = ATâf(Ay) et D2g(y) = ATD2f(Ay)A, ce qui donne
y(k+1) = y(k) âD2g(y(k))â1âg(y(k))
= y(k) â (ATD2f(Ay(k))A)â1ATâf(Ay(k))
= y(k) âAâ1D2f(Ay(k))â1âf(Ay(k))
Ainsi, en multipliant cette égalité par A on obtient
x(k+1) = x(k) âD2f(x(k))â1âf(x(k)).
CHAPITRE 5. MĂTHODE DE NEWTON 26
5.1.4 Non-convergence globale
Dans ce paragraphe, nous construisons un exemple explicite de fonction pourlaquelle la mĂ©thode de Newton pure ne converge pas pour tout x(0). ConsidĂ©ronsf : x â R 7â
âx2 + 1. Alors,
f âČ(x) =xâ
1 + x2f âČâČ(x) =
1
(âx2 + 1)3/2
,
de sorte que f est convexe et mĂȘme 1âr2+1
3/2 -fortement convexe sur l'intervalle [âr, r].L'unique minimiseur de f sur R est xâ = 0.
Calculons maintenant les itérées de la méthode de Newton : d(k) est dénie parl'équation
f âČâČ(x(k))d(k) = âf âČ(x(k)),
d(k) = x(k)((x(k))2 + 1)
Ainsi, l'itérée x(k+1) est dénie par
x(k+1) = x(k) + d(k) = (x(k))3
La suite x(k) dĂ©nie par cette relation peut avoir trois comportements. SiâŁâŁx(0)
âŁâŁ < 1,alors la suite x(k) converge vers 0 = xâ (avec une vitesse cubique !). Si
âŁâŁx(0)âŁâŁ > 0,
alors la suite (âŁâŁx(k)
âŁâŁ) tend vers +â, lĂ encore trĂšs vite. SiâŁâŁx(k)
âŁâŁ = 1, la suite eststationnaire en 1 6= xâ (si x(0) = 1) ou alterne entre les deux valeurs ±1.
5.2 MĂ©thode de Newton amortie
Nous allons voir dans cette partie qu'une modication simple la méthode deNewton pure permet de la rendre globalement convergence.
DĂ©nition 16. On appelle algorithme Newton amortie la mĂ©thode itĂ©ratived(k) = âD2f(x(k))â1âf(x(k))
t(k) = pas_armijo(x(k), d(k))
x(k) = x(k) + t(k)d(k).
,
oĂč pas_armijo a Ă©tĂ© dĂ©ni dans le chapitre prĂ©cĂ©dent.
La mĂ©thode de Newton amortie est un cas particuler d'algorithme de descente degradient prĂ©conditionnĂ©, oĂč l'on a choisi comme prĂ©conditionneur B(k) = D2f(x(k)).
CHAPITRE 5. MĂTHODE DE NEWTON 27
ThĂ©orĂšme 28. Soit f â C3(Rd) vĂ©riant(i) le sous-niveau S = x â Rd | f(x) †f(x(0)) est compact.(ii) âx â S, D2f(x) 0.
Alors les itĂ©rĂ©es x(k) de la mĂ©thode de Newton amortie convergent vers l'uniqueminimiseur global de xâ de f sur Rd. En outre, il existe k0 â N et une constanteÎł > 0 tel que Îł
â„â„xk0 â xââ„â„ < 1 et
âk â„ k0,â„â„â„xk+1 â xâ
â„â„℠†γ â„â„â„xk â xââ„â„â„2.
Remarque 17. Un intĂ©rĂȘt pratique de cet algorithme est que le choix de t(k) parrebroussement d'Armijo permet de automatiquement de passer d'un rĂ©gime oĂčla convergence est linĂ©aire (k †k0), et expliquĂ©e par l'analyse de la mĂ©thode degradient prĂ©conditionnĂ©e et un second rĂ©gime (k â„ k0) oĂč on observe une convergencequadratique.
La preuve du thĂ©orĂšme se fait en deux Ă©tapes. Le lemme suivant permet devĂ©rier les hypothĂšses du thĂ©orĂšme (23) sur la convergence des mĂ©thodes de gradientprĂ©conditionnĂ©. On obtient alors que limkâ+â x
(k) = xâ.
Lemme 29. Pour tout k â N, il existe une matrice symĂ©trique A(k) 0 telle que(A(k))2 = B(k). De plus, il existe 0 < λ < Î tels que
âk â N,âx â S, λId †A(k)D2f(x)A(k) ÎId
DĂ©monstration. Ătant donnĂ© k â N, on dĂ©nit B(k) = D2f(x) 0. Il existe doncune matrice orthogonale P et une matrice diagonale D = diag(λ1, . . . , λd) telle que
B(k) = P TDP . La matrice A(k) = P T diag(λ1/21 , . . . , λ
1/2d )P est symétrique dénie
positive et vérie (A(k))2 = B(k). De plus,
ăA(k)D2f(x)A(k)v|vă = ăD2f(x)A(k)v|A(k)vă.
Or, d'aprĂšs la proposition 20, nous savons qu'il existe 0 < m < M tels que âx âS,mId D2f(x) M Id, de sorte que
mâ„â„â„A(k)v
â„â„â„2†ăA(k)D2f(x)A(k)v|vă â€M
â„â„â„A(k)vâ„â„â„2.
Or, â„â„â„A(k)vâ„â„â„2
= ăA(k)v|A(k)vă = ă(A(k))2v|vă = ăD2f(x(k))v|vă,
d'oĂčm2 âvâ2 †ăA(k)D2f(x)A(k)v|vă â€M âvâ2 .
et on peut donc prendre λ = m2, Π= M2.
On montre ensuite que pour k 1, on a nécessairement t(k) = 1, de sorte queles itérées de la méthode de Newton amortie coïncident alors avec celles de Newtonpure pour k 1. Par le théorÚme 26, nous aurons donc démontré le résultat deconvergence quadratique.
CHAPITRE 5. MĂTHODE DE NEWTON 28
Lemme 30. Il existe k0 â N tel que âk â„ k0, t(k) = 1.
DĂ©monstration. Admis.
Chapitre 6
Projection et gradient projeté
On s'intéresse désormais à des problÚmes d'optimisation sous contraintes :
minxâK
f(x) (6.1)
oĂč K â Rd est un ensemble convexe fermĂ© et f : Rd â R est convexe.
Dans le cas de l'optimisation sous contrainte (K fermé),
xâ â arg minK
f 6=â âf(xâ) = 0.
Exemple 6. K = [1, 2] â R et f(x) = x2. Le minimum de f sur [1, 2] est atteintau point xâ = 1, mais Ă©videmment f âČ(xâ) = 2 6= 0.
Pour pouvoir écrire des algorithmes d'optimisation, il faut d'abord com-prendre la conditions d'optimalité.
Proposition 31 (Existence). Le problĂšme d'optimisation sous contraintes (6.1) ad-met une solution si une des conditions suivantes est vĂ©riĂ©e :(i) K est compact, non vide, et f est continue ;(ii) K est fermĂ©, non vide, f est continue et limâxââ+â f(x) = +â ;
Proposition 32 (Unicité). Si la fonction f est strictement convexe et si l'ensembleK est convexe, alors le problÚme d'optimisation sous contraintes (6.1) admet au plusune solution.
29
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 30
6.1 Projection sur un convexe fermé
ThĂ©orĂšme 33 (CaractĂ©risation de la projection). Soit K â Rd convexe fermĂ©,non vide. Alors, pour tout point x â Rd, le problĂšme de minimisation
minqâKâq â xâ2 (6.2)
admet un unique minimiseur p. De plus, p est caractérisé par la condition
p â K et âq â K, ăxâ p|pâ qă â„ 0. (6.3)
DĂ©nition 17 (Projection). Soit K â Rd convexe fermĂ© non vide et x â Rd.L'unique minimiseur de (6.2) est appelĂ© projection de x sur K et notĂ© pK(x).
DĂ©monstration du thĂ©orĂšme 33. Soit f(q) = âxâ qâ2, qui est convexe. Montrons quesi p est un minimiseur de (6.2), alors p vĂ©rie (6.3). Soit q â K et qt = (1â t)p+ tqpour t â [0, 1]. Par convexitĂ©, qt â K. De plus, comme p est un minimiseur de f surK, on a f(qt) â„ f(p), ce qui implique
â0 < t < 1,f(qt)â f(p)
tâ„ 0 =â ăâf(p)|q â pă = 2ăpâ x|q â pă â„ 0.
Réciproquement, considérons un point p vériant (6.3). Par convexité de f , on a
âq â K, f(q) â„ f(p) + ăq â p|âf(p)ă = f(p) + 2 ăq â p|pâ xăïžž ïž·ïž· ïžžâ„0
â„ f(p).
Ainsi, p minimise f sur K et est donc un minimiseur de (6.2).
Corollaire 34. Soit K â Rd convexe fermĂ© non vide et x, y â Rd. Alors,(i) ăxâ y|pK(x)â pK(y)ă â„ âpK(x)â pK(y)â2(ii) âpK(x)â pK(y)â †âxâ yâ
Démonstration. Par le théorÚme précédent, avec p = pK(x) et q = pK(y) on a
ăxâ pK(x)|pK(x)â pK(y)ă â„ 0.
En inversant les rĂŽles, on obtient
ăy â pK(y)|pK(y)â pK(x)ă â„ 0.
En sommant ces deux inégalités on obtient (i). Le point (ii) s'obtient à partir de (i)en utilisant l'inégalité de Cauchy-Schwarz.
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 31
Exemple 7. Soit e â Rd non nul et K = λe | λ â R. Alors,
pK(x) =ăx|eăâeâ2
e.
Exemple 8. Soit K = x â Rd | Ax = b et x â Rd. Par (6.3), la projection de x surK est caractĂ©risĂ©e par
p = pK(x)ââ p â K et âq â K, ăxâ p|pâ qă â„ 0ââ p â K et âv â KerA, ăxâ p|vă = 0
p â K et ââ xâ p â (KerA)â„.
de plus, (KerA)â„ = ImAT car
v â KerAââ âw, ăAv|wă = 0
ââ âw, ăv|ATwă = 0
ââ w â (ImAT )â„,
d'oĂč l'on dĂ©duit KerA = (ImAT )â„ soit (KerA)â„ = ImAT .
Proposition 35. Si KerAT = 0 et K = x | Ax = b, alors
pK(x) = xâAT (AAT )â1(Axâ b).
DĂ©monstration. Par la caractĂ©risation prĂ©cĂ©dente, p = pK(x) si et seulement si p â Ket si x â p â ImAT , c'est-Ă -dire s'il existe w tel que p = x â ATw et Ap = b. Levecteur w est donc caractĂ©risĂ© par
A(xâAT )w = b, i.e. AATw = Axâ b,
soit w = (AAT )â1(Axâ b). Ceci donne la formule souhaitĂ©e pour p.
Exemple 9. Soit K = q â Rd | â1 †i †d, qi â„ 0.Si d = 1, alors pK(x) = max(x, 0) =: x+. Pour montrer cela, nous utilisons
comme prĂ©cĂ©demment la caractĂ©risation (6.3). Le point p = x+ â K est la projectionde x sur K si
âq â K, ăxâ p|pâ qă = (xâ x+)(x+ â q) â„ 0.
Or, si x â„ 0, on a xâx+ = 0 de sorte que l'inĂ©galitĂ© est vraie. Si x < 0, xâx+ < 0 etx+ â q < 0, de sorte que l'inĂ©galitĂ© est aussi vraie. De maniĂšre gĂ©nĂ©rale, nous avonsla proposition suivante :
Proposition 36. Soit K = q â Rd | â1 †i †d, qi â„ 0 et x â Rd. Alors,
pK(x) = (x+1 , . . . , x
+d ).
Exemple 10. Soit K = K1Ă . . .ĂK` â Rd oĂč les Ki â Rdi sont des convexes fermĂ©snon vides et oĂč d = d1 + . . .+ d`. Alors,
pK( x1ïžžïž·ïž·ïžžâRd1
, . . . , x`ïžžïž·ïž·ïžžâRd`
) = (pK1(x1), . . . ,pK`(x`))
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 32
Exemple 11. Soit K = x â Rd | âxâ †1 oĂč â·â est la norme euclidienne. Alors,
pK(x)
x si âxâ †1xâxâ sinon
.
Le cas oĂč x â K est Ă©vident ; supposons donc que x 6â K et posons p := x/ âxâ.Alors,
âq â K, ăxâ p|pâ qă =
(1
âxââ 1
)ăx|pâ qă
Or, par Cauchy-Scharwz et en utilisant ăx|pă = âxâ, ăx|pâ qă â„ âxâ â âxâ âqâ â„ 0.Par la caractĂ©risation (6.3) on obtient comme souhaitĂ© pK(x) = p.
6.2 Condition d'optimalité pour l'optimisation sous
contraintes
6.2.1 Condition nécessaire et susante d'optimalité
Dans cette partie, nous démontrons plusieurs CNS d'optimalité pour l'optimisa-tion sous contraintes.
Ă nouveau, xâ peut minimiser une fonction f sur un compact K alors queâf(xâ) 6= 0!. Pour Ă©crire des algorithmes d'optimisation corrects, nous devonsquelle est la bonne condition nĂ©cessaire et susante d'optimalitĂ©.
ThĂ©orĂšme 37. Soit K â Rd un convexe fermĂ© non vide et f â C1(Rd) unefonction convexe. Alors, les armations suivantes sont Ă©quivalentes :(i) xâ â arg minK f(ii) ây â K, ăxâ â y| â âf(xâ)ă â„ 0 (formulation variationnelle)(iii) âÏ > 0, ây â K,pK(xâ â Ïâf(xâ)) = xâ (formulation gĂ©omĂ©trique)(iv) âÏ > 0, ây â K,pK(xâ â Ïâf(xâ)) = xâ
Remarque 18. Ce théorÚme ne dit rien de l'existence ni ce l'unicité, il permet seule-ment de caractériser l'optimalité d'un point pour un problÚme d'optimisation souscontraintes.
DĂ©monstration. (ii) =â (i) : Par convexitĂ© de f , on sait que
ây â Rd, f(y) â„ f(xâ) + ăy â xâ|âf(xâ)ă.
Or, si y â K, alors ăxâ â y| â âf(xâ)ă â„ 0 par hypothĂšse, de sorte que
ây â Rd, f(y) â„ f(xâ),
i.e. xâ est le minimum de f sur K.
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 33
(i) =â (ii) : Soit y â K et yt = (1 â t)xâ + ty pour t â [0, 1]. Par convexitĂ© deK, yt â K pour tout t â [0, 1]. De plus, comme xâ est un minimiseur de f sur K, ona f(yt) â„ f(xâ), ce qui implique
â0 < t < 1,f(xâ + t(y â xâ))â f(xâ)
tâ„ 0.
En passant Ă la limite tâ 0, t > 0, on obtient ăâf(xâ)|y â xâă â„ 0.(iv) ââ (iii) ââ (ii). Soit t > 0. Par caractĂ©risation de la projection du point
x = xâ â tâf(xâ)) sur le convexe fermĂ© K, on a
pK(xâ â tâf(xâ)) = xâ ââ ây â K, ă(xâ â tâf(xâ))â xâ|xâ â yă â„ 0
ââ ây â K, ăââf(xâ)|xâ â yă â„ 0,
oĂč on a utilisĂ© t > 0 pour obtenir la deuxiĂšme Ă©quivalence.
Exemple 12. Soit K = Rd+ â Rd. On a dĂ©montrĂ© prĂ©cĂ©demment que la projectiond'un point x sur K est donnĂ©e par
pK(x) = (max(x1, 0), . . . ,max(xd, 0)).
Soit f â C1(Rd) une fonction convexe. CombinĂ© au thĂ©orĂšme prĂ©cĂ©dent, on obtient
xâ â arg minK
f ââ ât > 0, pK(xâ â tâf(xâ)) = xâ,
ââ ât > 0, âi,max
(xâi â t
âf
âei(xâ), 0
)= xâi
ââ âi,ât > 0,max
(xâi â t
âf
âei(xâ), 0
)= xâi
On vĂ©rie alors que cette propriĂ©tĂ© est Ă©quivalente Ă âfâei
= 0 si xâi > 0âfâeiâ„ 0 si xâi = 0.
6.2.2 Algorithme du gradient projeté
DĂ©nition 18. Soit f â C1(Rd) et K â Rd un ensemble convexe fermĂ© nonvide. L'algorithme du gradient projetĂ© Ă pas constant Ï > 0 est donnĂ© par :
x(k+1) = pK(x(k) â Ïâf(x(k))) (6.4)
Remarque 19. Cette méthode ne mérite le nom d'algorithme que lorsqu'on sait cal-culer explicitement la projection sur l'ensemble K !
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 34
ThĂ©orĂšme 38. On suppose que f â C2(Rd), et que
â0 < m â€M t.q. âx â Rd, mId D2f(x) M Id. (6.5)
Alors la suite dĂ©nie par (6.4) converge vers l'unique xâ â arg minK f si le pasÏ vĂ©rie
0 < Ï < 2m/M2.
On peut Ă©crire x(k+1) = F (x(k)) oĂč F (x) := pK(x â Ïâf(x)). Si la suite x(k)
converge vers un point x â Rd, alors en passant Ă la limite dans l'Ă©quation x(k+1) =F (x(k)) et en utilisant la continuitĂ© de F , on dĂ©duit que
x = F (x) = pK(xâ Ï x),
de sorte que par le théorÚme 37, x minimise f sur K. Il reste donc à démontrer quela suite x(k) dénie par la récurrence (6.4) converge. Pour cela, nous appliquerons lethéorÚme du point xe contractant.
ThĂ©orĂšme 39 (Point xe). Soit F : Râ Rd une application contractante, c'est-Ă -dire qu'il existe Îș â]0, 1[ tel que âF (x)â F (y)â †Îș âxâ yâ. Alors :(i) F admet un unique point xe xâ ;(ii) pour tout x(0) â Rd, la suite dĂ©nie par x(k+1) = F (x(k)) converge vers xâ.
Nous utiliserons Ă©galement le lemme suivant.
Lemme 40. Soit f â C2(Rd) vĂ©riant (6.5). Alors, l'application G : x 7â xâÏâf(x)vĂ©rie
âG(x)âG(y)â2 â€(1â 2Ïm+M2Ï2
)âxâ yâ2
DĂ©monstration. On applique la formule de Taylor avec reste intĂ©gral Ă l'applicationh(t) = âf(xt), avec xt = x+ tv et v = y â x, ce qui donne
h(1)â h(0) = âf(y)ââf(x) =
â« 1
0D2f(xt)vdt.
On en déduit que
ââf(y)ââf(x)â2 =
â„â„â„â„â« 1
0D2f(xt)vdt
â„â„â„â„2
â€â« 1
0
â„â„D2f(xt)vâ„â„2
dt
â€â« 1
0
â„â„D2f(xt)â„â„2 âvâ2 dt
â€M2 âvâ2 ,
CHAPITRE 6. PROJECTION ET GRADIENT PROJETĂ 35
oĂč l'on utilise que pour une matrice symĂ©trique la norme matricielle induite par leproduit scalaire est Ă©gale au maximum des valeurs absolues des valeurs propres,quiest ici majorĂ© par M . De plus, comme D2f(x) mId pour tout x â Rd,
ââf(y)ââf(x)âxâ y = ăâ« 1
0D2f(xt)vdt|vă
=
â« 1
0ăD2f(xt)v|vădt
â„ m âvâ2 .
Ainsi, pour tout x, y â Rd,
âG(x)âG(y)â2 = âxâ y â Ï(âf(x)ââf(y))â2
= âxâ yâ2 â 2Ïăxâ y|âf(x)ââf(y)ă+ Ï2 ââf(x)ââf(y)â2
â€(1â 2Ïm+M2Ï2
)âxâ yâ2
DĂ©monstration du thĂ©orĂšme 38. On pose F (x) = pK(G(x)) oĂč G(x) = xâ Ïâf(x),de sorte que x(k+1) = F (x(k)). En utilisant que la projection pK est 1-Lipschitzienne,on a
âF (x)â F (y)â = âpK(G(x))â pK(G(y))â †âG(x)âG(y)â .
En combinant avec le lemme précédent, on trouve
âF (x)â F (y)â2 †âG(x)âG(y)â2 â€(1â 2Ïm+MÏ2
)âxâ yâ2 .
Cette application est contractante si
1â 2Ïm+M2Ï2 †1ââ Ï(M2Ï â 2m),
ce qui est vrai si Ï > 0 et Ï < 2m/M2. Par le thĂ©orĂšme du point xe, on en dĂ©duitque dans ce cas l'application F possĂšde un unique point xe. Par le thĂ©orĂšme 37, onsait qu'un point x minimise f sur K si et seulement si F (x) = x. On dĂ©duit de cequi prĂ©cĂšde que le problĂšme de minimisation minK f possĂšde une seule solution xâ,qui est l'unique point xe de F . Par le (ii) du thĂ©orĂšme du point xe, la suite x(k)
dĂ©nie par x(k) = F (x(k)) converge vers xâ.
Chapitre 7
Optimisation avec contraintes
d'inégalités
Dans ce chapitre on s'intĂ©resse Ă des problĂšmes d'optimisation minK f oĂč l'en-semble de contraintes K est dĂ©ni par des inĂ©galitĂ©s : Ă©tant donnĂ©es des fonctionsconvexes c1, . . . , c` â C1(Rd), on dĂ©nit l'ensemble K
K = x â Rd | c1(x) †0, . . . , c`(x) †0.
On appelle chacune des fonctions c1, . . . , c` une contrainte du problĂšme et on notesouvent le problĂšme par
P := minc1(x)â€0,...,c`(x)â€0
f(x)
Lemme 41. Si les fonctions c1, . . . , c` : Rd â R sont continues et convexes, alorsl'ensemble K = x â Rd | â1 †i †`, ci(x) †0 est fermĂ© et convexe.
DĂ©monstration. Montrons d'abord que K est fermĂ© : soit (xn)n une suite d'Ă©lĂ©mentsde K convergent vers une limite x. Par hypothĂšse, comme xn â K, ci(xn) †0. Enpassant Ă la limite n â +â et en utilisant la continuitĂ© de ci on en dĂ©duit queci(x) †0. Ainsi x appartient Ă K, et K est donc fermĂ©.
On montre maintenant la convexitĂ© de K. Soient x, y â K et xt = (1â t)x+ ty.Comme x, y â K, on a pour tout i, ci(x) †0 et ci(y) †0. Pour t â [0, 1] on a donc
ci(xt) †(1â t)ci(x) + tci(y) †0,
de sorte que xt â K. Ceci dĂ©montre que K est convexe.
Exemple 13 (Simplexe). Considérons l'ensemble K dénit par
K =
x â Rd | âi, xi â„ 0 etâ
1â€iâ€dxi = 1
,
qui décrit l'ensemble des mesures de probabilités supportés sur 1, . . . , d. On peutécrire cet ensemble sous la forme ci-dessus avec
c1(x) = âx1, . . . , cd(x) = âxd, cd+1(x) =â
1â€iâ€dxi â 1, cd+2(x) = â(
â1â€iâ€d
xi â 1).
36
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 37
7.1 Méthode de pénalisation
L'idĂ©e de cette mĂ©thode est d'approcher le problĂšme d'optimisation avec contraintesminK f oĂč K = x | âi, ci(x) †0 par un problĂšme d'optimisation sans contraintesminRd fΔ oĂč fΔ est la somme de f et de termes qui explosent lorsque ci(x) > 0.PrĂ©cisĂ©ment, pour Δ > 0 on pose
PΔ := minxâRd
fΔ(x) oĂč fΔ(x) := f(x) +1
Δ
âi=1
max(ci(x), 0)2.
Dans cette formulation du problĂšme, les points x â Rd tels que ci(x) > 0 sontpĂ©nalisĂ©s au sens oĂč si Δ est trĂšs petit, 1
Δ max(ci(x), 0)2 peut ĂȘtre trĂšs grand, ce quidissuade le choix de ce point dans le problĂšme d'optimisation. Lorsque Δ â 0, lespoints vĂ©riants sont inniment pĂ©nalisĂ©s et deviennent en fait interdits :
âx â Rd, limΔâ0
1
Δ
âi=1
max(ci(x), 0)2 =
0 si ci(x) †0
+â sinon
Cette intuiton est précisée par la proposition suivante.
Proposition 42. Supposons que f â C0(Rd) est strictement convexe et vĂ©rielimâxââ+â f(x) = +â. Alors :(i) Les problĂšmes P et PΔ (pour Δ > 0) admettent chacun un unique minimiseur,
notĂ© xâ et xâΔ.(ii) limΔâ0 x
âΔ = xâ.
Démonstration. (i) L'existence d'une solution au problÚme d'optimisation sans contraintePΔ se déduit du fait que fΔ est continue et que
limâxââ+â
fΔ(x) â„ limâxââ+â
f(x) = +â,
tandis que l'existence de solution au problĂšme avec contraintes P se dĂ©duit de ce quelimâxââ+â f(x) = +â et que K est fermĂ© (Lemme 41). Pour l'unicitĂ© de la solutionau problĂšme P , il sut de remarquer que f est strictement convexe (hypothĂšse) etque K est convexe (Lemme 41). Enn, pour l'unicitĂ© de la solution au problĂšmeP il faut montrer que fΔ est strictement convexe. Soient x, y â Rd, t â [0, 1] etxt = (1â t)x+ ty. Alors,
ci(xt) †(1â t)ci(x) + tci(y)
de sorte que
max(ci(xt), 0) †max((1â t)ci(x)+ tci(y), 0) †(1â t) max(ci(x), 0)+ tmax(ci(y), 0).
Ainsi, en utilisant la convexitĂ© de r â R 7â r2, on a
max(ci(xt), 0)2 †[(1â t) max(ci(x), 0) + tmax(ci(y), 0)]2
†(1â t) max(ci(x), 0)2 + tmax(ci(y), 0)2
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 38
On en dĂ©duit que les fonctions x 7â max(ci(x), 0)2 sont convexes, et fΔ est doncstrictement convexe comme combinaison linĂ©aire Ă coecients positifs de fonctionsconvexes et d'une fonction strictement convexe.
(ii) Soit xâ â K le minimiseur de P . Alors, comme ci(xâ) †0, on a
PΔ †fΔ(xâ) = f(xâ) +1
Δ
âi=1
max(ci(xâ), 0)2 = f(xâ) = P.
Ainsi,
PΔ = f(xâΔ) +1
Δ
â1â€iâ€`
max(ci(xâΔ), 0)2 †P.
Comme limâxââ+â f(x) = +â, la fonction f est minorĂ©e, par exemple f â„ m â R.On dĂ©duit donc que
âi â 1, . . . , `, 1
Δmax(ci(x
âΔ), 0)2 †1
Δ
â1â€jâ€`
max(cj(xâΔ), 0)2 †P â f(xâΔ) †P âm,
ou encoremax(ci(x
âΔ), 0)2 †Δ(P âm).
Soit x une valeur d'adhĂ©rence de la suite xâΔ lorsque Δâ 0. Alors, par continuitĂ©,
max(ci(x), 0)2 †0,
ce qui montre que x â K. De plus, pour tout Δ > 0,
f(xΔ) †PΔ †P,
de sorte que f(x) †P . On en dĂ©duit que x minimise f sur K, soit x = xâ. Pourconclure, on remarque que la suite (xâΔ) est bornĂ©e et admet une unique valeur d'adhĂ©-rence, de sorte que limΔâ0 x
âΔ = xâ.
Lemme 43. Soit p : t â R 7â max(t, 0)2. Alors p â C1(R) et pâČ(t) = 2 max(t, 0)
DĂ©monstration. Comme p(t) = O(t2), p est diĂ©rentiable en zĂ©ro et pâČ(0) = 0.D'autre part, sur Râ+, p(t) = t2 et pâČ(t) = 2t, et sur Rââ, p(t) = 0, soit pâČ(t) = 0.Ainsi,
pâČ(t) =
0 si t < 0
0 si t = 0
2t si t > 0
Ainsi, pâČ(t) est continue et p(t) = 2 max(t, 0).
Proposition 44. Supposons que f â C1(Rd) est strictement convexe. Alors,
xâΔ â arg minRd
fΔ ââ âf(xâΔ) +2
Δ
âi=1
max(ci(xâΔ), 0)âci(xâΔ) = 0. (7.1)
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 39
DĂ©monstration. Nous avons dĂ©jĂ dĂ©montrĂ© que fΔ est strictement convexe, et fΔ âC1(Rd) par le lemme prĂ©cĂ©dente, de sorte que par caractĂ©risation de l'optimalitĂ© dansle problĂšme d'optimisation sans contrainte PΔ,
xâΔ â arg minRd
fΔ ââ âfΔ(xâΔ) = 0.
D'autre part, en utilisant la fonction p introduite dans le lemme précédent on peutécrire
fΔ(x) = f(x) +1
Δ
â1â€iâ€`
p(ci(x)),
soit
âfΔ(x) = âf(x) +2
Δ
â1â€iâ€`
pâČ(ci(x))âci(x).
= âf(x) +2
Δ
âi=1
max(ci(x), 0)âci(x)
On en déduit l'équivalence annoncée.
7.2 ThéorÚme de Karush-Kush-Tucker
L'objet du reste de ce chapitre est d'énoncer et de démontrer le théorÚme deKarush-Kush-Tucker. Ce théorÚme permet de donner une condition nécessaire etsusante d'optimalité pour les problÚmes d'optimisation avec contraintes d'inégalité.
ThĂ©orĂšme 45 (Karush-Kush-Tucker). Soient f, ci : Rd â R vĂ©riant : f â C1(Rd) convexe ; ci(x) = ăai|xă â bi pour âi â 1, . . . , ` ;
et soitK = x â Rd | âi â 1, . . . , `, ci(x) †0.
Alors,
xâ â arg minK
f ââ âλ â R` t.q.
ââf(xâ) =
â`i=1 λiâci(xâ)
xâ â Kλi â„ 0 âi â 1, . . . , `λici(x
â) = 0 âi â 1, . . . , `
Remarque 20. Par analogie avec le théorÚme des extrémas liés, le vecteur λ appa-raissant dans ce théorÚme est souvent appelé multiplicateur de Lagrange.
Remarque 21. Les quatres conditions apparaissant dans ce thĂ©orĂšme ont un nom : la premiĂšre condition (ââf(xâ) = . . .) est appelĂ©e condition d'Ă©quilibre ; la deuxiĂšme (xâ â K) est l'admissibilitĂ© du point x ; la troisiĂšme (λi â„ 0) est l'admissibilitĂ© du multiplicateur de Lagrange λ ; et la quatriĂšme (λici(x)) est la condition de complĂ©mentaritĂ©.
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 40
Il est important de n'oublier aucune de ces quatre conditions lorsqu'on applique lethéorÚme de Karush-Kuhn-Tucker (souvent abrégé KKT).
Nous commençons pas démontrer le sens direct de ce théorÚme, en utilisant laméthode de pénalisation, et plus précisément en passant à la limite dans l'équationd'optimalité du problÚme pénalisé (7.1).
DĂ©monstration du sens direct (=â) du thĂ©orĂšme 45. Soit xâ un minimiseur de f surK. On commence la dĂ©monstration en supposant que f est strictement convexe, eton montrera comment en dĂ©duire le cas gĂ©nĂ©ral. Soit ΔN = 1
N et xâN := xâΔN leminimiseur du problĂšme pĂ©nalisĂ© PΔN :
xâN â arg minxâRd
f(x) +1
Δ
âi=1
max(ci(x), 0)2.
Par la condition d'optimalitĂ© (7.1) pour le problĂšme PΔN , xâN vĂ©rie
âf(xâN ) +2
ΔN
âi=1
max(ci(xâN ), 0)âci(xâN ) = 0.
Soit I l'ensemble des i â 1, . . . , ` tels que ci(xâ) < 0. Par la proposition 42, xâNconverge vers xâ, de sorte qu'il existe N0 tel que
âN â„ N0, âi â I, ci(xâN ) < 0.
Ainsi, pour N â„ N0, et en utilisant âci(xâN ) = ai (car ci(x) = ăx|aiă â bi),
ââf(xâN ) =2
ΔN
âi=1
max(ci(xâN ), 0)âci(xâN )
=2
ΔN
âi 6âI
max(ci(xâN ), 0)ai
â C
oĂč C est l'ensemble des combinaisons linĂ©aires Ă coecients positifs des (ai)i 6âI , quel'on peut Ă©crire
C :=
â1â€iâ€N
λiai | λ â R`+ tq âi â I, λi = 0
.
Comme l'ensemble C est fermĂ© (lemme 46), en utilisant la continuitĂ© de âf (f âC1(Rd)) et limNâ+â x
âN = xN , on en dĂ©duit que
ââf(xâ) â C.
Ainsi, il existe λ â RN+ tel que
ââf(xâ) =âi
λiai =âi
λiâci(xâ),
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 41
qui par dĂ©nition de l'ensemble C vĂ©rie en outre âi â I, λi = 0. Ainsi, si i â I,ci(x
â)λi = 0, et si i 6â I, ci(xâ) = 0 et on a aussi ci(xâ)λi = 0.Pour nir, nous avions supposĂ© que la fonction f Ă©tait strictement convexe. Si
ça n'est pas le cas, on remplace f par f(x) = f(x) + âxâ xââ2. La fonction f eststrictement convexe (somme de convexe et strictement convexe) et a aussi xâ pourminimiseur. On peut donc lui appliquer la dĂ©monstration prĂ©cĂ©dente : il existe λ â R`vĂ©riant
ââf(xâ) =â
1â€iâ€` λiâci(xâ)xâ â Kλi â„ 0 âi â 1, . . . , `λici(x) = 0 âi â 1, . . . , `.
Pour conclure, il sut de remarquer que âf(xâ) = âf(xâ).
Lemme 46. Soit a1, . . . , a` â Rd et I â 1, . . . , `. Alors l'ensemble C dĂ©ni ci-dessous est fermĂ© :
C :=
â1â€iâ€N
λiai | λ â R`+ tq âi â I, λi = 0
.
DĂ©monstration. Admis.
DĂ©monstration du sens indirect (â=) du thĂ©orĂšme 45. Soit xâ â Rd et λ â R` vĂ©ri-ant les quatre conditions du thĂ©orĂšmes. Comme la fonction f est convexe,
âx â Rd, f(x) â„ f(xâ) + ăxâ xâ|âf(xâ)ă
= f(xâ)ââi=1
λiăxâ xâ|âci(xâ)ă,(7.2)
oĂč l'on a utilisĂ© la condition d'Ă©quilibre (ââf(xâ) = ...) pour obtenir l'Ă©galitĂ© de ladeuxiĂšme ligne. Comme la contrainte ci est convexe (car ci(x) = ăx|aiă â bi), on a
âx â Rd, ci(x) â„ ci(xâ) + ăxâ xâ|âci(xâ)ă,
soitâx â Rd, âăxâ xâ|âci(xâ)ă â„ ci(xâ)â ci(x), (7.3)
En combinant les inégalités (7.2) et (7.3), et en utilisant à nouveau la conditiond'admissibilité de λ (λi ℠0), on en déduit
âx â Rd, f(x) â„ f(xâ) +âi=1
λi(ci(xâ)â ci(x)).
Par la condition de complĂ©mentaritĂ© (λici(xâ) = 0), on a
âx â Rd, f(x) â„ f(xâ)ââi=1
λici(x).
CHAPITRE 7. OPTIMISATION AVEC CONTRAINTES D'INĂGALITĂS 42
Si x â K, alors ci(x) †0. En combinant avec la condition d'admissibilitĂ© de λ(λi â„ 0), on obtient λici(x) †0, ce qui donne nalement
âx â K, f(x) â„ f(xâ).
Le point xâ est dans K (par la condition d'admissibilitĂ©) et f(xâ) †f(x) pour toutautre x â K : ceci montre bien que xâ â arg minK f .
Chapitre 8
Dualité lagrangienne
Motivation : calcul des multiplicateurs de Lagrange
à nouveau on s'intéresse à un problÚme d'optimisation sous contraintes :
P := minxâK
f(x) avec K = x â Rd | âi â 1, . . . , `, ci(x) †0, (8.1)
oĂč(i) f â C1(Rd) est une fonction convexe,(ii) ci(x) = ăx|aiă â biLa proposition suivante montre que si l'on connait les multiplicateurs de Lagrange
(le vecteur λ â R` dont l'existence est garantie par le thĂ©orĂšme de Karush-Kuhn-Tucker, thĂ©orĂšme 45) alors il est possible de transformer le problĂšme d'optimisationavec contraintes d'inĂ©galitĂ©s (8.1) en un problĂšme d'optimisation sans contraintes !
Proposition 47. Soit xâ un minimiseur de (8.1) et λ â R` les multiplicateursde Lagrange donnĂ©s par le thĂ©orĂšme KKT (thĂ©orĂšme 45). Alors,
xâ â arg minRd
fλ oĂč fλ = f +â
1â€iâ€`λici. (8.2)
DĂ©monstration. Les hypothĂšses du thĂ©orĂšme KKT sont vĂ©riĂ©es, et il existe doncλ â R` vĂ©riant, parmi d'autres conditions,
ââf(xâ) =â
1â€iâ€` λiâci(xâ),âi, λi â„ 0
Posons fλ = f +â
1â€iâ€` λici. Comme λi â„ 0, fλ est une combinaison linĂ©aire Ă coecients positifs de fonctions convexes et est donc convexe. La condition d'Ă©quilibres'Ă©crit :
âfλ(xâ) = 0.
Comme fλ est convexe, cette condition garantit que xâ la minimise sur Rd.
43
CHAPITRE 8. DUALITĂ LAGRANGIENNE 44
Une question trÚs naturelle est alors celle de trouver (en pratique !) ces multipli-cateurs de Lagrange λ. Dans ce chapitre, nous verrons qu'ils sont eux aussi solutionsd'un problÚme d'optimisation dual. En conséquence, on verra l'algorithme d'Uzawa,un algorithme simple à mettre en ÷uvre et assez général pour l'optimisation aveccontraintes d'inégalités.
8.1 ProblÚme dual et dualité faible
On considĂšre la fonction suivante
L : (x, λ) â Rd Ă R` 7â f(x) +â
1â€iâ€`λici(x). (8.3)
La proposition suivante montre que le problĂšme d'optimisation sous contraintes (8.1)peut ĂȘtre rĂ©Ă©crit comme la recherche d'un point selle de la fonction L, c'est-Ă -direl'inmum en x â Rd du suprĂ©mum en λ â R`+ de L.
Proposition 48 (Formulation point selle). Soit f, c1, . . . , c` des fonctions quel-conques sur Rd, K = x | âi â 1, . . . , `, ci(x) †0 et L dĂ©ni par (8.3). Alors
P = infxâK
f(x) = infxâRd
supλâR`+
L(x, λ). (8.4)
DĂ©monstration. Montrons d'abord que
supλiâR+
λici(x) =
0 si ci(x) †0,
+â sinon.(8.5)
En eet, si ci(x) †0, alors pour tout λi ℠0, λici(x) †0 avec égalité lorsque λi = 0,ainsi,
supλiâR+
λici(x) = 0.
Si en revanche, ci(x) > 0, alors
supλiâR+
λici(x) â„ limnâN
nci(x) = +â.
On déduit de l'équation (8.5) que
supλâR`+
â1â€iâ€`
λici(x) =â
1â€iâ€`supλiâR+
λici(x)
=
+â si âi â 1, . . . , `, tq ci(x) > 0
0 si âi, ci(x) †0
=
+â si x 6â K0 si x â K.
CHAPITRE 8. DUALITĂ LAGRANGIENNE 45
On s'en suit que
supλâR`+
L(x, λ) =
+â si x 6â Kf(x) si x â K,
soitinfxâRd
supλâR`+
L(x, λ) = infxâK
f(x)
Dénition 19 (ProblÚme dual). On appelle problÚme dual associé au problÚmed'optimisation avec contraintes d'inégalités (8.4) le problÚme de point selle
D := supλâRd+
infxâRd
L(x, λ). (8.6)
Remarque 22. Pour passer de la formulation point-selle du problÚme primal (8.4)au problÚme dual (8.6), on a simplement inversé l'inmum et le suprémum.
Exemple 14 (Exemple de calcul du problĂšme dual). On considĂšre f(x) = 12 âxâ
2 surRd et ci(x) = ăai|xă â bi pour i â 1, . . . , ` et on pose
L(x, λ) = âxâ2 +â
1â€iâ€`λi(ăai|xă â vi).
Notons A âM`,d(R) la matrice dont la iĂšme ligne est le vecteur ai et b = (b1, . . . , b`).Alors, (Axâ v)i = ăai|xă â bi de sorte queâ
1â€iâ€`λi(ăai|xă â bi) = ăλ|Axâ bă,
soitL(x, λ) = âxâ2 + ăλ|Axâ bă.
Le problĂšme dual s'Ă©critD := sup
λâRd+infxâRd
L(x, λ).
La fonction fλ : x 7â L(x, λ) est convexe, et âfλ(x) = x + ATλ, de sorte que leminimiseur de infxâRd L(x, λ) = infxâRd fλ(x) est atteint en un point xλ vĂ©riant
âfλ(xλ) = 0ââ xλ +ATλ = 0,
soit xλ = âATλ. Ainsi,
infxâRd
L(x, λ) = infxâRd
fλ(x) = fλ(xλ)
= f(xλ) + ăλ|Axλ â bă
=1
2
â„â„âATλâ„â„2+ ăλ| âAATλâ bă
= â1
2
â„â„âATλâ„â„2 â ăλ|bă
Ainsi,
D = supλâR`+
infxâRd
L(x, λ) = supλâR`+
â1
2
â„â„âATλâ„â„2 â ăλ|bă.
CHAPITRE 8. DUALITĂ LAGRANGIENNE 46
Remarque 23. Dans l'exemple précédent, le problÚme dual peut avoir beaucoup moinsde variables que le problÚme primal (si ` d). De plus, les contraintes sont beaucoupplus simples, de la forme λi ℠0.
Proposition 49 (DualitĂ© faible). Soit f, c1, . . . , c` des fonctions quelconques surRd, K = x | âi, ci(x) †0 et L dĂ©ni par (8.3). Alors
P â„ D, (8.7)
oĂč P est dĂ©ni par (8.1) et D par (8.6)
Remarque 24. On parle de dualité faible quand on sait montrer que P ℠D et dedualité forte lorsqu'on montrer que P = D. La dualité faible est toujours vraie tandisque la dualité forte demande un peu plus d'hypothÚses.
DĂ©monstration. Soit x â K et λ â R`+. Alors,
infxâK
L(x, λ) †L(x, λ) †supλâR`+
L(x, λ),
soitinfxâK
L(x, λ) †supλâR`+
L(x, λ)
Ainsi, en prenant le suprĂ©mum en λ â R`+ dans le membre de gauche, on a
supλâR`+
infxâK
L(x, λ) †supλâR`+
L(x, λ).
On prend maintenant l'inmum en x â K dans le membre de droite :
supλâR`+
infxâK
L(x, λ) †infxâK
supλâR`+
L(x, λ).
En utilisant l'équation (8.4) et la dénition de D (eq. 8.6) cette inégalité dit exacte-ment que D †P .
8.2 Dualité forte
ThĂ©orĂšme 50 (DualitĂ© forte). Soit f â C1(Rd) une fonction convexe, ci(x) =ăai|xă â bi pour 1 †i †` et K = x â Rd | âi, ci(x) †0. Alors :(i) Si le problĂšme (8.1) admet un minimiseur xâ, alors P = D (oĂč D est dĂ©nit
dans (8.6)) et le maximum dans D est atteint.(ii) Si le problĂšme (8.1) admet un minimiseur xâ et que λâ est n'importe quel
maximiseur du problĂšme dual (c'est-Ă -dire λâ â arg maxR+ g avec g(λ) =infxâRd L(x, λ)), alors xâ est minimiseur du problĂšme d'optimisation sans contrainte
xâ â arg minxâRd
L(x, λ).
CHAPITRE 8. DUALITĂ LAGRANGIENNE 47
DĂ©monstration. (i) Si xâ est minimiseur de f sur K (i.e. P = f(xâ)), on est dansles conditions d'application du thĂ©orĂšme KKT. Ainsi, il existe λ â R` vĂ©riant lesquatre conditions.
ââf(xâ) =â
1â€iâ€` λiâci(xâ)xâ â Kλi â„ 0 âi â 1, . . . , `λici(x) = 0 âi â 1, . . . , `
La condition d'Ă©quilibre peut se mettre sous la forme
âfλ(xâ) = âf(xâ) +â
1â€iâ€`λiâci(xâ) = 0,
oĂč fλ = L(·, λ) = f +â
1â€iâ€` λici. La fonction fλ est convexe comme combinaisonlinĂ©aire Ă coecients positifs de fonctions convexes, et comme âfλ(xâ) = 0, on endĂ©duit donc que xâ â arg minRd fλ. Ainsi,
D = supλâR`+
infxâRd
L(x, λ)
â„ infxâRd
L(x, λ)
= fλ(xâ)
= f(xâ) +â
1â€iâ€`λici(x
â)
= f(xâ),
oĂč l'on a utilisĂ© la condition de complĂ©mentaritĂ© λici(xâ) = 0 pour obtenir la derniĂšreĂ©galitĂ©. Ainsi D â„ f(xâ) = P . Comme de plus on sait que D †P (Proposition 49)on en dĂ©duit la dualitĂ© forte D = P .
(ii) Soit xâ â K un minimiseur du problĂšme primal et λâ â R`+ un maximiseurdu problĂšme dual. En utilisant (i), on sait que P = D, de sorte que
f(xâ) = P = D = supλâR`+
infxâRd
L(x, λ)
= infxâRd
L(x, λâ)
†L(xâ, λâ) = f(xâ) +â
1â€iâ€`λâi ci(x
â).
(8.8)
On en dĂ©duit que â1â€iâ€`
λâi ci(xâ) †0.
Comme λâi â„ 0 et ci(xâ) †0, on peut en dĂ©duire queâ1â€iâ€`
λâi ci(xâ) = 0.
CHAPITRE 8. DUALITĂ LAGRANGIENNE 48
Ainsi, la seule inĂ©galitĂ© dans (8.8) doit en fait ĂȘtre une Ă©galitĂ© :
infxâRd
L(x, λâ) = L(xâ, λâ),
ce qui montre que xâ minimise L(·, λâ) = fλâ sur Rd.
8.3 Algorithme d'Uzawa
Notation et hypothĂšses Dans la suite, pour tout x, y â Rd, et on note x †y siet seulement si pour tout i â 1, . . . , d, xi †yi. Soit A â M`,d(R) et b â R`. Pouri â 1, . . . , `, on note ci(x) = ăai|xă â bi oĂč ai est la iĂšme ligne de A, et on pose
K = x â Rd | âi â 1, . . . , d, ci(x) †0 = x â Rd | Ax †b.
Sous les hypothÚses du théorÚme de dualité forte (ThéorÚme 50), on sait alors que
P = minK
f(x) = minAxâ€b
f(x) = minxâRd
f(x) + ăλâ|Axâ bă,
oĂč λâ â R`+ est un maximiseur du problĂšme dual
D = maxλâR`+
g(λ), g(λ) = infxâRd
L(x, λ), oĂč L(x, λ) = f(x) +â
1â€iâ€dλici(x).
L'algorithme d'Uzawa est alors simplement l'algorithme du gradient projetĂ© pourrĂ©soudre le problĂšme dual D, c'est-Ă -dire maximiser la fonction g sur R`+. Cet algo-rithme peut ĂȘtre mis en Ă·uvre en pratique car on sait projeter sur l'ensemble decontrainte R`+, et qu'il est parfois possible de calculer g et âg explicitement (parexemple lorsque f est par exemple quadratique). Le choix de λ(0) â R`+ peut ĂȘtrearbitraire (typiquement, on prendra λ(0) = 0R`) :
x(k) â arg minxâRd L(x, λ(k))
Îł(k) = âg(λ(k))
λ(k+1) = pR`+(λ(k) + ÏÎł(k))
Remarque 25. Comme on cherche à maximiser la fonction g sur R`+, on fait de lamontée plutÎt que de la descente de gradient.
8.3.1 Algorithme d'Uzawa dans le cas quadratique
à partir de maintenant, on suppose que f est une fonction quadratique. Plusprécisément on suppose qu'il existe une matrice symétrique dénie positive Q etun vecteur e tel que f(x) = 1
2ăx|Qxă + ăe|xă, et on considĂšre donc le problĂšme deminimisation sous contraintes
P = minK
f(x) oĂč f(x) =1
2ăx|Qxă+ ăe|xă et K = x â Rd | Ax †b. (8.9)
CHAPITRE 8. DUALITĂ LAGRANGIENNE 49
Lemme 51. La fonction g(λ) = infxâRd L(x, λ) est concave, etg(λ) = â(
1
2ăxλ|Qxλă+ ăλ|bă
),
âg(λ) = Axλ â b
oĂčxλ = âQâ1(e+ATλ) â arg min
xâRdL(x, λ).
Démonstration. Commençons par calculer la fonction L plus explicitement :
L(x, λ) = f(x) +â
1â€iâ€dλici(x)
= f(x) +â
1â€iâ€dλi(ăai|xă â bi)
= f(x) +â
1â€iâ€dλi(Axâ b)i
=1
2ăx|Qxă+ ăe|xă+ ăλ|Axâ bă
En particulier, on voit que la fonction fλ = L(·, λ) est strictement convexe (sommede la fonction strictement convexe x 7â 1
2ăx|Qxă et de fonctions convexes). Ainsi,elle admet au plus un minimiseur. De plus,
âfλ(x) = Qx+ e+ATλ,
de sorte que le minimiseur de fλ sur Rd est atteint en l'unique point xλ vériant
Qxλ + e+ATλ = 0, i.e. xλ = âQâ1(e+ATλ).
Ainsi,
g(λ) = infxâRd
fλ(x) = fλ(xλ)
=1
2ăxλ|Qxλă+ ăe|xλă+ ăλ|Axλ â bă
=1
2ăxλ|Qxλă+ ăe+Atλ|xλă â ăλ|bă
En utilisant Qxλ + e+ATλ = 0, on trouve
g(λ) = â(
1
2ăxλ|Qxλă+ ăλ|bă
)= â
(1
2ăQâ1(e+ATλ)|QQâ1(e+ATλ)ă+ ăλ|bă
)= â
(1
2ăQâ1(e+ATλ)|e+ATλă+ ăλ|bă
)= â
(1
2ăAQâ1ATλ|λă+ ăAQâ1e|λă+
1
2ăQâ1e|eă+ ăλ|bă
).
CHAPITRE 8. DUALITĂ LAGRANGIENNE 50
On en dĂ©duit d'abord que g est concave : il sut de remarquer que AQâ1AT estsymĂ©trique positive (exercice !). On peut aussi se servir de cette expression pourcalculer le gradient de g :
âg(λ) = âAQâ1ATλâAQâ1eâ b = Axλ â b.
Corollaire 52. L'algorithme d'Uzawa pour le problĂšme de minimisation sous contraintes(8.9) s'Ă©crit de la maniĂšre suivante,
x(k) = âQâ1(e+ATλ(k))
Îł(k) = Ax(k) â bλ(k+1) = max(λ(k) + ÏÎł(k), 0)
(8.10)
8.3.2 Convergence de l'algorithme d'Uzawa
On conclut le cours par la démonstration de convergence de l'algorithme d'Uzawa.
ThĂ©orĂšme 53. Soient (x(k), λ(k)) â Rd Ă R` les itĂ©rĂ©es de l'algorithme d'Uzawa(8.10) pour le problĂšme d'optimisation sous contraintes (8.9). On suppose que
Ï â]0,
2m
âAâ2
[,
oĂč m est la plus petite valeur propre de Q, et âAâ est la norme d'opĂ©rateur de A (i.e.âAâ = maxx 6=0 âAxâ / âxâ). Alors,
limkâ+â
x(k) = xâ,
oĂč xâ est l'unique minimiseur de (8.10).
DĂ©monstration. Le problĂšme primal admet un minimiseur xâ car la fonction f estquadratique (donc continue) avecQ dĂ©nie positive, ce qui garantit que limâxââ+â f(x) =+â. Par le thĂ©orĂšme de dualitĂ© forte (ThĂ©orĂšme 50), on sait que le problĂšme dualadmet aussi un maximiseur λâ, qui n'est pas nĂ©cessairement unique. De plus, commela fonction g â C1(Rd) est concave (Lemme 51), λâ maximise g sur R`+ si et seulementsi (ThĂ©orĂšme 37)
λâ â arg maxR`+
g ââ âÏ > 0, λâ = pR`+(λâ + Ïâg(λâ)).
Le thĂ©orĂšme 50 nous dit aussi que xâ, l'unique minimiseur du problĂšme primal,xâ â arg minK f est caractĂ©risĂ© par xâ â arg minxâRd L(x, λâ). Ainsi, en utilisant lesnotations du Lemme 51, xâ = xλâ , de sorte qu'en utilisant l'expression de âg donnĂ©edans ce mĂȘme lemme, on obtient
âg(λâ) = Axλâ â b = Axâ â b.
CHAPITRE 8. DUALITĂ LAGRANGIENNE 51
Ainsi, λâ maximise g sur R`+ si et seulement si λâ = pR`+(λâ + Ï(Axâ â b)). Ă partir
de maintenant, on note λâ un minimiseur (peu importe lequel) du problĂšme dual. Ona alors, par dĂ©nition de l'algorithme et en utilisant que pR`+
est 1-Lipschitzienne,
â„â„â„λ(k+1) â λââ„â„â„2
=â„â„â„pR`+
(λ(k) â Ï(Ax(k) â b))â pR`+(λâ â Ï(Axâ â b))
â„â„â„2
â€â„â„â„λ(k) â Ï(Ax(k) â b))â (λâ â Ï(Axâ â b))
â„â„â„2
=â„â„â„λ(k) â λâ
â„â„â„2+ Ï2
â„â„â„A(x(k) â xâ)â„â„â„2
+ 2Ïăλ(k) â λâ|A(x(k) â xâ)ă
On rappelle (Lemme 51) que xλ = âQâ1(e+ ATλ), et on s'en sert pour majorer leproduit scalaire :
ăλ(k) â λâ|A(x(k) â xâ)ă = ăAT (λ(k) â λâ)|x(k) â xâă= âăQ(x(k) â xâ)|x(k) â xâă
†âmâ„â„â„x(k) â xâ
â„â„â„2,
oĂč m est la plus petite valeur propre de Q. Ainsi,â„â„â„λ(k+1) â λââ„â„â„2â€â„â„â„λ(k) â λâ
â„â„â„2+ Ï2
â„â„â„A(x(k) â xâ)â„â„â„2
+ 2Ïăλ(k) â λâ|A(x(k) â xâ)ă
â€â„â„â„λ(k) â λâ
â„â„â„2+ (Ï2 âAâ2 â 2Ïm)
â„â„â„x(k) â xââ„â„â„2
â€â„â„â„λ(k) â λâ
â„â„â„2
La derniĂšre inĂ©galitĂ© vient de l'hypothĂšse sur Ï . Ainsi, la suite rk :=â„â„λ(k+1) â λâ
â„â„2
est dĂ©croissante et minorĂ©e (par 0) donc convergente vers une certaine limite râ. Deplus, l'inĂ©galitĂ© du dessus nous donne
(2Ïmâ Ï2 âAâ2)â„â„â„x(k) â xâ
â„â„â„2†rk â rkâ1,
oĂč le second membre tend rââ râ lorsque k â +â. Comme 2Ïmâ Ï2 âAâ2 > 0 parhypothĂšse, on en dĂ©duit que
limkâ+â
â„â„â„x(k) â xââ„â„â„2
= 0
Recommended