5.最优化方法-对偶 1 - Southeast University · 2 对偶 Lagrange对偶问题弱对偶和强对偶⼏何解释最优性条件扰动和灵敏度分析例⼦⼴义不等式

1

东南⼤学计算机&⼈⼯智能学院

宋沫飞 [email protected]

最优化⽅法

2

对偶

❑ Lagrange对偶问题 ❑ 弱对偶和强对偶 ❑ ⼏何解释 ❑ 最优性条件 ❑ 扰动和灵敏度分析 ❑ 例⼦ ❑ ⼴义不等式

3

Lagrangian

3

Lagrangian❑ 标准形式问题（不需要为凸优化）

3


其中，优化变量，定义域为，最优值为

3


其中，优化变量，定义域为，最优值为❑ Lagrangian：

3



其定义域为

3



其定义域为⽬标函数和约束函数的加权和

3



其定义域为⽬标函数和约束函数的加权和为第i个不等式约束的Lagrange乘⼦

3



其定义域为⽬标函数和约束函数的加权和为第i个不等式约束的Lagrange乘⼦为第i个等式约束的Lagrange乘⼦

4

Lagrange对偶函数

4

Lagrange对偶函数❑ Lagrange对偶函数：

4


❑ 函数g为凹函数

4


❑ 函数g为凹函数为凸函数sup L(x, λ, v)

4


❑ 函数g为凹函数为凸函数sup L(x, λ, v)

对某些可为

5


5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有❑ fi(x*) ≤ 0，hi(x*) = 0

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有❑ fi(x*) ≤ 0，hi(x*) = 0❑ 因此，若λ ≥ 0，有

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

❑ ≤ p*

5


❑ 最优值下界：若，则λ ≥ 0 g(λ, v) ≤ p*❑ 证明：若为原问题的最优解，则必可⾏，则有x*❑ ，fi(x*) ≤ 0 hi(x*) = 0❑ 因此，若，有λ ≥ 0

❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

❑ ≤ p*❑ g(λ, v) ≤ p*

6

线性⽅程组的最⼩⼆乘解

6


❑ Lagrangian是

6


❑ Lagrangian是❑ 对偶函数

6


❑ Lagrangian是❑ 对偶函数❑ 为最⼩化关于x的L，令梯度为0:

6



❑ 代⼊L得g：

6



❑ 代⼊L得g：

❑ 为关于的凹函数

6



❑ 代⼊L得g：

❑ 为关于的凹函数❑ 下界性质：

7

标准形式的线性规划

7


❑ Lagrangian为

7


❑ Lagrangian为

❑ 函数L是仿射函数，因此

7


❑ Lagrangian为


❑ 函数g是线性的，为仿射定义域上的凹函数

7


❑ Lagrangian为


❑ 函数g是线性的，为仿射定义域上的凹函数

❑ 下界的性质：

8

双向划分问题

8

双向划分问题

❑ ⾮凸优化问题，可⾏集包含个离散点2n

8

双向划分问题

❑ ⾮凸优化问题，可⾏集包含个离散点2n❑ 对偶函数

8

双向划分问题



8

双向划分问题



❑ 例如：

8

双向划分问题



❑ 例如：❑❑

9

Lagrange对偶和共轭函数

9


❑共轭函数：

10


10


❑ 对偶函数

10


❑ 对偶函数

❑ 若已知共轭函数，可简化对偶函数的表达

10


❑ 对偶函数

❑ 若已知共轭函数，可简化对偶函数的表达❑ 如：熵的最⼤化

11

对偶问题

11

对偶问题

❑ Lagrange对偶问题

11

对偶问题


❑ 通过Lagrange对偶函数获取的最佳下界

11

对偶问题


❑ 通过Lagrange对偶函数获取的最佳下界❑ 凸优化问题，最优值表⽰为

11

对偶问题



❑ 对偶可⾏：和

11

对偶问题



❑ 对偶可⾏：和❑ 最优Lagrange乘⼦：

12

对偶问题

13

对偶问题

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)❑ = (c + ATλ)T x − bTλ

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)❑ = (c + ATλ)T x − bTλ❑ g(λ) = inf

xL(x, λ)

13

对偶问题

❑ ❑

❑

❑

L(x, λ) = cT x + λT(Ax − b)= (c + ATλ)T x − bTλ

g(λ) = infx

L(x, λ)

= {−bTλ if ATλ + c = 0−∞ otherwise

13

对偶问题

14

弱对偶和强对偶

14


❑ 弱对偶：

14


❑ 弱对偶：

对于凸优化和⾮凸优化问题总是满⾜

14


❑ 弱对偶：


可以⽤来寻找困难问题的⾮平凡下界

14


❑ 弱对偶：


可以⽤来寻找困难问题的⾮平凡下界❑ 例：

14


❑ 弱对偶：



求解半定规划问题

14


❑ 弱对偶：



求解半定规划问题

为双向划分问题给出了下界

15


15


❑ 强对偶

15


❑ 强对偶

并⾮总是满⾜

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则❑D的相对内部：

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则❑D的相对内部：

Rel int D = {x ∈ D |B(x, r) ∩ aff D ⊂ D, ∃r > 0}

16

Slater约束准则

16

Slater约束准则

❑ 若某凸优化问题

16

Slater约束准则


当该问题是严格可⾏的，即

16

Slater约束准则



则为强对偶，即满⾜

16

Slater约束准则



则为强对偶，即满⾜❑ 弱化：

16

Slater约束准则



则为强对偶，即满⾜❑ 弱化：

若不等式约束为仿射时，只要可⾏域⾮空，必有

17

线性规划的不等式形式

17


❑ 原问题

17


❑ 原问题

❑ 对偶函数

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则❑ 根据弱化条件，只要原问题和对偶问题可⾏

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则❑ 根据弱化条件，只要原问题和对偶问题可⾏

必有

18


18


❑对偶问题：

18


❑对偶问题：

❑强对偶成⽴

19

QCQP⼆次约束⼆次规划

19


❑ Lagrangian:

19


❑ Lagrangian:

L(x, λ) =12

xTP0x + qT0 x + r0 +m

∑i=1

(12

λixTPix + λiqTi x + λiri)

19


❑ Lagrangian:

L(x, λ) =12


∑i=1

(12


=12

xT(P0 +m

∑i=1

λiPi)x + (q0 +m

∑i=1

λiqi)T x + (r0 +m

∑i=1

λiri)

19


❑ Lagrangian:

L(x, λ) =12


∑i=1

(12


=12

xT(P0 +m

∑i=1

λiPi)x + (q0 +m

∑i=1

λiqi)T x + (r0 +m

∑i=1

λiri)

P(λ) q(λ) r(λ)

20


20


❑对偶函数：

20


❑对偶函数：

❑对偶问题：

20


❑对偶函数：

❑对偶问题：

❑存在x，满⾜

21

⼏何解释

21

⼏何解释

❑ 考虑只含⼀个约束的问题

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}❑ p* = inf{t | (u, t) ∈ G, u ≤ 0}

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}❑ p* = inf{t | (u, t) ∈ G, u ≤ 0}❑ g(λ) = inf{λu + t | (u, t) ∈ G}

21

⼏何解释


u

t

G

21

⼏何解释


u

t

G

21

⼏何解释


u

t

p*

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

g(λ)

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

g(λ) d*

22

⼏何解释

22

⼏何解释

u

t

G

22

⼏何解释

u

t

G

22

⼏何解释

u

t

p*

G

22

⼏何解释

u

t

p* d*

23

经济学解释

23

经济学解释

x：产品数量

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润f0(x)：损失

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润f0(x)：损失p*：最优损失

23

经济学解释


❑假设原材料可买可卖，第i种原材料价格为λi(λi ≥ 0)

23

经济学解释


❑假设原材料可买可卖，第i种原材料价格为λi(λi ≥ 0)

minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

23

经济学解释

：产品数量x：原材料fi(x) ≤ 0：利润−f0(x)：损失f0(x)：最优损失p*

❑假设原材料可买可卖，第种原材料价格为i λi(λi ≥ 0)

minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0❑若 ,λ*i > 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0❑若 ,λ*i > 0

❑则fi(x*) = 0

24

鞍点解释

24

鞍点解释

❑极⼤极⼩不等式：

24

鞍点解释


❑若等式成⽴：

24

鞍点解释



argz,w supz∈Z

infw∈W

f(w, z) = argw,z infw∈W

supz∈Z

f(w, z)

24

鞍点解释



argz,w supz∈Z

infw∈W


supz∈Z

f(w, z)

鞍点：(w̃, z̃) f(w̃, z) ≤ f(w̃, z̃) ≤ f(w, z̃)

24

鞍点解释



argz,w supz∈Z

infw∈W


supz∈Z

f(w, z)

鞍点：(w̃, z̃) f(w̃, z) ≤ f(w̃, z̃) ≤ f(w, z̃)，f(w̃, z̃) = inf

w∈Wf(w, z̃) f(w̃, z̃) = sup

z∈Zf(w̃, z)

25

鞍点解释

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

❑ = infx {f0(x) fi(x) ≤ 0, i = 1,...,m∞ otherwise

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

❑ = infx {f0(x) fi(x) ≤ 0, i = 1,...,m∞ otherwise❑

= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}


= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

❑ ，何时 ?p* ≤ d* p* = d*

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}


= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

❑ ，何时 ?p* ≤ d* p* = d*存在鞍点：L(x, λ) (x*, λ*) inf

xsupλ≥0

L(x, λ) = supλ≥0

infx

L(x, λ)

26

鞍点定理

26

鞍点定理

❑若为的鞍点，等价于(x̃, λ̃) L(x, λ)

26

鞍点定理

❑若为的鞍点，等价于(x̃, λ̃) L(x, λ)强对偶存在，为原问题和对偶问题最优解x̃, λ̃

26

鞍点定理


❑ 证明：→

26

鞍点定理


❑ 证明：→存在鞍点，则对偶间隙为零inf

xsupλ≥0


infx

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)

(x̃, λ̃) = argx,λ infx

supλ≥0

L(x, λ) = argx,λ supλ≥0

infx

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)


supλ≥0


infx

L(x, λ)

x̃ = argx infx

supλ≥0

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)


supλ≥0


infx

L(x, λ)

x̃ = argx infx

supλ≥0

L(x, λ)

λ̃ = argλ supλ≥0

infx

L(x, λ)

27

鞍点定理

27

鞍点定理

❑ 证明：←

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

❑f0(x̃) = f0(x̃) +

m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

❑f0(x̃) = f0(x̃) +

m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

❑ f0(x̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑supλ≥0

L(x̃, λ) = supλ≥0

{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑supλ≥0


{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

❑ supλ≥0

L(x̃, λ) ≥ L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

❑

❑

infx

L(x, λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

supλ≥0


{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

supλ≥0

L(x̃, λ) ≥ L(x̃, λ̃)

supλ≥0

L(x̃, λ) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0❑ 若 ,λ̃i > 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0❑ 若 ,λ̃i > 0

则fi(x̃) = 0

29

互补松弛性

29

互补松弛性

❑对偶函数：g(λ, v) = inf

x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

❑ 对偶问题：max g(λ, v) s.t. λ ≥ 0

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

❑ 对偶问题：max g(λ, v) s.t. λ ≥ 0❑ 若且所有函数均可微，则最优解须满⾜p* = d* x*, λ*, v*

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0❑ fi(x*) > 0 → λi = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0❑ fi(x*) > 0 → λi = 0

❑互补松弛

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

31

互补松弛性

❑对偶函数：

❑ 对偶问题： ❑ 若且所有函数均可微，则最优解须满⾜

g(λ, v) = infx

{f0(x) +m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

max g(λ, v) s.t. λ ≥ 0p* = d* x*, λ*, v*fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

31

互补松弛性

❑对偶函数：

❑ 对偶问题： ❑ 若且所有函数均可微，则最优解须满⾜

g(λ, v) = infx

{f0(x) +m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

max g(λ, v) s.t. λ ≥ 0p* = d* x*, λ*, v*fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

即∇f0(x*) +m

∑i=1

λ*i ∇fi(x*) +p

∑i=1

v*i ∇hi(x*) = 0

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

即∇f0(x*) +m

∑i=1

λ*i ∇fi(x*) +p

∑i=1

v*i ∇hi(x*) = 0

❑ 稳定性条件

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

33

KKT条件

33

KKT条件❑ ⼀般可微优化问题，对偶间隙为0须满⾜KKT条件

33

KKT条件❑ ⼀般可微优化问题，对偶间隙为0须满⾜KKT条件❑ Karush-Kuhn-Tucker（KKT）条件包含如下四个条件：

33


原始可⾏性：

33


原始可⾏性：

对偶可⾏性：

33


原始可⾏性：

对偶可⾏性：

互补松弛性：

33


原始可⾏性：

对偶可⾏性：

互补松弛性：

Lagrangian梯度的定常⽅程式（稳定性条件）：

34

凸问题的KKT条件

34


❑ 若满⾜凸问题的KKT条件，则是最优解x̃, λ̃, ṽ

34


❑ 若满⾜凸问题的KKT条件，则是最优解x̃, λ̃, ṽKKT条件为可微凸问题对偶间隙为0的充要条件

34



❑ 证明：

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0

为凸函数L(x, λ̃, ṽ) = f0(x) +m

∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)

，则为极⼩值点∂L(x, λ̃, ṽ)

∂x|x=x̃ = 0 x̃

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)


∂x|x=x̃ = 0 x̃

g(λ̃, ṽ) = infx

L(x, λ̃, ṽ) = L(x̃, λ̃, ṽ)

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)


∂x|x=x̃ = 0 x̃

g(λ̃, ṽ) = infx

L(x, λ̃, ṽ) = L(x̃, λ̃, ṽ)

= f0(x̃) +m

∑i=1

λ̃i fi(x̃) +p

∑i=1

ṽihi(x̃) = f0(x̃)

35

例

35

例

❑min

12

xTPx + qT x + r, P ∈ Sn+

s.t. Ax = b

35

例

❑min

12


s.t. Ax = b❑ KKT条件：

35

例

❑min

12



Ax* = b

35

例

❑min

12



Ax* = b∂∂x

{12

xTPx + qT x + r + (Ax − b)Tv*} |x=x* = 0

⟺ Px* + q + ATv* = 0

35

例

❑min

12



Ax* = b∂∂x

{12

xTPx + qT x + r + (Ax − b)Tv*} |x=x* = 0

⟺ Px* + q + ATv* = 0

❑ [P ATA 0 ] [x*v*] = [−qb ]

36

例：注⽔

36

例：注⽔

❑ KKT条件

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

x* ≥ 0, 1T x* = 1

37

例

37

例

❑ min f0(x) s.t. x ≥ 0

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

❑ KKT条件

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

❑ KKT条件

❑

x* ≥ 0λ* ≥ 0

λ*i (−x*i ) = 0∇f0(x*) + (−λ*) = 0

38

对偶及问题重形式化

38


❑ 某⼀问题的等价形式可产⽣⾮常不同的对偶

38


❑ 某⼀问题的等价形式可产⽣⾮常不同的对偶❑ 当对偶问题很难求解，重形式化原问题是⼀种

有效的办法

38



有效的办法❑ 常⽤的形式化

38




引⼊新的变量以及相应的等式约束

38





将显式约束隐式表达，反之亦然

38





将显式约束隐式表达，反之亦然

变换⽬标或约束函数变换

39

引⼊新变量和等式约束

39


❑ 对偶函数为常函数：

39


❑ 对偶函数为常函数：❑ 对偶问题：max p*

39



有对偶性，但⽆意义

39



有对偶性，但⽆意义❑ 重形式化问题和对偶

39



有对偶性，但⽆意义❑ 重形式化问题和对偶

❑ 对偶函数

40

范数逼近问题

40

范数逼近问题

❑ 对偶问题为

40

范数逼近问题

❑ 对偶问题为

❑ 范数逼近问题的对偶：

41

隐式约束

41

隐式约束

❑ 带框约束的线性规划

41

隐式约束


❑ 将框约束隐式表达

41

隐式约束


❑ 将框约束隐式表达

❑ 对偶函数及对偶问题：

42

扰动及灵敏度分析

42


❑ 优化问题及其对偶问题

42



❑ 扰动问题及其对偶

42




❑ x是原问题优化变量，u，v为参数

42




❑ x是原问题优化变量，u，v为参数❑ 为最优值，为u和v的函数

43

扰动问题的性质

43


❑若原问题为凸，则为的凸函数p*(u, v) (u, v)

43


❑若原问题为凸，则为的凸函数p*(u, v) (u, v)❑证明：

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

❑ g(x, u, v) = f0(x), dom g = dom f0 ∩ D

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

❑ g(x, u, v) = f0(x), dom g = dom f0 ∩ DD = {x | fi(x) ≤ 0,hi(x) = 0}

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)


为凸集dom g

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)


为凸集dom g为的凸函数(x, u, v)

44


44


❑若原问题为凸，且对偶间隙为零，λ*, w*为原问题对偶最优解，则

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解❑ 则fi(x̃) ≤ ui, hi(x̃) = vi

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解❑ 则fi(x̃) ≤ ui, hi(x̃) = vi❑ p*(0,0) = g(λ*, w*)

44




❑≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

44




❑≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

❑ ≤ f0(x̃) + λ*Tu + w*Tv

44


❑若原问题为凸，且对偶间隙为零，为原问题对偶最优解，则

λ*, w*

p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设为⼲扰问题的最优解x̃❑ 则fi(x̃) ≤ ui, hi(x̃) = vi❑ p*(0,0) = g(λ*, w*)

❑ ≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

❑ ≤ f0(x̃) + λ*Tu + w*Tv❑ = p*(u, v) + λ*Tu + w*Tv

45

灵敏度分析

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

❑若⽐较⼤：若我们加强约束，最优值⼤幅增加λ*i i{ui < 0} p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv


❑若⽐较⼩：若我们放松约束，最优值不会减⼩

太多

λ*i i{ui > 0} p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*

❑若较⼤且为正，我们选择，最优值必然⼤幅增加w*i vi < 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*


❑若较⼤且为负，我们选择，最优值必然⼤幅增加w*i vi > 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*



❑若较⼩且为正，我们选择，最优值不会减⼩太多w*i vi > 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*



❑若较⼩且为正，我们选择，最优值不会减⼩太多w*i vi > 0 p*

❑若较⼩且为负，我们选择，最优值不会减⼩太多 w*i vi < 0 p*

46

局部灵敏度分析

46


❑ 若原问题为凸且强对偶，在在可微，则有p*(u, v) (0,0)

46



❑ 证明：根据全局灵敏度分析结果

46




❑ 若仅有⼀个不等式约束，

46




❑ 若仅有⼀个不等式约束，❑ 最优值的图像：p*(u)

47

基于⼴义不等式的问题

47


❑ 定义和标量形式是⼀致的

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量❑ Lagrangian函数

为

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量❑ Lagrangian函数

为

❑ 对偶函数

48

下界性质

48

下界性质

❑ 若，则

48

下界性质

❑ 若，则❑ 证明：若为可⾏的，且，则有

48

下界性质


❑ 对所有可⾏解，为最优值，有

48

下界性质


❑ 对所有可⾏解，为最优值，有❑ 对偶问题

48

下界性质


❑ 对所有可⾏解，为最优值，有❑ 对偶问题

❑ 弱对偶：，强对偶：

49

半定规划

49

半定规划

❑ 原问题

49

半定规划

❑ 原问题

❑ Lagrange乘⼦为矩阵

49

半定规划

❑ 原问题

❑ Lagrange乘⼦为矩阵❑ Lagrangian函数

49

半定规划

❑ 原问题


❑ 对偶函数

49

半定规划

❑ 原问题


❑ 对偶函数

❑ 半定规划的对偶

49

半定规划

❑ 原问题


❑ 对偶函数

❑ 半定规划的对偶

❑ 若半定规划是严格可⾏的，则

Documents

5.最优化方法-对偶 1 - Southeast University · 2 对偶 Lagrange对偶问题 弱对偶和强对偶 ⼏何解释 最优性条件 扰动和灵敏度分析 例⼦ ⼴义不等式

5.最优化方法-对偶 1 - Southeast University · 2 对偶 Lagrange对偶问题弱对偶和强对偶⼏何解释最优性条件扰动和灵敏度分析例⼦⼴义不等式