The Design of Online Learning Algorithms fileThe Design of Online Learning Algorithms Wouter M....

The Design of Online Learning Algorithms

Wouter M. Koolen

Online Learning WorkshopParis, Friday 20th October, 2017

Conclusion

A simple factor (1 + ηrt) stretches surprisingly far.

Outline

1 Coin Betting

2 Defensive Forecasting

3 Squint

4 MetaGrad

Coin Betting

K0 = 1.For t = 1, 2, . . .

Skeptic picks Mt ∈ RReality picks rt ∈ [−1, 1]

Kt = Kt−1 + Mtrt

Pick an event E .Skeptic wins if

1 Kt ≥ 0

2 r1r2 · · · ∈ E or Kt →∞.

Say: Skeptic can force E .

Coin Betting

K0 = 1.For t = 1, 2, . . .

Skeptic picks Mt ∈ RReality picks rt ∈ [−1, 1]

Kt = Kt−1 + Mtrt

Pick an event E .Skeptic wins if

1 Kt ≥ 0

2 r1r2 · · · ∈ E or Kt →∞.

Say: Skeptic can force E .

Forcing The Law of Large Numbers

Fix η ∈ [0, 1/2]. Suppose Skeptic plays Mt = Kt−1η.Then

KT = KT−1 +KT−1ηrT = KT−1(1 + ηrT ) =T∏t=1

(1 + ηrt)

Now say C ≥ KT . Then, using ln(1 + x) ≥ x − x2,

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

rt − η and so η ≥ lim supT→∞

T∑t=1

(1 + ηrt)

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

(1 + ηrt)

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

Forcing The Law of Large NumbersFinally, let Skeptic allocate a fraction γi of his initial K0 = 1 to ηi .Then

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

Now suppose C ≥ KT . Then for each i :

lnC ≥ ln γi +T∑t=1

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

What else

Skeptic can force many laws of probability. For example the LIL

lim supT→∞

∑Tt=1 rt√

2T ln lnT≤ 1

Small deviations?

What else

Skeptic can force many laws of probability. For example the LIL

lim supT→∞

∑Tt=1 rt√

2T ln lnT≤ 1

Small deviations?

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Experts

Let’s play the experts game.

Learner picks wt ∈ 4K

Reality picks `t ∈ [0, 1]K

Learner incurs 〈wt , `t〉

Goal: make sure regret compared to any expert k is sublinear.

lim supT→∞

T∑t=1

rkt ≤ 0 where rkt = 〈wt , `t〉 − `kt

Key idea: Defensive Forecasting

1 Fix a strategy for Skeptic that forces this goal.

2 Play wt so that Skeptic does not get rich

Experts

lim supT→∞

T∑t=1

Experts

lim supT→∞

T∑t=1

StategyStragegy for Skeptic:Split capital K0 = 1 over experts k with weights πk and ηi with γi .

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

How to play? Make sure KT does not grow big.

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

t=1(1 + ηi rjt )ηi

(iProd)

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Squint

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

Needs work:

Rates (how sublinear are the regrets?)

Computation

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

So for each i and k,

− lnπk − ln γi ≥T∑t=1

ln(1 + ηi rkt ) ≥ ηi

T∑t=1

rkt − η2iT∑t=1

(rkt )2

That is, abbreviating vkt = (rkt )2,

T∑t=1

rkt ≤ mini

T∑t=1

vkt +− lnπk − ln γi

Theorem (Koolen and van Erven [2015])

RkT ≤ O

(√V kT

(− lnπk + ln lnV k

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?

Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

One choice of weights to keep this small:

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Maybe a continuous prior on η could help? How to make∫ 1/2

0γ(η)eηR

kT−η

2V kT η dη

Conjugate γ(η) ∝ e−aη−bη2. ⇒ Truncated Guassian mean.

Improper γ(η) ∝ 1η . ⇒ Gaussian CDF.

RkT ≤ O

(√V kT (− lnπk + ln lnT )

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Squint Conclusion

Computation:

O(1) time per round (like Hedge, Adapt-ML-Prod, . . . )

Library: https://bitbucket.org/wmkoolen/squint

Regret:

Adaptive√V kT (lnK + ln lnT ) bound.

Implies L∗ bound, T bound.

Constant regret in stochastic gap case.

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Online Convex Optimisation

Let’s play the OCO game.For t = 1, 2, . . .

Learner plays wt ∈ U (convex, bounded).

Reality picks ft : U → R (convex, bounded gradient)

Learner incurs f (wt) and observes ∇ft(wt)

Goal: small regret w.r.t. all u ∈ U

T∑t=1

(ft(wt)− ft(u))

Step 1: let’s play a harder game with linearised loss

ft(wt)− ft(u) ≤ 〈wt − u,∇ft(wt)〉 =: rut

T∑t=1

(ft(wt)− ft(u))

T∑t=1

(ft(wt)− ft(u))

iProd/Squint for OCOGoal: keep regret small for all u ∈ U ⇒ prior π on u.

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

Kan we keep this small?

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η 〈wT+1 − u,∇fT+1(wT+1)〉 du dη

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

∏Tt=1(1 + ηrut )ηu du dη∫ 1/2

0 γ(η)∫U π(u)

∏Tt=1(1 + ηrut )η du dη

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

OCO iProd:

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

Work needed:

Picking priors

Computation

Prod bound to the rescue

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

2VuT ηu du dη∫ 1/2

0 γ(η)∫U π(u)eηR

uT−η2V

uT η du dη

T∑t=1

〈wt − u,∇ft(wt)〉

V uT =

T∑t=1

〈wt − u,∇ft(wt)〉2

linear/quadratic in u. ⇒ suggests π(u) multivariate Normal.

But then wt may end up outside U . And rut not bounded.

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

uT−η2V

uT η du dη

T∑t=1

V uT =

T∑t=1

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

uT−η2V

uT η du dη

T∑t=1

V uT =

T∑t=1

MetaGrad

Let’s do it anyway. Turns out it works.

∑i γiηiwi∑i γiηi

γi ← γie−ηi ri−η2i r

whereri = (wi − w)>∇ft

Tilted Exponential Weights

Σi ← (Σ−1i + 2η2i∇ft∇f >t )−1

wi ← ΠU (wi − ηiΣi∇ft (1 + 2ηi ri ))

≈ Online Newton Step

Theorem

The regret of MetaGrad is bounded by

RT = O

{√T ,√V u∗T d lnT

MetaGrad

Let’s do it anyway. Turns out it works.

∑i γiηiwi∑i γiηi

γi ← γie−ηi ri−η2i r

whereri = (wi − w)>∇ft

Tilted Exponential Weights

Σi ← (Σ−1i + 2η2i∇ft∇f >t )−1

wi ← ΠU (wi − ηiΣi∇ft (1 + 2ηi ri ))

≈ Online Newton Step

Theorem

The regret of MetaGrad is bounded by

RT = O

{√T ,√V u∗T d lnT

Consequences

What’s new with√VTd lnT?

Corollary

For α-exp-concave or α-strongly convex losses, MetaGradensures

RT = O (d lnT )

without knowing α.

Corollary (Koolen, Grunwald, and van Erven [2016])

For any β-Bernstein P, MetaGrad keeps the expected regret below

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

)without knowing β.

Consequences

Corollary

RT = O (d lnT )

without knowing α.

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

Consequences

Corollary

RT = O (d lnT )

without knowing α.

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

Conclusion

A simple factor (1 + ηrt) stretches surprisingly far.

The Design of Online Learning Algorithms fileThe Design of Online Learning Algorithms Wouter M....

Documents

Online Learning with Experts & Multiplicative Weights ... · Online Learning with Experts & Multiplicative Weights Algorithms CS159lecture#2 StephanZheng April1,2016 Caltech

Learning to Rank with Click Models: From Online Algorithms ... · Learning to Rank with Click Models: From Online Algorithms to O ine Evaluations Shuai LI The Chinese University of

Online Learning Algorithms for Computer- Assisted Translation - SMART consortium

Introduction of Online Machine Learning Algorithms

Scaling Limit: Exact and Tractable Analysis of Online Learning … · 2017. 12. 7. · 1 Scaling Limit: Exact and Tractable Analysis of Online Learning Algorithms with Applications

Online Choice of Active Learning Algorithms - MIT CSAIL · ONLINE CHOICE OF ACTIVE LEARNING ALGORITHMS play one machine (that is, choose one active-learning algorithm to generate

SCALABLE ONLINE MACHINE LEARNING FOR PREDICTIVE … · HDFS ABSTRACT PROTEUS mission is to investigate and develop ready-to-use scalable online machine learning algorithms and real-time

Online Learning - Massachusetts Institute of Technologyweb.mit.edu/9.520/www/fall14/slides/online/online.pdf · GoalTo introduce theory and algorithms for online learning. L. Rosasco

Learning with genetic algorithms: An overview - Springer · Learning with Genetic Algorithms: An Overview ... in applying genetic algorithms to machine learning, ... LEARNING WITH

Online Learning: Theory, Algorithms, and Applicationsshais/papers/ShalevThesis07.pdf · 2010. 7. 21. · Online Learning: Theory, Algorithms, and Applications Thesis submitted for

On the Generalization Ability of Online Learning Algorithms for ... - Prateek … · 2020-03-12 · On the Generalization Ability of Online Learning Algorithms for Pairwise Loss Functions

Online Algorithms – II

Online Learning Algorithms

Online Machine Learning Algorithms For Currency Exchange

Online Passive-Aggressive Algorithms - Journal of Machine Learning

A primal-dual perspective of online learning algorithms · 2017. 8. 29. · A primal-dual perspective of online learning algorithms ... (Grove et al. 2001) by utilizing the newly

Online learning in estimation of distribution algorithms for dynamic environments

Enterprise Learning...Bioinformatics Online Master’s NYU-ePoly’s online Bioinformatics ... art data science algorithms and new pedagogic designs to make the online courses more

Beyond the “c” and the “x”: Learning with algorithms in ... · Beyond the ‘‘c’’ and the ‘‘x’’: Learning with algorithms in massive open online courses (MOOCs)

Vowpal Wabbit 5 - GitHub · learning system. 2.Online learning )online optimization, which is or competes with best practice for many learning algorithms. 3.VW is amultitrick pony,