Download pdf - Gépi tanul ás: L korlátok megeros˝ ´ıtéses tanul ásbanszcsaba/talks/lp_korlatok.pdf · 2005. 4. 26. · Nemlineáris szu˝rés – részecskeszur˝ ok (Inverz) megeros´ıtéses

TartalomGepi tanulas

A gepi tanulas csoportMegerosıteses tanulas

EredmenyekOsszefoglalas

Gepi tanulas: Lp korlatok

megerosıteses tanulasban

Szepesvari Csaba

MTA SZTAKI

2005 apr. 26

Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban




1 Gepi tanulas

2 A gepi tanulas csoport

3 Megerosıteses tanulasMarkov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio

4 EredmenyekA Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikakKıserletek

5 Osszefoglalas





Kapcsolodo tudomany-teruletekReszteruletekJovo

Gepi Tanulas

Latas, hang, szoveg

Kontroll Jatekok

Gepi tanulas

M.I. reszteruleteCel: Olyan algoritmusokkidolgozasa, melyek segıtsegevela gepek a teljesıtmenyukettapasztalataikon keresztuljavıtani kepesek

Alkalmazasok:

Ipari folyamatok vezerleseOrvosi diagnosztikaBiztonsagtechnikaJatekokBanktechnikaKezıras felismeresOnallo auto iranyıtas, stb..






Kapcsolodo tudomany-teruletek

Valoszınusegszamıtas es statisztika

Bonyolultsagelmelet

Approximacio elmelet

Funkcionalanalızis

Informacio elmelet

Mesterseges intelligencia

Neurobiologia

Filozofia






Gepi tanulas reszteruletek

A gepi tanulas celja

Olyan algoritmusok kidolgozasa, melyek segıtsegevel a gepek ateljesıtmenyuket tapasztalataikon keresztul javıtani kepesek

Felugyelt tanulas: Lekepezes megtanulasa peldakon keresztul

Felugyelet nelkuli tanulas: Osszefuggesek feltarasa peldakalapjan

Megerosıteses tanulas: Egy vezerlesi eljaras megtanulasapeldakon keresztul






A gepi tanulas jovoje: kitekintes

Fontos-e a gepi tanulas?

Nepszerusege, ismertsege no, egyre tobb ipari alkalmazasbanjatszik kulcsszerepet

Adatbanyaszat algoritmusainak alapjait adja

Szamıtogepipar: onjavıto, alkalmazkado rendszerek

Jatekipar: intelligens karakterek

NASA: onallo, a kornyezetukhoz alkalmazkodo robotok





CsoporttagokTemakFobb partnerek

Csoport-tagok

Tagok

Kocsis LeventeSzepesvari Csaba

Diakok

Szamonek ZoltanTorma Peter






A csoport munkaja

Elmelet

Megerosıteses tanulas – Q-tanulas + fuggvenyapproximatorokKeresesi algoritmusok – legrovidebb utak felfedezese

Alkalmazasok

Felugyelt tanulas – fejlett tulajdonsagkinyeres (MMDA);alkalmazas arcfelismeresbenNemlinearis szures – reszecskeszurok(Inverz) megerosıteses tanulas – szimulalt kornyezetbenautonom auto-vezetes;Jatekos optimalizalas (TD, SPSA, EXP3) – Omaha Hi-LoPoker






Fobb partnerek

SZTAKI-n belul

Sztochasztikus rendszerek kut.cs.Adatbanyaszat es webes kut.cs.

SZTAKI-n kıvul

Alakfelismeres – Szeged, Mesterseges IntelligenciaKutatocsoportMegerosıteses tanulas –

elmelet – CMAP,Ecole Polytechniquealkalmazasok – CS, Washington University in St. Louis





Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio

Megerosıteses tanulas

Controller

System

xt+1 = f (xt, at, wt)

at

rt = r(xt, at)

(xt, rt)






Modell, kontroller, teljesıtmeny

Kontroller (π): multbeli megfigyelesektol fuggoen kiszamolegy akciot (At ∈ A)Allapot-atmenet: Xt+1 ∼ P(·|Xt ,At), Xt ,Xt+1 ∈ XJutalom: Rt = r(Xt ,At)Teljesıtmeny-index:

Lecsengetett varhato ossz-jutalom; 0 < γ < 1:

Vπ(x) = E[∞∑t=0

γtRt |X0 = x ,At π(Xt , ·)]

Egy lepesre juto atlagos jutalom:

ρπ = lim supN→∞

1

N

N∑t=0

Rt

Markov Dontesi Problema: M = (X ,A,P, r , γ)Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban





Kriterium, Bellman-egyenletek

Kriterium: argsupπVπ(x)

Optimalis ertekelo fuggveny: V ∗(x) = supπ Vπ(x)

Optimalis kontroller (politika); π∗: V ∗(x) = Vπ∗(x), ∀x ∈ XStacioner politika: π : X → A.

Moho politika: π moho V -re, ha

π(x) ∈ Argmaxa∈AE[r(Xt , a) + γV (Xt+1)|Xt = x ]def= Argmaxa∈AQV (x , a)

Moho politika: determinisztikus, stacioner (π : X → A)






Kriterium, Bellman-egyenletek

All.: Ha π moho V ∗-ra, akkor π optimalis.

V ∗ =?

Bellman-egyenlet:

V ∗(x) = supa∈A

E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ].

Ertek-iteracio; V0(x) ≡ 0:

Vt+1(x) = supa∈A

E[r(Xt , a) + γVt(Xt+1)|Xt = x ]

= supa∈A

(TaV )(x)






Ertek-iteracio

Vt+1(x) = supa∈A


= supa∈A

(TaV )(x)

Bellman-operator:

(TV )(x) = supa∈A

E[r(Xt , a) + γVt(Xt+1)|Xt = x ].

L∞-kontrakcio: ∥∥TV − TV ′∥∥ ≤ γ∥∥V − V ′∥∥






Ertek-iteracio

Vt+1(x) = supa∈A


= supa∈A

(TaV )(x)

Ertek-iteracio: Operatoros alak

Vt+1 = TVt → V ∗

Banach-fixponttetel: Vt → V ∗, sot‖Vt − V ∗‖ ≤ γt ‖V0 − V ∗‖.






Ertek-iteracio

Vt+1(x) = supa∈A


= supa∈A

(TaV )(x)

Bellman-hiba korlat

Ha V”kozel fixpont” es ha π moho V -re, akkor π

”kozel”

optimalis lesz, azaz Vπ kozel lesz V ∗-hoz:

‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).






Bellman-hiba

Bellman-hiba

‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).

V

TVVπ

V ∗

π

π∗






Megerosıteses tanulas

r ,P nem ismertek

– es/vagy –

X , A”nagy meretu”

Ertek-iteracio alapu

Kozelıtsuk az optimalis akcio-ertekeket:

Q∗(x , a) = E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ]

Kozvetlen optimalizacio

Valtoztassuk π-t ugy, hogy ρπ javuljon (pl. gradiens modszer).






Illesztett ertek-iteracio

Illesztett ertek-iteracio

Vt+1 = argminf ∈F ‖TVt − f ‖

”Fitted Value Iteration” ≡ FVI

Kozelıto ertek-iteracio

Vt+1 = TVt + εt

”Approximate Value Iteration” ≡ AVI

Stabilitas: εt korlatos ⇒ Vt − V ∗ korlatos






FVI – korai eredmenyek

Samuel (1963,1967), dama-jatek;

F = {fθ|θ ∈ Θ}

fθ(x) = θTφ(x) =m∑

i=1

θiφi (x)

Bellman, Dreyfus (1959), Reetz (1977), Morin (1978);X = ∪∗i Xi

φi (x) =

{1 ha x ∈ Xi

0 ha x 6∈ Xi






FVI – ujabb eredmenyek

Gordon (1995), Tsitsiklis es Van Roy (1996): A : B(X ) → F(projekcio);

Vt+1 = ATVt .

Ha A γ′-Lipschitz, es γγ′ < 1, akkor az iteracio stabil.

Q-tanulas:

Singh, Jaakkola, Jordan (1995)Szepesvari, Smart (2004)






FVI – problema a korabbi eredmenyekkel

‖f ‖∞ = supx∈X |f (x)| – L∞ norma!1 Tul szigoru (egyenletesen kicsi hiba)2 Nem illeszkedik az algoritmusokhoz:

E (θ;V ) =∥∥θTφ− TV

∥∥∞ → min

E (θ;V ) nem derivalhato θ-ban!






FVI – Lp-normara vonatkozo eredmenyek

Lp(µ)-norma:

‖f ‖p,µ =

(∫|f (x)|pdµ(x)

)1/p

Eredmenyek:

Bertsekas, Tsitsiklis (1996): fθ = θTφ, `2-norma, parameterstabilitas TD(λ) alapu politika kiertekelesbenMunos (2003,2005): L1(µ), L2(µ); illesztett egzakt politika esertek-iteraciok

Kiterjesztheto-e Munos eredmenye kozelıtopolitika/ertek-iteraciora??






Monte-Carlo illesztett ertek-iteracio

Feltetelek:

Az MDP szimulalhato:

Y x,a ∼ P(·|x , a);Rx,a ∼ ψ(·|x , a);

E [Rx,a] = r(x , a)

Veges sok akcio van.

X1

YX1,a

1

YX1,a

2

YX1,a

M






Monte-Carlo illesztett ertek-iteracio

Input: Szimulator, K , N, M termeszetes szamok; F , µ

1 Inicializalas: V0 ∈ F .2 k = 0, . . . ,K :

1 Szimulacio:Xi ∼ µ, Y Xi ,a

j ∼ P(·|Xi , a), RXi ,aj ∼ ψ(·|Xi , a)

i ∈ {1, . . . ,N}, j ∈ {1, . . . ,M}, a ∈ A2 Bellman operator Monte-Carlo becslese:

V (Xi ) = maxa∈A

1

M

M∑j=1

{RXi ,a

j + γVk(YXi ,aj )

},

3 Fuggveny-approximator illesztese:

Vk+1 = argminf∈F∑N

i=1(f (Xi )− V (Xi ))p.






Kapcsolodo elmeleti teruletek

Markov-dontesi problemak (dinamikus programozas)

Fuggveny-approximacio

Monte-Carlo integralas

Felugyelt tanulas modszerei, elmelete





A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak

A Bellman operator approximacioja

V (Xi ) = maxa∈A

1

M

M∑j=1

{RXi ,a

j + γVk(Y Xi ,aj )

},

V (Xi ) epp (TVk)(Xi ) Monte-Carlo approximacioja:

(TaVk)(Xi ) ≈1

M

M∑j=1

{RXi ,a

j + γVk(Y Xi ,aj )

}Atlagok egyenletes konvergenciaja: Xi i.i.d., f ∈ F :

E[f (X1)] ≈1

n

n∑i=1

f (Xi )

A hiba f -ben egyenletesen korlatozhato (f ∈ F)?






Pollard maximal egyenlotlensege

Tetel (Pollard, 1984)

Legyen Xi , i = 1, . . . , n egy i.i.d. sorozat, F merheto fuggvenyekegyenletesen korlatos halmaza, K kozos korlattal. Ekkor:

P

(supf ∈F

∣∣∣∣∣1nn∑

i=1

f (Xi )− Ef (X1)

∣∣∣∣∣ > ε

)≤ 8e−

nε2

128K2 EN (ε/8,F(X 1:n)),

ahol N (ε/8,F(X 1:n)) az a legkisebb m termeszetes szam, hogy

F(x1:n) = {(f (x1), . . . , f (xn)) | f ∈ F },

mint (Rn, `1) reszhalmaza lefedheto m darab F(x1:n) kozeppontu,legfeljebb r = nε/8 sugaru gombbel.






Fedesi szamok

F(x1:n) = {(f (x1), . . . , f (xn)) |f ∈ F }






Feltetelek - I.

A0 Felteves:”MDP regularitasa”:

X ⊆ Rd zartsuppψ(·|x , a) ⊂ [−Rmax,Rmax]






A Bellman operator egyenletes kozelıtese

Tfh. A0 all, legyen Vmax = Rmax/(1− γ), V ∈ B(X ;Vmax),

V (Xi ) = maxa∈A1M

∑Mj=1

{RXi ,a

j + γV (Y Xi ,aj )

},

V ′ = argminf ∈F∑N

i=1(f (Xi )− V (Xi ))p,

Ep(TV ;F)def= inff ∈F ‖f − TV ‖p,µ






A Bellman operator egyenletes kozelıtese -II.

Lemma (Munos, Szepesvari, 2005)

Rogzıtsuk ε, δ > 0-t! Tfh. F ⊂ B(X ;Vmax) es tfh.Ep(TV ;F) ≤ ε/5. Tfh.

N > 128 V 2max (5/ε)2p (log(1/δ) + log(32N (ε/40,F ,N, µ)))

M >25 (Rmax + γVmax)

2

2ε2(log(1/δ) + log(8N|A|)) .

EkkorP(∥∥V ′ − TV

∥∥p,µ

> ε)≤ δ.






Stacioner politikak magfuggvenyei

Definıcio

Legyen π : X → A stacioner politika. Legyen

Pπ(dy |x)def= P(dy |x , π(x))

es Pπ· : B(X ) → B(X ), ·Pπ : M(X ) → M(X ):

(PπV )(x)def=

∫V (y)Pπ(dy |x),

(µPπ)(dy)def=

∫Pπ(dy |x)µ(dx).






Stacioner politikak magfuggvenyei

Definıcio

Legyenek π1, π2 : X → A stac. politikak.A Pπ1 , Pπ2 magfuggvenyek szorzata:

(Pπ1Pπ2)(dz |x) =

∫Pπ1(dy |x)Pπ2(dz |y).






Feltetelek - II.

A1 felteves: Atmenetek egyenletes sztochasztikussaga:

Pπ(·|x) ≤ Cµ(·)

A2 felteves: Atmenetek egyenletes sztochasztikussaga: Vanolyan ρ eloszlas X -en, {c(m)}m≥1 egyutthatok, hogy barmelyπ1, . . . , πm stac. politikakra,

ρPπ1Pπ2 . . .Pπm ≤ c(m)µ,

es az∑

m≥1 mγm−1c(m) sor konvergens.

C = (1− γ)2∑m≥1

mγm−1c(m) < +∞.






Stabilitas

Tetel: Az iteraltak stabilitasa (Munos, Szepesvari, 2005)

Tfh. A0, A1 allnak. Rogz. ε > 0, δ > 0; Vmax = Rmax/(1− γ);tfh. F olyan, hogy

supV∈F Ep(TV ;F) ≤ (1−γ)2ε4C

LegyenK = O(log(Vmax/(ε(1− γ)2)/ log(1/γ)))

N,M = poly(1/ε, log(1/δ), log(1/(1− γ)),Vmax, log(|A|),log(N (cε(1− γ)2/C ),F , µ)).

Ekkor P (‖V ∗ − V πK ‖∞ > ε) ≤ δ.






Hiba-kontroll

Az approximacio minoseget befolyasolja F merete:

ε0 = supV∈F Ep(TV ;F) > 0

Hogyan valasszuk F-et?

Sorozat: Fn ⊂ Fn+1 (”approximacios terek”)

Pl. egyre tobb bazisfuggvenyUjabb neuronok egy neuronhalo rejtett retegebenstb..

F∞ = lim supn→∞Fn fedesi szama vegtelen!

Mennyi legyen n, ha adott ε, δ?

All.: Ha N (ε,F(X 1:N)) = O(N), akkor n megvalaszthato (esn-tol fuggoen N, M, K is megvalaszthatoak).






Randomizalt politikak

Eddig: ‖VK − V ∗‖p,µ-ra adtunk nagy valoszınusegu korlatot.

Hogyan hasznaljuk VK -t? (Mire jo???)

Moho politika:

π(x) ∈ Argmaxa∈AE[r(Xt , a) + γVK (Xt+1)|Xt = x ]

Kozelıtoleg moho politika:

QM′(x , a) =1

M ′

M′∑j=1

{Rx ,a

j + γVK (Y x ,aj )

}πK (x) ∈ Argmaxa∈AQM′(x , a)






Randomizalt politikak

QM′(x , a) =1

M ′

M′∑j=1

{Rx ,a

j + γVK (Y x ,aj )

}πK (x) ∈ Argmaxa∈AQM′(x , a)

Tetel (Munos, Szepesvari, 2005)

Tfh A0, A1 allnak.

Ha K ,N,M,M ′ eleg nagyok, akkor πK nagy valoszınuseggel

”kozel-optimalis” akciokat valaszt:

P(∥∥∥V ∗ − V πK

∥∥∥∞> ε)≤ δ.






Alkatreszcsere optimalizalas (pl. Rust, 1996)Xt – alkatresz elhasznaltsaga (Xt = 0: uj)’Megtart’: Xt+1 − Xt ∼ exp(−β(Xt+1 − Xt)), Xt+1 − Xt ≥ 0’Csere’: Xt+1 ∼ exp(−βXt+1), Xt+1 ≥ 0r(x , ′megtart′) = −4x , r(x , ′csere′) = −30Csebisev-polinomok: d = 4; Iteracio szam: k = 2, ill. k = 20

x=4.867

Optimal value function

Sampled points

0x=0 x=10

−48.67

x=4.8670x=0 x=10

−48.67





Osszefoglalas

Gepi tanulas: A mesterseges intelligencia egy fontosreszteruleteMegerosıteses tanulas:

Markov Dontesi Problemak megoldasa (optimalis kontroll)ismeretlen, illetve nagy MDP-k

Illesztett ertek iteracio:Az egyik legkorabbi otlet a dinamikus programozaskiterjesztesere folytonos allapotterekreItt vizsgalt algoritmus:

Monte-Carlo integralasIllesztes Lp(µ) normaban

Nagy valoszınusegu korlatok az iteraltakra es a kozelıtolegoptimalis politikara

Kiterjesztesek:µ =?, politika iteracio, folytonos akcio (kontroll) terek, ..





Kerdesek?

Koszonom a figyelmet!