Author
others
View
0
Download
0
Embed Size (px)
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Gépi tanulás: Lp korlátokmegerőśıtéses tanulásban
Szepesvári Csaba
MTA SZTAKI
2005 ápr. 26
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
1 Gépi tanulás
2 A gépi tanulás csoport
3 Megerőśıtéses tanulásMarkov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
4 EredményekA Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikákḰısérletek
5 Összefoglalás
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Kapcsolódó tudomány-területekRészterületekJövő
Gépi Tanulás
Látás, hang, szöveg
Kontroll Játékok
Gépi tanulás
M.I. részterületeCél: Olyan algoritmusokkidolgozása, melyek seǵıtségévela gépek a teljeśıtményükettapasztalataikon keresztüljav́ıtani képesek
Alkalmazások:
Ipari folyamatok vezérléseOrvosi diagnosztikaBiztonságtechnikaJátékokBanktechnikaKéźırás felismerésÖnálló autó iránýıtás, stb..
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Kapcsolódó tudomány-területekRészterületekJövő
Kapcsolódó tudomány-területek
Valósźınűségszáḿıtás és statisztika
Bonyolultságelmélet
Approximáció elmélet
Funkcionálanaĺızis
Információ elmélet
Mesterséges intelligencia
Neurobiológia
Filozófia
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Kapcsolódó tudomány-területekRészterületekJövő
Gépi tanulás részterületek
A gépi tanulás célja
Olyan algoritmusok kidolgozása, melyek seǵıtségével a gépek ateljeśıtményüket tapasztalataikon keresztül jav́ıtani képesek
Felügyelt tanulás: Leképezés megtanulása példákon keresztül
Felügyelet nélküli tanulás: Összefüggések feltárása példákalapján
Megerőśıtéses tanulás: Egy vezérlési eljárás megtanulásapéldákon keresztül
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Kapcsolódó tudomány-területekRészterületekJövő
A gépi tanulás jövője: kitekintés
Fontos-e a gépi tanulás?
Népszerűsége, ismertsége nő, egyre több ipari alkalmazásbanjátszik kulcsszerepet
Adatbányászat algoritmusainak alapjait adja
Száḿıtógépipar: önjav́ıtó, alkalmazkadó rendszerek
Játékipar: intelligens karakterek
NASA: önálló, a környezetükhöz alkalmazkodó robotok
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
CsoporttagokTémákFőbb partnerek
Csoport-tagok
Tagok
Kocsis LeventeSzepesvári Csaba
Diákok
Szamonek ZoltánTorma Péter
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
CsoporttagokTémákFőbb partnerek
A csoport munkája
Elmélet
Megerőśıtéses tanulás – Q-tanulás + függvényapproximátorokKeresési algoritmusok – legrövidebb utak felfedezése
Alkalmazások
Felügyelt tanulás – fejlett tulajdonságkinyerés (MMDA);alkalmazás arcfelismerésbenNemlineáris szűrés – részecskeszűrők(Inverz) megerőśıtéses tanulás – szimulált környezetbenautonóm autó-vezetés;Játékos optimalizálás (TD, SPSA, EXP3) – Omaha Hi-LoPóker
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
CsoporttagokTémákFőbb partnerek
Főbb partnerek
SZTAKI-n belül
Sztochasztikus rendszerek kut.cs.Adatbányászat és webes kut.cs.
SZTAKI-n ḱıvűl
Alakfelismerés – Szeged, Mesterséges IntelligenciaKutatócsoportMegerőśıtéses tanulás –
elmélet – CMAP,Ecole Polytechniquealkalmazások – CS, Washington University in St. Louis
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Megerőśıtéses tanulás
Controller
System
xt+1 = f (xt, at, wt)
at
rt = r(xt, at)
(xt, rt)
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Modell, kontroller, teljeśıtmény
Kontroller (π): múltbeli megfigyelésektől függően kiszámolegy akciót (At ∈ A)Állapot-átmenet: Xt+1 ∼ P(·|Xt ,At), Xt ,Xt+1 ∈ XJutalom: Rt = r(Xt ,At)Teljeśıtmény-index:
Lecsengetett várható össz-jutalom; 0 < γ < 1:
Vπ(x) = E[∞∑t=0
γtRt |X0 = x ,At π(Xt , ·)]
Egy lépésre jutó átlagos jutalom:
ρπ = lim supN→∞
1
N
N∑t=0
Rt
Markov Döntési Probléma: M = (X ,A,P, r , γ)Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Kritérium, Bellman-egyenletek
Kritérium: argsupπVπ(x)Optimális értékelő függvény: V ∗(x) = supπ Vπ(x)
Optimális kontroller (politika); π∗: V ∗(x) = Vπ∗(x), ∀x ∈ XStacionér politika: π : X → A.Mohó politika: π mohó V -re, ha
π(x) ∈ Argmaxa∈AE[r(Xt , a) + γV (Xt+1)|Xt = x ]def= Argmaxa∈AQV (x , a)
Mohó politika: determinisztikus, stacionér (π : X → A)
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Kritérium, Bellman-egyenletek
Áll.: Ha π mohó V ∗-ra, akkor π optimális.
V ∗ =?
Bellman-egyenlet:
V ∗(x) = supa∈A
E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ].
Érték-iteráció; V0(x) ≡ 0:
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Érték-iteráció
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Bellman-operátor:
(TV )(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ].
L∞-kontrakció: ∥∥TV − TV ′∥∥ ≤ γ ∥∥V − V ′∥∥Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Érték-iteráció
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Érték-iteráció: Operátoros alak
Vt+1 = TVt → V ∗
Banach-fixponttétel: Vt → V ∗, sőt‖Vt − V ∗‖ ≤ γt ‖V0 − V ∗‖.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Érték-iteráció
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Bellman-hiba korlát
Ha V”közel fixpont” és ha π mohó V -re, akkor π
”közel”
optimális lesz, azaz Vπ közel lesz V∗-hoz:
‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Bellman-hiba
Bellman-hiba
‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).
V
TVVπ
V ∗
π
π∗
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Megerőśıtéses tanulás
r ,P nem ismertek
– és/vagy –
X , A”nagy méretű”
Érték-iteráció alapú
Közeĺıtsük az optimális akció-értékeket:
Q∗(x , a) = E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ]
Közvetlen optimalizáció
Változtassuk π-t úgy, hogy ρπ javuljon (pl. gradiens módszer).
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Illesztett érték-iteráció
Illesztett érték-iteráció
Vt+1 = argminf ∈F ‖TVt − f ‖
”Fitted Value Iteration” ≡ FVI
Közeĺıtő érték-iteráció
Vt+1 = TVt + �t
”Approximate Value Iteration” ≡ AVI
Stabilitás: �t korlátos ⇒ Vt − V ∗ korlátos
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
FVI – korai eredmények
Samuel (1963,1967), dáma-játék;
F = {fθ|θ ∈ Θ}
fθ(x) = θTφ(x) =
m∑i=1
θiφi (x)
Bellman, Dreyfus (1959), Reetz (1977), Morin (1978);X = ∪∗i Xi
φi (x) =
{1 ha x ∈ Xi0 ha x 6∈ Xi
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
FVI – újabb eredmények
Gordon (1995), Tsitsiklis és Van Roy (1996): A : B(X ) → F(projekció);
Vt+1 = ATVt .
Ha A γ′-Lipschitz, és γγ′ < 1, akkor az iteráció stabil.
Q-tanulás:
Singh, Jaakkola, Jordan (1995)Szepesvári, Smart (2004)
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
FVI – probléma a korábbi eredményekkel
‖f ‖∞ = supx∈X |f (x)| – L∞ norma!1 Túl szigorú (egyenletesen kicsi hiba)2 Nem illeszkedik az algoritmusokhoz:
E (θ;V ) =∥∥θTφ− TV∥∥∞ → min
E (θ;V ) nem deriválható θ-ban!
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
FVI – Lp-normára vonatkozó eredmények
Lp(µ)-norma:
‖f ‖p,µ =(∫
|f (x)|pdµ(x))1/p
Eredmények:
Bertsekas, Tsitsiklis (1996): fθ = θTφ, `2-norma, paraméter
stabilitás TD(λ) alapú politika kiértékelésbenMunos (2003,2005): L1(µ), L2(µ); illesztett egzakt politika ésérték-iterációk
Kiterjeszthető-e Munos eredménye közeĺıtőpolitika/érték-iterációra??
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Monte-Carlo illesztett érték-iteráció
Feltételek:
Az MDP szimulálható:
Y x,a ∼ P(·|x , a);Rx,a ∼ ψ(·|x , a);
E [Rx,a] = r(x , a)
Véges sok akció van.
X1
YX1,a1YX1,a2
YX1,aM
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Monte-Carlo illesztett érték-iteráció
Input: Szimulátor, K , N, M természetes számok; F , µ1 Inicializálás: V0 ∈ F .2 k = 0, . . . ,K :
1 Szimuláció:Xi ∼ µ, Y Xi ,aj ∼ P(·|Xi , a), R
Xi ,aj ∼ ψ(·|Xi , a)
i ∈ {1, . . . ,N}, j ∈ {1, . . . ,M}, a ∈ A2 Bellman operátor Monte-Carlo becslése:
V̂ (Xi ) = maxa∈A
1
M
M∑j=1
{RXi ,aj + γVk(Y
Xi ,aj )
},
3 Függvény-approximátor illesztése:
Vk+1 = argminf∈F∑N
i=1(f (Xi )− V̂ (Xi ))p.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
Kapcsolódó elméleti területek
Markov-döntési problémák (dinamikus programozás)
Függvény-approximáció
Monte-Carlo integrálás
Felügyelt tanulás módszerei, elmélete
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
A Bellman operátor approximációja
V̂ (Xi ) = maxa∈A
1
M
M∑j=1
{RXi ,aj + γVk(Y
Xi ,aj )
},
V̂ (Xi ) épp (TVk)(Xi ) Monte-Carlo approximációja:
(TaVk)(Xi ) ≈1
M
M∑j=1
{RXi ,aj + γVk(Y
Xi ,aj )
}Átlagok egyenletes konvergenciája: Xi i.i.d., f ∈ F :
E[f (X1)] ≈1
n
n∑i=1
f (Xi )
A hiba f -ben egyenletesen korlátozható (f ∈ F)?Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Pollard maximál egyenlőtlensége
Tétel (Pollard, 1984)
Legyen Xi , i = 1, . . . , n egy i.i.d. sorozat, F mérhető függvényekegyenletesen korlátos halmaza, K közös korláttal. Ekkor:
P
(supf ∈F
∣∣∣∣∣1nn∑
i=1
f (Xi )− Ef (X1)
∣∣∣∣∣ > �)≤ 8e−
n�2
128K2 EN (�/8,F(X 1:n)),
ahol N (�/8,F(X 1:n)) az a legkisebb m természetes szám, hogy
F(x1:n) = {(f (x1), . . . , f (xn)) | f ∈ F },
mint (Rn, `1) részhalmaza lefedhető m darab F(x1:n) középpontú,legfeljebb r = n�/8 sugarú gömbbel.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Fedési számok
F(x1:n) = {(f (x1), . . . , f (xn)) |f ∈ F }
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Feltételek - I.
A0 Feltevés:”MDP regularitása”:
X ⊆ Rd zártsuppψ(·|x , a) ⊂ [−Rmax,Rmax]
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
A Bellman operátor egyenletes közeĺıtése
Tfh. A0 áll, legyen Vmax = Rmax/(1− γ), V ∈ B(X ;Vmax),
V̂ (Xi ) = maxa∈A1M
∑Mj=1
{RXi ,aj + γV (Y
Xi ,aj )
},
V ′ = argminf ∈F∑N
i=1(f (Xi )− V̂ (Xi ))p,
Ep(TV ;F)def= inff ∈F ‖f − TV ‖p,µ
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
A Bellman operátor egyenletes közeĺıtése -II.
Lemma (Munos, Szepesvári, 2005)
Rögźıtsük �, δ > 0-t! Tfh. F ⊂ B(X ;Vmax) és tfh.Ep(TV ;F) ≤ �/5. Tfh.
N > 128 V 2max (5/�)2p (log(1/δ) + log(32N (�/40,F ,N, µ)))
M >25 (R̂max + γVmax)
2
2�2(log(1/δ) + log(8N|A|)) .
EkkorP(∥∥V ′ − TV∥∥
p,µ> �)≤ δ.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Stacionér politikák magfüggvényei
Defińıció
Legyen π : X → A stacionér politika. Legyen
Pπ(dy |x) def= P(dy |x , π(x))
és Pπ· : B(X ) → B(X ), ·Pπ : M(X ) → M(X ):
(PπV )(x)def=
∫V (y)Pπ(dy |x),
(µPπ)(dy)def=
∫Pπ(dy |x)µ(dx).
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Stacionér politikák magfüggvényei
Defińıció
Legyenek π1, π2 : X → A stac. politikák.A Pπ1 , Pπ2 magfüggvények szorzata:
(Pπ1Pπ2)(dz |x) =∫
Pπ1(dy |x)Pπ2(dz |y).
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Feltételek - II.
A1 feltevés: Átmenetek egyenletes sztochasztikussága:
Pπ(·|x) ≤ Cµ(·)
A2 feltevés: Átmenetek egyenletes sztochasztikussága: Vanolyan ρ eloszlás X -en, {c(m)}m≥1 együtthatók, hogy bármelyπ1, . . . , πm stac. politikákra,
ρPπ1Pπ2 . . .Pπm ≤ c(m)µ,
és az∑
m≥1 mγm−1c(m) sor konvergens.
C = (1− γ)2∑m≥1
mγm−1c(m) < +∞.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Stabilitás
Tétel: Az iteráltak stabilitása (Munos, Szepesvári, 2005)
Tfh. A0, A1 állnak. Rögz. � > 0, δ > 0; Vmax = Rmax/(1− γ);tfh. F olyan, hogy
supV∈F Ep(TV ;F) ≤(1−γ)2�
4C
LegyenK = O(log(Vmax/(�(1− γ)2)/ log(1/γ)))
N,M = poly(1/�, log(1/δ), log(1/(1− γ)),Vmax, log(|A|),log(N (c�(1− γ)2/C ),F , µ)).
Ekkor P (‖V ∗ − V πK ‖∞ > �) ≤ δ.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Hiba-kontroll
Az approximáció minőségét befolyásolja F mérete:
�0 = supV∈F Ep(TV ;F) > 0
Hogyan válasszuk F-et?Sorozat: Fn ⊂ Fn+1 (”approximációs terek”)
Pl. egyre több bázisfüggvényÚjabb neuronok egy neuronháló rejtett rétegébenstb..
F∞ = lim supn→∞Fn fedési száma végtelen!Mennyi legyen n, ha adott �, δ?
Áll.: Ha N (�,F(X 1:N)) = O(N), akkor n megválasztható (ésn-től függően N, M, K is megválaszthatóak).
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Randomizált politikák
Eddig: ‖VK − V ∗‖p,µ-ra adtunk nagy valósźınűségű korlátot.Hogyan használjuk VK -t? (Mire jó???)
Mohó politika:
π(x) ∈ Argmaxa∈AE[r(Xt , a) + γVK (Xt+1)|Xt = x ]
Közeĺıtőleg mohó politika:
QM′(x , a) =1
M ′
M′∑j=1
{Rx ,aj + γVK (Y
x ,aj )
}πK (x) ∈ Argmaxa∈AQM′(x , a)
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Randomizált politikák
QM′(x , a) =1
M ′
M′∑j=1
{Rx ,aj + γVK (Y
x ,aj )
}πK (x) ∈ Argmaxa∈AQM′(x , a)
Tétel (Munos, Szepesvári, 2005)
Tfh A0, A1 állnak.
Ha K ,N,M,M ′ elég nagyok, akkor πK nagy valósźınűséggel
”közel-optimális” akciókat választ:
P(∥∥∥V ∗ − V πK∥∥∥
∞> �)≤ δ.
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák
Alkatrészcsere optimalizálás (pl. Rust, 1996)Xt – alkatrész elhasználtsága (Xt = 0: új)’Megtart’: Xt+1 − Xt ∼ exp(−β(Xt+1 − Xt)), Xt+1 − Xt ≥ 0’Csere’: Xt+1 ∼ exp(−βXt+1), Xt+1 ≥ 0r(x , ′megtart′) = −4x , r(x , ′csere′) = −30Csebisev-polinomok: d = 4; Iteráció szám: k = 2, ill. k = 20
x=4.867
Optimal value function
Sampled points
0x=0 x=10
−48.67
x=4.8670x=0 x=10
−48.67
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Összefoglalás
Gépi tanulás: A mesterséges intelligencia egy fontosrészterületeMegerőśıtéses tanulás:
Markov Döntési Problémák megoldása (optimális kontroll)ismeretlen, illetve nagy MDP-k
Illesztett érték iteráció:Az egyik legkorábbi ötlet a dinamikus programozáskiterjesztésére folytonos állapotterekreItt vizsgált algoritmus:
Monte-Carlo integrálásIllesztés Lp(µ) normában
Nagy valósźınűségű korlátok az iteráltakra és a közeĺıtőlegoptimális politikára
Kiterjesztések:µ =?, politika iteráció, folytonos akció (kontroll) terek, ..
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulás
A gépi tanulás csoportMegerőśıtéses tanulás
EredményekÖsszefoglalás
Kérdések?
Köszönöm a figyelmet!
Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban
TartalomGépi tanulásKapcsolódó tudomány-területekRészterületekJövo
A gépi tanulás csoportCsoporttagokTémákFobb partnerek
Megerosítéses tanulásMarkov döntési problémákÉrték-iterációMegerosítéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció
EredményekA Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözelítoleg optimális randomizált politikák
Összefoglalás