TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Gepi tanulas: Lp korlatok
megerosıteses tanulasban
Szepesvari Csaba
MTA SZTAKI
2005 apr. 26
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
1 Gepi tanulas
2 A gepi tanulas csoport
3 Megerosıteses tanulasMarkov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
4 EredmenyekA Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikakKıserletek
5 Osszefoglalas
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Kapcsolodo tudomany-teruletekReszteruletekJovo
Gepi Tanulas
Latas, hang, szoveg
Kontroll Jatekok
Gepi tanulas
M.I. reszteruleteCel: Olyan algoritmusokkidolgozasa, melyek segıtsegevela gepek a teljesıtmenyukettapasztalataikon keresztuljavıtani kepesek
Alkalmazasok:
Ipari folyamatok vezerleseOrvosi diagnosztikaBiztonsagtechnikaJatekokBanktechnikaKezıras felismeresOnallo auto iranyıtas, stb..
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Kapcsolodo tudomany-teruletekReszteruletekJovo
Kapcsolodo tudomany-teruletek
Valoszınusegszamıtas es statisztika
Bonyolultsagelmelet
Approximacio elmelet
Funkcionalanalızis
Informacio elmelet
Mesterseges intelligencia
Neurobiologia
Filozofia
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Kapcsolodo tudomany-teruletekReszteruletekJovo
Gepi tanulas reszteruletek
A gepi tanulas celja
Olyan algoritmusok kidolgozasa, melyek segıtsegevel a gepek ateljesıtmenyuket tapasztalataikon keresztul javıtani kepesek
Felugyelt tanulas: Lekepezes megtanulasa peldakon keresztul
Felugyelet nelkuli tanulas: Osszefuggesek feltarasa peldakalapjan
Megerosıteses tanulas: Egy vezerlesi eljaras megtanulasapeldakon keresztul
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Kapcsolodo tudomany-teruletekReszteruletekJovo
A gepi tanulas jovoje: kitekintes
Fontos-e a gepi tanulas?
Nepszerusege, ismertsege no, egyre tobb ipari alkalmazasbanjatszik kulcsszerepet
Adatbanyaszat algoritmusainak alapjait adja
Szamıtogepipar: onjavıto, alkalmazkado rendszerek
Jatekipar: intelligens karakterek
NASA: onallo, a kornyezetukhoz alkalmazkodo robotok
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
CsoporttagokTemakFobb partnerek
Csoport-tagok
Tagok
Kocsis LeventeSzepesvari Csaba
Diakok
Szamonek ZoltanTorma Peter
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
CsoporttagokTemakFobb partnerek
A csoport munkaja
Elmelet
Megerosıteses tanulas – Q-tanulas + fuggvenyapproximatorokKeresesi algoritmusok – legrovidebb utak felfedezese
Alkalmazasok
Felugyelt tanulas – fejlett tulajdonsagkinyeres (MMDA);alkalmazas arcfelismeresbenNemlinearis szures – reszecskeszurok(Inverz) megerosıteses tanulas – szimulalt kornyezetbenautonom auto-vezetes;Jatekos optimalizalas (TD, SPSA, EXP3) – Omaha Hi-LoPoker
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
CsoporttagokTemakFobb partnerek
Fobb partnerek
SZTAKI-n belul
Sztochasztikus rendszerek kut.cs.Adatbanyaszat es webes kut.cs.
SZTAKI-n kıvul
Alakfelismeres – Szeged, Mesterseges IntelligenciaKutatocsoportMegerosıteses tanulas –
elmelet – CMAP,Ecole Polytechniquealkalmazasok – CS, Washington University in St. Louis
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Megerosıteses tanulas
Controller
System
xt+1 = f (xt, at, wt)
at
rt = r(xt, at)
(xt, rt)
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Modell, kontroller, teljesıtmeny
Kontroller (π): multbeli megfigyelesektol fuggoen kiszamolegy akciot (At ∈ A)Allapot-atmenet: Xt+1 ∼ P(·|Xt ,At), Xt ,Xt+1 ∈ XJutalom: Rt = r(Xt ,At)Teljesıtmeny-index:
Lecsengetett varhato ossz-jutalom; 0 < γ < 1:
Vπ(x) = E[∞∑t=0
γtRt |X0 = x ,At π(Xt , ·)]
Egy lepesre juto atlagos jutalom:
ρπ = lim supN→∞
1
N
N∑t=0
Rt
Markov Dontesi Problema: M = (X ,A,P, r , γ)Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Kriterium, Bellman-egyenletek
Kriterium: argsupπVπ(x)
Optimalis ertekelo fuggveny: V ∗(x) = supπ Vπ(x)
Optimalis kontroller (politika); π∗: V ∗(x) = Vπ∗(x), ∀x ∈ XStacioner politika: π : X → A.
Moho politika: π moho V -re, ha
π(x) ∈ Argmaxa∈AE[r(Xt , a) + γV (Xt+1)|Xt = x ]def= Argmaxa∈AQV (x , a)
Moho politika: determinisztikus, stacioner (π : X → A)
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Kriterium, Bellman-egyenletek
All.: Ha π moho V ∗-ra, akkor π optimalis.
V ∗ =?
Bellman-egyenlet:
V ∗(x) = supa∈A
E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ].
Ertek-iteracio; V0(x) ≡ 0:
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Ertek-iteracio
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Bellman-operator:
(TV )(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ].
L∞-kontrakcio: ∥∥TV − TV ′∥∥ ≤ γ∥∥V − V ′∥∥
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Ertek-iteracio
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Ertek-iteracio: Operatoros alak
Vt+1 = TVt → V ∗
Banach-fixponttetel: Vt → V ∗, sot‖Vt − V ∗‖ ≤ γt ‖V0 − V ∗‖.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Ertek-iteracio
Vt+1(x) = supa∈A
E[r(Xt , a) + γVt(Xt+1)|Xt = x ]
= supa∈A
(TaV )(x)
Bellman-hiba korlat
Ha V”kozel fixpont” es ha π moho V -re, akkor π
”kozel”
optimalis lesz, azaz Vπ kozel lesz V ∗-hoz:
‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Bellman-hiba
Bellman-hiba
‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).
V
TVVπ
V ∗
π
π∗
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Megerosıteses tanulas
r ,P nem ismertek
– es/vagy –
X , A”nagy meretu”
Ertek-iteracio alapu
Kozelıtsuk az optimalis akcio-ertekeket:
Q∗(x , a) = E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ]
Kozvetlen optimalizacio
Valtoztassuk π-t ugy, hogy ρπ javuljon (pl. gradiens modszer).
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Illesztett ertek-iteracio
Illesztett ertek-iteracio
Vt+1 = argminf ∈F ‖TVt − f ‖
”Fitted Value Iteration” ≡ FVI
Kozelıto ertek-iteracio
Vt+1 = TVt + εt
”Approximate Value Iteration” ≡ AVI
Stabilitas: εt korlatos ⇒ Vt − V ∗ korlatos
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
FVI – korai eredmenyek
Samuel (1963,1967), dama-jatek;
F = {fθ|θ ∈ Θ}
fθ(x) = θTφ(x) =m∑
i=1
θiφi (x)
Bellman, Dreyfus (1959), Reetz (1977), Morin (1978);X = ∪∗i Xi
φi (x) =
{1 ha x ∈ Xi
0 ha x 6∈ Xi
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
FVI – ujabb eredmenyek
Gordon (1995), Tsitsiklis es Van Roy (1996): A : B(X ) → F(projekcio);
Vt+1 = ATVt .
Ha A γ′-Lipschitz, es γγ′ < 1, akkor az iteracio stabil.
Q-tanulas:
Singh, Jaakkola, Jordan (1995)Szepesvari, Smart (2004)
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
FVI – problema a korabbi eredmenyekkel
‖f ‖∞ = supx∈X |f (x)| – L∞ norma!1 Tul szigoru (egyenletesen kicsi hiba)2 Nem illeszkedik az algoritmusokhoz:
E (θ;V ) =∥∥θTφ− TV
∥∥∞ → min
E (θ;V ) nem derivalhato θ-ban!
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
FVI – Lp-normara vonatkozo eredmenyek
Lp(µ)-norma:
‖f ‖p,µ =
(∫|f (x)|pdµ(x)
)1/p
Eredmenyek:
Bertsekas, Tsitsiklis (1996): fθ = θTφ, `2-norma, parameterstabilitas TD(λ) alapu politika kiertekelesbenMunos (2003,2005): L1(µ), L2(µ); illesztett egzakt politika esertek-iteraciok
Kiterjesztheto-e Munos eredmenye kozelıtopolitika/ertek-iteraciora??
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Monte-Carlo illesztett ertek-iteracio
Feltetelek:
Az MDP szimulalhato:
Y x,a ∼ P(·|x , a);Rx,a ∼ ψ(·|x , a);
E [Rx,a] = r(x , a)
Veges sok akcio van.
X1
YX1,a
1
YX1,a
2
YX1,a
M
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Monte-Carlo illesztett ertek-iteracio
Input: Szimulator, K , N, M termeszetes szamok; F , µ
1 Inicializalas: V0 ∈ F .2 k = 0, . . . ,K :
1 Szimulacio:Xi ∼ µ, Y Xi ,a
j ∼ P(·|Xi , a), RXi ,aj ∼ ψ(·|Xi , a)
i ∈ {1, . . . ,N}, j ∈ {1, . . . ,M}, a ∈ A2 Bellman operator Monte-Carlo becslese:
V (Xi ) = maxa∈A
1
M
M∑j=1
{RXi ,a
j + γVk(YXi ,aj )
},
3 Fuggveny-approximator illesztese:
Vk+1 = argminf∈F∑N
i=1(f (Xi )− V (Xi ))p.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Markov dontesi problemakErtek-iteracioMegerosıteses tanulasIllesztett ertek iteracioMonte-Carlo illesztett ertek-iteracio
Kapcsolodo elmeleti teruletek
Markov-dontesi problemak (dinamikus programozas)
Fuggveny-approximacio
Monte-Carlo integralas
Felugyelt tanulas modszerei, elmelete
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
A Bellman operator approximacioja
V (Xi ) = maxa∈A
1
M
M∑j=1
{RXi ,a
j + γVk(Y Xi ,aj )
},
V (Xi ) epp (TVk)(Xi ) Monte-Carlo approximacioja:
(TaVk)(Xi ) ≈1
M
M∑j=1
{RXi ,a
j + γVk(Y Xi ,aj )
}Atlagok egyenletes konvergenciaja: Xi i.i.d., f ∈ F :
E[f (X1)] ≈1
n
n∑i=1
f (Xi )
A hiba f -ben egyenletesen korlatozhato (f ∈ F)?
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Pollard maximal egyenlotlensege
Tetel (Pollard, 1984)
Legyen Xi , i = 1, . . . , n egy i.i.d. sorozat, F merheto fuggvenyekegyenletesen korlatos halmaza, K kozos korlattal. Ekkor:
P
(supf ∈F
∣∣∣∣∣1nn∑
i=1
f (Xi )− Ef (X1)
∣∣∣∣∣ > ε
)≤ 8e−
nε2
128K2 EN (ε/8,F(X 1:n)),
ahol N (ε/8,F(X 1:n)) az a legkisebb m termeszetes szam, hogy
F(x1:n) = {(f (x1), . . . , f (xn)) | f ∈ F },
mint (Rn, `1) reszhalmaza lefedheto m darab F(x1:n) kozeppontu,legfeljebb r = nε/8 sugaru gombbel.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Fedesi szamok
F(x1:n) = {(f (x1), . . . , f (xn)) |f ∈ F }
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Feltetelek - I.
A0 Felteves:”MDP regularitasa”:
X ⊆ Rd zartsuppψ(·|x , a) ⊂ [−Rmax,Rmax]
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
A Bellman operator egyenletes kozelıtese
Tfh. A0 all, legyen Vmax = Rmax/(1− γ), V ∈ B(X ;Vmax),
V (Xi ) = maxa∈A1M
∑Mj=1
{RXi ,a
j + γV (Y Xi ,aj )
},
V ′ = argminf ∈F∑N
i=1(f (Xi )− V (Xi ))p,
Ep(TV ;F)def= inff ∈F ‖f − TV ‖p,µ
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
A Bellman operator egyenletes kozelıtese -II.
Lemma (Munos, Szepesvari, 2005)
Rogzıtsuk ε, δ > 0-t! Tfh. F ⊂ B(X ;Vmax) es tfh.Ep(TV ;F) ≤ ε/5. Tfh.
N > 128 V 2max (5/ε)2p (log(1/δ) + log(32N (ε/40,F ,N, µ)))
M >25 (Rmax + γVmax)
2
2ε2(log(1/δ) + log(8N|A|)) .
EkkorP(∥∥V ′ − TV
∥∥p,µ
> ε)≤ δ.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Stacioner politikak magfuggvenyei
Definıcio
Legyen π : X → A stacioner politika. Legyen
Pπ(dy |x)def= P(dy |x , π(x))
es Pπ· : B(X ) → B(X ), ·Pπ : M(X ) → M(X ):
(PπV )(x)def=
∫V (y)Pπ(dy |x),
(µPπ)(dy)def=
∫Pπ(dy |x)µ(dx).
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Stacioner politikak magfuggvenyei
Definıcio
Legyenek π1, π2 : X → A stac. politikak.A Pπ1 , Pπ2 magfuggvenyek szorzata:
(Pπ1Pπ2)(dz |x) =
∫Pπ1(dy |x)Pπ2(dz |y).
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Feltetelek - II.
A1 felteves: Atmenetek egyenletes sztochasztikussaga:
Pπ(·|x) ≤ Cµ(·)
A2 felteves: Atmenetek egyenletes sztochasztikussaga: Vanolyan ρ eloszlas X -en, {c(m)}m≥1 egyutthatok, hogy barmelyπ1, . . . , πm stac. politikakra,
ρPπ1Pπ2 . . .Pπm ≤ c(m)µ,
es az∑
m≥1 mγm−1c(m) sor konvergens.
C = (1− γ)2∑m≥1
mγm−1c(m) < +∞.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Stabilitas
Tetel: Az iteraltak stabilitasa (Munos, Szepesvari, 2005)
Tfh. A0, A1 allnak. Rogz. ε > 0, δ > 0; Vmax = Rmax/(1− γ);tfh. F olyan, hogy
supV∈F Ep(TV ;F) ≤ (1−γ)2ε4C
LegyenK = O(log(Vmax/(ε(1− γ)2)/ log(1/γ)))
N,M = poly(1/ε, log(1/δ), log(1/(1− γ)),Vmax, log(|A|),log(N (cε(1− γ)2/C ),F , µ)).
Ekkor P (‖V ∗ − V πK ‖∞ > ε) ≤ δ.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Hiba-kontroll
Az approximacio minoseget befolyasolja F merete:
ε0 = supV∈F Ep(TV ;F) > 0
Hogyan valasszuk F-et?
Sorozat: Fn ⊂ Fn+1 (”approximacios terek”)
Pl. egyre tobb bazisfuggvenyUjabb neuronok egy neuronhalo rejtett retegebenstb..
F∞ = lim supn→∞Fn fedesi szama vegtelen!
Mennyi legyen n, ha adott ε, δ?
All.: Ha N (ε,F(X 1:N)) = O(N), akkor n megvalaszthato (esn-tol fuggoen N, M, K is megvalaszthatoak).
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Randomizalt politikak
Eddig: ‖VK − V ∗‖p,µ-ra adtunk nagy valoszınusegu korlatot.
Hogyan hasznaljuk VK -t? (Mire jo???)
Moho politika:
π(x) ∈ Argmaxa∈AE[r(Xt , a) + γVK (Xt+1)|Xt = x ]
Kozelıtoleg moho politika:
QM′(x , a) =1
M ′
M′∑j=1
{Rx ,a
j + γVK (Y x ,aj )
}πK (x) ∈ Argmaxa∈AQM′(x , a)
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Randomizalt politikak
QM′(x , a) =1
M ′
M′∑j=1
{Rx ,a
j + γVK (Y x ,aj )
}πK (x) ∈ Argmaxa∈AQM′(x , a)
Tetel (Munos, Szepesvari, 2005)
Tfh A0, A1 allnak.
Ha K ,N,M,M ′ eleg nagyok, akkor πK nagy valoszınuseggel
”kozel-optimalis” akciokat valaszt:
P(∥∥∥V ∗ − V πK
∥∥∥∞> ε)≤ δ.
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
A Bellman operator approximaciojaAz iteraltak stabilitasaHiba-kontrollKozelıtoleg optimalis randomizalt politikak
Alkatreszcsere optimalizalas (pl. Rust, 1996)Xt – alkatresz elhasznaltsaga (Xt = 0: uj)’Megtart’: Xt+1 − Xt ∼ exp(−β(Xt+1 − Xt)), Xt+1 − Xt ≥ 0’Csere’: Xt+1 ∼ exp(−βXt+1), Xt+1 ≥ 0r(x , ′megtart′) = −4x , r(x , ′csere′) = −30Csebisev-polinomok: d = 4; Iteracio szam: k = 2, ill. k = 20
x=4.867
Optimal value function
Sampled points
0x=0 x=10
−48.67
x=4.8670x=0 x=10
−48.67
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Osszefoglalas
Gepi tanulas: A mesterseges intelligencia egy fontosreszteruleteMegerosıteses tanulas:
Markov Dontesi Problemak megoldasa (optimalis kontroll)ismeretlen, illetve nagy MDP-k
Illesztett ertek iteracio:Az egyik legkorabbi otlet a dinamikus programozaskiterjesztesere folytonos allapotterekreItt vizsgalt algoritmus:
Monte-Carlo integralasIllesztes Lp(µ) normaban
Nagy valoszınusegu korlatok az iteraltakra es a kozelıtolegoptimalis politikara
Kiterjesztesek:µ =?, politika iteracio, folytonos akcio (kontroll) terek, ..
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban
TartalomGepi tanulas
A gepi tanulas csoportMegerosıteses tanulas
EredmenyekOsszefoglalas
Kerdesek?
Koszonom a figyelmet!
Szepesvari Csaba Gepi tanulas: Lp korlatok megerosıteses tanulasban