of 42 /42
Tartalom epi tanul´ as A g´ epi tanul´ as csoport Meger˝ os´ ıt´ eses tanul´ as Eredm´ enyek ¨ Osszefoglal´ as G ´ epi tanul ´ as: L p korl ´ atok meger ˝ os ´ ıt ´ eses tanul ´ asban Szepesv´ ari Csaba MTA SZTAKI 2005 ´ apr. 26 Szepesv´ ari Csaba epi tanul´ as: L p korl´ atok meger˝ os´ ıt´ eses tanul´ asban

G´epi tanul ´as: L korl´atok megeros˝ ´ıt´eses tanul ´asbanszcsaba/talks/lp_korlatok.pdf · 2005. 4. 26. · Nemline´aris szu˝r´es – r´eszecskeszur˝ ok (Inverz) megeros´ıt´eses

  • Author
    others

  • View
    0

  • Download
    0

Embed Size (px)

Text of G´epi tanul ´as: L korl´atok megeros˝ ´ıt´eses tanul ´asbanszcsaba/talks/lp_korlatok.pdf ·...

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Gépi tanulás: Lp korlátokmegerőśıtéses tanulásban

    Szepesvári Csaba

    MTA SZTAKI

    2005 ápr. 26

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    1 Gépi tanulás

    2 A gépi tanulás csoport

    3 Megerőśıtéses tanulásMarkov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    4 EredményekA Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikákḰısérletek

    5 Összefoglalás

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Kapcsolódó tudomány-területekRészterületekJövő

    Gépi Tanulás

    Látás, hang, szöveg

    Kontroll Játékok

    Gépi tanulás

    M.I. részterületeCél: Olyan algoritmusokkidolgozása, melyek seǵıtségévela gépek a teljeśıtményükettapasztalataikon keresztüljav́ıtani képesek

    Alkalmazások:

    Ipari folyamatok vezérléseOrvosi diagnosztikaBiztonságtechnikaJátékokBanktechnikaKéźırás felismerésÖnálló autó iránýıtás, stb..

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Kapcsolódó tudomány-területekRészterületekJövő

    Kapcsolódó tudomány-területek

    Valósźınűségszáḿıtás és statisztika

    Bonyolultságelmélet

    Approximáció elmélet

    Funkcionálanaĺızis

    Információ elmélet

    Mesterséges intelligencia

    Neurobiológia

    Filozófia

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Kapcsolódó tudomány-területekRészterületekJövő

    Gépi tanulás részterületek

    A gépi tanulás célja

    Olyan algoritmusok kidolgozása, melyek seǵıtségével a gépek ateljeśıtményüket tapasztalataikon keresztül jav́ıtani képesek

    Felügyelt tanulás: Leképezés megtanulása példákon keresztül

    Felügyelet nélküli tanulás: Összefüggések feltárása példákalapján

    Megerőśıtéses tanulás: Egy vezérlési eljárás megtanulásapéldákon keresztül

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Kapcsolódó tudomány-területekRészterületekJövő

    A gépi tanulás jövője: kitekintés

    Fontos-e a gépi tanulás?

    Népszerűsége, ismertsége nő, egyre több ipari alkalmazásbanjátszik kulcsszerepet

    Adatbányászat algoritmusainak alapjait adja

    Száḿıtógépipar: önjav́ıtó, alkalmazkadó rendszerek

    Játékipar: intelligens karakterek

    NASA: önálló, a környezetükhöz alkalmazkodó robotok

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    CsoporttagokTémákFőbb partnerek

    Csoport-tagok

    Tagok

    Kocsis LeventeSzepesvári Csaba

    Diákok

    Szamonek ZoltánTorma Péter

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    CsoporttagokTémákFőbb partnerek

    A csoport munkája

    Elmélet

    Megerőśıtéses tanulás – Q-tanulás + függvényapproximátorokKeresési algoritmusok – legrövidebb utak felfedezése

    Alkalmazások

    Felügyelt tanulás – fejlett tulajdonságkinyerés (MMDA);alkalmazás arcfelismerésbenNemlineáris szűrés – részecskeszűrők(Inverz) megerőśıtéses tanulás – szimulált környezetbenautonóm autó-vezetés;Játékos optimalizálás (TD, SPSA, EXP3) – Omaha Hi-LoPóker

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    CsoporttagokTémákFőbb partnerek

    Főbb partnerek

    SZTAKI-n belül

    Sztochasztikus rendszerek kut.cs.Adatbányászat és webes kut.cs.

    SZTAKI-n ḱıvűl

    Alakfelismerés – Szeged, Mesterséges IntelligenciaKutatócsoportMegerőśıtéses tanulás –

    elmélet – CMAP,Ecole Polytechniquealkalmazások – CS, Washington University in St. Louis

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Megerőśıtéses tanulás

    Controller

    System

    xt+1 = f (xt, at, wt)

    at

    rt = r(xt, at)

    (xt, rt)

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Modell, kontroller, teljeśıtmény

    Kontroller (π): múltbeli megfigyelésektől függően kiszámolegy akciót (At ∈ A)Állapot-átmenet: Xt+1 ∼ P(·|Xt ,At), Xt ,Xt+1 ∈ XJutalom: Rt = r(Xt ,At)Teljeśıtmény-index:

    Lecsengetett várható össz-jutalom; 0 < γ < 1:

    Vπ(x) = E[∞∑t=0

    γtRt |X0 = x ,At π(Xt , ·)]

    Egy lépésre jutó átlagos jutalom:

    ρπ = lim supN→∞

    1

    N

    N∑t=0

    Rt

    Markov Döntési Probléma: M = (X ,A,P, r , γ)Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Kritérium, Bellman-egyenletek

    Kritérium: argsupπVπ(x)Optimális értékelő függvény: V ∗(x) = supπ Vπ(x)

    Optimális kontroller (politika); π∗: V ∗(x) = Vπ∗(x), ∀x ∈ XStacionér politika: π : X → A.Mohó politika: π mohó V -re, ha

    π(x) ∈ Argmaxa∈AE[r(Xt , a) + γV (Xt+1)|Xt = x ]def= Argmaxa∈AQV (x , a)

    Mohó politika: determinisztikus, stacionér (π : X → A)

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Kritérium, Bellman-egyenletek

    Áll.: Ha π mohó V ∗-ra, akkor π optimális.

    V ∗ =?

    Bellman-egyenlet:

    V ∗(x) = supa∈A

    E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ].

    Érték-iteráció; V0(x) ≡ 0:

    Vt+1(x) = supa∈A

    E[r(Xt , a) + γVt(Xt+1)|Xt = x ]

    = supa∈A

    (TaV )(x)

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Érték-iteráció

    Vt+1(x) = supa∈A

    E[r(Xt , a) + γVt(Xt+1)|Xt = x ]

    = supa∈A

    (TaV )(x)

    Bellman-operátor:

    (TV )(x) = supa∈A

    E[r(Xt , a) + γVt(Xt+1)|Xt = x ].

    L∞-kontrakció: ∥∥TV − TV ′∥∥ ≤ γ ∥∥V − V ′∥∥Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Érték-iteráció

    Vt+1(x) = supa∈A

    E[r(Xt , a) + γVt(Xt+1)|Xt = x ]

    = supa∈A

    (TaV )(x)

    Érték-iteráció: Operátoros alak

    Vt+1 = TVt → V ∗

    Banach-fixponttétel: Vt → V ∗, sőt‖Vt − V ∗‖ ≤ γt ‖V0 − V ∗‖.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Érték-iteráció

    Vt+1(x) = supa∈A

    E[r(Xt , a) + γVt(Xt+1)|Xt = x ]

    = supa∈A

    (TaV )(x)

    Bellman-hiba korlát

    Ha V”közel fixpont” és ha π mohó V -re, akkor π

    ”közel”

    optimális lesz, azaz Vπ közel lesz V∗-hoz:

    ‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Bellman-hiba

    Bellman-hiba

    ‖Vπ − V ∗‖ ≤ 2 ‖V − TV ‖ /(1− γ).

    V

    TVVπ

    V ∗

    π

    π∗

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Megerőśıtéses tanulás

    r ,P nem ismertek

    – és/vagy –

    X , A”nagy méretű”

    Érték-iteráció alapú

    Közeĺıtsük az optimális akció-értékeket:

    Q∗(x , a) = E[r(Xt , a) + γV ∗(Xt+1)|Xt = x ]

    Közvetlen optimalizáció

    Változtassuk π-t úgy, hogy ρπ javuljon (pl. gradiens módszer).

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Illesztett érték-iteráció

    Illesztett érték-iteráció

    Vt+1 = argminf ∈F ‖TVt − f ‖

    ”Fitted Value Iteration” ≡ FVI

    Közeĺıtő érték-iteráció

    Vt+1 = TVt + �t

    ”Approximate Value Iteration” ≡ AVI

    Stabilitás: �t korlátos ⇒ Vt − V ∗ korlátos

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    FVI – korai eredmények

    Samuel (1963,1967), dáma-játék;

    F = {fθ|θ ∈ Θ}

    fθ(x) = θTφ(x) =

    m∑i=1

    θiφi (x)

    Bellman, Dreyfus (1959), Reetz (1977), Morin (1978);X = ∪∗i Xi

    φi (x) =

    {1 ha x ∈ Xi0 ha x 6∈ Xi

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    FVI – újabb eredmények

    Gordon (1995), Tsitsiklis és Van Roy (1996): A : B(X ) → F(projekció);

    Vt+1 = ATVt .

    Ha A γ′-Lipschitz, és γγ′ < 1, akkor az iteráció stabil.

    Q-tanulás:

    Singh, Jaakkola, Jordan (1995)Szepesvári, Smart (2004)

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    FVI – probléma a korábbi eredményekkel

    ‖f ‖∞ = supx∈X |f (x)| – L∞ norma!1 Túl szigorú (egyenletesen kicsi hiba)2 Nem illeszkedik az algoritmusokhoz:

    E (θ;V ) =∥∥θTφ− TV∥∥∞ → min

    E (θ;V ) nem deriválható θ-ban!

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    FVI – Lp-normára vonatkozó eredmények

    Lp(µ)-norma:

    ‖f ‖p,µ =(∫

    |f (x)|pdµ(x))1/p

    Eredmények:

    Bertsekas, Tsitsiklis (1996): fθ = θTφ, `2-norma, paraméter

    stabilitás TD(λ) alapú politika kiértékelésbenMunos (2003,2005): L1(µ), L2(µ); illesztett egzakt politika ésérték-iterációk

    Kiterjeszthető-e Munos eredménye közeĺıtőpolitika/érték-iterációra??

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Monte-Carlo illesztett érték-iteráció

    Feltételek:

    Az MDP szimulálható:

    Y x,a ∼ P(·|x , a);Rx,a ∼ ψ(·|x , a);

    E [Rx,a] = r(x , a)

    Véges sok akció van.

    X1

    YX1,a1YX1,a2

    YX1,aM

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Monte-Carlo illesztett érték-iteráció

    Input: Szimulátor, K , N, M természetes számok; F , µ1 Inicializálás: V0 ∈ F .2 k = 0, . . . ,K :

    1 Szimuláció:Xi ∼ µ, Y Xi ,aj ∼ P(·|Xi , a), R

    Xi ,aj ∼ ψ(·|Xi , a)

    i ∈ {1, . . . ,N}, j ∈ {1, . . . ,M}, a ∈ A2 Bellman operátor Monte-Carlo becslése:

    V̂ (Xi ) = maxa∈A

    1

    M

    M∑j=1

    {RXi ,aj + γVk(Y

    Xi ,aj )

    },

    3 Függvény-approximátor illesztése:

    Vk+1 = argminf∈F∑N

    i=1(f (Xi )− V̂ (Xi ))p.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Markov döntési problémákÉrték-iterációMegerőśıtéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    Kapcsolódó elméleti területek

    Markov-döntési problémák (dinamikus programozás)

    Függvény-approximáció

    Monte-Carlo integrálás

    Felügyelt tanulás módszerei, elmélete

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    A Bellman operátor approximációja

    V̂ (Xi ) = maxa∈A

    1

    M

    M∑j=1

    {RXi ,aj + γVk(Y

    Xi ,aj )

    },

    V̂ (Xi ) épp (TVk)(Xi ) Monte-Carlo approximációja:

    (TaVk)(Xi ) ≈1

    M

    M∑j=1

    {RXi ,aj + γVk(Y

    Xi ,aj )

    }Átlagok egyenletes konvergenciája: Xi i.i.d., f ∈ F :

    E[f (X1)] ≈1

    n

    n∑i=1

    f (Xi )

    A hiba f -ben egyenletesen korlátozható (f ∈ F)?Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Pollard maximál egyenlőtlensége

    Tétel (Pollard, 1984)

    Legyen Xi , i = 1, . . . , n egy i.i.d. sorozat, F mérhető függvényekegyenletesen korlátos halmaza, K közös korláttal. Ekkor:

    P

    (supf ∈F

    ∣∣∣∣∣1nn∑

    i=1

    f (Xi )− Ef (X1)

    ∣∣∣∣∣ > �)≤ 8e−

    n�2

    128K2 EN (�/8,F(X 1:n)),

    ahol N (�/8,F(X 1:n)) az a legkisebb m természetes szám, hogy

    F(x1:n) = {(f (x1), . . . , f (xn)) | f ∈ F },

    mint (Rn, `1) részhalmaza lefedhető m darab F(x1:n) középpontú,legfeljebb r = n�/8 sugarú gömbbel.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Fedési számok

    F(x1:n) = {(f (x1), . . . , f (xn)) |f ∈ F }

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Feltételek - I.

    A0 Feltevés:”MDP regularitása”:

    X ⊆ Rd zártsuppψ(·|x , a) ⊂ [−Rmax,Rmax]

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    A Bellman operátor egyenletes közeĺıtése

    Tfh. A0 áll, legyen Vmax = Rmax/(1− γ), V ∈ B(X ;Vmax),

    V̂ (Xi ) = maxa∈A1M

    ∑Mj=1

    {RXi ,aj + γV (Y

    Xi ,aj )

    },

    V ′ = argminf ∈F∑N

    i=1(f (Xi )− V̂ (Xi ))p,

    Ep(TV ;F)def= inff ∈F ‖f − TV ‖p,µ

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    A Bellman operátor egyenletes közeĺıtése -II.

    Lemma (Munos, Szepesvári, 2005)

    Rögźıtsük �, δ > 0-t! Tfh. F ⊂ B(X ;Vmax) és tfh.Ep(TV ;F) ≤ �/5. Tfh.

    N > 128 V 2max (5/�)2p (log(1/δ) + log(32N (�/40,F ,N, µ)))

    M >25 (R̂max + γVmax)

    2

    2�2(log(1/δ) + log(8N|A|)) .

    EkkorP(∥∥V ′ − TV∥∥

    p,µ> �)≤ δ.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Stacionér politikák magfüggvényei

    Defińıció

    Legyen π : X → A stacionér politika. Legyen

    Pπ(dy |x) def= P(dy |x , π(x))

    és Pπ· : B(X ) → B(X ), ·Pπ : M(X ) → M(X ):

    (PπV )(x)def=

    ∫V (y)Pπ(dy |x),

    (µPπ)(dy)def=

    ∫Pπ(dy |x)µ(dx).

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Stacionér politikák magfüggvényei

    Defińıció

    Legyenek π1, π2 : X → A stac. politikák.A Pπ1 , Pπ2 magfüggvények szorzata:

    (Pπ1Pπ2)(dz |x) =∫

    Pπ1(dy |x)Pπ2(dz |y).

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Feltételek - II.

    A1 feltevés: Átmenetek egyenletes sztochasztikussága:

    Pπ(·|x) ≤ Cµ(·)

    A2 feltevés: Átmenetek egyenletes sztochasztikussága: Vanolyan ρ eloszlás X -en, {c(m)}m≥1 együtthatók, hogy bármelyπ1, . . . , πm stac. politikákra,

    ρPπ1Pπ2 . . .Pπm ≤ c(m)µ,

    és az∑

    m≥1 mγm−1c(m) sor konvergens.

    C = (1− γ)2∑m≥1

    mγm−1c(m) < +∞.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Stabilitás

    Tétel: Az iteráltak stabilitása (Munos, Szepesvári, 2005)

    Tfh. A0, A1 állnak. Rögz. � > 0, δ > 0; Vmax = Rmax/(1− γ);tfh. F olyan, hogy

    supV∈F Ep(TV ;F) ≤(1−γ)2�

    4C

    LegyenK = O(log(Vmax/(�(1− γ)2)/ log(1/γ)))

    N,M = poly(1/�, log(1/δ), log(1/(1− γ)),Vmax, log(|A|),log(N (c�(1− γ)2/C ),F , µ)).

    Ekkor P (‖V ∗ − V πK ‖∞ > �) ≤ δ.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Hiba-kontroll

    Az approximáció minőségét befolyásolja F mérete:

    �0 = supV∈F Ep(TV ;F) > 0

    Hogyan válasszuk F-et?Sorozat: Fn ⊂ Fn+1 (”approximációs terek”)

    Pl. egyre több bázisfüggvényÚjabb neuronok egy neuronháló rejtett rétegébenstb..

    F∞ = lim supn→∞Fn fedési száma végtelen!Mennyi legyen n, ha adott �, δ?

    Áll.: Ha N (�,F(X 1:N)) = O(N), akkor n megválasztható (ésn-től függően N, M, K is megválaszthatóak).

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Randomizált politikák

    Eddig: ‖VK − V ∗‖p,µ-ra adtunk nagy valósźınűségű korlátot.Hogyan használjuk VK -t? (Mire jó???)

    Mohó politika:

    π(x) ∈ Argmaxa∈AE[r(Xt , a) + γVK (Xt+1)|Xt = x ]

    Közeĺıtőleg mohó politika:

    QM′(x , a) =1

    M ′

    M′∑j=1

    {Rx ,aj + γVK (Y

    x ,aj )

    }πK (x) ∈ Argmaxa∈AQM′(x , a)

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Randomizált politikák

    QM′(x , a) =1

    M ′

    M′∑j=1

    {Rx ,aj + γVK (Y

    x ,aj )

    }πK (x) ∈ Argmaxa∈AQM′(x , a)

    Tétel (Munos, Szepesvári, 2005)

    Tfh A0, A1 állnak.

    Ha K ,N,M,M ′ elég nagyok, akkor πK nagy valósźınűséggel

    ”közel-optimális” akciókat választ:

    P(∥∥∥V ∗ − V πK∥∥∥

    ∞> �)≤ δ.

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    A Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözeĺıtőleg optimális randomizált politikák

    Alkatrészcsere optimalizálás (pl. Rust, 1996)Xt – alkatrész elhasználtsága (Xt = 0: új)’Megtart’: Xt+1 − Xt ∼ exp(−β(Xt+1 − Xt)), Xt+1 − Xt ≥ 0’Csere’: Xt+1 ∼ exp(−βXt+1), Xt+1 ≥ 0r(x , ′megtart′) = −4x , r(x , ′csere′) = −30Csebisev-polinomok: d = 4; Iteráció szám: k = 2, ill. k = 20

    x=4.867

    Optimal value function

    Sampled points

    0x=0 x=10

    −48.67

    x=4.8670x=0 x=10

    −48.67

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Összefoglalás

    Gépi tanulás: A mesterséges intelligencia egy fontosrészterületeMegerőśıtéses tanulás:

    Markov Döntési Problémák megoldása (optimális kontroll)ismeretlen, illetve nagy MDP-k

    Illesztett érték iteráció:Az egyik legkorábbi ötlet a dinamikus programozáskiterjesztésére folytonos állapotterekreItt vizsgált algoritmus:

    Monte-Carlo integrálásIllesztés Lp(µ) normában

    Nagy valósźınűségű korlátok az iteráltakra és a közeĺıtőlegoptimális politikára

    Kiterjesztések:µ =?, politika iteráció, folytonos akció (kontroll) terek, ..

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

  • TartalomGépi tanulás

    A gépi tanulás csoportMegerőśıtéses tanulás

    EredményekÖsszefoglalás

    Kérdések?

    Köszönöm a figyelmet!

    Szepesvári Csaba Gépi tanulás: Lp korlátok megerőśıtéses tanulásban

    TartalomGépi tanulásKapcsolódó tudomány-területekRészterületekJövo

    A gépi tanulás csoportCsoporttagokTémákFobb partnerek

    Megerosítéses tanulásMarkov döntési problémákÉrték-iterációMegerosítéses tanulásIllesztett érték iterációMonte-Carlo illesztett érték-iteráció

    EredményekA Bellman operátor approximációjaAz iteráltak stabilitásaHiba-kontrollKözelítoleg optimális randomizált politikák

    Összefoglalás