41
Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion Least-Squares Policy Iteration Emmanuel Rachelson RFIA, 19 Janvier 2010 1 / 30 Least-Squares Policy Iteration

Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Least-Squares Policy Iteration

Emmanuel Rachelson

RFIA, 19 Janvier 2010

1 / 30Least-Squares Policy Iteration

Page 2: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

1 Rappels et introduction

2 Least Squares Temporal Differences

3 Least Squares Policy Iteration

2 / 30Least-Squares Policy Iteration

Page 3: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Le but

Sur la base des infos issues de l’expérience, on veut . . .

contrôler un agent de façon à maximiser un critère lié à sa trajectoire.

3 / 30Least-Squares Policy Iteration

Page 4: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Formellement

Choisir meilleure stratégie de contrôle↔ Maximiser un critère

∀s ∈ S, π∗(s) = argmax

πE (C(π,s))

∀s ∈ S, π∗(s) = argmax

πE

(∞

∑δ=0

γδ r(sδ ,π(sδ )

∣∣∣∣s0 = s

)

s0 s1 s2 s3 . . . sδ+1

r0 + γr1 +γ2r2+ +γδrδ

4 / 30Least-Squares Policy Iteration

Page 5: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Formellement

Choisir meilleure stratégie de contrôle↔ Maximiser un critère

∀s ∈ S, π∗(s) = argmax

πE (C(π,s))

∀s ∈ S, π∗(s) = argmax

πE

(∞

∑δ=0

γδ r(sδ ,π(sδ )

∣∣∣∣s0 = s

)

s0 s1 s2 s3 . . . sδ+1

r0 + γr1 +γ2r2+ +γδrδ

4 / 30Least-Squares Policy Iteration

Page 6: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Fonction de valeur

V π(s) = E

(∞

∑δ=0

γδ r(sδ ,π(sδ ))

∣∣∣∣s0 = s

)Donc :

∀s ∈ S, π∗(s) = argmax

πV π(s)

5 / 30Least-Squares Policy Iteration

Page 7: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Equation de Bellman (évaluation)

t0 1 n n + 1

s0

}p(s1|s0, a0)r(s0, a0)}

p(s1|s0, a2)r(s0, a2)

sn p(sn+1|sn, an)r(sn, an)

Dans un monde de Markov,

V π(s) = E

(∞

∑δ=0

γδ r(sδ ,π(sδ ))

∣∣∣∣s0 = s

)⇒ V π = T πV π

Et en termes de fonctions de valeur d’actions (Q-fonctions) :

Qπ(s,a) = r(s,a) + γ ∑s′∈S

p(s′|s,a) ∑a′∈A

π(a′|s′)Qπ(s′,a′)

Qπ = r + γPΠQπ

6 / 30Least-Squares Policy Iteration

Page 8: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Equation de Bellman (évaluation)

t0 1 n n + 1

s0

}p(s1|s0, a0)r(s0, a0)}

p(s1|s0, a2)r(s0, a2)

sn p(sn+1|sn, an)r(sn, an)

Dans un monde de Markov,

V π(s) = E

(∞

∑δ=0

γδ r(sδ ,π(sδ ))

∣∣∣∣s0 = s

)⇒ V π = T πV π

Et en termes de fonctions de valeur d’actions (Q-fonctions) :

Qπ(s,a) = r(s,a) + γ ∑s′∈S

p(s′|s,a) ∑a′∈A

π(a′|s′)Qπ(s′,a′)

Qπ = r + γPΠQπ

6 / 30Least-Squares Policy Iteration

Page 9: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Confrontés à la réalité

On ne connait pas p et r .

Taille des espaces de recherche.

Qu’a-t-on à disposition ?Echantillons D = {(s,a, r ,s′)}

7 / 30Least-Squares Policy Iteration

Page 10: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Les différents algorithmes de RL

Dans notre cas :

model-based vs. model-free

online vs. offline

on-policy vs. off-policy

incremental vs. batch

8 / 30Least-Squares Policy Iteration

Page 11: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Les différents algorithmes de RL

Dans notre cas :

model-based vs. model-free

online vs. offline

on-policy vs. off-policy

incremental vs. batch

8 / 30Least-Squares Policy Iteration

Page 12: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Les ingrédients

Cadre actor-critic.

Recherche directement parmi les politiques (et non les fonctions devaleur) : Policy Iteration.

Fonction de valeur mise à jour via des échantillons : méthodes TD.

Méthode offline : mise à jour “batch” de la fonction de valeur afind’exploiter au mieux les échantillons et l’équation de Bellman.

Contrer la complexité de représentation de V , Q et π : abstraction parl’approximation. Ici, architecture linéaire.

Approximate evaluation: V πn

One-step improvement: πn+1

9 / 30Least-Squares Policy Iteration

Page 13: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Least Squares Temporal Differences

Boyan A. J. (2002).Technical Update: Least-Squares Temporal Difference Learning.Machine Learning Journal 49(2-3):233-246.

10 / 30Least-Squares Policy Iteration

Page 14: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

L’idée clé

La fonction de valeur Qπ est solution du système linéaire :

Qπ = r + γPΠQπ

Approximation : combinaison linéaire de fonctions caractéristiques.

Q(s,a,w) =k

∑j=1

φj(s,a)wj

Ou encore :

Q = Φw , Φ =

φ1(s1,a1) · · · φk (s1,a1)...

. . ....

φ1(s|S|,a|A|) · · · φk (s|S|,a|A|)

11 / 30Least-Squares Policy Iteration

Page 15: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

L’idée clé

La fonction de valeur Qπ est solution du système linéaire :

Qπ = r + γPΠQπ

Approximation : combinaison linéaire de fonctions caractéristiques.

Q(s,a,w) =k

∑j=1

φj(s,a)wj

Ou encore :

Q = Φw , Φ =

φ1(s1,a1) · · · φk (s1,a1)...

. . ....

φ1(s|S|,a|A|) · · · φk (s|S|,a|A|)

11 / 30Least-Squares Policy Iteration

Page 16: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

L’idée clé

La fonction de valeur Qπ est solution du système linéaire :

Qπ = r + γPΠQπ

Approximation : combinaison linéaire de fonctions caractéristiques.

Q(s,a,w) =k

∑j=1

φj(s,a)wj

Ou encore :

Q = Φw , Φ =

φ1(s1,a1) · · · φk (s1,a1)...

. . ....

φ1(s|S|,a|A|) · · · φk (s|S|,a|A|)

11 / 30Least-Squares Policy Iteration

Page 17: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

LSTDQ

On cherche donc

Qπ(s,a,w) =k

∑j=1

φj(s,a)wπj

qui approche au mieux la solution de l’équation :

Qπ = r + γPΠQπ = T πQπ

Mais le point fixe de T π n’appartient pas forcément au plan span(Φ) !

12 / 30Least-Squares Policy Iteration

Page 18: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

“Approcher au mieux” ?

13 / 30Least-Squares Policy Iteration

Page 19: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Minimisation de l’erreur de Bellman

Erreur de Bellman (Bellman Residual) :

BQ(s,a) = T πQ(s,a)−Q(s,a)

Résolution sans approximation : Qπ annule l’erreur de Bellman.

Bellman Residual Minimization (BRM)

On cherche w tel que :

w = argminw‖BQ(s,a)‖2 = argmin

w‖r + γPΠΦw−Φw‖2

C’est un problème surcontraint, type “moindres carrés”.

wπ =(

(Φ− γPΠΦ)T (Φ− γPΠΦ))−1

(Φ− γPΠΦ) r

14 / 30Least-Squares Policy Iteration

Page 20: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

“Approcher au mieux” ?

15 / 30Least-Squares Policy Iteration

Page 21: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Recherche d’un point fixe de l’opérateur TPlutôt que minimiser BQ, on cherche un point fixe à T π .

Pb : T πQ est hors de span(Φ). Pas de solution à forme stable.→ Projection sur span(Φ).

T πQ = Φ(ΦT Φ)−1ΦT (T πQ)

Fixed Point approximation (FP)

On cherche donc Q = Φw telle que

Q = T πQ

C’est un système linéaire de rang plein.

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

16 / 30Least-Squares Policy Iteration

Page 22: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Recherche d’un point fixe de l’opérateur TPlutôt que minimiser BQ, on cherche un point fixe à T π .

Pb : T πQ est hors de span(Φ). Pas de solution à forme stable.→ Projection sur span(Φ).

T πQ = Φ(ΦT Φ)−1ΦT (T πQ)

Fixed Point approximation (FP)

On cherche donc Q = Φw telle que

Q = T πQ

C’est un système linéaire de rang plein.

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

16 / 30Least-Squares Policy Iteration

Page 23: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Recherche d’un point fixe de l’opérateur TPlutôt que minimiser BQ, on cherche un point fixe à T π .

Pb : T πQ est hors de span(Φ). Pas de solution à forme stable.→ Projection sur span(Φ).

T πQ = Φ(ΦT Φ)−1ΦT (T πQ)

Fixed Point approximation (FP)

On cherche donc Q = Φw telle que

Q = T πQ

C’est un système linéaire de rang plein.

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

16 / 30Least-Squares Policy Iteration

Page 24: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Recherche d’un point fixe de l’opérateur TPlutôt que minimiser BQ, on cherche un point fixe à T π .

Pb : T πQ est hors de span(Φ). Pas de solution à forme stable.→ Projection sur span(Φ).

T πQ = Φ(ΦT Φ)−1ΦT (T πQ)

Fixed Point approximation (FP)

On cherche donc Q = Φw telle que

Q = T πQ

C’est un système linéaire de rang plein.

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

16 / 30Least-Squares Policy Iteration

Page 25: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Recherche d’un point fixe de l’opérateur TPlutôt que minimiser BQ, on cherche un point fixe à T π .

Pb : T πQ est hors de span(Φ). Pas de solution à forme stable.→ Projection sur span(Φ).

T πQ = Φ(ΦT Φ)−1ΦT (T πQ)

Fixed Point approximation (FP)

On cherche donc Q = Φw telle que

Q = T πQ

C’est un système linéaire de rang plein.

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

16 / 30Least-Squares Policy Iteration

Page 26: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

“Approcher au mieux” ?

17 / 30Least-Squares Policy Iteration

Page 27: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Comparaison des deux méthodes

FP conserve la propriété d’opérateur contractant.

BRM demande deux fois plus d’échantillons que FP.

Souvent FP est plus proche de Qπ que BRM.

Choix de FP en général.

18 / 30Least-Squares Policy Iteration

Page 28: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Oui, mais si on danse ?

wπ =(ΦT (Φ− γPΠΦ)

)−1ΦT r

Mais on n’a pas P et r !

A = ΦT (Φ− γPΠΦ)

b = ΦT r

Plutôt que d’inférer P et r à partir des échantillons, on construitdirectement les matrices A et b.

Plutôt que d’énumérer les couples états-actions, on approche A et bavec les éléments de D.

19 / 30Least-Squares Policy Iteration

Page 29: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

De A à A, de b à b

A = ΦT (Φ− γPΠΦ)

= ∑s∈S

∑a∈A

φ(s,a)

(φ(s,a)− γ ∑

s′∈S

p(s,a,s′)φ(s′,π(s′)

))T

= ∑s∈S

∑a∈A

∑s′∈S

p(s,a,s′)[φ(s,a)

(φ(s,a)− γφ

(s′,π(s′)

))T]

b = ΦT r

= ∑s∈S

∑a∈A

φ(s,a) ∑s′∈S

p(s,a,s′)r(s,a,s′)

= ∑s∈S

∑a∈A

∑s′∈S

p(s,a,s′)[φ(s,a)r(s,a,s′)

]

20 / 30Least-Squares Policy Iteration

Page 30: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Equations d’apprentissage

Etant donné D = {(si ,ai , ri ,s′i )|i = 1, . . . ,L},

A =1L

L

∑i=1

[φ(si ,ai)

(φ(si ,ai)− γφ(s′i ,π(s′i ))

)T]

b =1L

L

∑i=1

[φ(si ,ai)ri ]

21 / 30Least-Squares Policy Iteration

Page 31: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Algorithme

Init: D = {(s,a, r ,s′)}, φ , π .Init: A← 0k×k .Init: b← 0k×1.for (s,a, r ,s′) ∈ D do

A← A + φ(s,a)(φ(s,a)− γφ(s′,π(s′)))T

b← b + φ(s,a)rwπ = A−1breturn wπ

22 / 30Least-Squares Policy Iteration

Page 32: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Bilan

Intérêts de LSTDQ

Estime directement la fonction Qπ

S’appuie sur une architecture linéaire aisément explicable

Réutilisabilité de la base d’apprentissge D. On peut faire fonctionnerl’algo sans jamais avoir besoin de nouveaux échantillons !

Indépendance de la méthode de collecte de D et de la méthoded’optimisation.

23 / 30Least-Squares Policy Iteration

Page 33: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Least Squares Policy Iteration

Lagoudakis, M., and Parr, R. (2003).Least-Squares Policy Iteration.Journal of Machine Learning Research 4:1107–1149.

24 / 30Least-Squares Policy Iteration

Page 34: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

L’idée clé

Un politique gloutonne vis-à-vis de Qπ(s,a) est nécessairementmeilleure que π .

Approximate evaluation: Qπn

One-step improvement: πn+1

Politique implicite : politique gloutonne sur Qπ .

25 / 30Least-Squares Policy Iteration

Page 35: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

L’algorithme LSPI

π ′ = π0

repeatπ ← π ′

wπ ← LSTDQ(π)π ′← greedy(Φwπ)

until π ′ ≈ π

return π

26 / 30Least-Squares Policy Iteration

Page 36: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Convergence

Théorème de convergence de l’approximate policy iteration.

Théorème: Convergence de l’Approximate PI

Si ∀m = 1,2, . . . , ‖Qπm −Qπm‖∞ ≤ ε , alors :

limsupm→∞

‖Qπm −Q∗‖∞ ≤ 2γε

(1− γ)2

LSPI converge vers un voisinage de Q∗.

27 / 30Least-Squares Policy Iteration

Page 37: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Expériences

Chainwalk

Inverted Pendulum

Bicycle

28 / 30Least-Squares Policy Iteration

Page 38: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Expériences

Chainwalk

Inverted Pendulum

Bicycle

ϑ

28 / 30Least-Squares Policy Iteration

Page 39: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Expériences

Chainwalk

Inverted Pendulum

Bicycle

28 / 30Least-Squares Policy Iteration

Page 40: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Conclusion

Ce qu’il faut retenir.LSPI = LSTDQ + PI

Méthode model-free, offline, off-policy, batch.

Architecture d’approximation linéaire.

Algorithme simple.

Usage maximum des échantillons.

Applicabilité.

29 / 30Least-Squares Policy Iteration

Page 41: Least-Squares Policy Iterationemmanuel.rachelson.free.fr/extras/publis/RFIA-Rachelson-LSPI.pdf · Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration

Rappels et introduction Least Squares Temporal Differences Least Squares Policy Iteration Conclusion

Questions ?

Merci à O. Sigaud et M. G. Lagoudakis pour les illustrations !

30 / 30Least-Squares Policy Iteration