28
論文紹介 “Playing Atari with Deep Reinforcement Learning” 201463日(火)塚原裕史 https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers Deep Learning Workshop NIPS 2013

Paper intoduction "Playing Atari with deep reinforcement learning"

Embed Size (px)

DESCRIPTION

Intoduce the paper that titlted "Playing Atari with deep reinforcement learning"

Citation preview

Page 1: Paper intoduction   "Playing Atari with deep reinforcement learning"

論文紹介“Playing Atari with Deep Reinforcement Learning”

2014年6月3日(火)塚原裕史

https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers

Deep Learning Workshop NIPS 2013

Page 2: Paper intoduction   "Playing Atari with deep reinforcement learning"

Summary

• この論文の貢献– 最近、発展が目覚ましいDeep LearningとQ-Learning的な方法を融合した新しい強化学習の方法を提案

• そのメリット– Deep networkにより、特徴量や戦略を手で与えることなく自動獲得される(Model-Free)

• その効果– ビデオゲームに適用してみたら、な、なんと、従来手法を凌駕する性能を実現(人をも超える場合があり、びっくり!)

Page 3: Paper intoduction   "Playing Atari with deep reinforcement learning"

Atari 2600

http://nonciclopedia.wikia.com/wiki/Atari_2600

Page 4: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Atari 2600 Emulator

Stella http://stella.sourceforge.net/docs/index.html#Games

Page 5: Paper intoduction   "Playing Atari with deep reinforcement learning"

Supervised Learning vs

Reinforcement Learning

Page 6: Paper intoduction   "Playing Atari with deep reinforcement learning"

Supervised Learning (狩猟文明)

• 狩猟の技は伝授され、行動の結果は即時に得る

Page 7: Paper intoduction   "Playing Atari with deep reinforcement learning"

Reinforcement Learning (農耕文明)

• 愛情を注ぎ、紆余曲折の後、恵みが得られる

Page 8: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 教師付き学習→ ナンパ

• 強化学習→ 恋愛

男女で例えるなら・・・

Page 9: Paper intoduction   "Playing Atari with deep reinforcement learning"

Deep Learning and Reinforcement Learning

Page 10: Paper intoduction   "Playing Atari with deep reinforcement learning"

Deep Learning and RL

• モチベーション– 最近のDeep Learningの発展の恩恵に肖りたい

• 課題– Deep Learningの方法をそのままでは適用できない

• 正解データが作れない(遅延報酬)• 学習データ間に高い相関がある• データの発生源の分布が学習過程で変化する• データがスパース(似た経験を何度も繰り返さない)

– Model-Free RL with Q-Learningの問題• Nonlinear value function approximation and off-policy

Learning could cause divergence.

Page 11: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 最近の発展– Gradient temporal-difference methodにより、その発散の問題が部分的に解消できることが証明された(2009)

– Experience replay technique (1993)により、学習データがスパースである問題に対処

Page 12: Paper intoduction   "Playing Atari with deep reinforcement learning"

Deep Reinforcement Learning

Page 13: Paper intoduction   "Playing Atari with deep reinforcement learning"

• TD-Gammon (G. Tesauro, 1995)

History

http://www.bkgm.com/articles/tesauro/tdl.html

Page 14: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 観測空間– Atariのゲーム画面の画像

• アクション–

• 状態空間–

• 報酬–

この論文でのModel

1 1 2 1, , , ..., ,t t ts x a x a x

1,2, ,ta A K

Tt t

t t

t t

R r

tx

Page 15: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 過去の履歴全体(無限長)が状態の信念と同等とみなせばPOMDPとなるだろう。

• しかし、エミュレーターは、必ず有限回の操作でゲームが完了すると考えられる(仮定する)ので、履歴は有限長となり、全ての状態間の遷移を考えることでMDPとみなすことができる。

POMDP or MDP?

観測

信念

危険 安全戦況

Page 16: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Optimal Value Function

• Bellman equation

Optimal Value Function

* , max , ,t t tQ s a E R s s a a

* *, max , ,sa

Q s a E r Q s a s a

Page 17: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Solving Bellman equation iteratively– Converges to optimal value function as I goes to infinity

• 問題– すべての 毎に、上の式を解く必要がある

Q-Learning

1 , max , ,i s ia

Q s a E r Q s a s a

,s a

Page 18: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Parameterizing the value function– 価値関数を関数近似して、 全体に汎化させる

• Q-Network– 関数近似にDeep Networkを使う– 今回、状態量(入力)が画像なので、CNNを使う

• 特徴量が自動的に学習される

Approximate Value Function by Q-Network

*, ; ,Q s a Q s a

,s a

Page 19: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Deep Q-Learning Loss function

– Off-policy sampling: Behavior distribution • ε-greedy探索(on-policyとランダムサンプルの組合せ)

• Remarks– 学習データでありながら、出力がパラメタに依存しているのが特徴的

Deep Q-Learning

2

, 1 , ;i i s a i iL E y Q s a

1 1max , ; ,i s ia

y E r Q s a s a

,s a

arg max , ;a

a Q s a

Page 20: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Gradient of Loss Function

Minibatch Update

, 1max , ; , , ; , ; ,i ii i s a s s i i i

aL E E E r Q s a s a Q s a Q s a s a

Page 21: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 学習データとして、過去に経験したことを蓄えておき、何度も利用する– ローカルなエピソード

– Replay memory

Experience Replay

1, , ,t t t t te s a r s

1 2, , , ND e e e

Page 22: Paper intoduction   "Playing Atari with deep reinforcement learning"

Algorithm

※画像は粗視化して処理を軽くしておく

Page 23: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 画像の切り出しと粗視化– 計算を軽くする– 既存プログラムをそのまま利用

• 固定長の履歴で近似– 入力データのサイズを揃える(過去の4フレーム)– データ間の相関を低下させる効果

実際の学習における工夫

Page 24: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Training and Stability

Experiments

Page 25: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Frames and Predicted Value Functions

Experiments

Page 26: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Performance

Experiments

Page 27: Paper intoduction   "Playing Atari with deep reinforcement learning"

• Introduced a new deep learning model for reinforcement Learning– Demonstrated its ability to master difficult policies for

Atari 2600 computer games

• Also presented a variant of online Q-learning that combines stochastic minibatch updates with experience replay memory– Ease the training of deep networks for RL

Conclusion

Page 28: Paper intoduction   "Playing Atari with deep reinforcement learning"

• 従来技術にはすべて勝っているが、人に勝てるゲームは、単純な物ばかりな気がする。– 囲碁とかに適用してみたらどうなるか?(試してみたいが)

• 報酬が環境から明確に得られない問題へ適用するには、どのように行えば良いだろうか?– 報酬自体もDeep Learning?

• POMDPの近似解法としても使えないか?– 過去の履歴を信念の代用にして– 中間層に信念分布相当の物が形成される?

所感