View
628
Download
0
Category
Preview:
Citation preview
Model-Free Episodic ControlNeural Episodic Control
M2 塩谷碩彬2017/4/21
強化学習の進歩により色々凄いことができそう
● Atari● Alpha Go● hand eye cordination● guided policy search
強化学習は進歩したけど、まだ人間に及ばない点も
進歩したところ 人間に及ばないところ
学習の早さ 効率化する手法が数多く提案されているone shotをうたう手法も
とはいえ時間かかりすぎatariで人間と同等の性能になるのに924時間(38日)
成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level
manipulation taskなど、基本100%はないゲームでもダメなやつも
タスクの種類 ゲームからロボットまで プランニング、階層的なプランニングは得意でない
汎化性能(未知の環境、似たような別タスク )
転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法
忘れる、未知環境には基本弱い
今回は学習の遅さを克服する論文の話です
進歩したところ 人間に及ばないところ
学習の早さ 効率化する手法が数多く提案されているone shotをうたう手法も
とはいえ時間かかりすぎ、人間だと20時間、DQNは200時間
成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level
manipulation taskなど、基本100%はないゲームでもダメなやつも
タスクの種類 ゲームからロボットまで プランニング、階層的なプランニングは得意でない
汎化性能(未知の環境、似たような別タスク )
転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法
忘れる、未知環境には基本弱い
Model-Free Episodic Control
書誌情報
● DeepMindの論文
● 2016/6/14 arXiv
背景
● Hippocampal Contributions to Control: The Third way
○ NIPS 2007の論文○ エピソード記憶が人間の行動に使われているのでは?と
いう仮説から出発○ 簡単な問題設定で過去の経験をそのままつかった方法
の効率性を検証
従来の強化学習における記憶の役割
● 記憶する構造をもったRLはあることはある○ LSTM,DNC, Memory Networkなど
● ただし、エピソード記憶というよりワーキングメモリであるものが多い○ 行動を参照するのではなく、あるエピソードにおいて過去たどってきた状態を記憶
○ 解いてる問題が違う
提案手法:Model Free Episodic Control● 学習(価値関数の更新)
○ テーブルを持っておき、すでにテーブルにあれば更新、なければ追加
● 行動選択○ テーブルに値があればそれを、なければ最近傍方法で推定
● 状態表現の工夫○ 必要性:メモリを削減したい、元の表現のままでとる距離が適切でないかも
○ 対策:この論文では random projectionとVAEによる変換を提案
実験1:Atari● 設定
○ Atariのゲーム5つでスコア比較
○ 変換にはrandom projectionとVAEを試す
○ DQN,DQN with prioritised replay,AC3と比較
● 結果○ 素早く良い行動にたどり着き、学習初
期においては比較手法より優秀
○ 学習が進むとDQN系の方が良いスコ
アを得られる(グラフにはのってない)
○ VAEはあまり効果がないようだ ...
実験2:Labyrinth● 設定
○ 3D迷路ゲームで3つのレベルの
異なるタスク
○ 検証した手法は実験1と同じ
● 結果○ Atariと同様に素早く学習する
○ Double T-mazeのような報酬が
疎なタスクでもうまくいく(A3Cだ
と全く学習が進まない)
限界と今後の展望
● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い
○ 行動が連続値の場合に用いることができない
● 今後の展望○ 精度があがりきらなくても使える実用的な応用が見つかると良い
■ データがたくさんつかえない場合とか
Neural Episodic Control
書誌情報
● DeepMindの論文○ Model-Free Episodic Controlの著者が何人か
○ Matching Network for One Shot Learningの筆頭著者であるOriol Vinyals さんが加わる
● 2017/3/6 arXiv
課題意識
● DRLの学習が遅い原因のうち、以下の3点に焦点を当てる○ 確率的勾配降下法における小さい学習率。大きな学習率を用いると最適化がうまくいかない。
○ 報酬がスパースである場合、少数事例である報酬の獲得をうまく予測できない。
■ 比率の不明なクラス不均衡問題と考えられる
○ DQNのように時系列と関係ない順番での価値関数のブートストラップによる報酬の伝搬
● 学習を早くするには、他にも探索を工夫するとか、試行錯誤以外の知識を用いる
(転移学習)とかも考えられるが、この論文では扱わない
提案手法:Neural Episodic Control● 素早い学習を実現するためのコンセプトはModel-Free Episodic Controlと同じ
○ 価値関数の推定をメモリに記憶した事例を用いた最近傍法による non parametricな形で行う
● 状態の写像→メモリ→価値関数の推定までをend to endで微分可能になった点が
異なる
Neural Episodic Control:行動選択時
CNNでs→hに変換 k(h, hi)に基づき、hに近いhiをp個選択
選択した事例と距離に基づく重みの線形和によりQを推定
Qが最大となるaを選択
Neural Episodic Control:学習時
メモリ追加 更新
N-step Q-learningで推定
replaybuffer
replay bufferから取り出したbatchをつかい、Q値のL2 lossによる更新
実験:Atari● 設定
○ Atariの57のゲームでスコア比較
○ 比較対象はDQN,Prioritized Replay, A3Cに加え、Q lambda, Retrace,Model Free Episodic Control
● 結果○ 学習初期において、NECがもっともスコアが良い
○ 学習が進むと、やはり他の学習方法が良い
○ Model Free Episodic Control と比較してスコアが良い
■ 状態sの写像までend to endで学習できている点が効いているのでは
実験結果:スコア比較
実験結果:学習曲線
限界と今後の展望
● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い
○ 行動が連続値の場合に用いることができない
● 今後の展望○ 長期的な性能を犠牲にしなくても済むような方法の発見
○ 3Dや実世界でのタスクなど、幅広いタスクへの適用と検証
まとめ
● 強化学習は進歩したけど、まだ人間と比べてできないことがたくさんある
● 人間とのギャップを埋めるのに、人間の学習システムからヒントを得ようというアプ
ローチがある
● 実際に、人間のように学習に記憶を利用すると、強化学習も学習効率を高めること
ができる場合がある
● 人間の学習システムから学ぶ余地はまだ残っており、今後も同様のアプローチから
新しい手法が生まれるかもしれない
Recommended