[DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Model-Free Episodic ControlNeural Episodic Control

M2 塩谷碩彬2017/4/21

強化学習の進歩により色々凄いことができそう

● Atari● Alpha Go● hand eye cordination● guided policy search

強化学習は進歩したけど、まだ人間に及ばない点も

進歩したところ人間に及ばないところ

学習の早さ効率化する手法が数多く提案されているone shotをうたう手法も

とはいえ時間かかりすぎatariで人間と同等の性能になるのに924時間（38日）

成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level

manipulation taskなど、基本100%はないゲームでもダメなやつも

タスクの種類ゲームからロボットまでプランニング、階層的なプランニングは得意でない

汎化性能(未知の環境、似たような別タスク )

転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法

忘れる、未知環境には基本弱い

今回は学習の遅さを克服する論文の話です

進歩したところ人間に及ばないところ

学習の早さ効率化する手法が数多く提案されているone shotをうたう手法も

とはいえ時間かかりすぎ、人間だと20時間、DQNは200時間

成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level

manipulation taskなど、基本100%はないゲームでもダメなやつも

タスクの種類ゲームからロボットまでプランニング、階層的なプランニングは得意でない

汎化性能(未知の環境、似たような別タスク )

転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法

忘れる、未知環境には基本弱い

Model-Free Episodic Control

書誌情報

● DeepMindの論文

● 2016/6/14 arXiv

背景

● Hippocampal Contributions to Control: The Third way

○ NIPS 2007の論文○ エピソード記憶が人間の行動に使われているのでは？と

いう仮説から出発○ 簡単な問題設定で過去の経験をそのままつかった方法

の効率性を検証

従来の強化学習における記憶の役割

● 記憶する構造をもったRLはあることはある○ LSTM,DNC, Memory Networkなど

● ただし、エピソード記憶というよりワーキングメモリであるものが多い○ 行動を参照するのではなく、あるエピソードにおいて過去たどってきた状態を記憶

○ 解いてる問題が違う

提案手法：Model Free Episodic Control● 学習（価値関数の更新）

○ テーブルを持っておき、すでにテーブルにあれば更新、なければ追加

● 行動選択○ テーブルに値があればそれを、なければ最近傍方法で推定

● 状態表現の工夫○ 必要性：メモリを削減したい、元の表現のままでとる距離が適切でないかも

○ 対策：この論文では random projectionとVAEによる変換を提案

実験１：Atari● 設定

○ Atariのゲーム5つでスコア比較

○ 変換にはrandom projectionとVAEを試す

○ DQN,DQN with prioritised replay,AC3と比較

● 結果○ 素早く良い行動にたどり着き、学習初

期においては比較手法より優秀

○ 学習が進むとDQN系の方が良いスコ

アを得られる（グラフにはのってない）

○ VAEはあまり効果がないようだ ...

実験2：Labyrinth● 設定

○ 3D迷路ゲームで３つのレベルの

異なるタスク

○ 検証した手法は実験１と同じ

● 結果○ Atariと同様に素早く学習する

○ Double T-mazeのような報酬が

疎なタスクでもうまくいく（A3Cだ

と全く学習が進まない）

限界と今後の展望

● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い

○ 行動が連続値の場合に用いることができない

● 今後の展望○ 精度があがりきらなくても使える実用的な応用が見つかると良い

■ データがたくさんつかえない場合とか

Neural Episodic Control

書誌情報

● DeepMindの論文○ Model-Free Episodic Controlの著者が何人か

○ Matching Network for One Shot Learningの筆頭著者であるOriol Vinyals さんが加わる

● 2017/3/6 arXiv

課題意識

● DRLの学習が遅い原因のうち、以下の３点に焦点を当てる○ 確率的勾配降下法における小さい学習率。大きな学習率を用いると最適化がうまくいかない。

○ 報酬がスパースである場合、少数事例である報酬の獲得をうまく予測できない。

■ 比率の不明なクラス不均衡問題と考えられる

○ DQNのように時系列と関係ない順番での価値関数のブートストラップによる報酬の伝搬

● 学習を早くするには、他にも探索を工夫するとか、試行錯誤以外の知識を用いる

（転移学習）とかも考えられるが、この論文では扱わない

提案手法：Neural Episodic Control● 素早い学習を実現するためのコンセプトはModel-Free Episodic Controlと同じ

○ 価値関数の推定をメモリに記憶した事例を用いた最近傍法による non parametricな形で行う

● 状態の写像→メモリ→価値関数の推定までをend to endで微分可能になった点が

異なる

Neural Episodic Control：行動選択時

CNNでs→hに変換 k(h, hi)に基づき、hに近いhiをp個選択

選択した事例と距離に基づく重みの線形和によりQを推定

Qが最大となるaを選択

Neural Episodic Control：学習時

メモリ追加更新

N-step Q-learningで推定

replaybuffer

replay bufferから取り出したbatchをつかい、Q値のL2 lossによる更新

実験：Atari● 設定

○ Atariの57のゲームでスコア比較

○ 比較対象はDQN,Prioritized Replay, A3Cに加え、Q lambda, Retrace,Model Free Episodic Control

● 結果○ 学習初期において、NECがもっともスコアが良い

○ 学習が進むと、やはり他の学習方法が良い

○ Model Free Episodic Control と比較してスコアが良い

■ 状態sの写像までend to endで学習できている点が効いているのでは

実験結果：スコア比較

実験結果：学習曲線

限界と今後の展望

● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い

○ 行動が連続値の場合に用いることができない

● 今後の展望○ 長期的な性能を犠牲にしなくても済むような方法の発見

○ 3Dや実世界でのタスクなど、幅広いタスクへの適用と検証

まとめ

● 強化学習は進歩したけど、まだ人間と比べてできないことがたくさんある

● 人間とのギャップを埋めるのに、人間の学習システムからヒントを得ようというアプ

ローチがある

● 実際に、人間のように学習に記憶を利用すると、強化学習も学習効率を高めること

ができる場合がある

● 人間の学習システムから学ぶ余地はまだ残っており、今後も同様のアプローチから

新しい手法が生まれるかもしれない

[DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Technology

Imagining the personal past: Episodic counterfactuals compared to episodic …€¦ · · 2017-08-26Imagining the personal past: Episodic counterfactuals compared ... generated

[Dl輪読会]dl hacks輪読

Episodic Literary Magazine

A Critical Evaluation of the Semantic-Episodic Distinction · PDF fileexample, if episodic memory were not temporally organized, it would not be episodic memory. The definitional features

Episodic Bouts of Activity

Flick- The Episodic Interview

Emotional Processing and Episodic Memory

Aphantasia, SDAM, and Episodic Memory

Tulving episodic semantic

Introduction to Cognitive RoboticsTypes of Memory Episodic •Episodic memory is a constructive process –Each time an event is assimilated into episodic memory, past episodes are

Efficiently Implementing Episodic Memory

Assessment of Eutrophication in Estuaries and Coastal Waters Eutrophication.pdf · Periodic Periodic Periodic Periodic Episodic Episodic Episodic Unknown Any Frequency High High Moderate

The Parietal Cortex and Episodic

Decision making in episodic environments

輪島市ホームページ | 輪島市輪島市ホームページ | 輪島市

CAT.No.4201c 2015 X-87 8 BWK（玉軸受） KWH（円すいころ軸受）外輪回転タイプ従動輪用内輪回転タイプ従動輪用内輪回転タイプ駆動輪用外輪回転タイプ従動輪用

Perspectives on episodic-like and episodic memory

episodic and continuous change

Episodic Control: Singular Recall and Optimal Actions Peter Dayan Nathaniel Daw Máté Lengyel Yael Niv

Episodic future thinking and episodic counterfactual