Pythonではじめる OpenAI Gymトレーニング

PythonではじめるOpenAI Gymトレーニング

by icoxfog417 @ PyConJP 2016

Agenda

● OpenAI Gymを体験しよう○ OpenAIとOpenAI Gym

○ OpenAI Gymを動かしてみる

○ 簡単な「AI」を作ってみる

○ 「AI」の限界

● 「AI」を成長させよう○ 強化学習というアイデア

○ アイデアのモデル化と、最適化の方法

○ より複雑なタスクへの挑戦

● Deep Learningとの融合○ Deep Q-learningの登場

○ Deep Q-learningにおける3つのトリック

○ Deep Q-learningの実装

● おわりに

About Me

icoxfog417

TIS株式会社所属

業務コンサルタント出身で、サプライチェーン周りの開発を担当してました(得意技は石油化

学製品の価格改定)。kintoneエヴァンジェリストもやってます。

業務システムに先進的な技術を取り込んで活かしたいとの思いから、戦略技術センターに

異動。現在は、機械学習や自然言語処理を活用して新規サービスのプロトタイピングなど

を行っています。

Qiitaへの投稿もしてます。今日の発表は、この記事が元になっています。

icoxfog417

kintoneとWatsonを連携させた災害対策ソリューション

災害時、TwitterなどのSNSから自動で情報を収集し、kintoneに登録(重要度やカテゴリを、Watson NLCで自動判定)。

災害対策マニュアルを学習させたWatson R&Rから、必要な対策を提案。

会議診断システムさゆり

会議の様子をカメラで撮影し、リアルタイムにその会議の評価を出力する(機械学習により、評価を算定)。

戦略技術センターの活動原則はOPEN MINDであり、検証結果などはほぼ全てが公開されています。

人とロボットとの分業による、生産的な接客の実現を検証中

Robot Dash Board Human

customerA

customerB

customerC

report

take over(telepresence)

背景：生産年齢人口の現象による販売員単価増＋ネットショッピングの普及による来店者数減コンセプト：ロボットが得意なところ/できることは任せ、人は人ならでは応対に注力する

icoxfog417

対話システムシンポジウムでデモ予定

OpenAI Gymを体験しよう

OpenAIとOpenAI Gym

OpenAIは、AIの研究を行う非営利の団体です。上記の目標のとおり、AIの研究成果を自己

(特定企業の)利益のためではなく、人類全体のために活用することを目的としています。そ

のためコードも含めた研究成果は広く公開されており、今回紹介するOpenAI Gymもそのうち

の一つになります。9

目標はデジタルインテリジェンスの高度化をできるかぎり人

類全体の利益に資する形で推進すること。それが、経済的

(financial)な利益目的に制約されないことだ。

出資者の一人であるTesraのElon Musk氏

OpenAIとOpenAI Gym

Ilya Sutskever氏 Trevor Blackwell氏

Andrej Karpathy氏

所属する研究員の方たちは、Seq2Seqを提案したIlya

Sutskever、Segwayを発明したTrevor Blackwell、画像の

説明文生成を行ったAndrej Karpathなど、泣く子も黙る

世界的に優秀な研究員・エンジニア達が所属。

日本人はまだいないようなので、ぜひ日本人初の

OpenAI研究員を目指そう！

OpenAIとOpenAI Gym

OpenAI Gymは、強化学習を開発、評価するための

プラットフォームです。

強化学習は意思決定を行うための汎用的な仕組

みで応用性が高く、またその精度は近年飛躍的に

高まっています。

OpenAI Gymは、こうした注目を集める強化学習に

おいて標準となる実験・評価環境を提供することを

目的としています。これにより、大規模な画像デー

タセットであるImageNetにより画像分類の研究が発

展したのと同様の効果を狙っています。

環境を使うのはもちろん、実験結果をアップロードしたり、他の人の実行結果・実装を見たりすることも出来る

Let’s Try!

ファミリーボクシング(1987)

OpenAI Gymを動かしてみる

インストール方法は公式GitHubページを参照。

Mac/Linux(Ubuntu)が公式だが、Windowsでもbash on Windowsを利用することで動作させる

ことが可能。

利用する「ジム(=学習環境)」によって、必要となるライブラリも異なってくる。これらは、選択

的にインストールすることが可能。

※pip install gymで入るのは必要最低限のもので、Atariのゲーム環境を使う場合はpip

install ‘gym[atari]’といったように指定する

OpenAI Gymを動かしてみる

Gymの基本的な使い方は以下の通り。

import gym

env = gym.make("CartPole-v0")

for i_episode in range(20):

observation = env.reset()

done = False

while not done:

env.render()

action = env.action_space.sample()

observation, reward, done, info = env.step(action)

Environment(CartPole-v0)

action

observation, rewarddone (episode

episodeの単位は、各ゲームによって異なる。そのため、gymを使っていきなり強化学習に入るよりは、試しに動かし

てepisodeの単位、actionの意味を調べるのがおすすめ。

Let’s start from simple one

まずは簡単なAIを作ってみる

簡単な「AI」を作ってみる

Agent Environment

action(フン=左 & フン=右)

observation, reward

Agent Environment

action(フン=左 & フン=右)

observation, reward

def test_funfun_defence(self):

env = Environment(env_name="Pong-v0")

agent = CycleAgent((2, 3), keep_length=20)

for episode, step, reward in env.play(agent, episode=1):

試合開始(Demo)

code here

「AI」の限界

人が設計するアルゴリズムや、人が「正解」を与える教師あり学習

の場合、「人間の限界」がそのままAIの限界になる。

● AIを作る人間がその道のエキスパートとは限らない

● エキスパートであっても、自分の感覚を正しく実装するのはと

ても手間で、困難(途中で→)

この上限を突破するには、「人が教える」という手法から、「AI自ら

学習する」という手法へ切り替える必要がある。

そのための手法の一つが、強化学習になる。

「AI」を成長させよう

強化学習というアイデア

人がAIに教えるのでなく、AIが自分自身で学習するようにする。

「評価」はするが、「教育」はしない。

評価はしてくれるが、評価基準は教えてくれない。⇒プレイヤー(Agent)自らが発見する必要がある。

アイデアのモデル化

Agentが置かれている状態を、stateとする

Agentは、stateで可能な行動=actionをとる。actionは、戦略=policyに従い決定される。

I like right!

actionの結果、新しい状態state’へ遷移すると共に、設定された報酬=rewardを受け取る。

state’

reward

action

アイデアのモデル化

Agentが置かれている状態を、stateとする

Agentは、stateで可能な行動=actionをとる。actionは、戦略=policyに従い決定される。

I like right!

actionの結果、新しい状態state’へ遷移すると共に、設定された報酬=rewardを受け取る。

state’

reward

action

Markov Decision Process(MDP)

アイデアのモデル化: 最適化の方法

迷路で、以下の位置(state)にいるAgentについて考える

-1action

→：GOAL!(+1でゲーム終了)←：ゴールから遠ざかる↑：その場にとどまる↓：地獄の一丁目へ

state’

そこから、一歩手前の状態について考えてみる。

遷移先(state’)の報酬を使い、現状態(state)からスタートした場合の期待報酬が計算できる・遷移先では、最適な行動をとるとする・遷移先の報酬は将来の報酬のため、割引を行うつまり、「期待報酬=現状態の報酬＋割引率×遷移先の最大報酬」

state state’

s_12 s_13

次に、ゴールまであと2歩の状態まで下がり、同様に報酬を計算する。

遷移先の期待報酬から、現在時点の報酬を計算する(遷移先では、最適な行動をすると仮定する)

Bellman Equation

s_12 s_13

これをn歩前まで・・・と繰り返していくと、期待報酬の地図を作ることができる

まとめ

各状態における、期待報酬の値を0などで初期化する。

各状態で、期待報酬の値を計算する(Bellman Equation)。

計算した期待報酬の値を元に、もう一度計算を行う。

step=1 step=2

... step=n

期待報酬の値が、step前後で変わらなくなってくる(=収束する)。これで計算終了。Agentは、期待報酬が最大の方向に行くようにすればOK！

まとめ

各状態における、期待報酬の値を0などで初期化する。

各状態で、期待報酬の値を計算する。

計算した期待報酬の値を元に、もう一度計算を行う。

step=1 step=2

... step=n

期待報酬の値が、step前後で変わらなくなってくる(=収束する)。これで計算終了。あとは、期待報酬が最大の方向に行くようにすればOK！

Value Iteration

We have done it …?

これで問題は解決？

Think about Rockman10

Question

問：今、状態(state)の数はどれだけあったでしょう？

Problem

死亡クリア

状態数多すぎ問題

状態定義の限界

複雑なタスクでは、状態数が多くその全てを列挙することは難しくなってくる。また、当然各状

態の組み合わせの数(状態遷移の数)も爆発的に増える。

⇒Value Iterationで計算しようとすると、永遠に終わらないくらい時間がかかる。

今まで：状態の数と、そのつながりが明

らかで、計算可能な程度の量

今：状態の数と遷移数がわけわからんくらい多く

て、計算しきるのはとても無理！

We need new idea

どうするか？

未知なる台地なら探索から

puhoto by Moyan Brenn

より複雑なタスクへの挑戦

よくわからないので、とりあえず行動してみる

よくわからないので（以下略）

ぐはぁぁぁぁ！！(ゲーム終了)

遷移先の報酬から期待報酬を計算していく

先の報酬が割り引かれるのは、Value Iteration同様

探索は徐々に行われるので、最初は危ないと思っていたところも実は大きな報酬の近くだった、ということがありうる。⇒一回の探索結果をどれだけ信用するかについては、調整が必要する。

探索(=行動)によって、状態と、その遷移構造を明らかにしていく。また得られた報酬を元に、期待報酬を更新していく。その、探索での更新量はパラメーターで調整する。

行き止まり

探索(=行動)によって、状態と、その遷移構造を明らかにしていく。また得られた報酬を元に、期待報酬を更新していく。ただ、その更新量はパラメーターで調整する。

行き止まり

Q-learning

行き止まり

報酬が得られるルートがわかっていても、もっと安全だったり、より報酬が高いルートがあるかもしれない。⇒どれだけ探索をするか、どれだけ探索結果を活用するかのバランスが重要な戦略になる。

行き止まり

報酬が高いルートがわかればそれでいいけれども、もっと安全だったり、報酬が高いルートがあるかもしれない。⇒どれだけ探索をするか、どれだけ探索結果を活用するかを割合で決める。

ε-greedy法(random by ε)

We finally made it?

これでいけそう？

back to 状態定義の限界

ゲームを含む時系列のタスクでは、そもそも「状態」の境界線があいまい(↓は、果たして「4

つの状態」といえるか？)。

そのため、状態を連続的な値で表現したい。具体的には、以下の場合状態である「画像」を

連続値(ベクトル)で表現したい。

back to 状態定義の限界

画像からの特徴抽出といえば・・・

Clarifai

Deep Learningとの融合

Convolutional Neural Network

Deep Learning界において、「香川といえばうどん」と同じくらい「画像といえばCNN(Convolutional Neural Network)」は当然のこととして扱われている。

Clarifai

CNNは、画像から特徴を抽出して判断するのに優れた手法。これを応用して、以下のような仕組みを構築する。

Deep Q-learning

画像であるstateを、画像処理に優れたConvolutional Neural Network)に流し込み、「その状

態でどのactionがいい(=期待報酬が高い)か」を出力させる。

⇒期待報酬の計算プロセス(Q関数)を、Deep Learningに置き換える。これがつまるところ

・・・55

state 期待報酬

action

・・

Convolutional Neural Network

Deep Q-learning

※価値関数(Q関数)自体をニューラルネットで近似するアイデアは以前からあったものであ

り、よって学習を成功させる手法まで含めてDQNとよぶ。

DQN(Deep Q-learning)

puhoto by Chloe Muro

Deep Q-learningのプロセス

・・・

episode(1ゲーム終了までの期間)

experience

・・・

replay

現状態の報酬

遷移先の報酬

新しい期待報酬

誤差⇒DQN更新

定期的にコピー

行動とその結果(state/action/遷移先state/reward)を記憶

報酬のclipping報酬は-1,0,1に統一する(どんなゲームにも対応できるようにする)

・・・

experience

・・・

行動とその結果(state/action/遷移先state/reward)を記憶

replay

現状態の報酬

遷移先の報酬

新しい期待報酬

誤差⇒DQN更新

定期的にコピー

Fixed Target Q-Network遷移先報酬を計算する際の重みはしばらく固定し、定期的に更新する

Experience Replayexperienceに蓄積したものを、シャッフルして学習データにする。⇒学習データ間の相関を除去する(普通にやると時系列に並んでいるため、強い相関がある)。

・・・

experience

・・・

replay

stateの報酬

state’からの期待報酬

探索から算出された期待報酬

誤差⇒DQN更新

定期的にコピーFixed Target Q-Network遷移先報酬を計算する際の重みはしばらく固定し、定期的に更新する(報酬計算の安定性を高めるため)

Deep Q-learningの実装

実行結果(Open AI Gymへアップロード済み)

DQNは、結果が出るまでかなり時間がかかる。そのため、実際計算しないとわからないこと

以外は可能な限り事前にテストしておくことが重要。

● 感覚的にパラメーターの影響をかなり受けるため、テストしておかないと処理のミスか

パラメーターのチューニングの問題かわからなくなる。

○ 責務分担・処理の独立化を行い、手元のテストでつぶせるバグはすべてつぶして

おくこと。

○ これを怠ると、GPUの場合お財布、CPUの場合時間に致命的なダメージを負うこ

とになる

● GPUはほぼ必須(CPUの場合、いい感じかどうかわかるのに1~2日はかかる)

○ GPUインスタンスを使おう

○ OpenAI Gymを検証しているといえばAmazonから$250分もらえるらしい

Environment(gym)

DQNTrainer

DQNAgent

observation action

学習時

observation action

実行時

Trainerが取れるだけ

experience buffer

Q-Network

Environment(gym)

DQNAgent

Q-Network

icoxfog417/chainer_pong

100~250

DQNの実装に必要なコードの行数

アルゴリズムの実装自体にかかるコードはかなり少なくてすむ(OpenAIのメンバである

Andrej Karpathyさんのブログでは、実装にかかっているのはわずか130行(しかもコメント込

み))。加えて、昨今の機械学習系フレームワークの恩恵も受けられる。

Webアプリケーションを作ったりするより、ぜんぜん少ない行数で実装が可能。

詳細な実装方法について、ハンズオンを実施する予定です。

Comming Soon!11月上～中旬

おわりに

OpenAI Gymは自体は、難しい知識がなくても動かして、試すことができます。数式などを理

解するところからよりも、まず環境に触れてその「面白さ」を体感してもらえればと思います。

その入り口の先にある強化学習は、人による教育の限界を超えるためのアプローチ方法で

あり、最も研究が盛んな領域の一つです（だからこそ投資が行われているとも言えます）。本

日紹介した手法も、将来、また現時点ですでに時代遅れになっているかもしれません。

ただ、ベースとなる本質的な理論(Q-learningなど)は変わっていません。その意味では、本

日セッションに参加いただいた方は、すでにAI研究の一線の入り口に立っています。

Welcome to AI World!

puhoto by Rog01

Thank you for listening!

Pythonではじめる OpenAI Gymトレーニング

Data & Analytics

Jonas Schneider, Head of Engineering for Robotics, OpenAI

GCS トレーニング

IoT Sensor Gym - NTNUfolk.ntnu.no/kraemer/2019-iot-murad-poster.pdf · A Framework for Training IoT Devices We built the IoT Sensor Gym as an extension to the OpenAI Gym framework

Generative Adversarial Networks (GANs) - Ian Goodfellow, OpenAI

CA Clarity™ PPM Clarity PPM 13 3...トレーニング 8 リリースノート - オンプレミストレーニングユーザトレーニングについては、CA Technologies

MMS Lite オンサイトトレーニング

Lab 7: DQN 1 (NIPS 2013) - GitHub Pageshunkim.github.io/ml/RL/rl07-l1.pdf · Lab 7: DQN 1 (NIPS 2013) Reinforcement Learning with TensorFlow&OpenAI Gym Sung Kim

ティーチャー・トレーニング（TT）の実際とティーチャー・ · 2017. 9. 20. · ティーチャー・トレーニング（tt）の実際とティーチャー・トレーニング・センター（ttc）の構想

Ian Goodfellow, OpenAI Research Scientist Guest lecture for CS 294

Large-Scale Study of Curiosity-Driven LearningLarge-Scale Study of Curiosity-Driven Learning Yuri Burda OpenAI Harri Edwards OpenAI Deepak Pathak UC Berkeley Amos Storkey Univ. of

OpenAI Five Model Architecture - Amazon S3

Lecture 3: Q-learning (table) - GitHub Pages · Lecture 3: Q-learning (table) Reinforcement Learning with TensorFlow&OpenAI Gym Sung Kim

10-703 Deep RL and Controls OpenAI Gym Recitation API Basic Datatypes ... Minecraft. VirtualEnv Installation ... 10-703 Deep RL and Controls OpenAI Gym Recitation Author: Devin Schwab

NUnit トレーニングテキスト

ns-3 meets OpenAI Gym: The Playground for …...ns-3 meets OpenAI Gym MSWiM ’19, Nov 25–29, 2019, Miami Beach, USA over Ethernet or WiFi network devices. Based on the core concepts,

Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Lecture 7: DQN - GitHub Pages · PDF fileLecture 7: DQN Reinforcement Learning with TensorFlow&OpenAI Gym ... Deep Q-Networks ... Deep Reinforcement Learning, David Silver,

Geometry-Aware Neural Renderingpapers.nips.cc/paper/9331-geometry-aware-neural-rendering.pdf · Geometry-Aware Neural Rendering Josh Tobin OpenAI & UC Berkeley josh@openai.com OpenAI

NIPS 2016 · (2015) Google gave its introduction/tutorial on TensorFlow, released its best model on ImageNet (2015) OpenAI announced its existence OpenAI released their Universe platform

OpenAI Five Model Architecture · OpenAI Five Model Architecture (06/06/2018) Title: dota_network_diagram Created Date: 6/24/2018 4:00:19 PM