Upload
yen-lung-tsai
View
748
Download
0
Embed Size (px)
Citation preview
蔡炎⿓�政治⼤學應⽤數學系
強化學習
Deep�Learning
2
強化學習 ⽣成對抗模式�(GAN)
VAE
膠囊
標準�NN CNN RNN
1
重要實例
3
4
2015�年�Nature�出現⼀篇�「Human-level�Control�Through�Deep�Reinforcement�learning」�為題的論⽂,�基本上就是教電腦玩�Atari�的遊戲。
Deep�Reinforcement�Learning
5
Human-levelcontrolthroughdeepreinforcementlearning
DeepMind
2015-2-26
Deep�Q-Learning
letter ”“
6
深度學習遊戲能⼒
AI�勝過⼈類(超過�50%)
8
MasteringthegameofGowithdeepneuralnetworksandtreesearch
DeepMind
2016-2-26
”“
9
2017�年台灣⼈⼯智慧年會 AlphaGo�創始⼈之⼀⿈⼠傑博⼠演講
AlphaGo�的故事
10
AlphaGo Lee
AlphaGo Master
AlphaGo Zero
中國烏鎮圍棋會
4:1�擊敗世界棋王李世乭
神秘⾼⼿網路�60�連勝
與柯潔對奕,�⼈⼯智慧與⼈的合作
完全⾃學的⼈⼯智慧,�擊敗之前版本
2016.32016.12.29—2017.1.4 2017.5 2017.10
11
Netflix�AlphaGo�紀錄⽚�(⼤推)故事感⼈不輸電影,�⽽且都是真⼈。
12
還有⼈⼈都在做的⾃動駕駛
2
增強學習概要
13
14
Agent(電腦)
環境
動作�action
獎勵�rewardrt
15
基本上有三種模式
policy�based學習�policy�function,�這是「動作函數」
value�based學習�value�function,�預估在某個�state,�做某動作會得到的�reward
model�based學習或建構整個環境�(Wow,�聽來好⾼級)
1
2
3
16
我們以玩打磚塊為例
17
π左
1 Policy�Based
右or
狀態 動作
policy�function
1 Policy�Based主要有兩類...
Deterministic�policy
Stochastic�policy�(學出⼀個機率分布)
19
通常直接學不容易...
20
Q 評分
+動作
2 Value�Based
(通常估計�reward)
Value�function
21
在�t�時環境的狀態
在�t�時可選的動作
22
23
Q 評分
+動作
3 Model�Based
(通常估計�reward)
Value�function
24
3 Model�Based
Model�我們的「世界」。
25
Model�Based�通常學這兩個函數
Transfer�Function
Reward�Function
3
Q-Learning
26
27
A�Painless�Q-Learning�Tutorial�
http://mnemstudio.org/path-finding-q-learning-tutorial.htm
28
⽬標就是要從某間房間逃脫到外⾯。
29
1
2 3
4
5
0
100100
100
00 0
0 00
0
0
0
0
Reward�設計
30
Reward�設計
r(St, at)
我們需要指定
狀態
動作
31
0 1 2 3 4 5
0 -1 -1 -1 -1 0 -1
1 -1 -1 -1 0 -1 100
2 -1 -1 -1 0 -1 -1
3 -1 0 0 -1 0 -1
4 0 -1 -1 0 -1 100
5 -1 0 -1 -1 0 100
動作
State
Reward�Matrix
32
Q�函數
我們想要找到估計某個�state,�做了某個動作,最後�reward�會是多少。
33
π(S) = argmaxaQ(S, a)
Q�函數
記得�Q�函數找到了,我們在每個狀態都很容易可以決定最好的動作!
34
0 1 2 3 4 5
0 0 0 0 0 0 0
1 0 0 0 0 0 0
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
動作
State
Q�Matrix狀況沒幾個,�很容易⽤矩陣表⽰,��⼀開始全設為�0
35
接著我們的⼯作就是⼀直玩⼀直玩,�然後不斷更新�Q�matrix。
36
Q(St, at) = r(St, at) + γmaxa
Q(St+1, a)
Q�的更新公式,�γ�是我們⾃⼰設的,�這裡設為�0.8。
Q�Matrix
37
0 1 2 3 4 50 0 0 0 0 0 01 0 0 0 0 0 1002 0 0 0 0 0 03 0 0 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 0
Q�Matrix假設從狀態�1�開始,�例如我們選擇動作是往�5�號⾛。
1
3 5100
100
00 0
Episode�1
Q(1, 5) = r(1, 5) + γ ·max(Q(5, 1), Q(5, 4), Q(5, 5))100 0.8 0 0 0
38
不要忘了我們動作都是依�Q�來選的。
π(S) = argmaxaQ(S, a)
現在⼤家都是�0,�為何你會選到�5?
問題1
Greedy�Policy
39
還沒訓練好,�會不會都傾向往同⼀個、可能不是最好的⽅向⾛?
問題2
Greedy�Policy
40
ε-Greedy�Policy
有�ε�的機率是⽤亂數選動作。
ε ⼤⼩有時是會調整的�(訓練越久越⼩)。
41
0 1 2 3 4 50 0 0 0 0 0 01 0 0 0 0 0 1002 0 0 0 0 0 03 0 80 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 0
Q�Matrix 假設從狀態�3�開始,�例如我們選擇動作是往�1�號⾛。Episode�2
100
0
00
1
3
4
5100
100
100
00 0
0 00
42
0 1 2 3 4 50 0 0 0 0 0 01 0 0 0 0 0 1002 0 0 0 0 0 03 0 80 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 0
Q�Matrix
01
3
4
5100
100
100
00 0
0 00
43
0 1 2 3 4 50 0 0 0 0 400 01 0 0 0 320 0 5002 0 0 0 320 0 03 0 400 256 0 400 04 320 0 0 320 0 5005 0 400 0 0 400 500
Q�Matrix
01
3
4
5100
100
100
00 0
0 00
44
1
2 3
4
5
0
500
100
400
Q�最終版
500
320
320
320400 400
400400320256
每次往�Q�值最⼤的⽅向⾛
4
Deep�Q�Networks
45
46
⾃從成功玩電動以後,�就⼤紅!基本上是�Q�Learning,�但是...
47
玩電動遊戲和很多實務的問題⼀樣,�可能性有無限多種,�但是我們只有有限的經驗...
48
架⼀個神經網路去學�Q!
49
Experience�Replay過去經驗收集起來,�當訓練資料...
在某�State�S,�⽤了�a�action,�得到了�reward�r,�然後進⼊�S’
(S, a, r, S′)
記固定的筆數�(⽐如說�10,000�筆)
50
⼀來我們有⾜夠的訓練資料,� ⼆來可以去除資料間⾼度相關的問題。
51
Target�Network記得我們是要學這個函數...
(S, a, r, S′)但我們訓練資料⻑這樣:
52
Target�Network結果是⾃⼰學⾃⼰!
(S, a, r, S′)對於 這筆資料
⽬標
網路輸出
之前學到的網路,�固定參數
要調這裡的參數
5
模仿學習
53
54
向專家學習
專家
怎麼不跟我學?
55
怎麼做呢?我們⽼朋友要出現了...
56
RL�+�GAN
57
RL�generator
鑑別器�discriminator
真的�or�假的
專家版
RL�⽣的
58
專家不⼀定要是⼈也可以是其他,�例出機器學習的⽅式產⽣的資料
我也可以啊!
6
範例
59
60
(感謝政⼤應數陳⾮霆提供)
卷積深度�Q-學習之�ETF�⾃動交易系統
61
選定⼀⽀�ETF�開始�20,000�美⾦�經過⼀年�(最後⼿上還有�ETF�就全賣)�使⽤�reinforcement�learning
*�ETF�資料由全球智能提供
62
過去�20�天的資料 (20x6�的矩陣) f
1
2
3
4
5
買�20�單位
買�10�單位
不做交易
賣�10�單位
賣�20�單位
五種�actions
63
CDQN 無腦法 CDQN 無腦法
ETF1 17.71% 10.89% ETF11 10.76% 5.26%
ETF2 16.53% 12.6% ETF12 10.19% 13.17%
ETF3 16.3% 0.35% ETF13 7.8% 1.42%
ETF4 14.4% 13.25% ETF14 6.23% 3.56%
ETF5 14.3% 12.7% ETF15 5.73% 4.61%
ETF6 13.91% 13.37% ETF16 3.78% -12.76%
ETF7 13.17% 10.52% ETF17 2.85% 5.83%
ETF8 12.35% 17.07% ETF18 1.59% -4.45%
ETF9 11.68% 10.81% ETF19 1.07% -18.09%
ETF10 11.09% 8.14% ETF20 -0.59% -0.75%
交易結果
65