NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習

TensorFlow深度學習快速上⼿手班��

⼆二、深度學習

By Mark Chang

•  深度學習的原理 •  模型選擇與參數調整 •  多層感知器實作

深度學習的原理

機器學習

監督式學習 Supervised Learning

⾮非監督式學習 Unsupervised Learning

增強式學習 Reinforcement Learning

深度學習 Deep Learning

深度學習 •  ⼀一種機器學習的⽅方法 •  ⽤用電腦模擬⼈人腦神經系統構造 •  讓電腦學會⼈人腦可做的事

神經元與動作電位

http://humanphisiology.wikispaces.com/file/view/neuron.png/216460814/neuron.png

http://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Action_potential.svg/1037px-Action_potential.svg.png

模擬神經元

= w1x1 + w2x2 + w

�nin

1 + e�(w1x1+w2x2+wb)

= 0(0,0)

模擬神經元

= w1x1 + w2x2 + w

�nin

= w1x1 + w2x2 + w

�nin

w1x1 + w2x2 + wb = 0

w1x1 + w2x2 + wb > 0

w1x1 + w2x2 + wb < 0

⼆二元分類：AND Gate

x1 x2 y

(0,1) (1,1)

1 + e�(20x1+20x2�30)

20x1 + 20x2 � 30 = 0

XOR Gate ?

(0,1) (1,1)

x1 x2 y

⼆二元分類：XOR Gate

(0,1) (1,1)

(1,0) 0

x1 x2 n1 n2 y

0 0 0 0 0

0 1 0 1 1

1 0 0 1 1

1 1 1 1 0

類神經網路

n22 W12,y

W11,b W12,b

W11,x W21,11

W22,12

W21,12

W22,11

W21,b W22,b

Input Layer

Hidden Layer

Output Layer

視覺認知

http://www.nature.com/neuro/journal/v8/n8/images/nn0805-975-F1.jpg

訓練類神經網路 •  ⽤用隨機值初始化模型參數w •  Forward Propagation – ⽤用⺫⽬目前的模型參數計算出答案

•  計算錯誤量（⽤用Error Function） •  Backward Propagation – ⽤用錯誤量來修正模型

⻑⾧長期記憶

http://www.pnas.org/content/102/49/17846/F7.large.jpg

訓練類神經網路

訓練資料機器學習模型輸出值

正確答案

對答案

如果答錯了，要修正模型

初始化 Forward Propagation

Error Function

Backward Propagation

初始化 •  將所有的W隨機設成-N～N之間的數

•  每層之間W的值都不能相同

n22 W12,y

W11,b W12,b

W11,x W21,11

W22,12

W21,12

W22,11

W21,b W22,b

Lk�1 + Lk

Lk-1：上一層的大小 Lk ：該層的大小

Forward Propagation

Error Function

J = �(z1log(n21(out)) + (1� z1)log(1� n21(out)))

� (z2log(n22(out)) + (1� z2)log(1� n22(out)))

⇡ 0 and z = 0 ) J ⇡ 0

⇡ 1 and z = 1 ) J ⇡ 0

⇡ 0 and z = 1 ) J ⇡ 1nout

⇡ 1 and z = 0 ) J ⇡ 1

Gradient Descent

w21,11 w21,11 � ⌘@J

@w21,11

w21,12 w21,12 � ⌘@J

@w21,12

w21,b w21,b � ⌘@J

@w21,b

w22,11 w21,11 � ⌘@J

@w22,11

w22,12 w21,12 � ⌘@J

@w22,12

w22,b w21,b � ⌘@J

@w22,b

w11,x w11,x � ⌘@J

@w11,x

w11,y w11,y � ⌘@J

@w11,y

w11,b w11,b � ⌘@J

@w11,b

w12,x w12,x � ⌘@J

@w12,x

w12,y w12,y � ⌘@J

@w12,y

w12,b w12,b � ⌘@J

@w12,b

(–@J

@w0, –

@n21(out)

@n21(in)

�21(out)

@w21,11=

@n21(in)

@w21,11

=@n21(out)

@n21(in)

@w21,11

n11(out)

�21(in)@n21(in)

@w21,11

�21(in)

n11(out)�21(in)

w21,11 w21,11 � ⌘@J

@w21,11

w21,11 w21,11 � ⌘

w11,x w11,x � ⌘@J

@w11,x

w11,x w11,x � ⌘ �11(in) x

Backward Propagation �11(in) =

@n11(in)=

@n21(out)

@n11(in)+

@n22(out)

@n11(in)

= (�21(in)w21,11 + �22(in)w22,11)@n11(out)

@n11(in)

@n21(out)

@n21(in)

@n11(out)

@n11(in)+

@J2@n22(out)

@n22(out)

@n22(in)

@n11(out)

@n11(in)

@n21(out)

@n21(in)

@n11(out)+

@J2@n22(out)

@n22(out)

@n22(in)

@n11(out))@n11(out)

@n11(in)

http://cpmarkchang.logdown.com/posts/277349-neural-network-backward-propagation

模型選擇與參數調整

模型種類 •  ⾮非線性轉換

Sigmoid:

nin = w1x1 + w2x2 + wb

1 + e�nin

1� e�2nin

1 + e�2nin

ReLU: ⇢nin if nin > 0

0 otherwise

模型種類 •  Hidden Layer

較小的Hidden Layer 較大的Hidden Layer

多層Hidden Layer 單層Hidden Layer

模型複雜度 •  模型中的參數個數（weight和bias的個數）

模型複雜度低高

訓練不⾜足與過度訓練

Tensorflow Playground http://playground.tensorflow.org/

資料分佈

訓練適度訓練不足訓練過度

訓練不⾜足（Underfitting） •  原因： –  Learning Rate 太⼤大或太

⼩小 –  訓練時間太短 –  模型複雜度不夠

過度訓練（Overfitting） •  原因： – 雜訊太多 – 訓練資料太少 – 訓練時間太⻑⾧長 – 模型複雜度太⾼高

驗證資料（Validation Data）

訓練資料

模型 1

測試資料最後結果

資料集

驗證資料模型選擇參數選擇時間控制

模型 2

……

交叉驗證（Cross Validation）

訓練資料驗證資料

訓練資料

驗證資料

第一回

第二回

第N回

……

解決⽅方式 •  訓練不⾜足 – 調整Learning Rate – 增加訓練時間 – 增加模型複雜度

•  訓練過度 – 增加訓練資料 – 減少雜訊 – 減少訓練時間 – 減少模型複雜度

調整Learning Rate •  調整Learning Rate數值

Learning Rate 適中

Learning Rate 過小

Learning Rate 過大

調整Learning Rate •  動態調整Learning Rate： – AdagradOptimizer – RMSPropOptimizer – ……

調整訓練時間 •  Early Stop

Validation Loss Training Loss

停止訓練

調整模型複雜度 •  調整Hidden Layer的寬度或層數 •  Regularization •  Dropout

Hidden Layer寬度

0 1 2 3 4 5 6 7 8 9

Validation Loss Training Loss

最適寬度

寬度

Regularization •  將weights的平⽅方和加到cost function中 •  可使weights的絕對值不要變得太⼤大 •  可降低模型複雜度

J = cross entropy + �

Cost Function:

λ越大，則模型複雜度越低

Regularization 最適λ值

0.01 0.1 1 10

Validation Loss Training Loss Lo

Dropout •  訓練時，隨機將Hidden Layer的神經元拿掉 •  可降低模型複雜度 •  ex: 25%的Dropout Rate

Dropout •  測試時，⽤用所有的神經元來測試。 – 將所有的weight乘上 (1 – dropout_rate)

w w(1� dropout rate)

Dropout

0 0.2 0.4 0.6 0.8 1

Validation Error Training Error

最適dropout rate

1- dropout rate

模型選擇與參數調整實作 •  Tensorflow Playground – http://playground.tensorflow.org/

模型選擇與參數調整實作 •  訓練不⾜足（UnderFitting）

模型選擇與參數調整實作 •  過度訓練（OverFitting）

多層感知器實作

多層感知器實作 https://github.com/ckmarkoh/ntc_deeplearning_tensorflow/blob/master/sec2/multilayer_perceptron.ipynb

MNIST •  數字識別 •  多元分類：0~9

https://www.tensorflow.org/versions/r0.7/images/MNIST.png

模型 •  多層感知器

Input Layer Size:784

Hidden Layer Size:200

Output Layer Size:10

Computational Graph x_ = tf.placeholder(tf.float32, [None, 784], name="x_") y_ = tf.placeholder(tf.float32, [None, 10], name="y_") # input -> Hidden W1 = tf.Variable(tf.truncated_normal([784,200], stddev=0.1), name="W1") b1 = tf.Variable(tf.zeros([200]), name="b1") h1 = tf.nn.sigmoid(tf.matmul(x_, W1) + b1) # Hidden -> Output W2 = tf.Variable(tf.truncated_normal([200,10], stddev=0.1), name="W2") b2 = tf.Variable(tf.zeros([10]), name="b2") y = tf.nn.softmax(tf.matmul(h1, W2) + b2) cross_entropy = -tf.reduce_sum(y_ * tf.log(y)) optimizer = tf.train.GradientDescentOptimizer(0.01) trainer = optimizer.minimize(cross_entropy) init = tf.initialize_all_variables()

Layer 1 W1 = tf.Variable(tf.truncated_normal([784,200], stddev=0.1), name="W1”)

-0.2 0.2 0

Layer 1 W1 = tf.Variable(tf.truncated_normal([784,200], stddev=0.1), name="W1") b1 = tf.Variable(tf.zeros([200]), name="b1") h1 = tf.nn.sigmoid(tf.matmul(x_, W1) + b1)

× + =

Layer 2

h1 n 10

200 × + =

W2 = tf.Variable(tf.truncated_normal([200,10], stddev=0.1), name="W2") b2 = tf.Variable(tf.zeros([10]), name="b2") y = tf.nn.softmax(tf.matmul(h1, W2) + b2)

Regularization lambda_ = tf.placeholder(tf.float32, name="lambda") regularizer = tf.reduce_sum(tf.square(W1))

+tf.reduce_sum(tf.square(W2)) cost = cross_entropy + lambda_*regularizer

J = cross entropy + �

Cost Function:

Regularization https://github.com/ckmarkoh/ntc_deeplearning_tensorflow/blob/master/sec2/regularization.ipynb

dropout keep_prob = tf.placeholder(tf.float32, name="keep_prob") h1_drop = tf.nn.dropout(h1, keep_prob) y = tf.nn.softmax(tf.matmul(h1_drop, W2) + b2)

Dropout Mask

h1 h1,drop =h1

keep prob

dropout https://github.com/ckmarkoh/ntc_deeplearning_tensorflow/blob/master/sec2/dropout.ipynb

模型儲存與載⼊入 •  儲存模型參數

•  載⼊入模型參數

saver = tf.train.Saver(max_to_keep=10) saver.save(sess, "model.ckpt")

saver = tf.train.Saver() saver.restore(sess, "model.ckpt")

講師資訊

•  Email: ckmarkoh at gmail dot com •  Blog: http://cpmarkchang.logdown.com •  Github: https://github.com/ckmarkoh

Mark Chang

•  Facebook: https://www.facebook.com/ckmarkoh.chang •  Slideshare: http://www.slideshare.net/ckmarkohchang •  Linkedin:

https://www.linkedin.com/pub/mark-chang/85/25b/847

NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習

Technology

如何引發學生學習動機 -- 分享與學習

深層学習のリモートセンシングへの応用 hamaguchi.pdf · •リモートセンシングと深層学習 •なぜ深層学習か？ •深層学習を使って何ができるか？

304 學習學研究室

TensorFlow 深度學習講座

Azure 機器學習 - 使用Python, R, Spark, CNTK 深度學習

電子習作對學習態度及學習成效的影響 · 教育科技與學習 1：1（2013, 1）研究論文電子習作對學習態度及學習成效的影響譚蕙婷資深編輯

AWS 機器學習 II ─ 深度學習 Deep Learning & MXNet

台灣人工智慧學校 - cosmetic.org.tw · 深度學習理論入門. 1. 深度學習理論基礎： backpropagation, stochastic gradient descent, activation functions 2. 神經網路校調：hyperparameter

深度學習 Deep Learning140.126.122.189/upload/1062/B02412A2018191826241.pdfAssociate Prof. Chih-Chin Liu 資料來源: 一天搞懂深度學習, 李宏毅, 2016 Page 7 類神經網路

學習 Android

TensorFlow 深度學習快速上手班--機器學習

MLP深層学習 LSTM

什麼是深度學習 - NTU Speech Processing Laboratorytlkagk/document/Basic.pdf · 自動找出相片中的人臉，用的也是深度學習的技術。其實人們早已享受深度學習所帶來的便利很長

目錄 - MERS筆記，同學在學習時對學習點有更深刻體會，亦可以照顧學生學習的多樣化。麥敏潮副校長舉例說，在地理上要計算兩個國家的距離，學生較難做

NVIDIA DGX-1 超級電腦與人工智慧及深度學習

Live數學學習網 ─

TensorFlow 深度學習快速上手班--自然語言處理應用

學習樹心智圖的學習與應用

高教深耕計畫學習品質整理報告第章學習品質保證 file高教深耕計畫-學習品質整理報告第章學習品質保證 aol 學生自我評鑑調查學生自我評鑑分析，依照各學院或各系目標及核心能力制定相關題目給各科

深度學習(Deep learning)概論- 使用 SAS EM 實做