Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
๐ ๐๐๐๐ ๐ถ
Machine Learning
๐ ๐๐๐๐ ๐ถ
2015.06.06.
Linear Regression
๐ ๐๐๐๐ ๐ถ 2
Issues
๐ ๐๐๐๐ ๐ถ 3
Issues
โข https://www.facebook.com/Architecturearts/videos/1107531579263808/
โข โ8์ด์ง๋ฆฌ ์กฐ์นด์๊ฒ ๋ฐ์ดํฐ๋ฒ ์ด์ค(DB)๊ฐ ๋ฌด์์ธ์ง 3์ค์ ๋ฌธ์ฅ์ผ๋ก ์ค๋ช ํ์์คโ
โข 6๊ฐ์๋์ ์ต๋ 25๋ฒ์ด๋ ๋๋ ๋ฉด์ ์ํ์ ๊ฑฐ์ณ ๊ตฌ๊ธ๋ฌ(๊ตฌ๊ธ ์ง์์ ์ผ์ปซ๋ ๋ง)๊ฐ ๋ ํ๋ฅ ์ 0.25%. ํ๋ฒ๋๋๋ณด๋ค 25๋ฐฐ ๋ค์ด๊ฐ๊ธฐ ์ด๋ ต๋ค.
โข โ์ฐ๋ฆฌ๋ โ๊ตฌ๊ธ๋ค์ดโ(Being Googley) ์ธ์ฌ๋ค๋ง ๋ฝ๋๋คโโข ํ์ฌ์ ๋ญ๊ฐ ๋ค๋ฅธ ๊ฐ์น๋ ์ฌ๋ฅ์ ๊ฐ์ ธ๋ค ์ค ์ ์๋์ง
โข ์๋ก์ด ์ง์์ ๋ฐ์๋ค์ผ ์ค ์๋ ์ง์ ์ธ ๊ฒธ์ยท์ ์ฐํจ์ ๊ฐ์ท๋์ง
โข ๊ตด๋ฌ๋ค๋๋ ์ฐ๋ ๊ธฐ๋ฅผ ์ค์ค๋ก ์ค๋ ์๋ฐ์ ์ธ ์ฌ๋์ธ์ง
โข ๋ง์๊ฒฝ ์ฑ๋ฅ์ ๊ฐ์ ํ๋๋ ๋ฌ์ ์ฐ์ฃผ์ ์ ์๋ ๊ฒ ๋ซ๋ค๋ ์์ โ๋ฌธ์ท์ฑํนโ ์ถ์ฒ: ์ค์์ผ๋ณด
๐ ๐๐๐๐ ๐ถ 4
Issues
โข ์ค๋ฆฌ์ฝ๋ฐธ๋ฆฌ์ ์คํํธ์ โ๋ก์ฝ๋ชจํฐ๋ธ๋ฉ์คโ ์ด์์ธ(39) ๋ํ๋ โ๊ธฐ์ ๊ธฐ์ ์์ ๋ชจ๋๊ฐ ๋๊ฐ์ ๊ทผ๋ฌด์๊ฐ์ ์ฑ์ฐ๋ ๊ฒ๋ณด๋ค ์ต๊ณ ์ ์ค๋ ฅ์ ๊ฐ์ง 1๊ธ ๊ฐ๋ฐ์๋ค์ด ์ต๊ณ ์์ฑ๊ณผ๋ฅผ ๋ผ ์ ์๋๋ก ํ๋ ๊ฒ ๋ ์ค์ํ๋ค.โ
โข โ์ด๋ค์ด ์ด์งํ์ง ์๋๋ก ๋ถ์ก์ ๋๋ ค๋ฉด ๊ณ ์ก์ฐ๋ด ์ธ์, โ์์ โ ๊ฐ์ ํ๋ฌ์ค ์ํ์ ๊ฐ์น๋ฅผ ๋ ์ค์ผ ํ๋ค๋ ๊ฒ์ค๋ฆฌ์ฝ๋ฐธ๋ฆฌ์ ๋ณดํธ์ ์ธ ๋ถ์๊ธฐโ
โข http://www.washingtonpost.com/graphics/business/robots/
์ถ์ฒ: ์ค์์ผ๋ณด
๐ ๐๐๐๐ ๐ถ 5
Issues
๐ ๐๐๐๐ ๐ถ 6
Linear Regression
โข ์์์ ๋ฐ์ดํฐ๊ฐ ์์ ๋, ๋ฐ์ดํฐ ์์ง ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ
์น๊ตฌ 1 ์น๊ตฌ 2 ์น๊ตฌ 3 ์น๊ตฌ 4 ์น๊ตฌ 5
ํค 160 165 170 170 175
๋ชธ๋ฌด๊ฒ 50 50 55 50 60
๐ ๐๐๐๐ ๐ถ 7
Linear Regression
โข ์ฆ, ํ๊ท ๋ฌธ์ ๋..
โข ์์นํ ๋ชฉ์ ๊ฐ์ ์์ธกํ๋ ๋ฐฉ๋ฒ
โข ๋ชฉ์ ๊ฐ์ ๋ํ ๋ฐฉ์ ์ ํ์โข ํ๊ท ๋ฐฉ์ ์(Regression equation)
โข ์ง ๊ฐ์ ์๊ธฐ ์ํด ์๋์ ๊ฐ์ ๋ฐฉ์ ์์ ์ด์ฉ
โข Ex) ์ง ๊ฐ = 0.125 * ํ์ + 0.5 * ์ญ๊น์ง์ ๊ฑฐ๋ฆฌ
โข โํ์โ์ โ์ญ๊น์ง์ ๊ฑฐ๋ฆฌโ ์ ๋ ฅ ๋ฐ์ดํฐ
โข โ์ง ๊ฐโ ์ถ์ ๋ฐ์ดํฐ
โข 0.125์ 0.5์ ๊ฐ ํ๊ท ๊ฐ์ค์น(Regression weight)
โข ์ฌ์์น๊ตฌ์ ๋ชธ๋ฌด๊ฒ๋ฅผ ์ถ์ ํ๊ธฐ ์ํ์ฌ..
โข Ex) ๋ชธ๋ฌด๊ฒ = 0.05 * ํค
โข โํคโ ์ ๋ ฅ ๋ฐ์ดํฐ
โข โ๋ชธ๋ฌด๊ฒโ ์ถ์ ๋ฐ์ดํฐ
โข 0.05 ํ๊ท ๊ฐ์ค์น
๐ ๐๐๐๐ ๐ถ 8
Hypothesis
๐ฆ = ๐ค๐ฅ + ๐๐ฅ์ ๋ ฅ๋ฐ์ดํฐ: ํค
๐ฆ์ถ์ ๋ฐ์ดํฐ: ๋ชธ๋ฌด๊ฒ
๐คํ๊ท๊ฐ์ค์น: ๊ธฐ์ธ๊ธฐ
Hypothesis
๐ ๐๐๐๐ ๐ถ 9
Hypothesis
0
1
2
3
0 1 2 3
0
1
2
3
0 1 2 3
0
1
2
3
0 1 2 3
Andrew Ng
๐ฆ = ๐ค๐ฅ + ๐
๐ ๐๐๐๐ ๐ถ 10
Hypothesis
๐ฆ๐ = ๐ค0 +๐ค๐๐ฅ๐
๐ฆ๐ = ๐ค0 ร 1 +
๐=1
๐
๐ค๐๐ฅ๐
๐ฆ๐ = ๐=0๐ ๐ค๐๐ฅ๐ ๐ค๐ฅ
๐ฆ = ๐ค๐ฅ + ๐ ๐ฆ = ๐ค๐ฅ
Variable Description
๐ฝ(๐), r Cost function vector, residual(r)
y Instance label vector
๐ฆ, h(๐) hypothesis
๐ค0, b Bias(b), y-intercept
๐ฅ๐ Feature vector, ๐ฅ0 = 1
W Weight set (๐ค1, ๐ค2, ๐ค3, โฆ , ๐ค๐)
X Feature set (๐ฅ1, ๐ฅ2, ๐ฅ3, โฆ , ๐ฅ๐)(generalization)
(generalization)
๐ ๐๐๐๐ ๐ถ 11
Regression: statistical example
โข ๋ชจ์ง๋จ: ์ ํต๊ธฐ๊ฐ์ ๋ฐ๋ฅธ ๋นํ๋ฏผ C์ ํ๊ดด๋
โข ๋ ๋ฆฝ ๋ณ์ X๊ฐ ์ฃผ์ด์ก์ ๋Y์ ๋ํ ๊ธฐ๋ ๊ฐ
์ ํต๊ธฐ๊ฐ (์ผ) : X 15 20 25 30 35
๋นํ๋ฏผ C ํ๊ดด๋ (mg):Y
05
101520
1520253035
3035404550
5055606570
5560657075
๐ฆ = ๐ค๐ฅ + ๐ + ๐
๐ฆ = ๐๐ฅ + ๐
๐: disturbance term, error variable
๐ ๐๐๐๐ ๐ถ 12
Regression: statistical example
Random variable of Y
๐ ๐๐๐๐ ๐ถ 13
Residual
ใ ก์ ๋ต๋ชจ๋ธใ ก์ถ์ ๋ชจ๋ธ
์ ๋ต๋ฐ์ดํฐ์ถ์ ๋ฐ์ดํฐ
Residual: ๐(= ๐)
๐1
๐2
๐3
๐4
๐5
โข ์๋์๋ง์์๋ก๊ฐ์์๋ฏธโข ์ ๋ต๋ฐ์ดํฐ์์ถ์ ๋ฐ์ดํฐ์์ฐจ์ดโข ์ ๋ต๋ชจ๋ธ๊ณผ์ถ์ ๋ชจ๋ธ์์ฐจ์ด
๐ฆ = ๐ค๐ฅ + ๐, ๐ . ๐ก. min(๐)
๐ ๐๐๐๐ ๐ถ 14
Least Square Error (LSE)
๐1
๐2๐3
๐4๐5
๐ = ๐ฆ โ โ๐(๐ฅ)
๐๐ = ๐ฆ โ ๐ฆ
๐ =
๐
(๐ฆ๐ โ ๐ฆ๐)
๐๐ = ๐ฆ๐ โ ๐ฆ๐
๐๐๐
๐=1
๐
๐2 = ๐๐๐
๐=1
๐
๐ฆ๐ โ ๐ฆ๐2
Least square๐ =
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ 2
๐ =1
2
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ 2
= ๐ฝ(๐) โcost functionโ
๐ฆ โ ๐ โ โ๐(๐ฅ)
(residual)
๐ ๐๐๐๐ ๐ถ 15
0
1
2
3
0 1 2 3
y
x
(for fixed , this is a function of x) (function of the parameter )
0
1
2
3
-0.5 0 0.5 1 1.5 2 2.5
Cost Function
๐ ๐ฅ1 = โ๐ ๐ฅ1 = ๐1๐ฅ1 = 1 ๐ฝ ๐1 = ๐ฆ1 โ ๐(๐ฅ1)
๐ฝ ๐1 = 1 โ 1 = 0 = ๐
Andrew Ngโด min ๐ฝ(๐) == min ๐
๐ ๐ฅ1 = โ๐ ๐ฅ1 = ๐ค1๐ฅ1 = 1
๐ ๐๐๐๐ ๐ถ 16
Training
โข Residual์์ค์ฌ์ผํจ LSE์๊ฐ์์ต์ํํด์ผํจ
โข 2์ฐจํจ์ํ๋์์ต์๊ฐ(minimum)์๊ฐ์ง
โข ๊ฐ w์๋ํ์ ํํจ์๊ฐ์ฐจ์์์ต์๊ฐ์์์์์
โข ์ฆ, ์ ์ญ์ต์๊ฐ(global minimum)์์์์์
โข ์ด์ต์๊ฐ์์ฐพ๊ธฐ์ํด๊ธฐ์ธ๊ธฐํ๊ฐ(gradient descent)์์ฌ์ฉ
๐ฝ(๐) =1
2
๐=1
๐
๐ฆ๐ โ๐ค๐๐ฅ๐ โ ๐ 2
Minimum!!
๐ ๐๐๐๐ ๐ถ 17
Training: Gradient
โข ๊ฐ ๋ณ์์ ๋ํ ์ผ์ฐจ ํธ๋ฏธ๋ถ ๊ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ ๋ฒกํฐโข ๋ฒกํฐ: ๐(. )์ ๊ฐ์ด ๊ฐํ๋ฅธ ์ชฝ์ ๋ฐฉํฅ์ ๋ํ๋
โข ๋ฒกํฐ์ ํฌ๊ธฐ: ๋ฒกํฐ ์ฆ๊ฐ, ์ฆ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ํ๋
โข ์ด๋ค ๋ค๋ณ์ ํจ์ ๐(๐ฅ1, ๐ฅ2, โฆ , ๐ฅ๐)๊ฐ ์์ ๋, ๐์gradient๋ ๋ค์๊ณผ ๊ฐ์
๐ป๐ = (๐๐
๐๐ฅ1,๐๐
๐๐ฅ2, โฆ ,
๐๐
๐๐ฅ๐)
โข Gradient๋ฅผ ์ด์ฉํ ๋ค๋ณ์ scalar ํจ์ ๐๋ ์ ๐๐์ ๊ทผ์ฒ์์์ ์ ํ ๊ทผ์ฌ์ (using Taylor expansion)
๐ ๐ = ๐ ๐๐ + ๐ป๐ ๐๐ ๐ โ ๐๐ + ๐( ๐ โ ๐๐ )
๐ ๐๐๐๐ ๐ถ 18
Training: Gradient Descent
โข Formula
๐ ๐+1 = ๐๐ โ ๐๐๐ป๐ ๐๐ , ๐ โฅ 0
๐๐: ๐๐๐๐๐๐๐๐ ๐๐๐ก๐
โข Algorithm
๐๐๐๐๐ ๐๐๐๐ก ๐, ๐กโ๐๐๐ โ๐๐๐ ๐, ๐๐ ๐ ๐ โ ๐ + 1
๐ โ ๐ โ ๐๐ป๐ ๐๐๐๐๐๐ ๐๐ป๐ ๐ < 0
๐๐๐๐๐๐ ๐๐๐๐
์ถ์ฒ: wikipedia
๐ ๐๐๐๐ ๐ถ 19
Training: Gradient Descent
min ๐ฝ(๐) =1
2
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐2
๐๐ฝ(๐)
๐๐ค=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ (โ๐ฅ๐)โข ๋ฒกํฐ์๋ํ๋ฏธ๋ถ
๐ ๐+1 = ๐๐ โ ๐๐๐ป๐ ๐๐ , ๐ โฅ 0
๐ค โ ๐ค โ ๐๐๐
๐๐คโข Weight update
๐์์ต์ํํ๋ ๐ค๋ฅผ์ฐพ์๋ผ!!
๐ ๐๐๐๐ ๐ถ 20
Training: Gradient Descent
(for fixed , this is a function of x) (function of the parameters )
Andrew Ng
๐ ๐๐๐๐ ๐ถ 21
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 22
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 23
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 24
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 25
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 26
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 27
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 28
(for fixed , this is a function of x) (function of the parameters )
Training: Gradient Descent
Andrew Ng
๐ ๐๐๐๐ ๐ถ 29
Training: Solution Derivation
โข ๋ถ์์ ๋ฐฉ๋ฒ(analytic method)โข ๐ฝ(๐)๋ฅผ ๊ฐ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ค๋ก ํธ๋ฏธ๋ถํ ํ์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ 0์ผ๋ก
ํ์ฌ ์ฐ๋ฆฝ๋ฐฉ์ ์ ํ์ด
โข ๐ ๐ฅ = ๐ค๐ฅ + ๐ ์ธ ๊ฒฝ์ฐ์๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๐ค์ ๐๋ก ํธ๋ฏธ๋ถ
๐๐
๐๐ค=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ (โ๐ฅ๐) = 0
๐๐
๐๐=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ (โ1) = 0
๐ค์๋ํํธ๋ฏธ๋ถ
๐์๋ํํธ๋ฏธ๋ถ
๐ ๐๐๐๐ ๐ถ 30
Training: Solution Derivation
๐๐
๐๐=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ (โ1) = 0
๐์๋ํํธ๋ฏธ๋ถ
๐๐
๐๐=
๐=1
๐
๐ฆ๐ โ ๐ค๐
๐=1
๐
๐ฅ๐ โ ๐๐ = 0
๐๐
๐๐=
๐=1
๐
๐ฆ๐ โ ๐ค๐
๐=1
๐
๐ฅ๐ = ๐๐
๐๐
๐๐= ๐ฆ โ ๐ค๐ ๐ฅ = ๐
๐ ๐๐๐๐ ๐ถ 31
Training: Solution Derivation
๐๐
๐๐ค=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ (โ๐ฅ๐) = 0
๐ค์๋ํํธ๋ฏธ๋ถ
0 =
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ค๐๐ฅ๐๐ฅ๐ โ ๐๐ฅ๐
0 =
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ค๐๐ฅ๐๐ฅ๐ โ ( ๐ฆ โ ๐ค๐ ๐ฅ)๐ฅ๐
0 =
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ค๐๐ฅ๐๐ฅ๐ โ ๐ฆ๐ฅ๐ + ๐ค๐ ๐ฅ๐ฅ๐
๐=1
๐
(๐ค๐ ๐ฅ๐ฅ๐ โ๐ค๐๐ฅ๐๐ฅ๐) =
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ฆ๐ฅ๐
(
๐=1
๐
๐ฅ๐ฅ๐ โ ๐ฅ๐๐ฅ๐ ๐ค๐) =
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ฆ๐ฅ๐
๐ค๐ =
๐=1
๐
๐ฅ๐ฅ๐ โ ๐ฅ๐๐ฅ๐
โ1
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ฆ๐ฅ๐
๐ฆ โ ๐ค๐ ๐ฅ = ๐
0์๊ฐ์๊ฐ๋์ด์ ๋๋ชจ๋ instance์๊ฐ์๋ํ๋๊ฒ๊ณผํ๊ท ์ n๋ฒ๋ํ๋๊ฒ์๊ฐ์๊ฐ์๊ฐ๊ฒํ๊ธฐ๋๋ฌธ
๐ ๐๐๐๐ ๐ถ 32
Training: Solution Derivation
๐๐
๐๐ค=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ ๐ (โ๐ฅ๐) = 0
๐ค์๋ํํธ๋ฏธ๋ถ
๐ค๐ =
๐=1
๐
๐ฅ๐ฅ๐ โ ๐ฅ๐๐ฅ๐
โ1
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ฆ๐ฅ๐
๐ค๐ =
๐=1
๐
๐ฅ๐๐ฅ๐๐ โ ๐ฅ๐๐ฅ๐ + ( ๐ฅ ๐ฅ๐ โ ๐ฅ๐ฅ๐
๐)
โ1
๐=1
๐
๐ฆ๐๐ฅ๐ โ ๐ฆ๐ฅ๐ + ( ๐ฆ ๐ฅ โ ๐ฆ๐ ๐ฅ)
๐ค๐ =
๐=1
๐
๐ฅ๐ โ ๐ฅ)(๐ฅ๐ โ ๐ฅ ๐
โ1
๐=1
๐
๐ฅ๐ โ ๐ฅ (๐ฆ๐ โ ๐ฆ)
๐ค๐ =
๐=1
๐
๐ฃ๐๐(๐ฅ๐)
โ1
๐=1
๐
๐๐๐ฃ(๐ฅ๐ , ๐ฆ๐)
solution
๐ค๐ =
๐=1
๐
๐ฅ๐ โ ๐ฅ)(๐ฅ๐ โ ๐ฅ ๐
โ1
๐=1
๐
๐ฅ๐ โ ๐ฅ (๐ฆ๐ โ ๐ฆ)
๐ = ๐ฆ โ ๐ค๐ ๐ฅ
๐ ๐๐๐๐ ๐ถ 33
Training: Algorithm
๐ ๐๐๐๐ ๐ถ 34
Regression: other problems
๐ ๐๐๐๐ ๐ถ 35
Regression: Multiple variables
โข ์น๊ตฌ์ ๋ํ ์ ๋ณด๊ฐ ๋ง์ ๊ฒฝ์ฐ
ํค ๋์ด ๋ฐํฌ๊ธฐ ๋ค๋ฆฌ๊ธธ์ด ๋ชธ๋ฌด๊ฒ
์น๊ตฌ1 160 17 230 80 50
์น๊ตฌ2 165 20 235 85 50
์น๊ตฌ3 170 21 240 85 55
์น๊ตฌ4 170 24 245 90 60
์น๊ตฌ5 175 26 250 90 60
Features Label
Instance โ ๐
โ ๐ฅ = ๐ค0๐ฅ0 +๐ค1๐ฅ1 + ๐ค2๐ฅ2 + ๐ค3๐ฅ3 + ๐ค4๐ฅ4 + ๐ค5๐ฅ5Hypothesis:
๐ค0, ๐ค1, ๐ค2, ๐ค3, ๐ค4, ๐ค5Parameters:
๐ฅ0, ๐ฅ1, ๐ฅ2, ๐ฅ3, ๐ฅ4, ๐ฅ5Features:
๐ฆ๐ฅ1 ๐ฅ2 ๐ฅ3 ๐ฅ4
๐1
๐2
๐3
๐4
๐5
๐ ๐๐๐๐ ๐ถ 36
Regression: Multiple variables
โข Hypothesis:
โข Parameters:
โข Features:
โข Cost function:
โ ๐ฅ = ๐ค๐๐ฅ = ๐ค0๐ฅ0 + ๐ค1๐ฅ1 + ๐ค2๐ฅ2 +โฏ+๐ค๐๐ฅ๐
๐ค0, ๐ค1, ๐ค2, ๐ค3, ๐ค4, โฆ , ๐ค๐
๐ฅ0, ๐ฅ1, ๐ฅ2, ๐ฅ3, ๐ฅ4, โฆ , ๐ฅ๐
โ โ๐+1
โ โ๐+1
๐ฝ ๐ค0, ๐ค1, โฆ , ๐ค๐ =1
2
๐=1
๐
๐ฆ๐ โ โ(๐ฅ๐)2
๐ฅ =
๐ฅ0๐ฅ1๐ฅ2๐ฅ3โฆ๐ฅ๐
โ โ๐+1 ๐ค =
๐ค0
๐ค1
๐ค2
๐ค3
โฆ๐ค๐
โ โ๐+1
๐ ๐๐๐๐ ๐ถ 37
Multiple variables: Gradient descent
โข Gradient descent
๐๐ฝ(๐)
๐๐ค=
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ (โ๐ฅ๐)
Standard (n=1), n: num. of features
Repeat {
}
๐ค0 = ๐ค0 โ ๐
๐=1
๐
๐ฆ๐ โ๐ค๐๐ฅ๐
โ๐ฅ๐๐ โ โ๐ฅ๐0 = 1
๐ค1 = ๐ค1 โ ๐
๐=1
๐
๐ฆ๐ โ๐ค๐๐ฅ๐ โ๐ฅ๐1
Multiple (n>=1)
Repeat {
}
๐ค๐ = ๐ค๐ โ ๐
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ๐ฅ๐๐
๐ค0 = ๐ค0 โ ๐
๐=1
๐
๐ฆ๐ โ ๐ค๐๐ฅ๐ โ๐ฅ๐0
๐ค1 = ๐ค1 โ ๐
๐=1
๐
๐ฆ๐ โ๐ค๐๐ฅ๐ โ๐ฅ๐1
๐ค2 = ๐ค2 โ ๐
๐=1
๐
๐ฆ๐ โ๐ค๐๐ฅ๐ โ๐ฅ๐2
โฆ
๐ ๐๐๐๐ ๐ถ 38
Multiple variables: Feature scaling
โข Feature scaling
โข ๊ฐ๊ฐ์ ์์ง ๊ฐ ๋ฒ์๋ค์ด ์๋ก ๋ค๋ฆโข ํค: 160~175, ๋์ด: 17~26, ๋ฐ ํฌ๊ธฐ: 230~250, ๋ค๋ฆฌ ๊ธธ์ด:
80~90
โข Gradient descent ํ ๋ ์ต์ ๊ฐ์ผ๋ก ์๋ ดํ๋๋ฐ ์ค๋๊ฑธ๋ฆผ
ํค ๋์ด ๋ฐํฌ๊ธฐ ๋ค๋ฆฌ๊ธธ์ด ๋ชธ๋ฌด๊ฒ
์น๊ตฌ1 160 17 230 80 50
์น๊ตฌ2 165 20 235 85 50
์น๊ตฌ3 170 21 240 85 55
์น๊ตฌ4 170 24 245 90 60
์น๊ตฌ5 175 26 250 90 60
๐ ๐๐๐๐ ๐ถ 39
Multiple variables: Feature scaling
โข Feature scaling
โข ์์ง ๊ฐ ๋ฒ์๊ฐ ๋๋ฌด ์ปค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ฏธ๋ถ์ ๋ง์ด ํ๊ฒ ๋จ, ์ฆ iteration์ ๋ง์ด ์ํํ๊ฒ ๋จ
โข ์๋ฅผ ๋ค์ดโข ์ด ์ ๋ ์ฐจ์ด์ ์์ง๋ค์ ๊ด์ฐฎ์
โข ์ด ์ ๋ ์ฐจ์ด์ ์์ง๋ค์ด ๋ฌธ์
โ0.5 โค ๐ฅ1 โค 0.5
โ2 โค ๐ฅ2 โค 3
โ1000 โค ๐ฅ1 โค 2000
0 โค ๐ฅ2 โค 5000
๐ ๐๐๐๐ ๐ถ 40
Multiple variables: Feature scaling
โข Feature scaling
โข ๋ฐ๋ผ์ ์์ง ๊ฐ ๋ฒ์๋ฅผ โ1 โค ๐ฅ๐ โค 1 ์ฌ์ด๋ก ์ฌ์ ์
Feature scaling
โข Scaling: ๐ฅ๐: ๐๐๐๐ก๐ข๐๐ ๐๐๐ก๐
๐๐: ๐๐๐๐๐ ๐๐ ๐๐๐๐ก๐ข๐๐ ๐๐๐ก๐๐ ๐๐ = max ๐๐๐๐ก. โ min(๐๐๐๐ก. )
๐๐ = 230 โค ๐ฅ๐ โค 250โ range: 250 โ 230 = 20
๐ฅ๐ โ ๐๐๐๐ ๐๐: ๐๐๐๐ ๐๐ ๐๐๐๐ก๐ข๐๐ ๐๐๐ก๐๐
๐ฅ๐ โ 240
20๐๐ = 240
Example
๐ฅ1 = 230 โ230 โ 240
20= โ0.5
๐ฅ5 = 230 โ250 โ 240
20= 0.5
๐ ๐๐๐๐ ๐ถ 41
Multiple variables: Feature scaling
โข Feature scaling
โข Feature scaling์ ํตํ์ฌ ์ ๊ทํ
โข ๊ฐ๋จํ ์ฐ์ฐ
โข ๊ฒฐ๊ตญ์ Gradient descent๊ฐ ๋น ๋ฅด๊ฒ ์๋ ดํ ์ ์์
๐ ๐๐๐๐ ๐ถ 42
Linear Regression: Normal equation
โข ์์์ ๋ค๋ค๋ ๋ฐฉ๋ฒ์ ๋คํญ์์ ์ด์ฉํ ๋ถ์์ ๋ฐฉ๋ฒ
โข ๋ถ์์ ๋ฐฉ๋ฒ์ ๊ณ ์ฐจ ํจ์๋ ๋ค๋ณ์ ํจ์๊ฐ ๋๋ฉด ๊ณ์ฐ์ด์ด๋ ค์
โข ๋ฐ๋ผ์ ๋์์ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผ Normal equation
๋ถ์์ ๋ฐฉ๋ฒ:
โข Gradient Descent ํ์
๐์ many iteration ํ์
โข ๐์ด๋ง์ผ๋ฉด์ข์์ฑ๋ฅ
Such as, ๐ training examples, ๐ features
๋์์ ๋ฐฉ๋ฒ:
โข Gradient Descent ํ์์์
๐์many iteration ํ์์์
โข ๐๐๐ โ1์๊ณ์ฐ๋งํ์ ๐(๐3)
โข ๐์ด๋ง์ผ๋ฉด์๋๋๋ฆผ
๐ ๐๐๐๐ ๐ถ 43
Size (feet2) Number of bedrooms Number of floors Age of home (years) Price ($1000)
1 2104 5 1 45 4601 1416 3 2 40 2321 1534 3 2 30 3151 852 2 1 36 178
Examples:
Linear Regression: Normal equation
๐ =
๐ค0
๐ค1
๐ค2
๐ค3
๐ค4
โด ๐๐ = ๐ฆ
๐ ๐๐๐๐ ๐ถ 44
Size (feet2) Number of bedrooms Number of floors Age of home (years) Price ($1000)
1 2104 5 1 45 4601 1416 3 2 40 2321 1534 3 2 30 3151 852 2 1 36 1781
Examples:
Linear Regression: Normal equation
๐ = ๐๐๐ โ1๐๐๐ฆ๐๐ = ๐ฆ โ
๐ ๐๐๐๐ ๐ถ 45
Linear Regression: Normal equation
โ๐ = ๐๐๐ โ1๐๐๐ฆโ๊ฐ์ ๋ง ๐๐๐ ๐๐๐ข๐๐2 ํฉ์์ต์๋กํ๋๋ชจ๋ธ์ธ๊ฐ?์ด๋ป๊ฒ์ ๋ํ๋๊ฐ?
๐ = ๐ฆ โ ๐ฆ โ ๐ โ๐๐ 2
min( ๐ โ๐๐ 2)์๋ง์กฑํ๋๐๋ฅผ๊ตฌํ๋ผ
โด ๐์ํธ๋ฏธ๋ถํํ 0์ผ๋ก๋์ผ๋ฉด
โ2๐๐ ๐ โ๐๐ = 0
โ2๐๐๐ + 2๐๐๐๐ = 0
2๐๐๐๐ = 2๐๐๐
โด ๐ = ๐๐๐ โ1๐๐๐
๐๐๐๐ = ๐๐๐
๐ ๐๐๐๐ ๐ถ 46
References
โข https://class.coursera.org/ml-007/lecture
โข http://deepcumen.com/2015/04/linear-regression-2/
โข http://www.aistudy.com/math/regression_lee.htm
โข http://en.wikipedia.org/wiki/Linear_regression
๐ ๐๐๐๐ ๐ถ 47
QA
๊ฐ์ฌํฉ๋๋ค.
๋ฐ์ฒ์, ๋ฐ์ฐฌ๋ฏผ, ์ต์ฌํ, ๋ฐ์ธ๋น, ์ด์์
๐ ๐๐๐๐ ๐ถ , ๊ฐ์๋ํ๊ต
Email: [email protected]