Linear Regression 𝑖 𝜶 - Kangwoncs.kangwon.ac.kr/~parkce/seminar/2015_MachineLearning/03... ·...

Preview:

Citation preview

𝑠𝑖𝑔𝑚𝑎 𝜶

Machine Learning

𝑠𝑖𝑔𝑚𝑎 𝜶

2015.06.06.

Linear Regression

𝑠𝑖𝑔𝑚𝑎 𝜶 2

Issues

𝑠𝑖𝑔𝑚𝑎 𝜶 3

Issues

• https://www.facebook.com/Architecturearts/videos/1107531579263808/

• “8살짜리 조카에게 데이터베이스(DB)가 무엇인지 3줄의 문장으로 설명하시오”

• 6개월동안 최대 25번이나 되는 면접시험을 거쳐 구글러(구글 직원을 일컫는 말)가 될 확률은 0.25%. 하버드대보다 25배 들어가기 어렵다.

• “우리는 ‘구글다운’(Being Googley) 인재들만 뽑는다”• 회사에 뭔가 다른 가치나 재능을 가져다 줄 수 있는지

• 새로운 지식을 받아들일 줄 아는 지적인 겸손·유연함을 갖췄는지

• 굴러다니는 쓰레기를 스스로 줍는 자발적인 사람인지

• 망원경 성능을 개선하느니 달에 우주선을 쏘는 게 낫다는 식의 ‘문샷싱킹’ 출처: 중앙일보

𝑠𝑖𝑔𝑚𝑎 𝜶 4

Issues

• 실리콘밸리의 스타트업 ‘로코모티브랩스‘ 이수인(39) 대표는 “기술기업에선 모두가 똑같은 근무시간을 채우는 것보다 최고의 실력을 가진 1급 개발자들이 최고의성과를 낼 수 있도록 하는 게 더 중요하다.”

• “이들이 이직하지 않도록 붙잡아 두려면 고액연봉 외에, ‘자유’ 같은 플러스 알파의 가치를 더 줘야 한다는 게실리콘밸리의 보편적인 분위기”

• http://www.washingtonpost.com/graphics/business/robots/

출처: 중앙일보

𝑠𝑖𝑔𝑚𝑎 𝜶 5

Issues

𝑠𝑖𝑔𝑚𝑎 𝜶 6

Linear Regression

• 임의의 데이터가 있을 때, 데이터 자질 간의 상관관계를 고려하는 것

친구 1 친구 2 친구 3 친구 4 친구 5

키 160 165 170 170 175

몸무게 50 50 55 50 60

𝑠𝑖𝑔𝑚𝑎 𝜶 7

Linear Regression

• 즉, 회귀 문제란..

• 수치형 목적 값을 예측하는 방법

• 목적 값에 대한 방정식 필요• 회귀 방정식(Regression equation)

• 집 값을 알기 위해 아래와 같은 방정식을 이용

• Ex) 집 값 = 0.125 * 평수 + 0.5 * 역까지의 거리

• “평수”와 “역까지의 거리” 입력 데이터

• “집 값” 추정 데이터

• 0.125와 0.5의 값 회귀 가중치(Regression weight)

• 여자친구의 몸무게를 추정하기 위하여..

• Ex) 몸무게 = 0.05 * 키

• “키“ 입력 데이터

• “몸무게” 추정 데이터

• 0.05 회귀 가중치

𝑠𝑖𝑔𝑚𝑎 𝜶 8

Hypothesis

𝑦 = 𝑤𝑥 + 𝑏𝑥입력데이터: 키

𝑦추정데이터: 몸무게

𝑤회귀가중치: 기울기

Hypothesis

𝑠𝑖𝑔𝑚𝑎 𝜶 9

Hypothesis

0

1

2

3

0 1 2 3

0

1

2

3

0 1 2 3

0

1

2

3

0 1 2 3

Andrew Ng

𝑦 = 𝑤𝑥 + 𝑏

𝑠𝑖𝑔𝑚𝑎 𝜶 10

Hypothesis

𝑦𝑖 = 𝑤0 +𝑤𝑇𝑥𝑖

𝑦𝑖 = 𝑤0 × 1 +

𝑖=1

𝑚

𝑤𝑖𝑥𝑖

𝑦𝑖 = 𝑖=0𝑚 𝑤𝑖𝑥𝑖 𝑤𝑥

𝑦 = 𝑤𝑥 + 𝑏 𝑦 = 𝑤𝑥

Variable Description

𝐽(𝜃), r Cost function vector, residual(r)

y Instance label vector

𝑦, h(𝜃) hypothesis

𝑤0, b Bias(b), y-intercept

𝑥𝑖 Feature vector, 𝑥0 = 1

W Weight set (𝑤1, 𝑤2, 𝑤3, … , 𝑤𝑛)

X Feature set (𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑛)(generalization)

(generalization)

𝑠𝑖𝑔𝑚𝑎 𝜶 11

Regression: statistical example

• 모집단: 유통기간에 따른 비타민 C의 파괴량

• 독립 변수 X가 주어졌을 때Y에 대한 기대 값

유통기간 (일) : X 15 20 25 30 35

비타민 C 파괴량 (mg):Y

05

101520

1520253035

3035404550

5055606570

5560657075

𝑦 = 𝑤𝑥 + 𝑏 + 𝜀

𝑦 = 𝜃𝑥 + 𝜀

𝜀: disturbance term, error variable

𝑠𝑖𝑔𝑚𝑎 𝜶 12

Regression: statistical example

Random variable of Y

𝑠𝑖𝑔𝑚𝑎 𝜶 13

Residual

ㅡ정답모델ㅡ추정모델

정답데이터추정데이터

Residual: 𝑟(= 𝜀)

𝑟1

𝑟2

𝑟3

𝑟4

𝑟5

• 아래의말은서로같은의미• 정답데이터와추정데이터의차이• 정답모델과추정모델의차이

𝑦 = 𝑤𝑥 + 𝑏, 𝑠. 𝑡. min(𝑟)

𝑠𝑖𝑔𝑚𝑎 𝜶 14

Least Square Error (LSE)

𝑟1

𝑟2𝑟3

𝑟4𝑟5

𝑟 = 𝑦 − ℎ𝜃(𝑥)

𝑟𝑖 = 𝑦 − 𝑦

𝑟 =

𝑖

(𝑦𝑖 − 𝑦𝑖)

𝑟𝑖 = 𝑦𝑖 − 𝑦𝑖

𝑚𝑖𝑛

𝑖=1

𝑚

𝑟2 = 𝑚𝑖𝑛

𝑖=1

𝑚

𝑦𝑖 − 𝑦𝑖2

Least square𝑟 =

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 2

𝑟 =1

2

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 2

= 𝐽(𝜃) “cost function”

𝑦 − 𝑟 ≅ ℎ𝜃(𝑥)

(residual)

𝑠𝑖𝑔𝑚𝑎 𝜶 15

0

1

2

3

0 1 2 3

y

x

(for fixed , this is a function of x) (function of the parameter )

0

1

2

3

-0.5 0 0.5 1 1.5 2 2.5

Cost Function

𝑓 𝑥1 = ℎ𝜃 𝑥1 = 𝜃1𝑥1 = 1 𝐽 𝜃1 = 𝑦1 − 𝑓(𝑥1)

𝐽 𝜃1 = 1 − 1 = 0 = 𝑟

Andrew Ng∴ min 𝐽(𝜃) == min 𝑟

𝑓 𝑥1 = ℎ𝜃 𝑥1 = 𝑤1𝑥1 = 1

𝑠𝑖𝑔𝑚𝑎 𝜶 16

Training

• Residual을줄여야함 LSE의값을최소화해야함

• 2차함수하나의최소값(minimum)을가짐

• 각 w에대한선형함수각차원의최소값을알수있음

• 즉, 전역최소값(global minimum)을알수있음

• 이최소값을찾기위해기울기하강(gradient descent)을사용

𝐽(𝜃) =1

2

𝑖=1

𝑚

𝑦𝑖 −𝑤𝑇𝑥𝑖 − 𝑏 2

Minimum!!

𝑠𝑖𝑔𝑚𝑎 𝜶 17

Training: Gradient

• 각 변수에 대한 일차 편미분 값으로 구성되는 벡터• 벡터: 𝑓(. )의 값이 가파른 쪽의 방향을 나타냄

• 벡터의 크기: 벡터 증가, 즉 기울기를 나타냄

• 어떤 다변수 함수 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛)가 있을 때, 𝑓의gradient는 다음과 같음

𝛻𝑓 = (𝜕𝑓

𝜕𝑥1,𝜕𝑓

𝜕𝑥2, … ,

𝜕𝑓

𝜕𝑥𝑛)

• Gradient를 이용한 다변수 scalar 함수 𝑓는 점 𝑎𝑘의 근처에서의 선형 근사식 (using Taylor expansion)

𝑓 𝑎 = 𝑓 𝑎𝑘 + 𝛻𝑓 𝑎𝑘 𝑎 − 𝑎𝑘 + 𝑜( 𝑎 − 𝑎𝑘 )

𝑠𝑖𝑔𝑚𝑎 𝜶 18

Training: Gradient Descent

• Formula

𝑎 𝑘+1 = 𝑎𝑘 − 𝜂𝑘𝛻𝑓 𝑎𝑘 , 𝑘 ≥ 0

𝜂𝑘: 𝑙𝑒𝑎𝑟𝑛𝑖𝑛𝑔 𝑟𝑎𝑡𝑒

• Algorithm

𝒃𝒆𝒈𝒊𝒏 𝑖𝑛𝑖𝑡 𝑎, 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 𝜃, 𝜂𝒅𝒐 𝑘 ← 𝑘 + 1

𝑎 ← 𝑎 − 𝜂𝛻𝑓 𝑎𝒖𝒏𝒕𝒊𝒍 𝜂𝛻𝑎 𝑘 < 0

𝒓𝒆𝒕𝒖𝒓𝒏 𝑎𝒆𝒏𝒅

출처: wikipedia

𝑠𝑖𝑔𝑚𝑎 𝜶 19

Training: Gradient Descent

min 𝐽(𝜃) =1

2

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖2

𝜕𝐽(𝜃)

𝜕𝑤=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 (−𝑥𝑖)• 벡터에대한미분

𝑎 𝑘+1 = 𝑎𝑘 − 𝜂𝑘𝛻𝑓 𝑎𝑘 , 𝑘 ≥ 0

𝑤 ← 𝑤 − 𝜂𝜕𝑟

𝜕𝑤• Weight update

𝑟을최소화하는 𝑤를찾아라!!

𝑠𝑖𝑔𝑚𝑎 𝜶 20

Training: Gradient Descent

(for fixed , this is a function of x) (function of the parameters )

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 21

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 22

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 23

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 24

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 25

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 26

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 27

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 28

(for fixed , this is a function of x) (function of the parameters )

Training: Gradient Descent

Andrew Ng

𝑠𝑖𝑔𝑚𝑎 𝜶 29

Training: Solution Derivation

• 분석적 방법(analytic method)• 𝐽(𝜃)를 각 모델 파라미터들로 편미분한 후에 그 결과를 0으로

하여 연립방정식 풀이

• 𝑓 𝑥 = 𝑤𝑥 + 𝑏 인 경우에는 모델 파라미터 𝑤와 𝑏로 편미분

𝜕𝑟

𝜕𝑤=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 (−𝑥𝑖) = 0

𝜕𝑟

𝜕𝑏=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 (−1) = 0

𝑤에대한편미분

𝑏에대한편미분

𝑠𝑖𝑔𝑚𝑎 𝜶 30

Training: Solution Derivation

𝜕𝑟

𝜕𝑏=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 (−1) = 0

𝑏에대한편미분

𝜕𝑟

𝜕𝑏=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇

𝑖=1

𝑚

𝑥𝑖 − 𝑏𝑚 = 0

𝜕𝑟

𝜕𝑏=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇

𝑖=1

𝑚

𝑥𝑖 = 𝑏𝑚

𝜕𝑟

𝜕𝑏= 𝑦 − 𝑤𝑇 𝑥 = 𝑏

𝑠𝑖𝑔𝑚𝑎 𝜶 31

Training: Solution Derivation

𝜕𝑟

𝜕𝑤=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 (−𝑥𝑖) = 0

𝑤에대한편미분

0 =

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑤𝑇𝑥𝑖𝑥𝑖 − 𝒃𝑥𝑖

0 =

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑤𝑇𝑥𝑖𝑥𝑖 − ( 𝑦 − 𝑤𝑇 𝑥)𝑥𝑖

0 =

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑤𝑇𝑥𝑖𝑥𝑖 − 𝑦𝑥𝑖 + 𝑤𝑇 𝑥𝑥𝑖

𝑖=1

𝑚

(𝑤𝑇 𝑥𝑥𝑖 −𝑤𝑇𝑥𝑖𝑥𝑖) =

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖

(

𝑖=1

𝑚

𝑥𝑥𝑖 − 𝑥𝑖𝑥𝑖 𝑤𝑇) =

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖

𝑤𝑇 =

𝑖=1

𝑚

𝑥𝑥𝑖 − 𝑥𝑖𝑥𝑖

−1

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖

𝑦 − 𝑤𝑇 𝑥 = 𝑏

0의값을갖는이유는모든 instance의값을더하는것과평균을 n번더하는것은같은값을갖게하기때문

𝑠𝑖𝑔𝑚𝑎 𝜶 32

Training: Solution Derivation

𝜕𝑟

𝜕𝑤=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 − 𝑏 (−𝑥𝑖) = 0

𝑤에대한편미분

𝑤𝑇 =

𝑖=1

𝑚

𝑥𝑥𝑖 − 𝑥𝑖𝑥𝑖

−1

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖

𝑤𝑇 =

𝑖=1

𝑚

𝑥𝑖𝑥𝑖𝑇 − 𝑥𝑇𝑥𝑖 + ( 𝑥 𝑥𝑇 − 𝑥𝑥𝑖

𝑇)

−1

𝑖=1

𝑚

𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖 + ( 𝑦 𝑥 − 𝑦𝑖 𝑥)

𝑤𝑇 =

𝑖=1

𝑚

𝑥𝑖 − 𝑥)(𝑥𝑖 − 𝑥 𝑇

−1

𝑖=1

𝑚

𝑥𝑖 − 𝑥 (𝑦𝑖 − 𝑦)

𝑤𝑇 =

𝑖=1

𝑚

𝑣𝑎𝑟(𝑥𝑖)

−1

𝑖=1

𝑚

𝑐𝑜𝑣(𝑥𝑖 , 𝑦𝑖)

solution

𝑤𝑇 =

𝑖=1

𝑚

𝑥𝑖 − 𝑥)(𝑥𝑖 − 𝑥 𝑇

−1

𝑖=1

𝑚

𝑥𝑖 − 𝑥 (𝑦𝑖 − 𝑦)

𝑏 = 𝑦 − 𝑤𝑇 𝑥

𝑠𝑖𝑔𝑚𝑎 𝜶 33

Training: Algorithm

𝑠𝑖𝑔𝑚𝑎 𝜶 34

Regression: other problems

𝑠𝑖𝑔𝑚𝑎 𝜶 35

Regression: Multiple variables

• 친구에 대한 정보가 많은 경우

키 나이 발크기 다리길이 몸무게

친구1 160 17 230 80 50

친구2 165 20 235 85 50

친구3 170 21 240 85 55

친구4 170 24 245 90 60

친구5 175 26 250 90 60

Features Label

Instance → 𝑖

ℎ 𝑥 = 𝑤0𝑥0 +𝑤1𝑥1 + 𝑤2𝑥2 + 𝑤3𝑥3 + 𝑤4𝑥4 + 𝑤5𝑥5Hypothesis:

𝑤0, 𝑤1, 𝑤2, 𝑤3, 𝑤4, 𝑤5Parameters:

𝑥0, 𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5Features:

𝑦𝑥1 𝑥2 𝑥3 𝑥4

𝑖1

𝑖2

𝑖3

𝑖4

𝑖5

𝑠𝑖𝑔𝑚𝑎 𝜶 36

Regression: Multiple variables

• Hypothesis:

• Parameters:

• Features:

• Cost function:

ℎ 𝑥 = 𝑤𝑇𝑥 = 𝑤0𝑥0 + 𝑤1𝑥1 + 𝑤2𝑥2 +⋯+𝑤𝑛𝑥𝑛

𝑤0, 𝑤1, 𝑤2, 𝑤3, 𝑤4, … , 𝑤𝑛

𝑥0, 𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑛

∈ ℛ𝑛+1

∈ ℛ𝑛+1

𝐽 𝑤0, 𝑤1, … , 𝑤𝜃 =1

2

𝑖=1

𝑚

𝑦𝑖 − ℎ(𝑥𝑖)2

𝑥 =

𝑥0𝑥1𝑥2𝑥3…𝑥𝑛

∈ ℛ𝑛+1 𝑤 =

𝑤0

𝑤1

𝑤2

𝑤3

…𝑤𝑛

∈ ℛ𝑛+1

𝑠𝑖𝑔𝑚𝑎 𝜶 37

Multiple variables: Gradient descent

• Gradient descent

𝜕𝐽(𝜃)

𝜕𝑤=

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 (−𝑥𝑖)

Standard (n=1), n: num. of features

Repeat {

}

𝑤0 = 𝑤0 − 𝜂

𝑖=1

𝑚

𝑦𝑖 −𝑤𝑇𝑥𝑖

−𝑥𝑖𝑗 → −𝑥𝑖0 = 1

𝑤1 = 𝑤1 − 𝜂

𝑖=1

𝑚

𝑦𝑖 −𝑤𝑇𝑥𝑖 −𝑥𝑖1

Multiple (n>=1)

Repeat {

}

𝑤𝑗 = 𝑤𝑗 − 𝜂

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 −𝑥𝑖𝑗

𝑤0 = 𝑤0 − 𝜂

𝑖=1

𝑚

𝑦𝑖 − 𝑤𝑇𝑥𝑖 −𝑥𝑖0

𝑤1 = 𝑤1 − 𝜂

𝑖=1

𝑚

𝑦𝑖 −𝑤𝑇𝑥𝑖 −𝑥𝑖1

𝑤2 = 𝑤2 − 𝜂

𝑖=1

𝑚

𝑦𝑖 −𝑤𝑇𝑥𝑖 −𝑥𝑖2

𝑠𝑖𝑔𝑚𝑎 𝜶 38

Multiple variables: Feature scaling

• Feature scaling

• 각각의 자질 값 범위들이 서로 다름• 키: 160~175, 나이: 17~26, 발 크기: 230~250, 다리 길이:

80~90

• Gradient descent 할 때 최소 값으로 수렴하는데 오래걸림

키 나이 발크기 다리길이 몸무게

친구1 160 17 230 80 50

친구2 165 20 235 85 50

친구3 170 21 240 85 55

친구4 170 24 245 90 60

친구5 175 26 250 90 60

𝑠𝑖𝑔𝑚𝑎 𝜶 39

Multiple variables: Feature scaling

• Feature scaling

• 자질 값 범위가 너무 커서 그림과 같이 미분을 많이 하게 됨, 즉 iteration을 많이 수행하게 됨

• 예를 들어• 이 정도 차이의 자질들은 괜찮음

• 이 정도 차이의 자질들이 문제

−0.5 ≤ 𝑥1 ≤ 0.5

−2 ≤ 𝑥2 ≤ 3

−1000 ≤ 𝑥1 ≤ 2000

0 ≤ 𝑥2 ≤ 5000

𝑠𝑖𝑔𝑚𝑎 𝜶 40

Multiple variables: Feature scaling

• Feature scaling

• 따라서 자질 값 범위를 −1 ≤ 𝑥𝑖 ≤ 1 사이로 재정의

Feature scaling

• Scaling: 𝑥𝑖: 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑑𝑎𝑡𝑎

𝑆𝑖: 𝑟𝑎𝑛𝑔𝑒 𝑜𝑓 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑑𝑎𝑡𝑎𝑠𝑆𝑖 = max 𝑓𝑒𝑎𝑡. − min(𝑓𝑒𝑎𝑡. )

𝑆𝑖 = 230 ≤ 𝑥𝑖 ≤ 250→ range: 250 − 230 = 20

𝑥𝑖 − 𝜇𝑖𝑆𝑖 𝜇𝑖: 𝑚𝑒𝑎𝑛 𝑜𝑓 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑑𝑎𝑡𝑎𝑠

𝑥𝑖 − 240

20𝜇𝑖 = 240

Example

𝑥1 = 230 →230 − 240

20= −0.5

𝑥5 = 230 →250 − 240

20= 0.5

𝑠𝑖𝑔𝑚𝑎 𝜶 41

Multiple variables: Feature scaling

• Feature scaling

• Feature scaling을 통하여 정규화

• 간단한 연산

• 결국에 Gradient descent가 빠르게 수렴할 수 있음

𝑠𝑖𝑔𝑚𝑎 𝜶 42

Linear Regression: Normal equation

• 앞에서 다뤘던 방법은 다항식을 이용한 분석적 방법

• 분석적 방법은 고차 함수나 다변수 함수가 되면 계산이어려움

• 따라서 대수적 방법으로 접근 Normal equation

분석적방법:

• Gradient Descent 필요

𝜂와 many iteration 필요

• 𝑛이많으면좋은성능

Such as, 𝑚 training examples, 𝑛 features

대수적방법:

• Gradient Descent 필요없음

𝜂와many iteration 필요없음

• 𝑋𝑇𝑋 −1의계산만필요 𝑂(𝑛3)

• 𝑛이많으면속도느림

𝑠𝑖𝑔𝑚𝑎 𝜶 43

Size (feet2) Number of bedrooms Number of floors Age of home (years) Price ($1000)

1 2104 5 1 45 4601 1416 3 2 40 2321 1534 3 2 30 3151 852 2 1 36 178

Examples:

Linear Regression: Normal equation

𝑊 =

𝑤0

𝑤1

𝑤2

𝑤3

𝑤4

∴ 𝑊𝑋 = 𝑦

𝑠𝑖𝑔𝑚𝑎 𝜶 44

Size (feet2) Number of bedrooms Number of floors Age of home (years) Price ($1000)

1 2104 5 1 45 4601 1416 3 2 40 2321 1534 3 2 30 3151 852 2 1 36 1781

Examples:

Linear Regression: Normal equation

𝑊 = 𝑋𝑇𝑋 −1𝑋𝑇𝑦𝑊𝑋 = 𝑦 →

𝑠𝑖𝑔𝑚𝑎 𝜶 45

Linear Regression: Normal equation

“𝑊 = 𝑋𝑇𝑋 −1𝑋𝑇𝑦”가정말 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙2 합을최소로하는모델인가?어떻게유도하는가?

𝑟 = 𝑦 − 𝑦 → 𝑌 −𝑊𝑋 2

min( 𝑌 −𝑊𝑋 2)을만족하는𝑊를구하라

∴ 𝑊을편미분한후 0으로놓으면

−2𝑋𝑇 𝑌 −𝑊𝑋 = 0

−2𝑋𝑇𝑌 + 2𝑋𝑇𝑊𝑋 = 0

2𝑋𝑇𝑊𝑋 = 2𝑋𝑇𝑌

∴ 𝑊 = 𝑋𝑇𝑋 −1𝑋𝑇𝑌

𝑋𝑇𝑊𝑋 = 𝑋𝑇𝑌

𝑠𝑖𝑔𝑚𝑎 𝜶 46

References

• https://class.coursera.org/ml-007/lecture

• http://deepcumen.com/2015/04/linear-regression-2/

• http://www.aistudy.com/math/regression_lee.htm

• http://en.wikipedia.org/wiki/Linear_regression

𝑠𝑖𝑔𝑚𝑎 𝜶 47

QA

감사합니다.

박천음, 박찬민, 최재혁, 박세빈, 이수정

𝑠𝑖𝑔𝑚𝑎 𝜶 , 강원대학교

Email: parkce@kangwon.ac.kr

Recommended