43
Jeonghun Yoon

03. linear regression

Embed Size (px)

Citation preview

Page 1: 03. linear regression

Jeonghun Yoon

Page 2: 03. linear regression

지난 시간.....Naive Bayes Classifier

argmax𝑦𝑃 𝑥1, … , 𝑥𝑑 𝑦 𝑃(𝑦) = argmax

𝑦 𝑃 𝑥𝑖 𝑦 𝑃(𝑦)

𝑑

𝑖=1

class 𝑦 의 발생 확률과 test set에서 class 𝑦의 label을 가진 데이터의 특성 벡터의

원소 𝑥𝑖 (문서의 예에서는 단어) 가 나올 확률의 곱

ex) (I, love, you)가 spam인지 아닌지 알기 위해서는,

test set에서 spam이 차지하는 비율과

spam으로 labeling 된 문서에서 I와 love와 you가 발생하는 확률을 모두 곱한 것과,

test set에서 ham이 차지하는 비율과

ham으로 labeling 된 문서에서 I와 love와 you가 발생하는 확률을 모두 곱한 것을,

비교한다.

Page 3: 03. linear regression

지난 시간 미비했던 점 들... 1. Laplacian Smoothing (appendix 참고)

2. MLE / MAP

1

Page 4: 03. linear regression

Bayes’ Rule

𝑝 𝜃 𝕩 =𝑝 𝕩 𝜃 𝑝(𝜃)

𝑝 𝕩 𝜃 𝑝(𝜃)

posteriori (사후 확률)

likelihood (우도 값)

prior (사전 확률)

사후 확률 : 관찰 값들이 관찰 된 후에 모수(parameter)의 발생 확률을 구한다.

사전 확률 : 관찰 값들이 관찰 되기 전에 모수의 발생 확률을 구한다.

우도 값 : 모수의 값이 주어졌을 때 관찰 값들이 발생할 확률

Page 5: 03. linear regression

Maximum Likelihood Estimate

𝕩 = (𝑥1, … , 𝑥𝑛)

𝓛 𝜽 = 𝒑 𝕩 𝜽

우도(likelihood)는 다음과 같이 정의 된다.

변수(parameter) 𝜃가 주어졌을 때, data set 𝕩 = (𝑥1, … , 𝑥𝑛) (관찰 된, observed) 를 얻을 수 있는(obtaining) 확률

𝑝(𝕩|𝜃)

𝑋

𝜃의 함수. 𝜃의 pdf는 아님.

𝕩 = (𝑥1, … , 𝑥𝑛)

Page 6: 03. linear regression

Maximum Likelihood Estimate는 다음과 같이 정의 된다.

관찰 된 data set 𝕩 = 𝑥1, … , 𝑥𝑛 을 얻을 수 있는 확률이 가장 큰 𝜃가 MLE이다.

𝑝(𝕩|𝜃1)

𝑋 𝕩 = (𝑥1, … , 𝑥𝑛)

𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱𝜽𝓛 𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱

𝜽𝒑(𝕩|𝜽) ̂

𝑝(𝕩|𝜃2) 𝑝(𝕩|𝜃3)

𝑝(𝕩|𝜃) 𝜃 = 𝜃2 ̂

Page 7: 03. linear regression

우리가 likelihood function 𝑝(𝕩|𝜃)와 prior 𝑝(𝜃)를 알 때, Bayes rule에 의하여 posteriori function의 값을 구할 수 있다.

𝒑 𝜽 𝕩 ∝ 𝒑 𝕩 𝜽 𝒑(𝜽)

Maximum A Posteriori Estimate

𝑝 𝜃 𝕩 =𝑝 𝕩 𝜃 𝑝(𝜃)

𝑝 𝕩 𝜃 𝑝(𝜃)

posteriori (사후 확률)

likelihood (우도 값)

prior (사전 확률)

Page 8: 03. linear regression

Likelihood 𝑝(𝕩|𝜃)

Prior 𝑝(𝜃)

Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)

Page 9: 03. linear regression

Likelihood 𝑝(𝕩|𝜃)

Prior 𝑝(𝜃)

Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)

Page 10: 03. linear regression

𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱𝜽𝒑(𝜽|𝕩)

Likelihood 𝑝(𝕩|𝜃)

Prior 𝑝(𝜃)

Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)

Page 11: 03. linear regression

Regression

Page 12: 03. linear regression

나는 큰 신발회사의 CEO이다. 많은 지점들을 가지고 있다.

그리고 이번에 새로운 지점을 내고 싶다. 어느 지역에 내야 될까?

내가 새로운 지점을 내고 싶어하는 지역들의 예상 수익만 파악할 수 있으면

큰 도움이 될 것인데!

내가 가지고 있는 자료(data)는 각 지점의 수익(profits)과 각 지점이 있는 지역의

인구수(populations)이다.

해결책! Linear Regression!

이것을 통하여, 새로운 지역의 인구수를 알게 될 경우, 그 지역의 예상 수익을 구

할 수 있다.

Example 1)

Page 13: 03. linear regression

Example 2)

나는 지금 Pittsburgh로 이사를 왔다 나는 가장 합리적인 가격의 아파트를 얻기 원한다. 그리고 다음의 조건들은 내가 집을 사기 위해 고려하는 것들이다. square-ft(평방미터), 침실의 수, 학교 까지의 거리... 내가 원하는 크기와 침실의 수를 가지고 있는 집의 가격은 과연 얼마일까?

Page 14: 03. linear regression

① Given an input 𝑥 we would like to compute an output 𝑦. (내가 원하는 집의 크기와, 방의 개수를 입력했을 때, 집 가격의 예측 값을 계산)

② For example 1) Predict height from age (height = 𝑦, age = 𝑥) 2) Predict Google`s price from Yahoo`s price (Google's price = 𝑦, Yahoo's price = 𝑥)

𝑦 = 𝜃0 + 𝜃1𝑥

즉, 기존의 data들에서

직선(𝑦 = 𝜃0 + 𝜃1𝑥)을 찾아내면,

새로운 값 𝑥𝑛𝑒𝑤가 주어졌을 때,

해당하는 𝑦의 값을 예측할 수

있겠구나!

learning, training

prediction

Page 15: 03. linear regression

Input : 집의 크기(𝑥1), 방의 개수(𝑥2), 학교까지의 거리(𝑥3),.....

(𝑥1, 𝑥2, … , 𝑥𝑛) : 특성 벡터 feature vector

Output : 집 값(𝑦)

𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏

training set을 통하여 학습(learning)

Page 16: 03. linear regression

Simple Linear Regression

Page 17: 03. linear regression

𝑦𝑖 = 𝜃0 + 𝜃1𝑥𝑖 + 𝜀𝑖

𝑖번째 관찰점 𝑦𝑖 , 𝑥𝑖 가 주어졌을 때 단순 회귀 모형은 다음과 같다.

𝜖3

𝜖𝑖 : 𝑖번째 관찰점에서 우리가 구하고자 하는 회귀직선과 실제 관찰된 𝑦𝑖의 차이 (error)

우리는 오류의 합을 가장 작게 만드는 직선을 찾고 싶다. 즉 그렇게 만드는 𝜽𝟎와 𝜽𝟏을 추정하고 싶다 ! How!! 최소 제곱 법! (Least Squares Method)

min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2

𝑖

= 𝑚𝑖𝑛 𝜖𝑖2

𝑖

𝑦 = 𝜃0 + 𝜃1𝑥

실제 관측 값 회귀 직선의 값(이상적인 값)

종속 변수 설명 변수, 독립 변수

Page 18: 03. linear regression

min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2

𝑖

= min 𝜖𝑖2

𝑖

실제 관측 값 회귀 직선의 값(이상적인 값)

위의 식을 최대한 만족 시키는 𝜃0, 𝜃1을 추정하는 방법은 무엇일까?

(이러한 𝜃1, 𝜃2를 𝜃1, 𝜃2 라고 하자.)

- Normal Equation

- Steepest Gradient Descent

ˆ ˆ

Page 19: 03. linear regression

What is normal equation?

극대 값, 극소 값을 구할 때, 주어진 식을 미분한 후에, 미분한 식을 0으로 만드는 값을 찾는다.

min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2

𝑖

먼저, 𝜃0에 대하여 미분하자. − 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖 = 0

𝑖

𝜕

𝜕𝜃0 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖

2

𝑖

=

다음으로, 𝜃1에 대하여 미분하자. − 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖 𝑥𝑖 = 0

𝑖

𝜕

𝜕𝜃1 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖

2

𝑖

=

위 의 두 식을 0으로 만족시키는 𝜃0, 𝜃1를 찾으면 된다. 이처럼 2개의 미지수에 대하여,

2개의 방정식(system)이 있을 때, 우리는 이 system을 normal equation(정규방정식)이라 부른다.

Page 20: 03. linear regression

The normal equation form

𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1

𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =

11…

𝑥1𝑥2…

1 𝑥𝑛

, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.

𝕪 = 𝑋Θ + 𝕖

𝑦1 = 𝜃0 + 𝜃1𝑥1 + 𝜖1

𝑦2 = 𝜃0 + 𝜃1𝑥2 + 𝜖2

.......

𝑦𝑛−1 = 𝜃0 + 𝜃1𝑥𝑛−1 + 𝜖𝑛−1

𝑦𝑛 = 𝜃0 + 𝜃1𝑥𝑛 + 𝜖𝑛

𝑛개의 관측 값 (𝑥𝑖 , 𝑦𝑖)은 아래와 같은 회귀 모형을 가진다고 가정하자.

𝑦1𝑦2𝑦3…𝑦𝑛

=

111…

𝑥1𝑥2𝑥3…

1 𝑥𝑛

𝜃0𝜃1

+

𝜖1𝜖2𝜖3…𝜖𝑛

Page 21: 03. linear regression

𝜖𝑗2

𝑛

𝑗=1

= 𝕖𝑇𝕖 = 𝕪 − 𝑋Θ 𝑇(𝕪 − 𝑋Θ)

= 𝕪𝑇𝕪 − Θ𝑇𝑋𝑇𝕪 − 𝕪𝑇𝑋Θ + Θ𝑇𝑋𝑇𝑋Θ = 𝕪𝑇𝕪 − 2Θ𝑇𝑋𝑇𝕪 + Θ𝑇𝑋𝑇𝑋Θ

1 by 1 행렬이므로 전치행렬의 값이 같다!

𝜕(𝕖𝑇𝕖)

𝜕Θ= 𝟎

𝜕(𝕖𝑇𝕖)

𝜕Θ= −2𝑋𝑇𝕪 + 2𝑋𝑇𝑋Θ = 𝟎

𝑋𝑇𝑋𝚯 = 𝑋𝑇𝕪 𝚯 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ

정규방정식

𝕪 = 𝑋Θ + 𝕖 𝕖 = 𝕪 − 𝑋Θ

Minimize 𝜖𝑗2

𝑛

𝑗=1

Page 22: 03. linear regression

What is Gradient Descent?

machine learning에서는 매개 변수(parameter, 선형회귀에서는 𝜃0, 𝜃1)가 수십~

수백 차원의 벡터인 경우가 대부분이다. 또한 목적 함수(선형회귀에서는 Σ𝜖𝑖2)가

모든 구간에서 미분 가능하다는 보장이 항상 있는 것도 아니다.

따라서 한 번의 수식 전개로 해를 구할 수 없는 상황이 적지 않게 있다.

이런 경우에는 초기 해에서 시작하여 해를 반복적으로 개선해 나가는 수치적

방법을 사용한다. (미분이 사용 됨)

Page 23: 03. linear regression

What is Gradient Descent?

초기해 𝛼0 설정 𝑡 = 0

𝛼𝑡가 만족스럽나?

𝛼𝑡+1 = 𝑈 𝛼𝑡 𝑡 = 𝑡 + 1

𝛼 = 𝛼𝑡 ˆ No

Yes

Page 24: 03. linear regression

What is Gradient Descent?

Gradient Descent

현재 위치에서 경사가 가장 급하게 하강하는 방향을 찾고,

그 방향으로 약간 이동하여 새로운 위치를 잡는다.

이러한 과정을 반복함으로써 가장 낮은 지점(즉 최저 점)을 찾아 간다.

Gradient Ascent

현재 위치에서 경사가 가장 급하게 상승하는 방향을 찾고,

그 방향으로 약간 이동하여 새로운 위치를 잡는다.

이러한 과정을 반복함으로써 가장 높은 지점(즉 최대 점)을 찾아 간다.

Page 25: 03. linear regression

What is Gradient Descent?

Gradient Descent

𝛼𝑡+1 = 𝛼𝑡 − 𝜌𝜕𝐽

𝜕𝛼 𝛼𝑡

𝐽 =목적함수

𝜕𝐽

𝜕𝛼 𝛼𝑡: 𝛼𝑡에서의 도함수

𝜕𝐽

𝜕𝛼의 값

𝛼𝑡 𝛼𝑡+1

−𝝏𝑱

𝝏𝜶 𝜶𝒕

𝝏𝑱

𝝏𝜶 𝜶𝒕

𝛼𝑡에서의 미분값은 음수이다.

그래서 𝜕J

𝜕α αt 를 더하게 되면

왼쪽으로 이동하게 된다.

그러면 목적함수의 값이 증가하는

방향으로 이동하게 된다.

따라서 𝜕J

𝜕α αt를 빼준다.

그리고 적당한 𝜌를 곱해주어서 조금만

이동하게 한다.

−𝝆𝝏𝑱

𝝏𝜶 𝜶𝒕

Page 26: 03. linear regression

What is Gradient Descent?

Gradient Descent

𝛼𝑡+1 = 𝛼𝑡 − 𝜌𝜕𝐽

𝜕𝛼 𝛼𝑡

Gradient Ascent

𝛼𝑡+1 = 𝛼𝑡 + 𝜌𝜕𝐽

𝜕𝛼 𝛼𝑡

𝐽 =목적함수

𝜕𝐽

𝜕𝛼 𝛼𝑡: 𝛼𝑡에서의 도함수

𝜕𝐽

𝜕𝛼의 값

Gradient Descent, Gradient Ascent는 전형적인 Greedy algorithm이다.

과거 또는 미래를 고려하지 않고 현재 상황에서 가장 유리한 다음 위치를 찾아

Local optimal point로 끝날 가능성을 가진 알고리즘이다.

Page 27: 03. linear regression

𝐽 Θ = 1

2 𝜃0 + 𝜃1𝑥𝑖 − 𝑦𝑖

2

𝑛

𝑖=1

= 1

2 Θ𝑇𝕩𝑖 − 𝑦𝑖

2

𝑛

𝑖=1

𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1

𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =

11…

𝑥1𝑥2…

1 𝑥𝑛

, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.

𝜃0𝑡+1 = 𝜃0

𝑡 − 𝛼𝜕

𝜕𝜃0𝐽(Θ)𝑡

𝜃1𝑡+1 = 𝜃1

𝑡 − 𝛼𝜕

𝜕𝜃1𝐽(Θ)𝑡

𝜃0의 𝑡번째 값을,

𝐽(Θ)를 𝜃0으로 미분한 식에다가 대입.

그 후에, 이 값을 𝜃0에서 빼 줌.

미분할 때 이용.

Gradient descent를 중지하는

기준이 되는 함수

Page 28: 03. linear regression

𝐽 Θ = 1

2 𝜃0 + 𝜃1𝑥𝑖 − 𝑦𝑖

2

𝑛

𝑖=1

= 1

2 Θ𝑇𝕩𝑖 − 𝑦𝑖

2

𝑛

𝑖=1

𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1

𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =

11…

𝑥1𝑥2…

1 𝑥𝑛

, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.

Gradient of 𝐽(Θ)

𝜕

𝜕𝜃0𝐽 𝜃 = (Θ𝑇𝕩𝑖 − 𝑦𝑖)

𝑛

𝑖=1

1 𝜕

𝜕𝜃1𝐽 𝜃 = (Θ𝑇𝕩𝑖 − 𝑦𝑖)

𝑛

𝑖=1

𝑥𝑖

𝛻𝐽 Θ =𝜕

𝜕𝜃0𝐽 Θ ,𝜕

𝜕𝜃1𝐽 Θ

𝑇

= Θ𝑇𝕩𝑖 − 𝑦𝑖 𝕩𝑖

𝑛

𝑖=1

Page 29: 03. linear regression

𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1

𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =

11…

𝑥1𝑥2…

1 𝑥𝑛

, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.

𝜃0𝑡+1 = 𝜃0

𝑡 − 𝛼 (Θ𝑇𝕩𝑖 − 𝑦𝑖)

𝑛

𝑖=1

1 단, 이 때의 Θ자리에는

𝑡번째에 얻어진 Θ값을 대입해야 한다.

𝜃1𝑡+1 = 𝜃1

𝑡 − 𝛼 Θ𝑇𝕩𝑖 − 𝑦𝑖 𝑥𝑖

𝑛

𝑖=1

Page 30: 03. linear regression

Steepest Descent

Page 31: 03. linear regression

Steepest Descent

장점 : easy to implement, conceptually clean, guaranteed convergence

단점 : often slow converging

Θ𝑡+1 = Θ𝑡 − 𝛼 {(Θ𝑡)𝑇𝕩𝑖 − 𝑦𝑖}𝕩𝑖

𝑛

𝑖=1

Normal Equations

장점 : a single-shot algorithm! Easiest to implement.

단점 : need to compute pseudo-inverse 𝑋𝑇𝑋 −1, expensive, numerical issues

(e.g., matrix is singular..), although there are ways to get around this ...

𝕖 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ

Page 32: 03. linear regression

Multivariate Linear Regression

Page 33: 03. linear regression

𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏

단순 선형 회귀 분석은, input 변수가 1. 다중 선형 회귀 분석은, input 변수가 2개 이상.

Google의 주식 가격

Yahoo의 주식 가격

Microsoft의 주식 가격

Page 34: 03. linear regression

𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏𝟐 + 𝜽𝟐𝒙𝟐

𝟒 + 𝝐

예를 들어, 아래와 같은 식을 선형으로 생각하여 풀 수 있는가?

물론, input 변수가 polynomial(다항식)의 형태이지만, coefficients 𝜃𝑖가 선형(linear)이므로 선형 회귀 분석의 해법으로 풀 수 있다.

𝚯 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ

𝜃0, 𝜃1, … , 𝜃𝑛𝑇

Page 35: 03. linear regression

General Linear Regression

Page 36: 03. linear regression

𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏 중 회귀 분석

일반 회귀 분석 𝒚 = 𝜽𝟎 + 𝜽𝟏𝒈𝟏(𝒙𝟏) + 𝜽𝟐𝒈𝟐(𝒙𝟐) + ⋯+ 𝜽𝒏𝒈𝒏(𝒙𝒏)

𝑔𝑗는 𝑥𝑗 또는

(𝑥−𝜇𝑗)

2𝜎𝑗 또는

1

1+exp(−𝑠𝑗𝑥)등의 함수가 될 수 있다.

이것도 마찬가지로 선형 회귀 풀이 방법으로 문제를 풀 수 있다.

Page 37: 03. linear regression

𝑤𝑇 = (𝑤0, 𝑤1, … , 𝑤𝑛)

𝜙 𝑥𝑖𝑇= 𝜙0 𝑥

𝑖 , 𝜙1 𝑥𝑖 , … , 𝜙𝑛 𝑥

𝑖

Page 38: 03. linear regression

𝑤𝑇 = (𝑤0, 𝑤1, … , 𝑤𝑛)

𝜙 𝑥𝑖𝑇= 𝜙0 𝑥

𝑖 , 𝜙1 𝑥𝑖 , … , 𝜙𝑛 𝑥

𝑖

normal equation

Page 39: 03. linear regression

[ 자료의 분석 ]

① 목적 : 집을 팔기 원함. 알맞은 가격을 찾기 원함.

② 고려할 변수(feature) : 집의 크기(in square feet), 침실의 개수, 집 가격

Page 40: 03. linear regression

(출처 : http://aimotion.blogspot.kr/2011/10/machine-learning-with-python-linear.html)

③ 주의사항 : 집의 크기와 침실의 개수의 차이가 크다. 예를 들어, 집의 크기가 4000 square feet인데,

침실의 개수는 3개이다. 즉, 데이터 상 feature들 간 규모의 차이가 크다. 이럴 경우,

feature의 값을 정규화(normalizing)를 해준다. 그래야, Gradient Descent를 수행할 때,

결과값으로 빠르게 수렴하다.

④ 정규화의 방법

- feature의 mean(평균)을 구한 후, feature내의 모든 data의 값에서 mean을 빼준다.

- data에서 mean을 빼 준 값을, 그 data가 속하는 standard deviation(표준 편차)로 나누어 준다. (scaling)

이해가 안 되면, 우리가 고등학교 때 배웠던 정규분포를 표준정규분포로 바꾸어주는 것을 떠올려보자.

표준정규분포를 사용하는 이유 중 하나는, 서로 다른 두 분포, 즉 비교가 불가능하거나 어려운 두 분포를 쉽게

비교할 수 있게 해주는 것이었다.

𝑍 = 𝑋 − 𝜇

𝜎 If 𝑋~(𝜇, 𝜎) then 𝑍~𝑁(1,0)

Page 41: 03. linear regression

1. http://www.cs.cmu.edu/~epxing/Class/10701/Lecture/lecture5-LiR.pdf

2. http://www.cs.cmu.edu/~10701/lecture/RegNew.pdf

3. 회귀분석 제 3판 (박성현 저)

4. 패턴인식 (오일석 지음)

5. 수리통계학 제 3판 (전명식 지음)

Page 42: 03. linear regression

Laplacian Smoothing

multinomial random variable 𝑧 : 𝑧는 1부터 𝑘까지의 값을 가질 수 있다.

우리는 test set으로 𝑚개의 독립인 관찰 값 𝑧 1 , … , 𝑧 𝑚 을 가지고 있다.

우리는 관찰 값을 통해, 𝒑(𝒛 = 𝒊) 를 추정하고 싶다. (𝑖 = 1, … , 𝑘)

추정 값(MLE)은,

𝑝 𝑧 = 𝑗 = 𝐼{𝑧 𝑖 = 𝑗}𝑚𝑖=1

𝑚

이다. 여기서 𝐼 . 는 지시 함수 이다. 관찰 값 내에서의 빈도수를 사용하여 추정한다.

한 가지 주의 할 것은, 우리가 추정하려는 값은 모집단(population)에서의 모수

𝑝(𝑧 = 𝑖)라는 것이다. 추정하기 위하여 test set(or 표본 집단)을 사용하는 것 뿐이다.

예를 들어, 𝑧(𝑖) ≠ 3 for all 𝑖 = 1, … ,𝑚 이라면, 𝑝 𝑧 = 3 = 0 이 되는 것이다.

이것은, 통계적으로 볼 때, 좋지 않은 생각이다. 단지, 표본 집단에서 보이지

않는 다는 이유로 우리가 추정하고자 하는 모집단의 모수 값을 0으로 한다는 것은

통계적으로 좋지 않은 생각(bad idea)이다. (MLE의 약점)

Page 43: 03. linear regression

이것을 극복하기 위해서는,

① 분자가 0이 되어서는 안 된다.

② 추정 값의 합이 1이 되어야 한다. 𝑝 𝑧 = 𝑗𝑧 =1 (∵ 확률의 합은 1이 되어야 함)

따라서,

𝒑 𝒛 = 𝒋 = 𝑰 𝒛 𝒊 = 𝒋 + 𝟏𝒎𝒊=𝟏

𝒎+ 𝒌

이라고 하자.

①의 성립 : test set 내에 𝑗의 값이 없어도, 해당 추정 값은 0이 되지 않는다.

②의 성립 : 𝑧(𝑖) = 𝑗인 data의 수를 𝑛𝑗라고 하자. 𝑝 𝑧 = 1 = 𝑛1+1

𝑚+𝑘, … , 𝑝 𝑧 = 𝑘 =

𝑛𝑘+1

𝑚+𝑘

이다. 각 추정 값을 다 더하게 되면 1이 나온다.

이것이 바로 Laplacian smoothing이다.

𝑧가 될 수 있는 값이 1부터 𝑘까지 균등하게 나올 수 있다는 가정이 추가되었다고

직관적으로 알 수 있다. 1