Upload
jeonghun-yoon
View
35
Download
1
Embed Size (px)
Citation preview
Jeonghun Yoon
지난 시간.....Naive Bayes Classifier
argmax𝑦𝑃 𝑥1, … , 𝑥𝑑 𝑦 𝑃(𝑦) = argmax
𝑦 𝑃 𝑥𝑖 𝑦 𝑃(𝑦)
𝑑
𝑖=1
class 𝑦 의 발생 확률과 test set에서 class 𝑦의 label을 가진 데이터의 특성 벡터의
원소 𝑥𝑖 (문서의 예에서는 단어) 가 나올 확률의 곱
ex) (I, love, you)가 spam인지 아닌지 알기 위해서는,
test set에서 spam이 차지하는 비율과
spam으로 labeling 된 문서에서 I와 love와 you가 발생하는 확률을 모두 곱한 것과,
test set에서 ham이 차지하는 비율과
ham으로 labeling 된 문서에서 I와 love와 you가 발생하는 확률을 모두 곱한 것을,
비교한다.
지난 시간 미비했던 점 들... 1. Laplacian Smoothing (appendix 참고)
2. MLE / MAP
1
Bayes’ Rule
𝑝 𝜃 𝕩 =𝑝 𝕩 𝜃 𝑝(𝜃)
𝑝 𝕩 𝜃 𝑝(𝜃)
posteriori (사후 확률)
likelihood (우도 값)
prior (사전 확률)
사후 확률 : 관찰 값들이 관찰 된 후에 모수(parameter)의 발생 확률을 구한다.
사전 확률 : 관찰 값들이 관찰 되기 전에 모수의 발생 확률을 구한다.
우도 값 : 모수의 값이 주어졌을 때 관찰 값들이 발생할 확률
Maximum Likelihood Estimate
𝕩 = (𝑥1, … , 𝑥𝑛)
𝓛 𝜽 = 𝒑 𝕩 𝜽
우도(likelihood)는 다음과 같이 정의 된다.
변수(parameter) 𝜃가 주어졌을 때, data set 𝕩 = (𝑥1, … , 𝑥𝑛) (관찰 된, observed) 를 얻을 수 있는(obtaining) 확률
𝑝(𝕩|𝜃)
𝑋
𝜃의 함수. 𝜃의 pdf는 아님.
𝕩 = (𝑥1, … , 𝑥𝑛)
Maximum Likelihood Estimate는 다음과 같이 정의 된다.
관찰 된 data set 𝕩 = 𝑥1, … , 𝑥𝑛 을 얻을 수 있는 확률이 가장 큰 𝜃가 MLE이다.
𝑝(𝕩|𝜃1)
𝑋 𝕩 = (𝑥1, … , 𝑥𝑛)
𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱𝜽𝓛 𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱
𝜽𝒑(𝕩|𝜽) ̂
𝑝(𝕩|𝜃2) 𝑝(𝕩|𝜃3)
𝑝(𝕩|𝜃) 𝜃 = 𝜃2 ̂
우리가 likelihood function 𝑝(𝕩|𝜃)와 prior 𝑝(𝜃)를 알 때, Bayes rule에 의하여 posteriori function의 값을 구할 수 있다.
𝒑 𝜽 𝕩 ∝ 𝒑 𝕩 𝜽 𝒑(𝜽)
Maximum A Posteriori Estimate
𝑝 𝜃 𝕩 =𝑝 𝕩 𝜃 𝑝(𝜃)
𝑝 𝕩 𝜃 𝑝(𝜃)
posteriori (사후 확률)
likelihood (우도 값)
prior (사전 확률)
Likelihood 𝑝(𝕩|𝜃)
Prior 𝑝(𝜃)
Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)
Likelihood 𝑝(𝕩|𝜃)
Prior 𝑝(𝜃)
Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)
𝜽 = 𝐚𝐫𝐠𝐦𝐚𝐱𝜽𝒑(𝜽|𝕩)
Likelihood 𝑝(𝕩|𝜃)
Prior 𝑝(𝜃)
Posterior 𝑝 𝜃 𝕩 ∝ 𝑝 𝕩 𝜃 𝑝(𝜃)
Regression
나는 큰 신발회사의 CEO이다. 많은 지점들을 가지고 있다.
그리고 이번에 새로운 지점을 내고 싶다. 어느 지역에 내야 될까?
내가 새로운 지점을 내고 싶어하는 지역들의 예상 수익만 파악할 수 있으면
큰 도움이 될 것인데!
내가 가지고 있는 자료(data)는 각 지점의 수익(profits)과 각 지점이 있는 지역의
인구수(populations)이다.
해결책! Linear Regression!
이것을 통하여, 새로운 지역의 인구수를 알게 될 경우, 그 지역의 예상 수익을 구
할 수 있다.
Example 1)
Example 2)
나는 지금 Pittsburgh로 이사를 왔다 나는 가장 합리적인 가격의 아파트를 얻기 원한다. 그리고 다음의 조건들은 내가 집을 사기 위해 고려하는 것들이다. square-ft(평방미터), 침실의 수, 학교 까지의 거리... 내가 원하는 크기와 침실의 수를 가지고 있는 집의 가격은 과연 얼마일까?
① Given an input 𝑥 we would like to compute an output 𝑦. (내가 원하는 집의 크기와, 방의 개수를 입력했을 때, 집 가격의 예측 값을 계산)
② For example 1) Predict height from age (height = 𝑦, age = 𝑥) 2) Predict Google`s price from Yahoo`s price (Google's price = 𝑦, Yahoo's price = 𝑥)
𝑦 = 𝜃0 + 𝜃1𝑥
즉, 기존의 data들에서
직선(𝑦 = 𝜃0 + 𝜃1𝑥)을 찾아내면,
새로운 값 𝑥𝑛𝑒𝑤가 주어졌을 때,
해당하는 𝑦의 값을 예측할 수
있겠구나!
learning, training
prediction
Input : 집의 크기(𝑥1), 방의 개수(𝑥2), 학교까지의 거리(𝑥3),.....
(𝑥1, 𝑥2, … , 𝑥𝑛) : 특성 벡터 feature vector
Output : 집 값(𝑦)
𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏
training set을 통하여 학습(learning)
Simple Linear Regression
𝑦𝑖 = 𝜃0 + 𝜃1𝑥𝑖 + 𝜀𝑖
𝑖번째 관찰점 𝑦𝑖 , 𝑥𝑖 가 주어졌을 때 단순 회귀 모형은 다음과 같다.
𝜖3
𝜖𝑖 : 𝑖번째 관찰점에서 우리가 구하고자 하는 회귀직선과 실제 관찰된 𝑦𝑖의 차이 (error)
우리는 오류의 합을 가장 작게 만드는 직선을 찾고 싶다. 즉 그렇게 만드는 𝜽𝟎와 𝜽𝟏을 추정하고 싶다 ! How!! 최소 제곱 법! (Least Squares Method)
min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2
𝑖
= 𝑚𝑖𝑛 𝜖𝑖2
𝑖
𝑦 = 𝜃0 + 𝜃1𝑥
실제 관측 값 회귀 직선의 값(이상적인 값)
종속 변수 설명 변수, 독립 변수
min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2
𝑖
= min 𝜖𝑖2
𝑖
실제 관측 값 회귀 직선의 값(이상적인 값)
위의 식을 최대한 만족 시키는 𝜃0, 𝜃1을 추정하는 방법은 무엇일까?
(이러한 𝜃1, 𝜃2를 𝜃1, 𝜃2 라고 하자.)
- Normal Equation
- Steepest Gradient Descent
ˆ ˆ
What is normal equation?
극대 값, 극소 값을 구할 때, 주어진 식을 미분한 후에, 미분한 식을 0으로 만드는 값을 찾는다.
min 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖2
𝑖
먼저, 𝜃0에 대하여 미분하자. − 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖 = 0
𝑖
𝜕
𝜕𝜃0 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖
2
𝑖
=
다음으로, 𝜃1에 대하여 미분하자. − 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖 𝑥𝑖 = 0
𝑖
𝜕
𝜕𝜃1 𝑦𝑖 − 𝜃0 + 𝜃1𝑥𝑖
2
𝑖
=
위 의 두 식을 0으로 만족시키는 𝜃0, 𝜃1를 찾으면 된다. 이처럼 2개의 미지수에 대하여,
2개의 방정식(system)이 있을 때, 우리는 이 system을 normal equation(정규방정식)이라 부른다.
The normal equation form
𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1
𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =
11…
𝑥1𝑥2…
1 𝑥𝑛
, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.
𝕪 = 𝑋Θ + 𝕖
𝑦1 = 𝜃0 + 𝜃1𝑥1 + 𝜖1
𝑦2 = 𝜃0 + 𝜃1𝑥2 + 𝜖2
.......
𝑦𝑛−1 = 𝜃0 + 𝜃1𝑥𝑛−1 + 𝜖𝑛−1
𝑦𝑛 = 𝜃0 + 𝜃1𝑥𝑛 + 𝜖𝑛
𝑛개의 관측 값 (𝑥𝑖 , 𝑦𝑖)은 아래와 같은 회귀 모형을 가진다고 가정하자.
𝑦1𝑦2𝑦3…𝑦𝑛
=
111…
𝑥1𝑥2𝑥3…
1 𝑥𝑛
𝜃0𝜃1
+
𝜖1𝜖2𝜖3…𝜖𝑛
𝜖𝑗2
𝑛
𝑗=1
= 𝕖𝑇𝕖 = 𝕪 − 𝑋Θ 𝑇(𝕪 − 𝑋Θ)
= 𝕪𝑇𝕪 − Θ𝑇𝑋𝑇𝕪 − 𝕪𝑇𝑋Θ + Θ𝑇𝑋𝑇𝑋Θ = 𝕪𝑇𝕪 − 2Θ𝑇𝑋𝑇𝕪 + Θ𝑇𝑋𝑇𝑋Θ
1 by 1 행렬이므로 전치행렬의 값이 같다!
𝜕(𝕖𝑇𝕖)
𝜕Θ= 𝟎
𝜕(𝕖𝑇𝕖)
𝜕Θ= −2𝑋𝑇𝕪 + 2𝑋𝑇𝑋Θ = 𝟎
𝑋𝑇𝑋𝚯 = 𝑋𝑇𝕪 𝚯 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ
정규방정식
𝕪 = 𝑋Θ + 𝕖 𝕖 = 𝕪 − 𝑋Θ
Minimize 𝜖𝑗2
𝑛
𝑗=1
What is Gradient Descent?
machine learning에서는 매개 변수(parameter, 선형회귀에서는 𝜃0, 𝜃1)가 수십~
수백 차원의 벡터인 경우가 대부분이다. 또한 목적 함수(선형회귀에서는 Σ𝜖𝑖2)가
모든 구간에서 미분 가능하다는 보장이 항상 있는 것도 아니다.
따라서 한 번의 수식 전개로 해를 구할 수 없는 상황이 적지 않게 있다.
이런 경우에는 초기 해에서 시작하여 해를 반복적으로 개선해 나가는 수치적
방법을 사용한다. (미분이 사용 됨)
What is Gradient Descent?
초기해 𝛼0 설정 𝑡 = 0
𝛼𝑡가 만족스럽나?
𝛼𝑡+1 = 𝑈 𝛼𝑡 𝑡 = 𝑡 + 1
𝛼 = 𝛼𝑡 ˆ No
Yes
What is Gradient Descent?
Gradient Descent
현재 위치에서 경사가 가장 급하게 하강하는 방향을 찾고,
그 방향으로 약간 이동하여 새로운 위치를 잡는다.
이러한 과정을 반복함으로써 가장 낮은 지점(즉 최저 점)을 찾아 간다.
Gradient Ascent
현재 위치에서 경사가 가장 급하게 상승하는 방향을 찾고,
그 방향으로 약간 이동하여 새로운 위치를 잡는다.
이러한 과정을 반복함으로써 가장 높은 지점(즉 최대 점)을 찾아 간다.
What is Gradient Descent?
Gradient Descent
𝛼𝑡+1 = 𝛼𝑡 − 𝜌𝜕𝐽
𝜕𝛼 𝛼𝑡
𝐽 =목적함수
𝜕𝐽
𝜕𝛼 𝛼𝑡: 𝛼𝑡에서의 도함수
𝜕𝐽
𝜕𝛼의 값
𝛼𝑡 𝛼𝑡+1
−𝝏𝑱
𝝏𝜶 𝜶𝒕
𝝏𝑱
𝝏𝜶 𝜶𝒕
𝛼𝑡에서의 미분값은 음수이다.
그래서 𝜕J
𝜕α αt 를 더하게 되면
왼쪽으로 이동하게 된다.
그러면 목적함수의 값이 증가하는
방향으로 이동하게 된다.
따라서 𝜕J
𝜕α αt를 빼준다.
그리고 적당한 𝜌를 곱해주어서 조금만
이동하게 한다.
−𝝆𝝏𝑱
𝝏𝜶 𝜶𝒕
What is Gradient Descent?
Gradient Descent
𝛼𝑡+1 = 𝛼𝑡 − 𝜌𝜕𝐽
𝜕𝛼 𝛼𝑡
Gradient Ascent
𝛼𝑡+1 = 𝛼𝑡 + 𝜌𝜕𝐽
𝜕𝛼 𝛼𝑡
𝐽 =목적함수
𝜕𝐽
𝜕𝛼 𝛼𝑡: 𝛼𝑡에서의 도함수
𝜕𝐽
𝜕𝛼의 값
Gradient Descent, Gradient Ascent는 전형적인 Greedy algorithm이다.
과거 또는 미래를 고려하지 않고 현재 상황에서 가장 유리한 다음 위치를 찾아
Local optimal point로 끝날 가능성을 가진 알고리즘이다.
𝐽 Θ = 1
2 𝜃0 + 𝜃1𝑥𝑖 − 𝑦𝑖
2
𝑛
𝑖=1
= 1
2 Θ𝑇𝕩𝑖 − 𝑦𝑖
2
𝑛
𝑖=1
𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1
𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =
11…
𝑥1𝑥2…
1 𝑥𝑛
, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.
𝜃0𝑡+1 = 𝜃0
𝑡 − 𝛼𝜕
𝜕𝜃0𝐽(Θ)𝑡
𝜃1𝑡+1 = 𝜃1
𝑡 − 𝛼𝜕
𝜕𝜃1𝐽(Θ)𝑡
𝜃0의 𝑡번째 값을,
𝐽(Θ)를 𝜃0으로 미분한 식에다가 대입.
그 후에, 이 값을 𝜃0에서 빼 줌.
미분할 때 이용.
Gradient descent를 중지하는
기준이 되는 함수
𝐽 Θ = 1
2 𝜃0 + 𝜃1𝑥𝑖 − 𝑦𝑖
2
𝑛
𝑖=1
= 1
2 Θ𝑇𝕩𝑖 − 𝑦𝑖
2
𝑛
𝑖=1
𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1
𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =
11…
𝑥1𝑥2…
1 𝑥𝑛
, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.
Gradient of 𝐽(Θ)
𝜕
𝜕𝜃0𝐽 𝜃 = (Θ𝑇𝕩𝑖 − 𝑦𝑖)
𝑛
𝑖=1
1 𝜕
𝜕𝜃1𝐽 𝜃 = (Θ𝑇𝕩𝑖 − 𝑦𝑖)
𝑛
𝑖=1
𝑥𝑖
𝛻𝐽 Θ =𝜕
𝜕𝜃0𝐽 Θ ,𝜕
𝜕𝜃1𝐽 Θ
𝑇
= Θ𝑇𝕩𝑖 − 𝑦𝑖 𝕩𝑖
𝑛
𝑖=1
𝕩𝑖 = 1, 𝑥𝑖𝑇, Θ = 𝜃0, 𝜃1
𝑇, 𝕪 = 𝑦1, 𝑦2, … , 𝑦𝑛𝑇 , 𝑋 =
11…
𝑥1𝑥2…
1 𝑥𝑛
, 𝕖 = (𝜖1, … , 𝜖𝑛) 라고 하자.
𝜃0𝑡+1 = 𝜃0
𝑡 − 𝛼 (Θ𝑇𝕩𝑖 − 𝑦𝑖)
𝑛
𝑖=1
1 단, 이 때의 Θ자리에는
𝑡번째에 얻어진 Θ값을 대입해야 한다.
𝜃1𝑡+1 = 𝜃1
𝑡 − 𝛼 Θ𝑇𝕩𝑖 − 𝑦𝑖 𝑥𝑖
𝑛
𝑖=1
Steepest Descent
Steepest Descent
장점 : easy to implement, conceptually clean, guaranteed convergence
단점 : often slow converging
Θ𝑡+1 = Θ𝑡 − 𝛼 {(Θ𝑡)𝑇𝕩𝑖 − 𝑦𝑖}𝕩𝑖
𝑛
𝑖=1
Normal Equations
장점 : a single-shot algorithm! Easiest to implement.
단점 : need to compute pseudo-inverse 𝑋𝑇𝑋 −1, expensive, numerical issues
(e.g., matrix is singular..), although there are ways to get around this ...
𝕖 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ
Multivariate Linear Regression
𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏
단순 선형 회귀 분석은, input 변수가 1. 다중 선형 회귀 분석은, input 변수가 2개 이상.
Google의 주식 가격
Yahoo의 주식 가격
Microsoft의 주식 가격
𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏𝟐 + 𝜽𝟐𝒙𝟐
𝟒 + 𝝐
예를 들어, 아래와 같은 식을 선형으로 생각하여 풀 수 있는가?
물론, input 변수가 polynomial(다항식)의 형태이지만, coefficients 𝜃𝑖가 선형(linear)이므로 선형 회귀 분석의 해법으로 풀 수 있다.
𝚯 = 𝑋𝑇𝑋 −1𝑋𝑇𝕪 ˆ
𝜃0, 𝜃1, … , 𝜃𝑛𝑇
General Linear Regression
𝒚 = 𝜽𝟎 + 𝜽𝟏𝒙𝟏 + 𝜽𝟐𝒙𝟐 +⋯+ 𝜽𝒏𝒙𝒏 중 회귀 분석
일반 회귀 분석 𝒚 = 𝜽𝟎 + 𝜽𝟏𝒈𝟏(𝒙𝟏) + 𝜽𝟐𝒈𝟐(𝒙𝟐) + ⋯+ 𝜽𝒏𝒈𝒏(𝒙𝒏)
𝑔𝑗는 𝑥𝑗 또는
(𝑥−𝜇𝑗)
2𝜎𝑗 또는
1
1+exp(−𝑠𝑗𝑥)등의 함수가 될 수 있다.
이것도 마찬가지로 선형 회귀 풀이 방법으로 문제를 풀 수 있다.
𝑤𝑇 = (𝑤0, 𝑤1, … , 𝑤𝑛)
𝜙 𝑥𝑖𝑇= 𝜙0 𝑥
𝑖 , 𝜙1 𝑥𝑖 , … , 𝜙𝑛 𝑥
𝑖
𝑤𝑇 = (𝑤0, 𝑤1, … , 𝑤𝑛)
𝜙 𝑥𝑖𝑇= 𝜙0 𝑥
𝑖 , 𝜙1 𝑥𝑖 , … , 𝜙𝑛 𝑥
𝑖
normal equation
[ 자료의 분석 ]
① 목적 : 집을 팔기 원함. 알맞은 가격을 찾기 원함.
② 고려할 변수(feature) : 집의 크기(in square feet), 침실의 개수, 집 가격
(출처 : http://aimotion.blogspot.kr/2011/10/machine-learning-with-python-linear.html)
③ 주의사항 : 집의 크기와 침실의 개수의 차이가 크다. 예를 들어, 집의 크기가 4000 square feet인데,
침실의 개수는 3개이다. 즉, 데이터 상 feature들 간 규모의 차이가 크다. 이럴 경우,
feature의 값을 정규화(normalizing)를 해준다. 그래야, Gradient Descent를 수행할 때,
결과값으로 빠르게 수렴하다.
④ 정규화의 방법
- feature의 mean(평균)을 구한 후, feature내의 모든 data의 값에서 mean을 빼준다.
- data에서 mean을 빼 준 값을, 그 data가 속하는 standard deviation(표준 편차)로 나누어 준다. (scaling)
이해가 안 되면, 우리가 고등학교 때 배웠던 정규분포를 표준정규분포로 바꾸어주는 것을 떠올려보자.
표준정규분포를 사용하는 이유 중 하나는, 서로 다른 두 분포, 즉 비교가 불가능하거나 어려운 두 분포를 쉽게
비교할 수 있게 해주는 것이었다.
𝑍 = 𝑋 − 𝜇
𝜎 If 𝑋~(𝜇, 𝜎) then 𝑍~𝑁(1,0)
1. http://www.cs.cmu.edu/~epxing/Class/10701/Lecture/lecture5-LiR.pdf
2. http://www.cs.cmu.edu/~10701/lecture/RegNew.pdf
3. 회귀분석 제 3판 (박성현 저)
4. 패턴인식 (오일석 지음)
5. 수리통계학 제 3판 (전명식 지음)
Laplacian Smoothing
multinomial random variable 𝑧 : 𝑧는 1부터 𝑘까지의 값을 가질 수 있다.
우리는 test set으로 𝑚개의 독립인 관찰 값 𝑧 1 , … , 𝑧 𝑚 을 가지고 있다.
우리는 관찰 값을 통해, 𝒑(𝒛 = 𝒊) 를 추정하고 싶다. (𝑖 = 1, … , 𝑘)
추정 값(MLE)은,
𝑝 𝑧 = 𝑗 = 𝐼{𝑧 𝑖 = 𝑗}𝑚𝑖=1
𝑚
이다. 여기서 𝐼 . 는 지시 함수 이다. 관찰 값 내에서의 빈도수를 사용하여 추정한다.
한 가지 주의 할 것은, 우리가 추정하려는 값은 모집단(population)에서의 모수
𝑝(𝑧 = 𝑖)라는 것이다. 추정하기 위하여 test set(or 표본 집단)을 사용하는 것 뿐이다.
예를 들어, 𝑧(𝑖) ≠ 3 for all 𝑖 = 1, … ,𝑚 이라면, 𝑝 𝑧 = 3 = 0 이 되는 것이다.
이것은, 통계적으로 볼 때, 좋지 않은 생각이다. 단지, 표본 집단에서 보이지
않는 다는 이유로 우리가 추정하고자 하는 모집단의 모수 값을 0으로 한다는 것은
통계적으로 좋지 않은 생각(bad idea)이다. (MLE의 약점)
이것을 극복하기 위해서는,
① 분자가 0이 되어서는 안 된다.
② 추정 값의 합이 1이 되어야 한다. 𝑝 𝑧 = 𝑗𝑧 =1 (∵ 확률의 합은 1이 되어야 함)
따라서,
𝒑 𝒛 = 𝒋 = 𝑰 𝒛 𝒊 = 𝒋 + 𝟏𝒎𝒊=𝟏
𝒎+ 𝒌
이라고 하자.
①의 성립 : test set 내에 𝑗의 값이 없어도, 해당 추정 값은 0이 되지 않는다.
②의 성립 : 𝑧(𝑖) = 𝑗인 data의 수를 𝑛𝑗라고 하자. 𝑝 𝑧 = 1 = 𝑛1+1
𝑚+𝑘, … , 𝑝 𝑧 = 𝑘 =
𝑛𝑘+1
𝑚+𝑘
이다. 각 추정 값을 다 더하게 되면 1이 나온다.
이것이 바로 Laplacian smoothing이다.
𝑧가 될 수 있는 값이 1부터 𝑘까지 균등하게 나올 수 있다는 가정이 추가되었다고
직관적으로 알 수 있다. 1