17
확률 변수와 분포 R함께하는 기초통계

확률변수와 분포함수

Embed Size (px)

DESCRIPTION

확률변수와 이들의 분포함수에 대해 알아보고 이항분포에 대해 나눕니다.

Citation preview

Page 1: 확률변수와 분포함수

확률 변수와 분포

R과 함께하는 기초통계

Page 2: 확률변수와 분포함수

용어

• 확률 실험(Random Experiment) – 모집단으로부터 표본을 임의로 추출하는 과정 – 대문자 X, Y, Z 등으로 표기 – Ex) 아파트 단지내의 1000세대의 각 가정에 있는 TV수를 조사하기 위해 가정 한곳을 임의로 선정

• 확률 변수(Random Variable) – 확률 실험의 결과 – 이 결과는 실험에 따라 다르게 나타난다. – Ex) 앞선 조사를 X라 하면 X는 0, 1, 2, 3의 값중에 하나를 갖게 된다.

한림대학교 이윤환(http://fb.com/yoonani72)

Page 3: 확률변수와 분포함수

예제 - 두 개의 공정한 동전을 던지는 시행

• 앞면이 나오는 횟수를 X, 즉 확률변수 – 표본공간 : S = {HH, HT, TH, TT} – 확률 변수 X의 출현 가능한 값

• X(HH) = 2 • X(HT) = X(TH) = 1 • X(TT) = 0

– X의 출현 가능한 값들이 나타날 확률

• 𝑃𝑥 0 = 𝑃 𝑋 = 0 = 𝑃 𝑇𝑇 = 14

• 𝑃𝑥 1 = 𝑃 𝑋 = 1 = 𝑃 𝐻𝑇 , 𝑇𝐻 = 12

• 𝑃𝑥 2 = 𝑃 𝑋 = 2 = 𝑃 𝐻𝐻 = 14

한림대학교 이윤환(http://fb.com/yoonani72)

Page 4: 확률변수와 분포함수

예제 - 두 개의 공정한 동전을 던지는 시행

한림대학교 이윤환(http://fb.com/yoonani72)

Ω = 𝐻𝐻,𝐻𝑇,𝑇𝐻,𝑇𝑇 𝐹 = { 𝐻𝐻 , 𝐻𝑇,𝑇𝐻 , 𝑇𝑇 } 𝑃 𝑇𝑇 = 1

4, 𝑃 𝐻𝑇,𝑇𝐻 = 1

2, 𝑃 𝐻𝐻 = 1

4

𝑆 = 𝑅(실수 전체) 𝐵(𝑅) = { 0 , {1}, {2}} 𝑃𝑥 0 = 1

4, 𝑃𝑥 1 = 1

2, 𝑃𝑥 2 = 1

4

확률변수 X

Page 5: 확률변수와 분포함수

이산확률 분포

• 확률변수를 통한 출현 가능한 값이 셀 수 있는 값을 취한다.

• 이산확률변수의 확률 분포 – 확률변수가 취할 수 있는 모든 가능한 값과 그 값들의 확률들을 표현한 것

• 이산확률 분포의 성질(조건) – 확률변수 X의 각 값에 대한 확률 P(X=x)는

0 ≤ 𝑃 𝑋 = 𝑥 ≤ 1 – 모든 확률값의 합은 1

�𝑝 𝑥 = 1

한림대학교 이윤환(http://fb.com/yoonani72)

Page 6: 확률변수와 분포함수

예제

• 표 5.3 각 가정의 TV 수와 확률분포

한림대학교 이윤환(http://fb.com/yoonani72)

보유 TV의 수 (X) P(X=x)

0 0.010

1 0.840

2 0.145

3 0.005

합계 1.000

Page 7: 확률변수와 분포함수

이산확률변수의 평균

• 평균은 확률변수에서 기대값(Expected Value)이라고 한다.

• 이산확률변수 X의 평균은 어떤 실험을 수많이 실행할 때 평균적으로 관찰될 것으로 기대되는 값을 의미하며 𝜇𝑋 또는 𝐸 𝑋 로 표기한다.

• 출현가능한 값과 출현 가능할 확률을 곱한 것을 모두 더한다. – 확률에 평균의 개념이 들어가 있으므로 나누는 과정이 필요없다.

– 𝐸 𝑋 = ∑𝑥𝑝(𝑥)

한림대학교 이윤환(http://fb.com/yoonani72)

Page 8: 확률변수와 분포함수

이산확률변수의 분산

• 확률변수들의 출현가능한 값들이 평균을 중심으로 얼마나 퍼져있는 지를 나타내는 것(𝜎2)

• 계산방법은 앞선 편차 제곱으로 부터 차용 가능하다. – 편차 제곱 : (𝑥𝑖 − 𝐸(𝑋))2 – 이 편차 제곱들이 각각 확률적으로 나타나는 것이므로 이들에 개별 확률값을 곱한다 : 𝑥𝑖 − 𝐸(𝑋) 2𝑝(𝑥)

– 위의 값을 모두 더한다 : ∑ 𝑥𝑖 − 𝐸(𝑋) 2𝑝(𝑥)𝑛𝑖=1

• 간편 계산식 : ∑ 𝑥𝑖2𝑝 𝑥𝑖 −𝑛𝑖=1 𝐸(𝑋)2

한림대학교 이윤환(http://fb.com/yoonani72)

Page 9: 확률변수와 분포함수

R 예제

> x <- c(0, 1, 2, 3) > pr.x <- c(0.010, 0.840, 0.145, 0.005) > e.x <- sum(x*px) > e.x [1] 1.145

> var.x <- sum((x^2) * px ) – e.x^2 > var.x [1] 0.153975

한림대학교 이윤환(http://fb.com/yoonani72)

Page 10: 확률변수와 분포함수

팩토리얼과 조합

• 교재 p.118 ~ p.120 까지 반드시 읽어볼 것!!!

한림대학교 이윤환(http://fb.com/yoonani72)

Page 11: 확률변수와 분포함수

이항분포(Binomial Dist.)

• 베르누이 시행 – 어떤 시행의 결과 성공과 실패로 나타난다. – 성공의 확률 𝑝 (0 < 𝑝 < 1) – 확률 변수 X의 실현값은 성공이면 1, 실패면 0 – Ex) 공정한 동전을 던져 앞면이 나오면 성공

• Bernoulli(p=0.5) = 𝑝𝑥(1 − 𝑝)1−𝑥=0.5𝑥(1 − 0.5)1−𝑥

• iid(Independent & Identically) – 모수(Parameter) : 분포함수의 특징을 결정 짓는 값.

• 앞선 베르누이 시행에서는 확률값 p

– 동일한 모수를 갖는 확률변수의 실험을 독립적으로 실행하는 것

한림대학교 이윤환(http://fb.com/yoonani72)

Page 12: 확률변수와 분포함수

이항분포(Binomial Dist.)

• 앞선 베르누이 시행을 n번 iid로 반복한다고 하자. • 이 시행의 결과는 각 베르누이 시행의 성공의 개수를 구하는 것이 된다.

• 즉, n번 수행하여 x번 성공하는 실험의 확률분포함수를 이항분포라고 한다.

• Ex) 공정한 동전을 두번 던져 앞면이 나오는 횟수 (앞면이 나오면 성공) – n : 2, p = ½

– n번 던져 x번 성공하는 경우의 수 (𝑛𝑥)

– 성공과 실패의 확률(iid) : 0.5𝑥(1 − 0.5)𝑛−𝑥

한림대학교 이윤환(http://fb.com/yoonani72)

Page 13: 확률변수와 분포함수

이항분포(Binomial Dist.)

• 확률 밀도 함수 (Probability Mass Function) – 이항분포를 따르는(시행의 횟수 n, 성공확률 p) 확률변수 X는 다음의 확률밀도함수를 갖는다.

– 𝐵 𝑛,𝑝 = 𝑛𝑥 𝑝𝑥 1 − 𝑝 𝑛−𝑥 , x는 성공의 횟수

• (누적)분포함수 (Probability Function) – 일반적으로 말하는 분포함수는 𝑃(𝑋 ≤ 𝑥) 로 나타낸다. – 즉, 확률변수의 실현값 x 이하의 확률들을 모두 더한값이다.

– 분포함수는 고유하게 정해져 있다.

한림대학교 이윤환(http://fb.com/yoonani72)

Page 14: 확률변수와 분포함수

R에서의분포함수(p.136)

• 이항분포 함수 : xbinom(x, size=n, prob=p) • R분포함수의 첫글자(x)와 기능

한림대학교 이윤환(http://fb.com/yoonani72)

첫 글자 기능

d 확률변수의 출현값에 대한 개별 확률(Density)

p Probability function, 즉 (누적)분포함수

q Quantile(백분위수)

r Random number(난수 발생)

Page 15: 확률변수와 분포함수

예제(p. 137)

• 성공의 확률이 0.6인 어떤 실험을 3번 시행한다고 하자. 즉, B(3, 0.6)

• 이 경우 성공의 횟수 x=0, 1, 2, 3 • 성공의 횟수별 확률 구하기

> x = c(0, 1, 2, 3) > p.x = dbinom(x, size=3, prob=0.6) > p.x [1] 0.064 0.288 0.432 0.216

한림대학교 이윤환(http://fb.com/yoonani72)

Page 16: 확률변수와 분포함수

예제(p. 137)

• 성공의 횟수가 2 이하일 확률 구하기 > pbinom(2, size=3, prob=0.6) [1] 0.784

• (누적)분포 구하기 > cdf.x = pbinom(x, size=3, prob=0.6) > names(cdf.x)=c("0", "1", "2", "3") > cdf.x 0 1 2 3 0.064 0.352 0.784 1.000

한림대학교 이윤환(http://fb.com/yoonani72)

Page 17: 확률변수와 분포함수

예제(p. 137)

• 중앙값 구하기 (백분위수가 50%인 곳) > qbinom(0.5, size=3, prob=0.6) [1] 2

• B(3, 0.6)을 따르는 이항분포로부터 난수 100개 구하기 > smp = rbinom(100, 3, 0.6) > table(smp) smp 0 1 2 3 7 34 43 16

한림대학교 이윤환(http://fb.com/yoonani72)