12
장 정규성 검정과 정규화 변환 22 시각적 방법 22.1 플롯과 정규확률그림 22.1.1 Q-Q 플롯 분위수 분위수 플롯 은 하나의 자료셋이 특정 분포 정규분 Q-Q ( - , Quantile-Quantile plot) ( 포나 와이블분포 등 를 따르는지 또는 두 개의 자료셋이 같은 모집단 분포로부터 나왔는지를 ) 판단하는 시각적 분석 방법이다. 플롯은 자료의 분위수와 특정 이론적 분포의 분위수를 구하여 산점도로 나타내거나 Q-Q ( ) , 개의 자료셋으로부터 각각 분위수를 구하여 산점도로 나타낸 그림이다 따라서 플롯에서 . Q-Q 점들이 도 기울기의 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가 45 , 같다고 해석할 수 있다. 플롯의 특별한 경우로 정규 플롯 또는 정규확률그림 Q-Q Q-Q (normal Q-Q plot) (normal 은 데이터가 정규분포를 따르는지에 대한 그림으로 에서는 다음의 함수를 probability plot) ,R 이용한다. 한 개의 자료셋 qqnorm(y, ...) # qqline(y, ...) 두 개의 자료셋 qqplot(x, y, ...) # 함수 적용 예 난수 이용 > ## qqnorm() : > y <- rt(200, df=5) > par(mfrow=c(1,2)) > qqnorm(y); qqline(y, col=2) > qqplot(y, rt(300, df=5))

22장 정규성 검정과 정규화 변환 22.1.1 Q-Q 플롯과 정규확률그림 - …contents.kocw.net/KOCW/document/2016/chungbuk/najonghwa/... · 2016. 9. 9. · Jarque-Bera

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 장 정규성 검정과 정규화 변환22

    시각적 방법22.1

    플롯과 정규확률그림22.1.1 Q-Q

    플롯 분위수 분위수 플롯 은 하나의 자료셋이 특정 분포 정규분Q-Q ( - , Quantile-Quantile plot) (포나 와이블분포 등 를 따르는지 또는 두 개의 자료셋이 같은 모집단 분포로부터 나왔는지를)판단하는 시각적 분석 방법이다.

    플롯은 자료의 분위수와 특정 이론적 분포의 분위수를 구하여 산점도로 나타내거나 두Q-Q ( ) ,개의 자료셋으로부터 각각 분위수를 구하여 산점도로 나타낸 그림이다 따라서 플롯에서. Q-Q점들이 도 기울기의 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가45 ,같다고 해석할 수 있다.

    플롯의 특별한 경우로 정규 플롯 또는 정규확률그림Q-Q Q-Q (normal Q-Q plot) (normal은 데이터가 정규분포를 따르는지에 대한 그림으로 에서는 다음의 함수를probability plot) , R

    이용한다.

    ⋅ 한 개의 자료셋qqnorm(y, ...) #⋅qqline(y, ...)⋅ 두 개의 자료셋qqplot(x, y, ...) #

    함수 적용 예 난수 이용> ## qqnorm() :> y par(mfrow=c(1,2))> qqnorm(y); qqline(y, col=2)> qqplot(y, rt(300, df=5))

  • 작성 원리22.1.2

    플롯의 작성 원리(a) Q-Q

    개의 자료가 균일분포 을 따른다면 크기순으로 배열된 자료,( ⋯ 가 다음의) 개 구간

    에 순서대로 한 개씩 포함되는 것이 이상적일 것이다 즉 자료가 균일분포를 따른다면 자료. ,는 번째 구간의 중간값 인(middle points)

    을 가질 것으로 기대할 수 있다 플롯은 자료의 분위수 자료값에 해당 를. Q-Q ( ) 로 이론적 분,포로부터의 기댓값을 로 하는

    을 산점도로 나타낸 것이다 직선. 상에 점들이 놓이게 되면 균일분포를 잘 따른다고,할 수 있다.

    자료가 균일분포를 따르는지에 대한 플롯은 경험분포함수와 매우 유사하다 경험분포함Q-Q .수는 를 계단함수의 형태로 나타낸 것으로 플롯과는 두 축이 바뀐 차이가 있, Q-Q다.

    아래의 그림은 균일분포로부터 추출된 난수 개의 자료에 대한 이론적 분포함수와 경험적분포5함수를 나타낸다 또한 자료에 대한 이론적 분위수를 구하는 그림을 나타낸다. .

  • (a) (b) (c)

    그림 균일분포의 난수 개에 대한 이론적 분포함수 경험적 분포함수 개 점[ 22.1] 5 (a) , (b) , (c) 5에 대한 기댓값

    그림 균일분포로 부터의 난수 개에 대한 플롯 왼쪽 그림 과 난수 개에 대한[ 22.2] 5 Q-Q ( ) 100플롯 오른쪽 그림Q-Q ( )

    정규확률그림의 작성원리(b)

    만약 주어진 자료(⋯ 가 모수) ( 가 미지인 정규분포를 따르는지는 다음의 두 방법)을 사용한다.

    )ⅰ 의 표준화된 자료 를 이용하여

    를 산점도로 나타내고 직선, 를 기준선 으로 사용하거나(reference line)

    원자료)ⅱ 를 이용하여

    를 산점도로 나타내고 직선,

  • 를 기준선으로 시용한다 여기서. , 과 는 와 에 대한 추정값이다.

    아래의 그림은 표준정규분포로부터 추출된 난수 개의 자료에 대한 이론적 분포함수와 경험적5분위수 산출 과정을 보여준다.

    (a) (b) (c)

    그림 표준정규분포의 난수 개에 대한 이론적 분포함수 경험적 분포함수[ 22.3] 5 (a) , (b) , (c) 5개점에 대한 기댓값

    그림 표준정규분포로 부터의 난수 개 개 개에 대한 플롯[ 22.4] 5 , 100 , 1000 Q-Q

  • 사피로 윌크 검정22.2 -

    사피로 윌크 검정은 자료가 정규분포로부터 나왔는지에 대한 강력한 검정이다- (Shapiro-Wilk)특히 소표본의 경우 자료로부터 구해진 사피로 윌크 검정통계량의 값은 그 값이 작을수록( ). - ,정규분포로부터 벗어난 정도가 크다고 할 수 있는데 정규확률그림에서의 상관계수에 대한 근,사적 측도값으로 생각될 수 있으며 이는 매우 흥미로운 사실로 생각된다.

    ⋅shapiro.test()

    함수의 적용 예 난수 이용> ## shapiro.test() :

    > set.seed(1000)

    > x.norm shapiro.test(x.norm)

    Shapiro-Wilk normality test

    data: x.norm

    W = 0.99158, p-value = 0.7902

    ------------------------------

    해석 유의수준 에서 데이터가 정규분포를 따른다고 할 수 있다( ) 5% .

  • 기타 정규성 검정22.3*

    데이터셋이 정규성 을 만족하는지에 대한 검정은 매우 다양하다 앞서 소개한 피어(normality) .

    슨 카이제곱 검정과 콜모고로프 스미르노프 검정 이외에도 많은 검정법이 있다- .

    콜모고로프 스미르노프 검정-▶

    ⋅ ks.test()

    피어슨 카이제곱 검정▶

    ⋅ chisq.test{stats}

    ⋅ pearson.test{nortest}

    검정은 경제시계열 자료의 정규성 검정에 많이 사용된다 이 방법은 왜도Jarque-Bera .▶

    와 첨도 에 기초한 검정법으로 에서는 다음 함수를 이용한다(skewness) (kurtosis) , R .

    ⋅ jarque.bera.test{tseries}

    패키지 에서는 정규성 검정을 수행하는 다양한 함수를 제공한다R {nortest} .

    검정은 콜모고로프 스미르노프 검정의 변형으로 기각치의 계산Anderson-Darling - (K-S) ,▶

    에 특정 분포를 이용한다 정규 로그 정규 지수 와이블 극단치 형 로지스틱 분포에 대한. , - , , , ,Ⅰ

    검정을 제공한다.

    ⋅ad.test{nortest}

    검정은 경험분포함수와 이론적 분포 간의 면적을 검정통계량Cramer-Von Mises (▶ 으)

    로 사용하는 방법이다

    ⋅cvm.test{nortest}

    검정은 콜모고로프 스미르노프 검정의 변형으로 이 검정에서 평균과 분산을 모Lillifors - ,▶

    르는 경우 자료로부터 추정된 값을 사용하여 검정을 수행한다.

    ⋅ lillie.test{nortest}

    이 외에도 검정과 피어슨 카이제곱 검정을 제공한다Shapiro-Francia .▶

    ⋅sf.test{nortest}

    ⋅pearson.test{nortest}

  • 정규화 변환 박스 콕스 변환22.4* : -

    박스 콕스 변환 은 분산안정화 및 정규화를 위한 변환을 수행한다- (Box-Cox transformation) .이 변환은 원자료( 에 대해 다음의 변환을 수행한다) .

    log

    위 변환에서 값은 원자료( 로부터 추정되며 변환된 자료) , ( 는 정규분포에 가까운 형태를)취하게 된다 이 변환은 멱 변환 으로도 알려져 있다. (power transformation) .

    에서 박스 콕스 변환은 다음 함수를 이용한다R - .

    ⋅boxcox{MASS}⋅box.cox{car}⋅box.cox.power{car}

    예제 박스 콕스 정규화 변환[ 1] -

    지수분포로부터 난수 발생> x par(mfrow=c(1,2))> hist(x)

    정규확률그림> qqnorm(x) #> par(mfrow=c(1,1))

    > boxcox(x~1) 로그 가능도 프로파일# -

  • 박스 콕스 변환의 람다 추정> p y par(mfrow=c(1,2))> hist(y)

    변환된 자료의 정규확률그림> qqnorm(y) #

    -------------------------------------------------------------해석 치우침이 강한 원 자료가 박스 콕스 변환 이후 정규분포에 가까운 형태로 바뀌었음을( ) -알 수 있다.

    예제 선형모형에서의 박스 콕스 변환[ 2] -

    선형모형에서의 중요한 가정 가운데 하나는 오차항에 대한 정규성 가정이다 이 가정은 예측.변수가 주어질 때 반응변수에 대한 정규성 가정과 같다 여기서는 선형모형의 적합 결과 잔, .차의 분포가 정규성을 벗어날 경우 잔차가 정규성을 만족하도록 하는 반응변수의 변환을 찾,는다.

  • > library(faraway)자료는 지역의 오존과 기상과의 관계 자료임> data(ozone) # ozone LA

    > head(ozone)O3 vh wind humidity temp ibh dpg ibt vis doy

    1 3 5710 4 28 40 2693 -25 87 250 332 5 5700 3 37 45 590 -24 128 100 343 5 5760 3 51 54 1450 25 139 60 354 6 5720 4 69 35 1568 15 121 60 365 4 5790 6 19 45 2631 -33 123 100 376 4 5790 3 25 55 554 -28 182 250 38

    모형 적합> md summary(md)Coefficients:

    Estimate Std. Error t value Pr(>|t|)(Intercept) -1.049e+01 1.616e+00 -6.492 3.16e-10 ***temp 3.296e-01 2.109e-02 15.626 < 2e-16 ***humidity 7.738e-02 1.339e-02 5.777 1.77e-08 ***ibh -1.004e-03 1.639e-04 -6.130 2.54e-09 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 4.524 on 326 degrees of freedomMultiple R-squared: 0.684, Adjusted R-squared: 0.6811F-statistic: 235.2 on 3 and 326 DF, p-value: < 2.2e-16

    오차에 대한 가정 검토> ##적합값에 대한 잔차 그림> plot(md, which=1) #

    위 그림에서 잔차의 분산이 일정하지 않음을 알 수 있다 따라서 반응변수에 대해 박스 콕스. -변환을 적용한다.

  • 박스 콕스의 멱 변환> ## -> library(MASS)> bc ## 에 대한 보다 자세한 정보를 얻기 위해 범위를 지정> bc ## 값> which.max(bc$y)[1] 35> (lambda ## ((O3^lambda)> md_best summary(md_best)Coefficients:

    Estimate Std. Error t value Pr(>|t|)

  • (Intercept) 8.779e-01 7.176e-02 12.233 < 2e-16 ***temp 1.521e-02 9.365e-04 16.242 < 2e-16 ***humidity 3.479e-03 5.946e-04 5.850 1.19e-08 ***ibh -5.610e-05 7.274e-06 -7.711 1.52e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.2009 on 326 degrees of freedomMultiple R-squared: 0.7161, Adjusted R-squared: 0.7135F-statistic: 274.1 on 3 and 326 DF, p-value: < 2.2e-16

    > plot(md_best, which=1)

    변환된 반응변수에 대한 잔차 그림은 일정한 분산을 가짐을 알 수 있다 이에 더해 새로운. ,모형의 성능이 더 우수함을 알 수 있다 다중상관계수( : 0.7161 vs 0.684).

  • 장 연습문제22

    자료에서 빛의 속도 가 정규분포를 따르는지를 알아보고자 한다1. morley (Speed) .

    정규확률그림을 그리고 이를 해석하여라(a) , .

    사피로 윌크 검정을 수행하여라(b) - .

    자료에 대해 물음에 답하여라2. trees .

    체적 변수가 정규분포를 따르는지를 검정하여라(a) (Volume) .

    박스 콕스 변환을 통해 정규화 변환을 실시하여라 그 결과를 정규확률그림으로 비교하여(b) - .

    라.

    변환된 자료에 대해 정규성 검정을 실시하여라(c) .

    자료에서 연비 를 마력 과 무게 변수로 모형화하고자 한다3. mtcars (mpg) (hp) (wt) .

    다중 선형모형을 적합하고 잔차 분석을 실시하여라(a) .

    잔차가 정규분포를 따르는가(b) ?

    잔차가 정규분포를 따르도록 연비 변수에 대한 적절한 변환을 실시하여라(c) (mpg) .

    변환된 변수에 대해 다중 선형모형을 적합하고 잔차에 대한 정규성 검토를 실시하여라(d) , .