CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규

Exploratory Data Analysis Chapter 2. Stem and Leaf

Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 10

2.2. stem-leaf plot 그리기 (hand calculation)

다음은 벤처 기업 CEO 30 명의 나이와 연봉(단위: 백만)을 조사한 자료이다. [강의 노트: CEO.TXT]

나이 연봉

자료 정렬 후 그린 stem-leaf plot

[그림 2.1]

자료 정렬 없이 그린 stem-leaf plot

[그림 2.2]

자료를 크기 순으로 정리한다

자료의 수가 많을 때는 자료 정렬을 수작업하기 어려움으로 이 단계는 무시해도 되지만 자료를 크기

순으로 정렬해 놓으면 plot 을 그리기 편리하다.



자료를 살펴 줄기와 잎을 결정한다

CEO 연봉 자료를 살펴보면 100 단위를 줄기로 하고 10 단위 이하를 잎으로 하여 plot 을 그리면 될

것이라는 것을 알 수 있다.

한 열에 줄기(stem)를 먼저 그린다.

위에서 100 단위 이상을 줄기로 하기로 결정하였고 자료의 최소값이 58, 최대값이 1103 이므로 0 부터

11 까지 줄기를 한 열에 크기 순으로 적는다.

줄기(stem) 옆에 잎을 그린다.

잎을 그리는 방법은 간단하다. 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다. CEO 연봉 자료는

잎이 두 자리이지만 앞에 것 하나만 적으면 된다. 굳이 반올림하는 수고를 할 필요는 없다. 줄기-잎

그림의 목적은 자료의 분포 형태와 이상치를 아는 것이므로…



2.3. 통계 소프트웨어 사용하여 stem-leaf 그리기

강의 노트에 올려져 있는 CEO.txt 자료를 down 받아 D:\temp\CEO.txt 에 저장되어 있다고 하자. 아스키

파일(텍스트 파일) 자료를 SAS data 로 만드는 방법은 여러 가지가 있으나 INFILE 문을 사용하여

불러들이는 것이 편리하다.

2.3.1. 텍스트 파일 SAS data 만들기

DATA CEO; INFILE 'D:\TEMP\CEO.TXT'; INPUT AGE SALARY; RUN;

2.3.2. 아스키 자료è엑셀 파일 만들기

엑셀을 시작한 후 를 선택한 후 열기 화면(아래)

나타나면 파일 형식을 “텍스트 파일”로 선택하고 변환할 파일(CEO.txt)을 지정한다.

[선택 후 다음을 누른다]



[화살표에 의해 읽어 들일 변수 측정치들이 적절히 나누어 누른다]

[오류 없이 변환 되었다면 엑셀 파일로 저장하면 된다. 여기서 주의해야

할 것은 반드시 척 행에 변수명이나 Label을 사용해야 한다는 것이다. 이유는 1] SAS는 첫 행을 변수

명이나 변수 레이블로 사용 2)첫 행이 영어로 되어 있으면 변수명으로 한글일 경우는 label로 이용되

므로 변수 정보를 알 수 있어 편리하다. CEO.xls]

2.3.3. 엑셀 파일 è SAS data 만들기

파일(F) 메뉴에서 데이터 가져오기 메뉴를 선택한다.



파일 향식 선택 마법사 창이 나타나면 엑셀 파일 형태를 선택한다.

파일 선택 마법사 화면이 나타나면 불러올 파일을 선택하고 아무 옵션도 선택하지 말고 바로 Next>

선택한다.

SAS data 이름(CEO0 로 하였다)을 Member 에 입력하고 아무 옵션 선택 없이 Finish 를 선택한다.

성공적으로 SAS data 파일이 만들어지면 LOG 윈도우에 다음 설명이 출력된다.

파일 선택 후 바로 Next> 누른다.

SAS data 이름(CEO0) 입력 후 바로 Finish 누른다.



PROC PRINT 를 이용하여 CEO0 를 출력해 보라. 변수명은 차례로 _COL0, _COL!, _COL2 … 식으로

자동 설정되어 있음을 알 수 있다. 만약 엑셀 파일의 첫 행에 변수명을 적어 주면(영어이고 공백 없음)

그 변수명대로 지정한다.



2.3.4. Stem-leaf plot 그리기

PROC UNIVARIATE DATA=CEO PLOT NORMAL; VAR SALARY;

RUN;

p-값이 0.05 보다 작으므로 귀무가설(자료는 정규분포를 따른다)은 기각되어 자료의 정규성은 무너진다.

3 장에서 다루기로 한다

자료가 정규 분포를 따르는지

볼 수 있는 Q-Q plot이다.

* è 자료 값

+ è 정규분포 참조선

검정통계량: NORMAL 옵션

줄기 값에 100 을 곱한다는 의미

빈도



Normal Quantile -Quantile plot

자료의 관측치를 크기 순으로 정렬 한 후 i 번째 관측치(Y 축)와 )25.0

375.0(1

+−

Φ−ni

(x 축)으로 정규 분포

선을 그리면 직선이 된다. 관측치는 i 번째 관측치와 (1/n)을 *로 plot 한다. 1−Φ 은 표준 정규 분포의 역

누적 함수 값이다. 평균과 표준 편차는 자료로부터 추정된다.

Normal(0, 1)

x

Output 보기

왜도(skewness): 3

3)(

σ

µ−XE분포의 치우침을 나타내는 값으로 0(정규분포, t-분포)이면 좌우 대칭이고

양의 값이면 우로 치우침(skewed to the right, positively skewed), 음의 값이면 좌로 치우침(skewed to the

left, negatively skewed) 이다. 검정 통계량 없음.

kurtosis(첨도): 4

4)(

σ

µ−XE분포의 첨예(뾰족하다) 정도 나타내는 값으로 정규분포는 3, 3 보다 크면

급첨(leptokurtic)하다고 하고 3 보다 적으면 완첨(platykurtic)하다 한다. 검정 통계량 없음.

표준 오차 평균(standard error): 표준 편차를 n 으로 나눈 값으로 표본 평균의 표준 편차를 의미한다.

변동 계수(variation coefficient): 측정 단위에 따라 표준 편차의 값의 크기가 달라지므로 단위가 다른

두 집단을 비교하는 경우 두 표준 편차의 단위를 같게 할 필요가 있다. 이를 위하여 표준편차를

확률 )(1 x−Φ



평균으로 나눈 값에 100 을 곱한 값을 변동 계수(CV: Coefficient of Variation)라 하고 상대 변동(분산)

개념으로 정의하고 있다. 표본 자료의 평균이 x , 표준 편차가 s 인 경우 (%)100×=xsCV 이다.

;EXAMPLE; 고등학교 3학년인 A 학생과 B 학생의 공부 습관을 조사하여 한 달간 조사하여 A학생

은 평균 3시간, 표준 편차는 0.5, B 학생은 6시간 표준 편차 0.8인 결과를 얻었다. 어느 학생이

더 꾸준히 공부하는 습관을 가지고 있을까? 이에 대한 답을 위해 변동 계수를 계산하면 된다.

A 학생 공부시간에 대한 변동 계수 = (%)1003/5.0 × =16.7 (%)

B 학생 공부시간에 대한 변동 계수 = (%)1006/8.0 × =13.3 (%)

위의 계산 결과 B 학생이 더 꾸준히 공부하는 습관을 가지고 있다고 결론 지을 수 있다.

사분위 범위 IQR(Inter-Quartile Range)은 (3 분위 값-1 분위값)이다. 자세한 내용은 3 장 Box-plot 참고

일변량 모집단 평균(비모수 방법은 중앙값, Sign test, Rank test) ) 가설 검정을 위한 검정 통계량 값과 p-

값이 출력된다. 이 통계량은 0:0 =µH 에 대한 가설 검정 결과이다. 만약 연봉이 450 과 같은지

검정하려면 PROC TTEST procedure 를 시행한다.

PROC TTEST DATA=CEO H0=450; VAR SALARY; RUN;



p-값이 0.05보다 크므로 유의수준 0.05(5%) 하에서는 귀무가설을 기각하지 못한다. 그러므로 연봉은

450이라 할 수 있다.

2.3.4. Q-Q plot 및 히스토그램 그리기

PROC UNIVARIATE DATA=CEO; VAR SALARY; title 'NORMAL DISTRIBUTION?'; HISTOGRAM SALARY /NORMAL(FILL L=3) CFILL=CYAN MIDPOINTS=100 TO 1100 BY 100; SYMBOL V=CIRCLE; PROBPLOT SALARY/normal(mu=est sigma=est);

RUN;

o title 문은 그래프나 출력 제목을 설정한다.

o NORMAL 은 normal 곡선을 히스토그램(histogram)에 표현한다. 평균과 표준편차는 자료로부터

추정된 (426, 231)을 이용한다.

o Fill L=3 정규분포 안을 채울 때 L=3 옵션으로 한다.

o CFILL=cyan 정규 분포 안의 색을 cyan 색으로

o MIDPOINT 옵션은 막대의 구간 중앙값을 사용자가 지정한다.

o SYMBOL V=circle 은 그래프의 점을 o 로 표현, C=red 를 옆에 쓰면 점들의 색이 red.

o PROBPLOT 은 Q-Q plot 그리는 문으로 normal 옵션이 있으므로 정규 분포 Q-Q plot을 그린다.

mu=est 와 sigma=est 는 자료로부터 추정된(estimated) 값을 사용하라는 의미이다.

Q-Q plot 이나 근사된 정규분포의 그래프만으로는(eye-ball method) 자료가 정규분포를 따르는지 알 수

없다.(우로 치우침을 알 수 있다) 검정 통계량이나 숫자를 사용하는 방법은 다음과 같다.

o 요약 숫자: 왜도는 0 인가? (1.08:우로 치우침) 첨도는 3 인가?(1.23: 완만) 평균과 중앙값은

같은가? (평균=426, 중앙값=365 우로 치우침)



o 검정통계량: Shapiro-Wilks 검정, Kolmogorov-Simirnov 검정, 적합성 검정(Goodness-of-fits: 2χ -

검정)이 있다.

우로 치우침

정규 분포에서 벗어난 부분



SPSS 이용하기

파일(F)è열기(O)è데이터(A) 메뉴를 선택하고 파일 열기 창이 열리면 파일 향식에서 텍스트 파일

형식을 정해 주면 된다. (상세한 내용은 통계학강의노트è고급통계è설문조사(02 년 1 학기)è7 장

자료입력(2) 참고하기 바란다)

Y축은 4 번째 크기의 208

직선: ==+

−Φ− )12.0

25.030375.04

(1

o: 4/30=13.3(%)



일변량 분석을 위해서는 분석(A) è 기술 통계량(E) è 데이터 탐색(E) 선택한 후 다음과 같이 설정하면

된다.

결과는 SAS 출력 결과와 동일하므로 설명은 생략하기로 하자. 언급하고 싶은 것은 마지막 그래프는

기울기 없이 나타낸 그래프로 자료의 어느 부분에서 정규성이 많이 벗어났는지 쉽게 알 수 있다. 수평

막대 선에 가까울수록 정규성을 만족한다.



V2

1100.0

1000.0

900.0

800.0

700.0

600.0

500.0

400.0

300.0

200.0

100.0

히스토그램

빈도

10

8

6

4

2

0

표준편차 = 231.33

평균= 426.1

N = 30.00

V2의 정규 Q-Q 도표

관측값

120010008006004002000-200

정규

기대값

2

1

0

-1

-2

V2의 기울기없는 정규 Q-Q 도표

관측값

120010008006004002000

정규

편차

1.2

1.0

.8

.6

.4

.2

0.0

-.2

-.4

2.4. 줄기 수 조정

일반적으로 자료의 분포 형태를 잘 파악하기 위해서는 줄기의 수가 8-10 개 정도 되어야 한다고 한다.

그러나 위의 예제에서 본 것처럼 줄기 수는 변수 측정치의 범위에 의해 결정된다.

2.4.1. 줄기 수가 너무 많으면 (squeezed stems)

줄기를 2-3 개 합치는 방법을 생각하면 된다. 만약 줄기가 1-20 까지 있다면 1-2, 3-4, 5-6, … , 19-20 을

각각 줄기로 하면 줄기 수가 20 개에서 10 개로 줄어든다.



2.4.2. 줄기 수가 너무 적으면 (stretched stems)

줄기를 다음과 같이 2 등분(double stem) 혹은 5 등분(five-line stem)하여 사용하면 된다.

(예) double stem

1* è 1.0~1.4

1. è 1.5~1.9

(예) five-line stem

1* è 1.0~1.1

1t è 1.2~1.3

1f è 1.4~1.5

1s è 1.6~1.7

1. è 1.8~1.9

2.4.3. 줄기 수에 관한 공식

Sturges formula ]log1[ 2 nL += (예)n=30 è L=5

Velleman formula ]2[ nL = (예)n=30 è L=10

Dixon-Kronmal formula ]log10[ 10 nL ≤ (예)n=30 è L=14

그러나 위의 공식에 의해 줄기 수(L)를 결정하면 자료 값에 따라 줄기를 결정하기 어렵고 분포 형태를

제대로 알기 어려운 문제가 있어 이 공식들은 사용되지는 않는다. [x]의 의미는 x 보다 크지 않는 최대

정수 값을 의미한다. [2.9]=2 / [3.1]=3



2.5. Stem-leaf plot 해석하기

2.5.1. 자료의 분포 형태

stem-leaf plot을 통하여 자료의 분포 형태를 알 수 있으므로

o 분포의 형태를 알 수 있다.è 히스토그램과 같은 역할

o 봉우리(최빈값) 위치 및 개수 è 봉우리의 개수가

o 좌우 대칭 여부

o 자료의 범위 및 분산

o 이상치 존재 여부 및 위치

histogram 과 비교

stem -leaf plot 을 90 도 회전하면 Histogram(히스토그램, 이를 bar chart 라고도 함)이 된다. 즉 자료의

분포의 형태를 알 수 있다.

o 히스토그램은 자료의 값의 정보가 상실되지만(실제 값은 알 수 없고 빈도만 바의 크기로

나타난다) stem-leaf plot은 자료 값이 나타난다. è 더 많은 정보

o stem-leaf plot은 수작업으로 그리기 편리하다. è 구간을 나눌 필요가 없으므로

o stem-leaf plot은 줄기(=구간)를



분포 구하기

위의 stem-leaf plot의 정점을 연결하면 분포함수가 된다.

봉우리 위치 및 개수

히스토그램의 봉우리는 분포의 최빈값에 해당되는 부분으로 일반적으로 최빈값은 하나일 가능성이 가장

높다. 구간 설정에 따라 바로 옆의 구간이 동시에 최빈값이 되는 경향이 가끔 나타나기도 하지만…

다음의 경우는 bi-modal 분포 함수라 하지는 않는다. 왜냐하면 구간을 조정하면 봉우리가 하나로 될 수

있기 때문이다. 위의 그림 1 을 보면 봉우리는 하나임을 알 수 있다.

uni-modal bi-modal / multi -modal

그림 1



봉우리가 2 개 이상인 의미는 모집단이 하나 이상일 가능성이 많다. 예를 들어 한남 대학생들

100 명의 몸무게를 조사하여 히스토그램을 그리면 bi-modal 형태가 될 가능성이 높다. 왜냐하면

여자와 남자 몸무게의 차이가 나기 때문에 그런 현상이 발생한다. 즉 측정 변수의 특성에 따라

모집단이 나누어진다. 용돈을 조사하여 히스토그램을 그려보면 아마 봉우리가 3-4 개일 가능성이

있다. 왜? 학년별 차이로 인하여… 이처럼 어떤 변수를 측정하느냐에 따라 같은 모집단이라도

봉우리의 개수가 다를 수 있다. 봉우리가 2 개 이상인 경우는 집단을 나누어 추정 및 검정을

시행하는 것이 바람직하다.

좌우 대칭

symmetric (bell-shaped)

좌우 대칭, 종 모양

skewed to the right

positively skewed

우로 치우침

skewed to the left

negatively skewed

좌로 치우침

평균과 중앙값 일치 평균>중앙값 평균<중앙값

좌우대칭으로 만들려면…

자료 변환을 하면 된다.

XX =* è mild pos.

)log(* XX = è pos.

XX /1* −= è severe pos.

XX /1* −= è more severe

2* XX = è mild neg.

3* XX = è extreme neg.

페이지 26 의 그림 1 을 보면 우로 치우쳐 있음을 알 수 있다. (페이지 17 의 왜도 값도 1.08 로 0 보다

크므로 우로 치우침을 나타낸다)



왜 좌우 대칭이어야 하나?

1) 회귀 분석, 분산 분석 등 대부분의 통계 분석에서 종속변수는 정규분포를 따르고 있다는 가정을

한다. 만약 이것이 무너지면 t-검정, F-검정을 사용할 수 없다. è 3 학년 수업에서 배우기를…

2) 대표본 표본 크기 n 의 크기? : 자료 분석의 목적은 그래프 정리(bar chart, pie chart)나 숫자적

정리(평균, 표준편차)에서 끝나는 것이 아니라 이 정보를 가지고 모수(예:모집단의 평균)를

추정하거나 그에 대한 가설을 검정하게 된다. CEO 30 명의 연봉 자료를 이용하여 전체 CEO 의

연봉에 대해 알고 싶은 것이다.

A. 우리나라 CEO 들의 연봉의 평균(모수:parameter)은? 표본 평균이 426(백만)이었으므로 모평균

추정치는 426 이다.

B. 작년 CEO 들의 평균은 350(백만)이었다면 올해 CEO 와 차이가 있는지? 이 경우 30 명의

CEO 표본 평균을 이용하여 우리나라 CEO 들의 연봉 평균을 추정하고 이것을 이용하여

350:0 =µH 인가를 검정하면 된다. 가설 검정하려면 표본 평균의 분포만을 알면 되는데 이는

중심극한정리에 의해 이미 알려져 있다. CLT 에 의해 모집단의 분포(f(x))가 어떠하든 n 이

크면 정규분포를 따르니 분포가 찌그러져 있다고 무엇이 문제가 되는가? CLT 는 대표본(n 이

크다)을 가정한다. 여기에 답이 있다. 그럼 도대체 얼마나 n 이 얼마나 되어야 대표본이라고

하는가? n=30? 그러나 대표본 n 의 크기는 모집단의 분포 f(x)의 찌그러진 정도에 따라

정해진다. (시뮬레이션으로 살펴보기로 하자)

PROC TTEST DATA=CEO H0=350;

VAR SALARY; RUN;

통계 소프트웨어에서 출력되는 p-값은 two-sided(양측 검정) 가설 검정 시 값을 출력한다. 그러므로

위의 경우 대립 가설을 350: ≠µaH (양측 검정) 설정하면 p-값이 0.0821 로 0.05 보다 크므로

귀무가설을 기각할 수 없으나 대립 가설을 350: >µaH (단측 검정) 설정하면 p-값이 0.04105 이므로

0.05 보다 적어 귀무가설을 기각하고 연봉은 높아졌다고 결론 지을 수 있다. 그러므로 양측 검정 결과

귀무가설이 기각되면 같은 유의수준에서 단측 검정 결과도 귀무가설을 기각한다.



범위와 흩어진 정도

분포의 형태를 알 수 있으므로 자료의 범위(range=최대값-최소값)와 흩어진(spread) 정도를 알 수 있다.

흩어진 정도(표준편차)

범위(range)

2.5.2. 이상치(outlier) 발견

다른 관측치에 비해 매우 크거나 적은 관측치를 이상치(outlier)라 한다. 이런 이상치는 히스토그램에서

쉽게 발견될 수 있다. 히스토그램이나 stem -leaf plot 의 경우 다른 관측치와 멀리 떨어져 있으면 이를

이상치라 한다. CEO 연봉 자료에서 이상치는 연봉이 1103(백만)인 사람이다. 물론 이 값이

이상치인지는 검정 통계량을 이용하여(Box-plot 이나 검정해야 하지만 우선 쉽게 찾을 수 있다는

장점이 있다. 다음은 페이지 26 의 그림 1 의 분포를 가져온 것이다. 페이지 20 의 히스토그램에서 더

자세히 볼 수 있다. 오른쪽에 막대 하나가 따로 떨어져 있다. 막대의 높이가 바로 빈도(비율)이다.

이상치(outlier)

이상치가 발견되면 그 해결책은

o 이상치를 살펴 입력 오류인지 살펴 오류가 있으면 정정한다. è 103 의 입력 오류

o 이상치의 대상인 개체를 조사해 문제가 있는 개체이면 자료에서 제외한다. 1103(백만) 연봉을

받는 사람을 조사하였더니 외국인 전문 사장이었다. 자료에서 제외

o 자료 변환을 통해 이 문제를 해결할 수 있다. è part of skewness



2.6. CLT 시뮬레이션

DATA GAM; DO I=1 TO 5000; X=RANGAM(7933001,2)*0.5;OUTPUT; END; RUN; PROC GCHART DATA=GAM; title h=2 "GAMMA(a=2, b=0.5) distribution"; VBAR X; RUN; %MACRO PLOT(n, a, b); DATA CLT; DO I=1 TO 5000; SUM=0; DO J=1 TO &n; X=RANGAM(7933001,&a)*&b;

SUM=SUM+X; END; MEAN0=SUM/&N;OUTPUT; END; RUN; PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN; proc capability data=CLT noprint; cdf mean0 / normal(color=blue); run; %mend; %plot(20, 2, 0.5);

%plot(50, 2, 0.5);

o RANGAM(seed, a, x)는 Gamma ( 1,1 == βα )를 생성하는 함수, βααβα

βα /1

)(

1),:( xexxf −−

Γ=

평균=αβ 분산= 2αβ 이다. 1=β 인 경우 지수분포가 된다.

o PROC GCHART 는 히스토그램을 그리는 procedure 이다.

o %MACRO는 macro 문으로 어디서든 실행되는 일종의 함수 문이다. %MACRO 이름;에 의해

시작하고 %mend 에 의해 종료된다. 불러 사용할 때는 프로그램 내에서 %이름(값들); 로 사용하면

된다. %plot(20, 2, 0.5)의 의미는 plot 이라는 이름의 macro 문을 실행하되 n=20, a=2, ㅠ=0.5 로 하여

실행하라는 것이다. macro 문에서 macro 변수 지정은 & 사용한다.



)5.0,2( == βαGAMMA è평균=1/분산=0.5

원래 모집단 자료는 오른쪽으로 치우친 분포를 갖는다. (Gamma 분포이다)

아래 프로그램은 이전 페이지 macro 프로그램에서 히스토그램을 그리는 프로그램이다.

PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN;

왼쪽 그림은 표본 크기가 n=20 인 표본 평균의 분포이고 오른쪽 그림은 표본 크기가 50 인 표본 평균의

분포로 n 인 큰 경우가 더 정규 분포에 가까워짐을 알 수 있다. 모집단의 치우침 정도에 따라 대표본의

표본 크기는 다소 다를 수 있다(중심 극한 정리를 만족하는 대표본의 의미).



아래 프로그램은 이전 페이지 macro 프로그램에서 누적 확률 분포 함수를 그래프로 나타내는

프로그램이다. CDF(Cumulative Density Function) 변수명은 누적 함수를 그리려는 변수를 지정하는

곳이고 NORMAL(Color=Blue)는 정규 분포 누적 함수를 파란색으로 나타내라는 것이다.

PROC CAPABILITY DATA=CLT NOPRINT; CDF MEAN0 / NORMAL(COLOR=BLUE); RUN;

아래 그림이 더 파란 선에 가까우므로(정규 분포에 더 근사) 앞의 히스토그램 결과와 일치함을 알 수

있다.



2.7. Homework#1 due Sep 17 (Tuesday)

CLT simulation

1) 모집단 GAMMA( 1,1 == ba )인 분포에서 (seed 는 여러분의 학번)

A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

C. A와 B 의 결과를 해석하시오.

2) 정규분포(평균=1, 분산=1)를 모집단으로 했을 경우 σµ *)7933001(rannorX +=

A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.

C. 1A와 B 의 결과를 해석하시오.

3) 1)과 2)의 결과를 해석하시오.

Stem-Leaf plot 그리기

BASEBALL.TXT 자료는 1920-1950 사이 미국 프로야구 leading hitter 들의 출루율을 조사한 것이다.

1) stem-leaf plot 그리시오.

2) stem-leaf plot에 이용하여 분포함수 형태를 그리고 해석하시오. (치우침, 단봉)

3) 그 분포가 정규분포를 따르는지 살펴보고(CAPABILITY)

4) 이상치 있는지 존재 여부 살펴보시오.

Documents

CEO - Hannam Universitywolfpack.hannam.ac.kr/lecture/fall02/EDA/eda_ch2-1.pdf기대값 2 1 0-1-2 v2의 기울기없는 정규 q-q 도표 관측값 0 200 400 600 800 1000 1200 정규