Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 10
2.2. stem-leaf plot 그리기 (hand calculation)
다음은 벤처 기업 CEO 30 명의 나이와 연봉(단위: 백만)을 조사한 자료이다. [강의 노트: CEO.TXT]
나이 연봉
자료 정렬 후 그린 stem-leaf plot
[그림 2.1]
자료 정렬 없이 그린 stem-leaf plot
[그림 2.2]
자료를 크기 순으로 정리한다
자료의 수가 많을 때는 자료 정렬을 수작업하기 어려움으로 이 단계는 무시해도 되지만 자료를 크기
순으로 정렬해 놓으면 plot 을 그리기 편리하다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 11
자료를 살펴 줄기와 잎을 결정한다
CEO 연봉 자료를 살펴보면 100 단위를 줄기로 하고 10 단위 이하를 잎으로 하여 plot 을 그리면 될
것이라는 것을 알 수 있다.
한 열에 줄기(stem)를 먼저 그린다.
위에서 100 단위 이상을 줄기로 하기로 결정하였고 자료의 최소값이 58, 최대값이 1103 이므로 0 부터
11 까지 줄기를 한 열에 크기 순으로 적는다.
줄기(stem) 옆에 잎을 그린다.
잎을 그리는 방법은 간단하다. 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다. CEO 연봉 자료는
잎이 두 자리이지만 앞에 것 하나만 적으면 된다. 굳이 반올림하는 수고를 할 필요는 없다. 줄기-잎
그림의 목적은 자료의 분포 형태와 이상치를 아는 것이므로…
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 12
2.3. 통계 소프트웨어 사용하여 stem-leaf 그리기
강의 노트에 올려져 있는 CEO.txt 자료를 down 받아 D:\temp\CEO.txt 에 저장되어 있다고 하자. 아스키
파일(텍스트 파일) 자료를 SAS data 로 만드는 방법은 여러 가지가 있으나 INFILE 문을 사용하여
불러들이는 것이 편리하다.
2.3.1. 텍스트 파일 SAS data 만들기
DATA CEO; INFILE 'D:\TEMP\CEO.TXT'; INPUT AGE SALARY; RUN;
2.3.2. 아스키 자료è엑셀 파일 만들기
엑셀을 시작한 후 를 선택한 후 열기 화면(아래)
나타나면 파일 형식을 “텍스트 파일”로 선택하고 변환할 파일(CEO.txt)을 지정한다.
[선택 후 다음을 누른다]
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 13
[화살표에 의해 읽어 들일 변수 측정치들이 적절히 나누어 누른다]
[오류 없이 변환 되었다면 엑셀 파일로 저장하면 된다. 여기서 주의해야
할 것은 반드시 척 행에 변수명이나 Label을 사용해야 한다는 것이다. 이유는 1] SAS는 첫 행을 변수
명이나 변수 레이블로 사용 2)첫 행이 영어로 되어 있으면 변수명으로 한글일 경우는 label로 이용되
므로 변수 정보를 알 수 있어 편리하다. CEO.xls]
2.3.3. 엑셀 파일 è SAS data 만들기
파일(F) 메뉴에서 데이터 가져오기 메뉴를 선택한다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 14
파일 향식 선택 마법사 창이 나타나면 엑셀 파일 형태를 선택한다.
파일 선택 마법사 화면이 나타나면 불러올 파일을 선택하고 아무 옵션도 선택하지 말고 바로 Next>
선택한다.
SAS data 이름(CEO0 로 하였다)을 Member 에 입력하고 아무 옵션 선택 없이 Finish 를 선택한다.
성공적으로 SAS data 파일이 만들어지면 LOG 윈도우에 다음 설명이 출력된다.
파일 선택 후 바로 Next> 누른다.
SAS data 이름(CEO0) 입력 후 바로 Finish 누른다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 15
PROC PRINT 를 이용하여 CEO0 를 출력해 보라. 변수명은 차례로 _COL0, _COL!, _COL2 … 식으로
자동 설정되어 있음을 알 수 있다. 만약 엑셀 파일의 첫 행에 변수명을 적어 주면(영어이고 공백 없음)
그 변수명대로 지정한다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 16
2.3.4. Stem-leaf plot 그리기
PROC UNIVARIATE DATA=CEO PLOT NORMAL; VAR SALARY;
RUN;
p-값이 0.05 보다 작으므로 귀무가설(자료는 정규분포를 따른다)은 기각되어 자료의 정규성은 무너진다.
3 장에서 다루기로 한다
자료가 정규 분포를 따르는지
볼 수 있는 Q-Q plot이다.
* è 자료 값
+ è 정규분포 참조선
검정통계량: NORMAL 옵션
줄기 값에 100 을 곱한다는 의미
빈도
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 17
Normal Quantile -Quantile plot
자료의 관측치를 크기 순으로 정렬 한 후 i 번째 관측치(Y 축)와 )25.0
375.0(1
+−
Φ−ni
(x 축)으로 정규 분포
선을 그리면 직선이 된다. 관측치는 i 번째 관측치와 (1/n)을 *로 plot 한다. 1−Φ 은 표준 정규 분포의 역
누적 함수 값이다. 평균과 표준 편차는 자료로부터 추정된다.
Normal(0, 1)
x
Output 보기
왜도(skewness): 3
3)(
σ
µ−XE분포의 치우침을 나타내는 값으로 0(정규분포, t-분포)이면 좌우 대칭이고
양의 값이면 우로 치우침(skewed to the right, positively skewed), 음의 값이면 좌로 치우침(skewed to the
left, negatively skewed) 이다. 검정 통계량 없음.
kurtosis(첨도): 4
4)(
σ
µ−XE분포의 첨예(뾰족하다) 정도 나타내는 값으로 정규분포는 3, 3 보다 크면
급첨(leptokurtic)하다고 하고 3 보다 적으면 완첨(platykurtic)하다 한다. 검정 통계량 없음.
표준 오차 평균(standard error): 표준 편차를 n 으로 나눈 값으로 표본 평균의 표준 편차를 의미한다.
변동 계수(variation coefficient): 측정 단위에 따라 표준 편차의 값의 크기가 달라지므로 단위가 다른
두 집단을 비교하는 경우 두 표준 편차의 단위를 같게 할 필요가 있다. 이를 위하여 표준편차를
확률 )(1 x−Φ
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 18
평균으로 나눈 값에 100 을 곱한 값을 변동 계수(CV: Coefficient of Variation)라 하고 상대 변동(분산)
개념으로 정의하고 있다. 표본 자료의 평균이 x , 표준 편차가 s 인 경우 (%)100×=xsCV 이다.
;EXAMPLE; 고등학교 3학년인 A 학생과 B 학생의 공부 습관을 조사하여 한 달간 조사하여 A학생
은 평균 3시간, 표준 편차는 0.5, B 학생은 6시간 표준 편차 0.8인 결과를 얻었다. 어느 학생이
더 꾸준히 공부하는 습관을 가지고 있을까? 이에 대한 답을 위해 변동 계수를 계산하면 된다.
A 학생 공부시간에 대한 변동 계수 = (%)1003/5.0 × =16.7 (%)
B 학생 공부시간에 대한 변동 계수 = (%)1006/8.0 × =13.3 (%)
위의 계산 결과 B 학생이 더 꾸준히 공부하는 습관을 가지고 있다고 결론 지을 수 있다.
사분위 범위 IQR(Inter-Quartile Range)은 (3 분위 값-1 분위값)이다. 자세한 내용은 3 장 Box-plot 참고
일변량 모집단 평균(비모수 방법은 중앙값, Sign test, Rank test) ) 가설 검정을 위한 검정 통계량 값과 p-
값이 출력된다. 이 통계량은 0:0 =µH 에 대한 가설 검정 결과이다. 만약 연봉이 450 과 같은지
검정하려면 PROC TTEST procedure 를 시행한다.
PROC TTEST DATA=CEO H0=450; VAR SALARY; RUN;
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 19
p-값이 0.05보다 크므로 유의수준 0.05(5%) 하에서는 귀무가설을 기각하지 못한다. 그러므로 연봉은
450이라 할 수 있다.
2.3.4. Q-Q plot 및 히스토그램 그리기
PROC UNIVARIATE DATA=CEO; VAR SALARY; title 'NORMAL DISTRIBUTION?'; HISTOGRAM SALARY /NORMAL(FILL L=3) CFILL=CYAN MIDPOINTS=100 TO 1100 BY 100; SYMBOL V=CIRCLE; PROBPLOT SALARY/normal(mu=est sigma=est);
RUN;
o title 문은 그래프나 출력 제목을 설정한다.
o NORMAL 은 normal 곡선을 히스토그램(histogram)에 표현한다. 평균과 표준편차는 자료로부터
추정된 (426, 231)을 이용한다.
o Fill L=3 정규분포 안을 채울 때 L=3 옵션으로 한다.
o CFILL=cyan 정규 분포 안의 색을 cyan 색으로
o MIDPOINT 옵션은 막대의 구간 중앙값을 사용자가 지정한다.
o SYMBOL V=circle 은 그래프의 점을 o 로 표현, C=red 를 옆에 쓰면 점들의 색이 red.
o PROBPLOT 은 Q-Q plot 그리는 문으로 normal 옵션이 있으므로 정규 분포 Q-Q plot을 그린다.
mu=est 와 sigma=est 는 자료로부터 추정된(estimated) 값을 사용하라는 의미이다.
Q-Q plot 이나 근사된 정규분포의 그래프만으로는(eye-ball method) 자료가 정규분포를 따르는지 알 수
없다.(우로 치우침을 알 수 있다) 검정 통계량이나 숫자를 사용하는 방법은 다음과 같다.
o 요약 숫자: 왜도는 0 인가? (1.08:우로 치우침) 첨도는 3 인가?(1.23: 완만) 평균과 중앙값은
같은가? (평균=426, 중앙값=365 우로 치우침)
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 20
o 검정통계량: Shapiro-Wilks 검정, Kolmogorov-Simirnov 검정, 적합성 검정(Goodness-of-fits: 2χ -
검정)이 있다.
우로 치우침
정규 분포에서 벗어난 부분
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 21
SPSS 이용하기
파일(F)è열기(O)è데이터(A) 메뉴를 선택하고 파일 열기 창이 열리면 파일 향식에서 텍스트 파일
형식을 정해 주면 된다. (상세한 내용은 통계학강의노트è고급통계è설문조사(02 년 1 학기)è7 장
자료입력(2) 참고하기 바란다)
Y축은 4 번째 크기의 208
직선: ==+
−Φ− )12.0
25.030375.04
(1
o: 4/30=13.3(%)
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 22
일변량 분석을 위해서는 분석(A) è 기술 통계량(E) è 데이터 탐색(E) 선택한 후 다음과 같이 설정하면
된다.
결과는 SAS 출력 결과와 동일하므로 설명은 생략하기로 하자. 언급하고 싶은 것은 마지막 그래프는
기울기 없이 나타낸 그래프로 자료의 어느 부분에서 정규성이 많이 벗어났는지 쉽게 알 수 있다. 수평
막대 선에 가까울수록 정규성을 만족한다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 23
V2
1100.0
1000.0
900.0
800.0
700.0
600.0
500.0
400.0
300.0
200.0
100.0
히스토그램
빈도
10
8
6
4
2
0
표준편차 = 231.33
평균= 426.1
N = 30.00
V2의 정규 Q-Q 도표
관측값
120010008006004002000-200
정규
기대값
2
1
0
-1
-2
V2의 기울기없는 정규 Q-Q 도표
관측값
120010008006004002000
정규
편차
1.2
1.0
.8
.6
.4
.2
0.0
-.2
-.4
2.4. 줄기 수 조정
일반적으로 자료의 분포 형태를 잘 파악하기 위해서는 줄기의 수가 8-10 개 정도 되어야 한다고 한다.
그러나 위의 예제에서 본 것처럼 줄기 수는 변수 측정치의 범위에 의해 결정된다.
2.4.1. 줄기 수가 너무 많으면 (squeezed stems)
줄기를 2-3 개 합치는 방법을 생각하면 된다. 만약 줄기가 1-20 까지 있다면 1-2, 3-4, 5-6, … , 19-20 을
각각 줄기로 하면 줄기 수가 20 개에서 10 개로 줄어든다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 24
2.4.2. 줄기 수가 너무 적으면 (stretched stems)
줄기를 다음과 같이 2 등분(double stem) 혹은 5 등분(five-line stem)하여 사용하면 된다.
(예) double stem
1* è 1.0~1.4
1. è 1.5~1.9
(예) five-line stem
1* è 1.0~1.1
1t è 1.2~1.3
1f è 1.4~1.5
1s è 1.6~1.7
1. è 1.8~1.9
2.4.3. 줄기 수에 관한 공식
Sturges formula ]log1[ 2 nL += (예)n=30 è L=5
Velleman formula ]2[ nL = (예)n=30 è L=10
Dixon-Kronmal formula ]log10[ 10 nL ≤ (예)n=30 è L=14
그러나 위의 공식에 의해 줄기 수(L)를 결정하면 자료 값에 따라 줄기를 결정하기 어렵고 분포 형태를
제대로 알기 어려운 문제가 있어 이 공식들은 사용되지는 않는다. [x]의 의미는 x 보다 크지 않는 최대
정수 값을 의미한다. [2.9]=2 / [3.1]=3
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 25
2.5. Stem-leaf plot 해석하기
2.5.1. 자료의 분포 형태
stem-leaf plot을 통하여 자료의 분포 형태를 알 수 있으므로
o 분포의 형태를 알 수 있다.è 히스토그램과 같은 역할
o 봉우리(최빈값) 위치 및 개수 è 봉우리의 개수가
o 좌우 대칭 여부
o 자료의 범위 및 분산
o 이상치 존재 여부 및 위치
histogram 과 비교
stem -leaf plot 을 90 도 회전하면 Histogram(히스토그램, 이를 bar chart 라고도 함)이 된다. 즉 자료의
분포의 형태를 알 수 있다.
o 히스토그램은 자료의 값의 정보가 상실되지만(실제 값은 알 수 없고 빈도만 바의 크기로
나타난다) stem-leaf plot은 자료 값이 나타난다. è 더 많은 정보
o stem-leaf plot은 수작업으로 그리기 편리하다. è 구간을 나눌 필요가 없으므로
o stem-leaf plot은 줄기(=구간)를
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 26
분포 구하기
위의 stem-leaf plot의 정점을 연결하면 분포함수가 된다.
봉우리 위치 및 개수
히스토그램의 봉우리는 분포의 최빈값에 해당되는 부분으로 일반적으로 최빈값은 하나일 가능성이 가장
높다. 구간 설정에 따라 바로 옆의 구간이 동시에 최빈값이 되는 경향이 가끔 나타나기도 하지만…
다음의 경우는 bi-modal 분포 함수라 하지는 않는다. 왜냐하면 구간을 조정하면 봉우리가 하나로 될 수
있기 때문이다. 위의 그림 1 을 보면 봉우리는 하나임을 알 수 있다.
uni-modal bi-modal / multi -modal
그림 1
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 27
봉우리가 2 개 이상인 의미는 모집단이 하나 이상일 가능성이 많다. 예를 들어 한남 대학생들
100 명의 몸무게를 조사하여 히스토그램을 그리면 bi-modal 형태가 될 가능성이 높다. 왜냐하면
여자와 남자 몸무게의 차이가 나기 때문에 그런 현상이 발생한다. 즉 측정 변수의 특성에 따라
모집단이 나누어진다. 용돈을 조사하여 히스토그램을 그려보면 아마 봉우리가 3-4 개일 가능성이
있다. 왜? 학년별 차이로 인하여… 이처럼 어떤 변수를 측정하느냐에 따라 같은 모집단이라도
봉우리의 개수가 다를 수 있다. 봉우리가 2 개 이상인 경우는 집단을 나누어 추정 및 검정을
시행하는 것이 바람직하다.
좌우 대칭
symmetric (bell-shaped)
좌우 대칭, 종 모양
skewed to the right
positively skewed
우로 치우침
skewed to the left
negatively skewed
좌로 치우침
평균과 중앙값 일치 평균>중앙값 평균<중앙값
좌우대칭으로 만들려면…
자료 변환을 하면 된다.
XX =* è mild pos.
)log(* XX = è pos.
XX /1* −= è severe pos.
XX /1* −= è more severe
2* XX = è mild neg.
3* XX = è extreme neg.
페이지 26 의 그림 1 을 보면 우로 치우쳐 있음을 알 수 있다. (페이지 17 의 왜도 값도 1.08 로 0 보다
크므로 우로 치우침을 나타낸다)
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 28
왜 좌우 대칭이어야 하나?
1) 회귀 분석, 분산 분석 등 대부분의 통계 분석에서 종속변수는 정규분포를 따르고 있다는 가정을
한다. 만약 이것이 무너지면 t-검정, F-검정을 사용할 수 없다. è 3 학년 수업에서 배우기를…
2) 대표본 표본 크기 n 의 크기? : 자료 분석의 목적은 그래프 정리(bar chart, pie chart)나 숫자적
정리(평균, 표준편차)에서 끝나는 것이 아니라 이 정보를 가지고 모수(예:모집단의 평균)를
추정하거나 그에 대한 가설을 검정하게 된다. CEO 30 명의 연봉 자료를 이용하여 전체 CEO 의
연봉에 대해 알고 싶은 것이다.
A. 우리나라 CEO 들의 연봉의 평균(모수:parameter)은? 표본 평균이 426(백만)이었으므로 모평균
추정치는 426 이다.
B. 작년 CEO 들의 평균은 350(백만)이었다면 올해 CEO 와 차이가 있는지? 이 경우 30 명의
CEO 표본 평균을 이용하여 우리나라 CEO 들의 연봉 평균을 추정하고 이것을 이용하여
350:0 =µH 인가를 검정하면 된다. 가설 검정하려면 표본 평균의 분포만을 알면 되는데 이는
중심극한정리에 의해 이미 알려져 있다. CLT 에 의해 모집단의 분포(f(x))가 어떠하든 n 이
크면 정규분포를 따르니 분포가 찌그러져 있다고 무엇이 문제가 되는가? CLT 는 대표본(n 이
크다)을 가정한다. 여기에 답이 있다. 그럼 도대체 얼마나 n 이 얼마나 되어야 대표본이라고
하는가? n=30? 그러나 대표본 n 의 크기는 모집단의 분포 f(x)의 찌그러진 정도에 따라
정해진다. (시뮬레이션으로 살펴보기로 하자)
PROC TTEST DATA=CEO H0=350;
VAR SALARY; RUN;
통계 소프트웨어에서 출력되는 p-값은 two-sided(양측 검정) 가설 검정 시 값을 출력한다. 그러므로
위의 경우 대립 가설을 350: ≠µaH (양측 검정) 설정하면 p-값이 0.0821 로 0.05 보다 크므로
귀무가설을 기각할 수 없으나 대립 가설을 350: >µaH (단측 검정) 설정하면 p-값이 0.04105 이므로
0.05 보다 적어 귀무가설을 기각하고 연봉은 높아졌다고 결론 지을 수 있다. 그러므로 양측 검정 결과
귀무가설이 기각되면 같은 유의수준에서 단측 검정 결과도 귀무가설을 기각한다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 29
범위와 흩어진 정도
분포의 형태를 알 수 있으므로 자료의 범위(range=최대값-최소값)와 흩어진(spread) 정도를 알 수 있다.
흩어진 정도(표준편차)
범위(range)
2.5.2. 이상치(outlier) 발견
다른 관측치에 비해 매우 크거나 적은 관측치를 이상치(outlier)라 한다. 이런 이상치는 히스토그램에서
쉽게 발견될 수 있다. 히스토그램이나 stem -leaf plot 의 경우 다른 관측치와 멀리 떨어져 있으면 이를
이상치라 한다. CEO 연봉 자료에서 이상치는 연봉이 1103(백만)인 사람이다. 물론 이 값이
이상치인지는 검정 통계량을 이용하여(Box-plot 이나 검정해야 하지만 우선 쉽게 찾을 수 있다는
장점이 있다. 다음은 페이지 26 의 그림 1 의 분포를 가져온 것이다. 페이지 20 의 히스토그램에서 더
자세히 볼 수 있다. 오른쪽에 막대 하나가 따로 떨어져 있다. 막대의 높이가 바로 빈도(비율)이다.
이상치(outlier)
이상치가 발견되면 그 해결책은
o 이상치를 살펴 입력 오류인지 살펴 오류가 있으면 정정한다. è 103 의 입력 오류
o 이상치의 대상인 개체를 조사해 문제가 있는 개체이면 자료에서 제외한다. 1103(백만) 연봉을
받는 사람을 조사하였더니 외국인 전문 사장이었다. 자료에서 제외
o 자료 변환을 통해 이 문제를 해결할 수 있다. è part of skewness
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 30
2.6. CLT 시뮬레이션
DATA GAM; DO I=1 TO 5000; X=RANGAM(7933001,2)*0.5;OUTPUT; END; RUN; PROC GCHART DATA=GAM; title h=2 "GAMMA(a=2, b=0.5) distribution"; VBAR X; RUN; %MACRO PLOT(n, a, b); DATA CLT; DO I=1 TO 5000; SUM=0; DO J=1 TO &n; X=RANGAM(7933001,&a)*&b;
SUM=SUM+X; END; MEAN0=SUM/&N;OUTPUT; END; RUN; PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN; proc capability data=CLT noprint; cdf mean0 / normal(color=blue); run; %mend; %plot(20, 2, 0.5);
%plot(50, 2, 0.5);
o RANGAM(seed, a, x)는 Gamma ( 1,1 == βα )를 생성하는 함수, βααβα
βα /1
)(
1),:( xexxf −−
Γ=
평균=αβ 분산= 2αβ 이다. 1=β 인 경우 지수분포가 된다.
o PROC GCHART 는 히스토그램을 그리는 procedure 이다.
o %MACRO는 macro 문으로 어디서든 실행되는 일종의 함수 문이다. %MACRO 이름;에 의해
시작하고 %mend 에 의해 종료된다. 불러 사용할 때는 프로그램 내에서 %이름(값들); 로 사용하면
된다. %plot(20, 2, 0.5)의 의미는 plot 이라는 이름의 macro 문을 실행하되 n=20, a=2, ㅠ=0.5 로 하여
실행하라는 것이다. macro 문에서 macro 변수 지정은 & 사용한다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 31
)5.0,2( == βαGAMMA è평균=1/분산=0.5
원래 모집단 자료는 오른쪽으로 치우친 분포를 갖는다. (Gamma 분포이다)
아래 프로그램은 이전 페이지 macro 프로그램에서 히스토그램을 그리는 프로그램이다.
PROC GCHART DATA=CLT; TITLE H=2 "N=&N A=&A B=&B DIST. OF MEAN"; VBAR MEAN0; RUN;
왼쪽 그림은 표본 크기가 n=20 인 표본 평균의 분포이고 오른쪽 그림은 표본 크기가 50 인 표본 평균의
분포로 n 인 큰 경우가 더 정규 분포에 가까워짐을 알 수 있다. 모집단의 치우침 정도에 따라 대표본의
표본 크기는 다소 다를 수 있다(중심 극한 정리를 만족하는 대표본의 의미).
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 32
아래 프로그램은 이전 페이지 macro 프로그램에서 누적 확률 분포 함수를 그래프로 나타내는
프로그램이다. CDF(Cumulative Density Function) 변수명은 누적 함수를 그리려는 변수를 지정하는
곳이고 NORMAL(Color=Blue)는 정규 분포 누적 함수를 파란색으로 나타내라는 것이다.
PROC CAPABILITY DATA=CLT NOPRINT; CDF MEAN0 / NORMAL(COLOR=BLUE); RUN;
아래 그림이 더 파란 선에 가까우므로(정규 분포에 더 근사) 앞의 히스토그램 결과와 일치함을 알 수
있다.
Exploratory Data Analysis Chapter 2. Stem and Leaf
Sehyug Kwon, Dept. of Statistics, HANNAM University;http://wolfpack.hannam.ac.kr ;;Fall, 2002;042-629-7622 33
2.7. Homework#1 due Sep 17 (Tuesday)
CLT simulation
1) 모집단 GAMMA( 1,1 == ba )인 분포에서 (seed 는 여러분의 학번)
A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.
B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.
C. A와 B 의 결과를 해석하시오.
2) 정규분포(평균=1, 분산=1)를 모집단으로 했을 경우 σµ *)7933001(rannorX +=
A. 표본의 크기가 20 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.
B. 표본의 크기가 50 인 표본의 표본 평균의 분포의 히스토그램과 CDF 그림을 그리시오.
C. 1A와 B 의 결과를 해석하시오.
3) 1)과 2)의 결과를 해석하시오.
Stem-Leaf plot 그리기
BASEBALL.TXT 자료는 1920-1950 사이 미국 프로야구 leading hitter 들의 출루율을 조사한 것이다.
1) stem-leaf plot 그리시오.
2) stem-leaf plot에 이용하여 분포함수 형태를 그리고 해석하시오. (치우침, 단봉)
3) 그 분포가 정규분포를 따르는지 살펴보고(CAPABILITY)
4) 이상치 있는지 존재 여부 살펴보시오.