Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
2장. 데이터의 구조
박창이
서울시립대학교 통계학과
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 1 / 20
학습내용
데이터의 종류
데이터의 표현과 요약
이산형 데이터
연속형 데이터
중심을 나타내는 척도
퍼짐을 나타내는 척도
이변량 데이터
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 2 / 20
데이터의 종류 I
데이터의 종류
단일변량데이터(univariate data)
다변량데이터(multivariate data): 예) 이변량데이터(bivariate data)
통계적 데이터
질적 데이터(qualitative data): 성별(남, 여), 혈액형(A,B, O, AB) 등
범주형 데이터(categorical data)
양적 데이터(quantitative or measurement data): 키, 몸무게, 사고 건수
등 수치 데이터
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 3 / 20
데이터의 종류 II
세부적인 구분
명목척도데이터(nominal scaling data): 일대일 대응 예) 성별(남/
여:1/2, M/F),
서수척도데이터(ordinal scaling data): 순서 관계 예) 학점, 설문조사
문항(매우 그렇다, 그렇다, 보통이다...)
구간척도데이터(interval scaling data): 예) 키, 몸무게, 총점, 온도
비율척도데이터(ratio scaling data)
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 4 / 20
데이터의 종류 III
예제: 10페이지 데이터 집합(data set)
변수(variable)
관측치(observation)
변수
이산형변수(discrete variable): 변수가 취하는 값의 갯수가 유한 혹은
자연수와 일대일 대응
연속형변수(continuous variable)
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 5 / 20
데이터의 표현과 요약
표(table), 그림(graph, chart, or diagram), 수치 요약값 등을 이용하여
데이터의 분포의 대칭성, 치우침의 정도, 이상치(outlier) 등의 데이터의
구조를 파악
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 6 / 20
질적 데이터의 표현
도수분포표(frequency table)
각 범주와 그에 속한 데이터의 갯수(도수: count)를 나타낸 표
상대도수(relative frequency) = 해당 범주의 도수/데이터 전체의 갯수
예제 2.1
파이 차트(pie chart): 예제 2.1에 대한
파레토 그림(Pareto diagram): 예제 2.3
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 7 / 20
이산형 데이터의 표현
도수분포표
누적도수(cumulative frequency): 해당 값까지의 도수 합
누적상대도수(cumulative relative frequency): 누적도수/전체 데이터의
갯수
예제 2.4
막대그림(bar graph): 예제 2.5
막대그림에서는 막대의 높이가 해당 도수
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 8 / 20
연속형 데이터의 표현 I
구간 분할에 의한 도수분포표
몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 갯수를 도수로
작성
구간의 갯수는 흔히 5 15
예제 2.6
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 9 / 20
연속형 데이터의 표현 II
점도표(dot diagram)과 히스토그램(histogram)
점도표 예: 그림 2-5
히스토그램은 직사각형 면적이 해당 도수에 대응
(상대도수) 히스토그램의 직사각형 높이=상대도수/구간의 폭
히스토그램 예: 그림 2-6, 패턴: 그림 2-7
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 10 / 20
연속형 데이터의 표현 III
줄기와 잎 도표(stem-and-leaf display)
정보의 손실 없이 원 데이터값을 알 수 있음
잘못된 그림 예: 그림 2-9, 1차원 데이터를 2차원으로 표시하여 잘못된
인상을 주는 경우
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 11 / 20
중심을 나타내는 척도 I
평균(mean)
모평균(population mean): 모집단의 전체 평균으로 µ로 나타냄
표본평균(sample mean): 표본에 대한 평균
x =1
n
n∑i=1
xi
표본: x1, . . . , xn
이상치에 영향을 많이 받음 (예) 회사의 평균 급여
중앙값(median)
데이터를 크기순으로 정렬하였을 때 중앙에 위치한 값(n이 짝수일 때는
중앙의 두 값의 평균)
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 12 / 20
중심을 나타내는 척도 II
예제 2.7, 2.8
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 13 / 20
퍼짐을 나타내는 척도 I
그림 2.11: 중심을 나타내는 척도만으로는 부족
편차(deviation) = 데이터값 - 표본평균
편차의 합 =∑n
i=1(xi − x) = 0이므로 편차의 제곱을 고려
표본분산(sample variance) = s2 = 1n−1
∑ni=1(xi − x)2
s2 =1
n − 1
(n∑
i=1
x2i − nx2
)
표본표준편차(sample standard deviation)= s =√s2: 단위가
데이터와 동일
n − 1을 사용하는 이유는 기대값이 모분산(population variance) σ2이
됨
예제 2.9박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 14 / 20
퍼짐을 나타내는 척도 II
표본범위(sample range)= 데이터의 최대값 - 데이터의 최소값:
이상치에 큰 영향을 받음
표본사분위수범위(sample interquartile range) = 제3사분위수 - 제1
사분위수
예제 2.10
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 15 / 20
퍼짐을 나타내는 척도 III
다섯숫자요약(5-number summary): 최소값, 제1사분위수, 중앙값, 제3
사분위수, 최대값
백분위수(percentile): 제25백분위수=제1사분위수
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 16 / 20
이변량데이터 I
하나의 조사단위에 대하여 조사된 변수가 둘인 경우
이변량 범주형 데이터
이차원 형태의 결합도수분포표(joint frequency table) 혹은
분할표(contingency table)로 요약
예제 2.11
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 17 / 20
이변량데이터 II
이변량 양적 데이터
산점도(scatter diagram)
(x1, y1), . . . , (xn, yn)을 이차원 평면상에 표현한 것으로 두 변수간의 관계
파악
예제 2.12
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 18 / 20
이변량데이터 III
상관계수(correlation coefficient)
r =Sxy√SxxSyy
Sxy =n∑
i=1
(xi − x)(yi − y) =n∑
i=1
xiyi − nxy
Sxx =n∑
i=1
(xi − x)2 =n∑
i=1
x2i − nx2
Syy =n∑
i=1
(yi − y)2 =n∑
i=1
y 2i − ny 2
−1 ≤ r ≤ 1로 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의
상관관계, 0에 가까우면 원형
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 19 / 20
이변량데이터 IV
상관계수는 선형 척도이므로 그림 2-15처럼 비선형이거나 그림 2-16처럼
혼합집단인 경우 의미가 없음
허위상관계수(spurious correlation): (예) 범죄와 버블껌 판매량간의 강한
양의 상관관계 - 다른 원인(lurking variable) 존재
예제 2.13
박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 20 / 20