Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

$Page 1: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t$
2장. 데이터의 구조

박창이

서울시립대학교 통계학과

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 1 / 20

학습내용

데이터의 종류

데이터의 표현과 요약

이산형 데이터

연속형 데이터

중심을 나타내는 척도

퍼짐을 나타내는 척도

이변량 데이터


데이터의 종류 I

데이터의 종류

단일변량데이터(univariate data)

다변량데이터(multivariate data): 예) 이변량데이터(bivariate data)

통계적 데이터

질적 데이터(qualitative data): 성별(남, 여), 혈액형(A,B, O, AB) 등

범주형 데이터(categorical data)

양적 데이터(quantitative or measurement data): 키, 몸무게, 사고 건수

등 수치 데이터


데이터의 종류 II

세부적인 구분

명목척도데이터(nominal scaling data): 일대일 대응 예) 성별(남/

여:1/2, M/F),

서수척도데이터(ordinal scaling data): 순서 관계 예) 학점, 설문조사

문항(매우 그렇다, 그렇다, 보통이다...)

구간척도데이터(interval scaling data): 예) 키, 몸무게, 총점, 온도

비율척도데이터(ratio scaling data)


데이터의 종류 III

예제: 10페이지 데이터 집합(data set)

변수(variable)

관측치(observation)

변수

이산형변수(discrete variable): 변수가 취하는 값의 갯수가 유한 혹은

자연수와 일대일 대응

연속형변수(continuous variable)


데이터의 표현과 요약

표(table), 그림(graph, chart, or diagram), 수치 요약값 등을 이용하여

데이터의 분포의 대칭성, 치우침의 정도, 이상치(outlier) 등의 데이터의

구조를 파악


질적 데이터의 표현

도수분포표(frequency table)

각 범주와 그에 속한 데이터의 갯수(도수: count)를 나타낸 표

상대도수(relative frequency) = 해당 범주의 도수/데이터 전체의 갯수

예제 2.1

파이 차트(pie chart): 예제 2.1에 대한

파레토 그림(Pareto diagram): 예제 2.3


이산형 데이터의 표현

도수분포표

누적도수(cumulative frequency): 해당 값까지의 도수 합

누적상대도수(cumulative relative frequency): 누적도수/전체 데이터의

갯수

예제 2.4

막대그림(bar graph): 예제 2.5

막대그림에서는 막대의 높이가 해당 도수


연속형 데이터의 표현 I

구간 분할에 의한 도수분포표

몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 갯수를 도수로

작성

구간의 갯수는 흔히 5 15

예제 2.6


연속형 데이터의 표현 II

점도표(dot diagram)과 히스토그램(histogram)

점도표 예: 그림 2-5

히스토그램은 직사각형 면적이 해당 도수에 대응

(상대도수) 히스토그램의 직사각형 높이=상대도수/구간의 폭

히스토그램 예: 그림 2-6, 패턴: 그림 2-7


연속형 데이터의 표현 III

줄기와 잎 도표(stem-and-leaf display)

정보의 손실 없이 원 데이터값을 알 수 있음

잘못된 그림 예: 그림 2-9, 1차원 데이터를 2차원으로 표시하여 잘못된

인상을 주는 경우


중심을 나타내는 척도 I

평균(mean)

모평균(population mean): 모집단의 전체 평균으로 µ로 나타냄

표본평균(sample mean): 표본에 대한 평균

x =1

n

n∑i=1

xi

표본: x1, . . . , xn

이상치에 영향을 많이 받음 (예) 회사의 평균 급여

중앙값(median)

데이터를 크기순으로 정렬하였을 때 중앙에 위치한 값(n이 짝수일 때는

중앙의 두 값의 평균)


중심을 나타내는 척도 II

예제 2.7, 2.8


퍼짐을 나타내는 척도 I

그림 2.11: 중심을 나타내는 척도만으로는 부족

편차(deviation) = 데이터값 - 표본평균

편차의 합 =∑n

i=1(xi − x) = 0이므로 편차의 제곱을 고려

표본분산(sample variance) = s2 = 1n−1

∑ni=1(xi − x)2

s2 =1

n − 1

(n∑

i=1

x2i − nx2

)

표본표준편차(sample standard deviation)= s =√s2: 단위가

데이터와 동일

n − 1을 사용하는 이유는 기대값이 모분산(population variance) σ2이

됨

예제 2.9박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 14 / 20

퍼짐을 나타내는 척도 II

표본범위(sample range)= 데이터의 최대값 - 데이터의 최소값:

이상치에 큰 영향을 받음

표본사분위수범위(sample interquartile range) = 제3사분위수 - 제1

사분위수

예제 2.10


퍼짐을 나타내는 척도 III

다섯숫자요약(5-number summary): 최소값, 제1사분위수, 중앙값, 제3

사분위수, 최대값

백분위수(percentile): 제25백분위수=제1사분위수


이변량데이터 I

하나의 조사단위에 대하여 조사된 변수가 둘인 경우

이변량 범주형 데이터

이차원 형태의 결합도수분포표(joint frequency table) 혹은

분할표(contingency table)로 요약

예제 2.11


이변량데이터 II

이변량 양적 데이터

산점도(scatter diagram)

(x1, y1), . . . , (xn, yn)을 이차원 평면상에 표현한 것으로 두 변수간의 관계

파악

예제 2.12


이변량데이터 III

상관계수(correlation coefficient)

r =Sxy√SxxSyy

Sxy =n∑

i=1

(xi − x)(yi − y) =n∑

i=1

xiyi − nxy

Sxx =n∑

i=1

(xi − x)2 =n∑

i=1

x2i − nx2

Syy =n∑

i=1

(yi − y)2 =n∑

i=1

y 2i − ny 2

−1 ≤ r ≤ 1로 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의

상관관계, 0에 가까우면 원형


이변량데이터 IV

상관계수는 선형 척도이므로 그림 2-15처럼 비선형이거나 그림 2-16처럼

혼합집단인 경우 의미가 없음

허위상관계수(spurious correlation): (예) 범죄와 버블껌 판매량간의 강한

양의 상관관계 - 다른 원인(lurking variable) 존재

예제 2.13


Documents

Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t