20
2¥. pt0X lp =t YP ˜Yü =t (YP ˜Yü) 2¥. pt0X lp 1 / 20

Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

2장. 데이터의 구조

박창이

서울시립대학교 통계학과

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 1 / 20

Page 2: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

학습내용

데이터의 종류

데이터의 표현과 요약

이산형 데이터

연속형 데이터

중심을 나타내는 척도

퍼짐을 나타내는 척도

이변량 데이터

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 2 / 20

Page 3: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

데이터의 종류 I

데이터의 종류

단일변량데이터(univariate data)

다변량데이터(multivariate data): 예) 이변량데이터(bivariate data)

통계적 데이터

질적 데이터(qualitative data): 성별(남, 여), 혈액형(A,B, O, AB) 등

범주형 데이터(categorical data)

양적 데이터(quantitative or measurement data): 키, 몸무게, 사고 건수

등 수치 데이터

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 3 / 20

Page 4: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

데이터의 종류 II

세부적인 구분

명목척도데이터(nominal scaling data): 일대일 대응 예) 성별(남/

여:1/2, M/F),

서수척도데이터(ordinal scaling data): 순서 관계 예) 학점, 설문조사

문항(매우 그렇다, 그렇다, 보통이다...)

구간척도데이터(interval scaling data): 예) 키, 몸무게, 총점, 온도

비율척도데이터(ratio scaling data)

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 4 / 20

Page 5: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

데이터의 종류 III

예제: 10페이지 데이터 집합(data set)

변수(variable)

관측치(observation)

변수

이산형변수(discrete variable): 변수가 취하는 값의 갯수가 유한 혹은

자연수와 일대일 대응

연속형변수(continuous variable)

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 5 / 20

Page 6: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

데이터의 표현과 요약

표(table), 그림(graph, chart, or diagram), 수치 요약값 등을 이용하여

데이터의 분포의 대칭성, 치우침의 정도, 이상치(outlier) 등의 데이터의

구조를 파악

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 6 / 20

Page 7: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

질적 데이터의 표현

도수분포표(frequency table)

각 범주와 그에 속한 데이터의 갯수(도수: count)를 나타낸 표

상대도수(relative frequency) = 해당 범주의 도수/데이터 전체의 갯수

예제 2.1

파이 차트(pie chart): 예제 2.1에 대한

파레토 그림(Pareto diagram): 예제 2.3

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 7 / 20

Page 8: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

이산형 데이터의 표현

도수분포표

누적도수(cumulative frequency): 해당 값까지의 도수 합

누적상대도수(cumulative relative frequency): 누적도수/전체 데이터의

갯수

예제 2.4

막대그림(bar graph): 예제 2.5

막대그림에서는 막대의 높이가 해당 도수

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 8 / 20

Page 9: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

연속형 데이터의 표현 I

구간 분할에 의한 도수분포표

몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 갯수를 도수로

작성

구간의 갯수는 흔히 5 15

예제 2.6

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 9 / 20

Page 10: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

연속형 데이터의 표현 II

점도표(dot diagram)과 히스토그램(histogram)

점도표 예: 그림 2-5

히스토그램은 직사각형 면적이 해당 도수에 대응

(상대도수) 히스토그램의 직사각형 높이=상대도수/구간의 폭

히스토그램 예: 그림 2-6, 패턴: 그림 2-7

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 10 / 20

Page 11: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

연속형 데이터의 표현 III

줄기와 잎 도표(stem-and-leaf display)

정보의 손실 없이 원 데이터값을 알 수 있음

잘못된 그림 예: 그림 2-9, 1차원 데이터를 2차원으로 표시하여 잘못된

인상을 주는 경우

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 11 / 20

Page 12: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

중심을 나타내는 척도 I

평균(mean)

모평균(population mean): 모집단의 전체 평균으로 µ로 나타냄

표본평균(sample mean): 표본에 대한 평균

x =1

n

n∑i=1

xi

표본: x1, . . . , xn

이상치에 영향을 많이 받음 (예) 회사의 평균 급여

중앙값(median)

데이터를 크기순으로 정렬하였을 때 중앙에 위치한 값(n이 짝수일 때는

중앙의 두 값의 평균)

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 12 / 20

Page 13: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

중심을 나타내는 척도 II

예제 2.7, 2.8

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 13 / 20

Page 14: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

퍼짐을 나타내는 척도 I

그림 2.11: 중심을 나타내는 척도만으로는 부족

편차(deviation) = 데이터값 - 표본평균

편차의 합 =∑n

i=1(xi − x) = 0이므로 편차의 제곱을 고려

표본분산(sample variance) = s2 = 1n−1

∑ni=1(xi − x)2

s2 =1

n − 1

(n∑

i=1

x2i − nx2

)

표본표준편차(sample standard deviation)= s =√s2: 단위가

데이터와 동일

n − 1을 사용하는 이유는 기대값이 모분산(population variance) σ2이

예제 2.9박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 14 / 20

Page 15: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

퍼짐을 나타내는 척도 II

표본범위(sample range)= 데이터의 최대값 - 데이터의 최소값:

이상치에 큰 영향을 받음

표본사분위수범위(sample interquartile range) = 제3사분위수 - 제1

사분위수

예제 2.10

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 15 / 20

Page 16: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

퍼짐을 나타내는 척도 III

다섯숫자요약(5-number summary): 최소값, 제1사분위수, 중앙값, 제3

사분위수, 최대값

백분위수(percentile): 제25백분위수=제1사분위수

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 16 / 20

Page 17: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

이변량데이터 I

하나의 조사단위에 대하여 조사된 변수가 둘인 경우

이변량 범주형 데이터

이차원 형태의 결합도수분포표(joint frequency table) 혹은

분할표(contingency table)로 요약

예제 2.11

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 17 / 20

Page 18: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

이변량데이터 II

이변량 양적 데이터

산점도(scatter diagram)

(x1, y1), . . . , (xn, yn)을 이차원 평면상에 표현한 것으로 두 변수간의 관계

파악

예제 2.12

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 18 / 20

Page 19: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

이변량데이터 III

상관계수(correlation coefficient)

r =Sxy√SxxSyy

Sxy =n∑

i=1

(xi − x)(yi − y) =n∑

i=1

xiyi − nxy

Sxx =n∑

i=1

(xi − x)2 =n∑

i=1

x2i − nx2

Syy =n∑

i=1

(yi − y)2 =n∑

i=1

y 2i − ny 2

−1 ≤ r ≤ 1로 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의

상관관계, 0에 가까우면 원형

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 19 / 20

Page 20: Ü YP Y X lp 1 / 20statlearn.uos.ac.kr/.../ch2_datastructure.pdf · 2016-08-22 · Yµ·' pt0X–X pt0X\ üfl} t° pt0 ð“ pt0 ìDŸÀ·flŽ˜ |—DŸÀ·flŽ˜ tÀÉ pt0 =t

이변량데이터 IV

상관계수는 선형 척도이므로 그림 2-15처럼 비선형이거나 그림 2-16처럼

혼합집단인 경우 의미가 없음

허위상관계수(spurious correlation): (예) 범죄와 버블껌 판매량간의 강한

양의 상관관계 - 다른 원인(lurking variable) 존재

예제 2.13

박창이 (서울시립대학교 통계학과) 2장. 데이터의 구조 20 / 20