42
통계학입문 제2장 Graph에 의한 기술통계

제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문

제2장 Graph에 의한 기술통계

Page 2: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 2

기술통계 ( Descriptive Statistics )

자료의 대략적인 모습을 보여주기

섬세한 분석을 위한 기초단계

수치에 의한 자료의 요약

예 ) 평균, 분산 등

Graph나 표를 이용한 기술

Page 3: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 3

1. 도수분포표 ( Frequency Distribution )

자료의 전체적인 구성 형태를 도수 ( Frequency ) 로 표현함

명목자료나 순서자료

값들을 그대로 사용하거나 그 종류가 너무 많으면 비슷한 값들을 묶어 사용

예: 어떤 부류의 동호인들이 동호인 마을을 이루고 있는 지 13개 마을을 조사하였다.

• 음악, 미술, 미술, 영화, 역술,

• 음악, 음악, 영화, 미술, 영화,

• 미술, 음악, 음악

Page 4: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 4

1. 도수분포표 ( Frequency Distribution )

상대도수 ( Relative Frequency )

상대도수분포표 ( Relative Frequency Distribution )

수전체자료의

도수상대도수

음악인 마을이 38%로 제일 많고, 역술인 마을이 8%를 차지

Page 5: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 5

1. 도수분포표 ( Frequency Distribution )

구간 ( 또는 계측 ) 자료인 경우, 전체범위를 몇 개의 계급 ( Class ) 으로 나눔

예 : 몸무게 50Kg 미만, 50Kg 이상 60Kg 미만, 60Kg 이상 70Kg 미만, 70Kg 이상

각 계급에 속하는 자료의 수를 도수로 표현

모든 계급구간 ( Class Interval ) 또는 계급폭 ( Class Width ) 은 동일

처음과 끝의 계급은 제외

Page 6: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 6

1. 도수분포표 ( Frequency Distribution )

누적도수 ( Cumulative Frequency )

아래 계급에서부터 차례로 도수를 누적시키며 구함

누적상대도수 ( Cumulative Relative Frequency )

Page 7: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 7

2. Bar Chart와 Pie Chart

명목자료를 Graph로 표시

Bar Chart Pie Chart

각 항목의 각도 = 360 * 상대도수

Page 8: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 8

3. Histogram

순서형 자료와 숫자형 자료를 도수분포표를 이용하여

Graph형태로 나타낸 것

Page 9: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 9

3. Histogram

자료에 대한 정보를 특징적 형태로 제공함

대칭 ( Symmetry )

왜도 ( Skewness ) : 좌우로 쏠려있는 정도

양의 왜도 ( Right skewed ) : 오른쪽으로 길게 늘어짐

음의 왜도 ( Left skewed ) : 왼쪽으로 길게 늘어짐

Page 10: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 10

3. Histogram

모양 ( Shape ) : 종 모양 ( Bell Shape ), L자 모양, U자 모양

봉우리 개수 : 단봉 ( Unimodal ), 2봉 ( Bimodal )

상이한 집단의 자료들이 섞여 있을때

남녀 구별하지 않은 몸무게 자료

서울 강남과 강원도 삼척의 Apartment 가격 자료

Page 11: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 11

히스토그램 형태

4. 줄기 잎 전시 ( Stem – and – Leaf Display )

Histogram을 옆으로 돌려 놓은 것과 동일

Histogram이 생략하는 정보를 추가로 표현

각 자료의 값을 알 수 있음

Page 12: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 12

4. 줄기 잎 전시 ( Stem – and – Leaf Display )

누적도수곡선 ( Ogive ) : 도수를 누적 ( Cumulative Frequency ) 하여 꺾은선 Graph 형태로 그린 것

삼성전자 증권시세 누적도수곡선

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

0 100000 200000 300000 400000 500000 600000 700000 800000

Page 13: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 13

5. 상자그림 ( Box Plot )

자료를 개괄적으로 알아보기 위함

다섯숫자요약 ( Five - Number Summary )

최소값, 1 4분위수 ( First Quartile ), 중위수, 3 4분위수 ( Third Quartile ), 최대값

자세한 내용은 3장 참조

다섯숫자요약을 이용하여 Graph로 그린 것이 상자수염그림 ( Box – and - Whisker Plot ) 또는 상자그림 ( Box Plot )

1 4분위수와 3 4분위수로 상자의 길이가 결정

중위수 위치에 상자의 가운데 선

Page 14: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 14

5. 상자그림 ( Box Plot )

1871년에서 1970년까지 Aswan에서 잰 Nile강 유량의 다섯숫자요약

Min. 1st Q. Median 3rd Q. Max.

456 798.5 893.5 1032 1370

[ 그림 2.7 ] Nile강 유량 상자그림

600 800 1000 1200 1400

Page 15: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 15

5. 상자그림 ( Box Plot )

그림 2.8은 태양흑점의 상자그림

투키 ( John W. Tukey ) 제안한 방법에 의하여 그린 상자그림

자세한 내용은 Exploratory Data Analysis ( John W. Tukey, 1970, Addison - Wesley Publishing Co. ) 또는 R을 활용한 탐색적 자료분석 ( 허명회, 2007, 자유Academy )을 참조

[ 그림 2.8 ] 태양흑점 상자그림

0 50 100 150

Page 16: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 16

삼성전자와 엘지전자의 2005년 1-2월 주식시세

60,000

65,000

70,000

75,000

80,000

85,000

420,000 440,000 460,000 480,000 500,000 520,000 540,000

삼성전자

엘지

전자

6. 산점도 ( Scatter Plot, Scatter Diagram )

두 변수의 연관성을 보여줌

X, Y축 위에 점으로 각 자료를 표시

선형성 ( Linearity )

양의 선형관계, 음의 선형관계

Page 17: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 17

<이차원분할표>

<삼차원분할표>

7. 분할표 ( Contingency table )

두 개 이상의 명목형, 순서형 변수에 대한 2차원 또는 다차원 형태의 도수분포표

Page 18: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 18

삼성전자

400,000

450,000

500,000

550,000

600,000

650,000

700,000

1 22 43 64 85 106 127 148 169 190 211 232

<삼성전자 주식의 시간에 따른 가격 변화>

8. 시계열그림 ( Time Series Plot )

시간의 변화에 따라 얻게 되는 시계열자료를 Graph로 표현

( 예. 매년 태양의 복사량, 계절에 따른 온도의 변화, 각 분기별 소비물가지수, 매일의 증권시세 등 )

X축 : 시간, Y축 : 해당자료

Page 19: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 19

9 평행좌표그림 ( Parallel Coordinates Plot )

다변량자료를 2차원 평면에 나타내고 그 해석을 직관적으로 할 수 있다는 편리성 때문에 널리 사용되고 있는 Graph 기법

각 변수 (변량) 을 평행으로 늘어 놓고 다변량 개별 자료를 선으로 이어 놓은 것

자료가 너무 많아 선들이 겹쳐 따라 전체적인 Pattern을 볼 수 없는 경우도 있고, 변수가 너무 많으면 평행좌표들 사이가 너무 가까이 있게 되고, 어떤 순서로 좌표를 그리는 것이 좋은 지 알기 어렵다는 단점

Page 20: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 20

9 평행좌표그림 ( Parallel Coordinates Plot )

선들이 무리지어 같은 Pattern으로 이어져 있는 것으로 자료에 군집이 존재하는 지 알 수 있고, 한 축에서 다른 축으로 연결될 때 큰 값끼리, 작은 값끼리 연결 된다면 두 변수는 서로 양의 관계 ( Positive Relationship ) 이고, 큰 값은 작은 값, 작은 값은 큰 값으로 연결 된다면, 즉 선들이 X자로 교차된다면, 두 변수가 음의 관계( Negative Relationship ) 라는 것을 알 수 있음

Page 21: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 21

9 평행좌표그림 ( Parallel Coordinates Plot )

그림 2.11 붓꽃자료의 평행좌표그림

Min

Max

Sepal.Length

Sepal.W

idth

Peta

l.Length

Peta

l.W

idth

Page 22: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 22

9 평행좌표그림 ( Parallel Coordinates Plot )

그림 2.12 붓꽃의 종류별 평행좌표그림

Sepal.Length

Sepal.Width

Petal.Length

Petal.Width

Min Max

setosa versicolor

Sepal.Length

Sepal.Width

Petal.Length

Petal.Width

virginica

Page 23: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 23

10 종횡비 ( Aspect Ratio )

우상향 방향으로의 증가 또는 우하향 방향으로의 감소 경향이 있는 자료

X축과 Y축의 척도에 대한 것이 아니고 실제 그려 놓은 Graph의 X축과 Y축의 비율을 의미

실제 Graph의 세로와 가로의 비율을 의미

예 : Centimeter 단위의 키 ( X축 ) 와 Kilogram 단위의 몸무게 ( Y축 ) 를 산점도로 그린다고 할 때 자료에서의 최대, 최소 값에 의하여 적당한 X축은 150에서 190, Y축은 60에서 85로 정하였다고 할 때 종횡비를 5대 5로 그린 Graph와 8대 7로 그린 Graph가 주는 정보가 서로 다를 수 있음

증가 또는 감소의 경향이 양 또는 음의 방향으로 45도가 되도록 그리는 것이 좋다고 알려져 있음

Page 24: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 24

10 종횡비 ( Aspect Ratio )

그림 2.13과 그림 2.14는 1700년부터 1988년까지의 태양 흑점수의 Graph

그림 2.13은 종횡비 1 : 1로 그린 Graph이고, 그림 2.14는 종횡비 1 : 10 이상으로 그린 Graph

그림 2.13은 극대, 극소값을 찾기는 쉽지만 그림 2.14에서는 약 11년 주기의 태양 흑점수의 변동을 볼 수 있고, 한 주기 내에 증가와 감소의 시간이 거의 비슷한 경우가 몇 개 있으나, 전체적으로 증가 할 때는 빠르게 증가하나 감소하는 시간은 그 보다 오래 걸린다는 것을 눈으로 확인할 수 있음

Page 25: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 25

10 종횡비 ( Aspect Ratio )

[ 그림 2.13 ] 태양의 흑점 ( 종횡비 1 : 1 )

Number of Sunspots, 1700-1988

Time

su

nsp

ot.ye

ar

1700 1750 1800 1850 1900 1950

05

01

00

15

0

Page 26: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 26

10 종횡비 ( Aspect Ratio )

[ 그림 2.14 ] 태양의 흑점 ( 종횡비 1 : 10 이상 )

1700 1750 1800 1850 1900 1950

01

50

Page 27: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 27

Excel 연습

동호인 마을 13군데 ( 어떤 동호인들이 살고있나 )

음악, 미술, 미술, 영화, 역술, 음악, 음악, 영화, 미술, 영화,

미술, 음악, 음악

이 자료의 변수명은 ‘ 동호인 마을 ’

Page 28: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 28

Excel 연습

Step 1. 첫 행에 변수명을 먼저 입력한 후 그 밑에 차례로 자료를 Sheet에 입력

※ 주의 : 변수명을 첫 행에 꼭 입력

Page 29: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 29

Excel 연습

Step 2. [ 삽입 ] Menu의 [ PivotTable ] 을 선택하면 Pivot Table 만들기 대화창이 나타남

Page 30: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 30

Excel 연습

Step 3. [ 표 또는 범위 선택 ] 을 위해 표 / 범위의 오른쪽 네모난 Tap을 Click하면 Data를 입력할 창이 나옴. 이 때 Data 전체를 Drag하여 Data 범위를 $A$1:$A$14이 되도록 함. 그 후 오른쪽 Tap을 다시 Click

※ 주의 : $A$1는 Data가 아님. 그러나 Pivot Table을 만들기 위하여는 $A$1가 Data의 범위에 들어가야 함

Page 31: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 31

Excel 연습

Step 4. Pivot Table 대화창에서 Pivot Table 보고서 작성 위치를 기존 WorkSheet로 선택하고 C3 Cell을 지정한 후 확인을 선택

Page 32: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 32

Excel 연습

Step 5. WorkSheet에 다음과 같이 나타남

Page 33: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 33

Excel 연습

Step 6. Pivot Table Field 목록의 “ 보고서에 추가할 Field 선택 ” 에 동호인 마을을 선택하면 행 Label에 동호인 마을이 나타남

Page 34: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 34

Excel 연습

Step 7. 다시 Pivot Table Field 목록의 동호인 마을을 우Click 하여 값에 추가를 선택

Page 35: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 35

Excel 연습

Step 8. 그러면 도수분포표의 역할을 하는 Pivot Table이 완성

Page 36: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 36

Excel 연습

Step 9. [ Pivot Table 도구 ] 중 [ Option ] 을 선택하여 [ Pivot Chart ] 를 선택

Page 37: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 37

Excel 연습

Step 10. 세로막대형 중 첫 번째 것을 선택한 후 확인

Page 38: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 38

Excel 연습

Step 11. 그러면 Chart1에 다음과 같이 Histogram이 그려짐

Page 39: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 39

Excel 연습

Step 12. 오른쪽 MouseButton을 이용하여 하나 더 복사

Page 40: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 40

Excel 연습

Step 13. 복사한 Chart를 오른쪽 Mouse로 Click한 후 Chart 종류 변경을 선택

Page 41: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 41

Excel 연습

Step 14. Chart종류 : 원형을 선택하고 확인

Page 42: 제2장 Graph에 의한 기술통계 - cs.dsu.ac.kr

통계학입문 42

Excel 연습

Step 15. 결과로 얻어진 Histogram과 Pie Chart