60
- 1 - 연구 및 교육용 공간정보기술 통합플랫폼 Kaos-G[QGIS] - 공간 통계 분석 이론- 국토연구원 국토정보연구본부 연구교육 공간정보기술 통합플랫폼 개발팀

2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 1 -

연구 및 교육용 공간정보기술 통합플랫폼

Kaos-G[QGIS]

- 공간 통계 분석 이론-

국토연구원 국토정보연구본부연구교육 공간정보기술 통합플랫폼 개발팀

Page 2: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

1. 공간 통계 분석

1) 공간통계 분석의 의의

◦ 공간현상의 특성

- 우리가 일상적으로 관찰하게 되는 수많은 다양한 현상들은 기본적으로 시공간상

에서 발생함으로 인하여 자기상관성(autocorrelation)을 가지게 되는데 이는 시공

간적으로 인접해 있을수록 그 성향 혹은 속성이 비슷할 가능성이 높음을 의미함

- 이러한 현상들은 또한 시공간적 불확실성(spatiotemporal uncertainty)을 띠고 발

생하기 때문에 그 결과들은 추계적 시공간 과정(stochastic spatiotemporal

process)의 산물로 볼 수 있음

- 즉, 시공간 현상들은 정확하게 설명하기 어려운 무위오차(random error)로 인하

여 동일한 조건에서 다시 발생하더라도 정확히 동일한 결과가 도출되지 않을 수

있음을 의미함. 예를 들어, 범죄발생에 영향을 주는 모든 시공간 요인들을 동일

하게 놓더라도 정확하게 같은 형태(발생위치, 빈도 등)로 범죄가 발생하지는 않

을 것이며 일정한 차이를 보이게 되는데 이러한 차이가 무위오차임1)

- 결론적으로 시공간 현상은 자기상관성을 보이며 무위오차가 전제된 추계적 과정

의 결과로 볼 수 있음

◦ 공간통계 분석의 필요성

- 시공간 현상은 그 발생과정이 본질적으로 추계적 성격을 지니고 있기 때문에 결

정론적 방법론(예: 미분방정식)으로는 의미 있는 결과를 도출하기 어려움

- 따라서 추계적 현상이 가지는 무위오차를 체계적으로 설명하기에 적합한 분석방

법론이 필요한데 일반적으로 통계적 방법론이 이에 해당함

- 그런데 시공간 현상이 가지는 또 다른 특징인 자기상관성은 일반적인 통계분석

1) 이는 동전을 던질 때 앞면이 나올 확률이 0.5라 하더라도 이는 동전을 무한번 던질 경우 앞면이 나오는 횟수의 비율을 의미하는 공리적 확률일 뿐임. 동전을 던져서 앞면이 나오는 횟수가 만일 결정론적(deterministic)으로 이루어진다면 가령 10회 던질 경우 앞면이 ‘정확히’ 5회가 나와야 함을 의미함. 실제로는 그렇지 않으며 10회 던지는 실험을 반복할 경우 앞면-뒷면의 횟수가 가령 3-7, 6-4, 5-5, 8-2 등과 같이 나올 수 있음. 매번마다 정확하게 5-5가 되지 않는 것은 그 이유를 결정하기 어려운 무위오차(random error)로 인한 것임. 시공간 현상은 이러한 의미에서 결정론적 현상(deterministic phenomena)이 아닌 추계적 현상(stochastic phenomena)으로 볼 수 있음

Page 3: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 3 -

을 수행에 있어서 근본적인 문제를 초래함

- 일반적인 통계분석을 통하여 의미 있는 결과를 도출하기 위해서는 분석에 활용

되는 자료들의 통계적 독립성 가정(statistical independence assumption)이 만족되

어야 하는데 시공간 현상을 나타내는 자료의 경우 자기상관성으로 인하여 독립

성 가정이 위배되는 경우가 대부분임

- 자료들의 통계적 독립성이란 자료 하나 하나가 등가정보(equivalent information)

를 가지고 있어야 함을 의미함. 예를 들어, 두 개의 자료가 유사한 정보를 가질

경우 굳이 두 개의 자료가 필요가 없음. 통계분석을 위하여 자료를 두 개 수집

하는 것은 한 자료만으로는 알기 어려운 다른 정보를 다른 자료가 제공하기 때

문이고 이는 결과적으로 통계분석결과의 신뢰성을 높일 수 있기 때문임. 바꾸어

말하면 자료들 간 유사성이 클수록 정확하고 유의미한 분석결과를 도출하기 어

려움

- 시공간자료가 가지는 자기상관성은 자료들 간 유사성을 높이기 때문에 자료들

간 독립적인 등가정보를 전제로 하는 일반적인 통계분석기법을 적용할 경우 통

계적으로 신뢰하기 어려운 왜곡된 결과가 도출될 가능성이 높아짐

- 공간통계 분석기법은 추계적 특성을 다루는 일반통계학적 방법론에 자기상관성

이라는 특성을 체계적으로 반영하여 정보의 중첩으로 인한 분석결과의 왜곡을

최소화하기에 적합한 대안적 분석도구임

- 시공간 자기상관성은 자료들 간 시공간 거리를 전제로 가까울수록 가중치를 많

이 부여함으로써 유사성에 따른 정보손실을 반영함

◦ 공간통계 분석의 개념적 사례

- 특정 위치를 중심으로 혹은 특정 지역 내에서 바람직하지 않은 현상이 빈번하게

발생하는 경우 해당 현상은 공간적 군집성향을 보이는 것으로 해석할 수 있음

- 예를 들어 범죄/질병/교통사고 발생, 고령인구비율 증가 등은 특정 지점(지역) 및

시점(시기)에 집중적으로 발생할 경우 그로 인하여 파생되는 사회경제적 비용증

가와 같은 잠재적 문제가 심화될 우려가 있음

- 그런데 관찰된 현상을 보고 공간적 군집성향을 보인다고 결론짓기 위해서는 좀

더 체계적인 증거가 필요한데 이는 공간현상들은 공간적 불확실성(spatial

uncertainty)을 전제로 발생하기 때문임

- 예를 들어, 어떤 지역에 과거 10년간 발생한 절도범죄가 월평균 10건이라고 할

경우 이 지역에서 과거 10여 년간 발생한 월별 절도범죄 건수를 보면 평균인 10

Page 4: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 4 -

건보다 적게 발생한 달도 있고 반대로 이 예에서처럼 발생빈도가 더 큰 달도 있

을 것임

- 만일 특정 달(month)에 이 지역에서 발생한 절도범죄가 20건이라면 이는 월별로

집계 가능한 다양한 발생 빈도수들 중 하나로 볼 수 있음

- 이 예에서 빈도수가 평균을 중심으로 좌우 대칭의 빈도분포를 이룬다면 해당 지

역은 월 평균에 해당하는 10건의 빈도수를 가질 가능성이 가장 높을 것이고 20

건이 발생할 가능성은 이보다는 낮을 것임

- 도수(빈도)분포를 놓고 보면 절도범죄의 월별 발생빈도를 정확하게 예측할 수는

없지만 과거 실증자료를 토대로 가능성을 추정할 수는 있음

- 즉, 이 예에서 특정 달에 20건이 발생한 가능성은 정확한 예측은 어렵지만 가능

성 즉, 확률을 계산할 수는 있음

- 공간적 불확실성은 발생빈도를 정확하게 예측하기 어려운 공간현상의 특성을 나

타내는 동시에 빈도의 가능성을 체계적으로 추정할 수 있음을 함의함

- 만일 20건의 절도범죄 발생빈도의 가능성이 매우 낮은데도 불구하고 특정 달에

발생한 것으로 관찰되었다면 이는 통계적으로 유의한 것으로 해석함

- 즉, 20건의 절도범죄 발생이 특정지역에서 공간군집 성향을 보이는 것으로 통계

적 근거를 가지고 결론지을 수 있는 것임

- QGIS를 플랫폼으로 PySAL 라이브러리를 이용하거나 직접 구현할 공간통계 분석

기능들은 아래 <표 Ⅳ-2>와 같음

분석유형 공간통계 분석기능 결과유형 구현방식

공간 자기상관성

(spatial autocorrelation)

Global Moran’s I statistic 전역(global) PySAL 활용

Local Moran’s I statistic 국지(local) PySAL 활용

공간 군집도

(spatial clustering)

Global G statistic 전역(global) PySAL 활용

Local G statistic 국지(local) PySAL 활용

Nearest neighbor statistic 전역(global) Python 모듈구현

K-function 전역(global) Python 모듈구현

시공간 군집도

(spatiotemporal clustering)Knox statistic 전역(global) Python 모듈구현

공간 군집지역 탐색

(spatial clusters detection)Spatial scan statistic 국지(local) Python 모듈구현

ESDA 도구 Moran scatter-plot 국지(local) PySAL 활용

<표 1> QGIS 플랫폼 기반으로 구현할 공간통계 분석기능들

Page 5: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 5 -

- 위의 표에서 제시된 바와 같이 nearest neighbor statistic(최근린통계량),

K-function, spatial scan statistic(공간검색통계량), Knox statistic은 PySAL에서 제

공하는 기능이 아니며 수요조사에 따라 Python 모듈로 구현할 공간통계 분석기

능들임

- Moran scatter-plot은 local Moran’s I 통계량 결과들을 산점도(scatter-polt)로 표

시함으로써 전반적인 공간적 자기상관 구조를 이해하는데 유용한 분석도구임

- 2절에는 <표 Ⅳ-2>에서 정리한 공간통계 분석기능들을 대상으로 각 기능의 이론

적 내용과 함께 QGIS 플랫폼 기반으로 PySAL을 이용하거나 신규 Python 모듈로

구현하는 과정을 상세하게 설명함

- 3장에서는 이를 실증자료에 어떻게 적용하여 결과를 도출하고 이를 해석하는지

등에 관한 실증적 활용방안에 관하여 구체적으로 논의함. 분석기능에 대한 설명

은 <표 Ⅳ-2>에 제시된 순서대로 진행함

2) 공간 통계 분석방법론 이론

(1) Global Moran 통계량

◦ Global Moran 통계량 (이후 통계량)은 공간자기상관(spatial

autocorrelation)의 전반적 경향을 추정하는데 일반적으로 활용되는 공

간통계량으로써 Moran(1950)이 제안한 이후로 계량지리학 및 공간통계

학 분야에서 폭넓게 활용되어오고 있음

◦ 특히 Tobler(1970)의 지리학 제1법칙(first law of geography) 선언 이후

제시된 수많은 공간통계 분석기법의 모체 역할을 해오고 있음

◦ 지리학 제1법칙은 “모든 사물은 관련이 있는데 가까이 있는 사물들은

멀리 있는 것들보다 더 관련되어 있다(Everything is related with

everything else, but near things are more related than distance

things).”라는 명제로 지리적 공간상에서 가까운 지점들의 경우 비슷한

성향 혹은 값은 가진다는 의미임

◦ 어떤 공간현상(예: 국내 노인인구의 분포)에 대하여 유사한 값들(발생 건

Page 6: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 6 -

수)이 지리적으로 인접한 정도가 우세할수록 통계량은 큰 값을 가짐

◦ 반대로 다른 값들이 인접하여 분포할 경우 이 통계량은 작아짐

◦ 유사하다는 의미는 해당 현상의 평균보다 크거나 혹은 작은 값들이 연

속적으로 혹은 인접해 있음을 의미하고 다르다는 것은 이와는 반대로

평균보다 큰 값과 작은 값들이 번갈아 가면서 인접할 경우를 의미함

◦ <그림 Ⅳ-2>는 통계량의 구성 원리를 예시함

◦ 맨 오른쪽 그림의 경우 큰 값을 가지는 단위지역에 인접한 지역이 작

은 값을 가지는 패턴이 규칙적으로 나타나고 있음

◦ 이는 유사한 값들이 연속적으로 배열된 공간 군집패턴(spatial pattern

of similar values clustering)으로 양의 공간자기상관성을 가지는 것으로

볼 수 있음

◦ 맨 왼쪽의 그림은 평균에 해당하는 흰색(정사각형 격자형태의 단위지

역)보다 큰 값들과 작은 값들이 연속해서 분포한 공간패턴을 예시함

◦ 이러한 패턴은 음의 공간자기상관성을 보이는 것으로 해석함

◦ 이는 또한 다른 값들의 연속적 공간배열로 볼 수 있는데 서로 인접한

다른 값이 규칙적으로 나타나는 것이 바둑판을 연상한다는 점에서 규

칙적 바둑판 패턴(checkerboard pattern)으로 지칭하기도 함

◦ 가운데 그림은 인접한 단위지역들 간 값의 분포가 일정한 특징을 보이

지 않는 무작위 공간패턴(random spatial pattern)을 나타냄

◦ 무작위 공간패턴은 <그림 Ⅳ-2>의 맨 오른쪽 범례에 표시된 ‘매우

큼’부터 ‘매우 작음’까지의 범위 내에서 무작위로 값을 추출하여

각 단위지역에 할당 혹은 부여한 경우 나타날 수 있는 공간 배열의 한

예로 볼 수 있음

Page 7: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 7 -

<그림 1> 전역적 I 통계량의 구성 원리

◦ <그림 1>의 공간패턴은 해당 패턴을 형성하는데 기여한 공간과정

(spatial process)이라는 관점에서 설명할 수 있음

◦ ‘다’가 나타내는 패턴은 유사한 값들을 공간적으로 모으려는 공간과

정(spatial process)이 작용한 결과로 볼 수 있음

◦ ‘가’의 경우는 유사한 값들끼리 서로 인접하지 않으려는 공간과정의

결과 중 하나로 볼 수 있는데 이는 현실에서는 찾아보기 힘든 개념적

사례에 가까움

◦ 무작위 공간패턴의 경우 유사한 값들끼리 서로 끌어당기거나 밀어내려

는 공간과정이 없음을 나타내며 이는 ‘나’의 경우에 해당함

◦ 이러한 의미에서 유사한 값들이 군집하려는 정도는 바로 이 무작위 공

간패턴과 얼마나 차이가 나는가를 기준으로 추정함

◦ (식1)은 이러한 무작위 공간패턴으로부터 벗어난 정도를 추정하는 전역

적 I 통계량을 정의함

◦ (식1)에서 은 단위지역의 개수를, 는 단위지역 에서의 관찰 값을 나

타내는데 예를 들어, 이 단위지역 내 전체인구 대비 노인인구 비중(%)

Page 8: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 8 -

이 40%인 경우 =40이 됨. 는 모든 단위지역들이 가지는 값들의 평

균에 해당함

◦ 는 단위지역 와 의 ‘공간적 인접성’ 여부를 판단하기 위한 공간

가중치(spatial weight)를 의미하는데, 통상 두 단위지역의 경계공유

(boundary sharing)여부를 기준으로 공간가중치 값을 결정함

◦ 즉, 단위지역 와 가 경계를 공유하면 =1이고 그렇지 않으면 =0

으로 정의하는데 설명의 편의상 아래와 같이 (식1)을 (식2)2)으로 변환

◦ (식2)의 분모는 모든 단위지역들이 가지는 값들의 분산(variance)으로서

이는 상수(constant)임

◦ 실제로 통계량의 핵심 요소는 (식2)의 분자에 있는 요소인

인데, 이 요소는 두 단위지역 와 가 인접한 경우 즉,

=1인 경우 두 단위지역 값들이 평균으로부터 멀어지려는 성향이 어

느 정도 비슷한지를 나타내기 위한 일종의 공분산(covariance)에 해당함

◦ 즉, 단위지역 의 값이 평균보다 큰 값을 가지는데 와 인접한 에서도

평균보다 큰 값을 가진다면 의 값은 커질 것이며, 만

일 이러한 공분산 경향이 대상지 내 서로 인접한 단위지역 쌍(pair)들

에서 많이 나타난다면 (식2)의 값 역시 증가할 것임

◦ 이는 인접한 단위지역들 간 비슷한 값을 가지려는 경향이 우세함 즉,

2) (식2)의 분자에 있는

는 단위지역 에 대한 의 공간가중치를 전체 단위지역들 간

공간가중치들의 합 즉, 공간가중행렬 모든 요소의 합으로 나눈 것이다. 이는 (식2) 혹은 (식1)의 결과 값이 일정범위(-1 ~ +1)에 들어오도록 함으로써 해석을 위한 경계를 설정하는데 필요한 과정이다.

Page 9: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 9 -

공간자기상관성이 강함을 함의하는 것임

◦ 이와는 반대로 단위지역 의 값이 평균보다 작은 값을 가진다 하더라

도 와 인접한 에서도 평균보다 작은 값을 가진다면 이 역시

값을 증가시킬 것인데, 이 경우 와 각각

은 음수의 값을 가지지만 이 둘을 곱한 값은 양수이기 때문임

◦ 이 역시 평균을 기준으로 평균보다 작은 값을 띠는 방향으로 인접한 지

역들이 값을 가지는 경향이 강한 것으로 볼 수 있으며, 이 역시‘값의

유사성’관점에서 보면 공간자기상관성이 우세한 것으로 볼 수 있음

◦ 따라서 인접한 단위지역 와 가 경계를 공유하여 인접해 있음을 전제

로 즉, 는 1인 경우 두 지역 모두 평균보다 큰 값 혹은 작은 값을

가질 경우 (식1)은 증가하게 됨

◦ 두 단위지역이 인접하기 않은 경우는 =0이기 때문에 서로 유사한 값

을 가지든 다른 값을 가지든 (식1)에는 아무런 영향을 미치지 않는데,

만일 경계를 공유한 단위지역들이 서로 유사한 값(두 지역 모두 평균

보다 크거나 작은 경우에 해당)을 가지는 경우의 수가 우세할 경우 (식

1)은 전반적으로 커지게 됨

◦ 통상 (식1)은 –1과 +1 사이의 값을 가지는데, 이 식의 값이 이 클수록

양의(positive) 공간자기상관성이 크고 작을수록 음의(negative) 공간자

기상관성이 큰 것으로 해석함

◦ 이론적으로 +1의 값은 완벽한 공간자기상관패턴을, –1은 큰 값과 작은

값이 공간상에서 정연하게 배열된 완벽한 바둑판 패턴(checkerboard

pattern)을 의미하며, 0은 <그림 1>의 가운데 배열이 나타내는 무작위

공간패턴을 나타냄

◦ 는 중심극한정리(central limit theorem)에 의하여 정규분포 확률변수로

볼 수 있는데 (식1)을 자세히 보면 분모는 상수이고 분자는 일종의 공

분산 변수 값인 의 합의 형태로 정의되어 있기 때문임

Page 10: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 10 -

◦ 이해를 돕기 위하여 아래의 <그림 2>과 같

은 예를 제시함

◦ 이 그림에서 분석 대상지 (예: 시도 지역)

는 9개의 하위 단위지역(예: 시군구 단위)으

로 구성되어 있고, 임의의 단위지역 에 거

주하는 노인인구가 전체 인구수에서 차지하

는 비중(%)이 표시되어 있는데 이 비중을

변수 로 표시함

◦ 공간통계학적 방법론 구성의 관점에서 는 0%에서 100%까지 범위에서

임의의 값을 취할 수 있기 때문에 는 임의의 단위지역 에서 노인인

구 비중이라는 공간현상을 나타내기 위한 확률변수(random variable)로

볼 수 있음

◦ 이 확률변수는 이론적으로는 0%에서 100%까지 범위의 값을 가질 수

있지만 <그림 2>에 표시된 예시적 실증 자료에 의하면 5%에서 50%까

지로 국한된 범위에 내에서 임의의 값을 가지는 것으로 가정함

◦ 이 때 노인인구 비중이 특정 지역에서 높게 나타나도록 유도하는‘특

정한’공간과정이 없다고 할 경우 각 단위지역은 5%와 50% 범위 내에

서 임의의 값을 가지게 될 것임

◦ 그 결과 (식1)이 나타내는 공간자기상관성은 무작위 패턴을 띨 가능성

이 높게 되는데 이는 <그림 3>의 가운데 그림에 해당함(즉, 는 0에 가

까운 값이 됨)

◦ 그런데 단위지역별 노인인구 비중을 나타내는 실증 자료의 경우 <그림

3>의 맨 오른쪽과 같은 공간배열을 보인다고 가정할 경우 이 그림은

강한 양의 공간가지상관성을 보여서 값이 +1에 가깝게 됨

<그림 2> 분석 대상지 S

Page 11: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 11 -

<그림 3> 공간자기상관성을 나타내는 공간패턴의 개념적 예시

◦ 다시 말하면, 내에서 노인인구의 비중이 우세한 곳과 낮은 곳이 공

간적으로 뚜렷하게 구분되어 있음을 의미함

◦ 만일 시간을 거꾸로 거슬러 올라가서 단위지역별 노인인구 비중이 다

른 값을 가질 수 있으며 이를 여러 차례 반복할 수 있다고 가정할 경

우 이는 현재 실증적으로 관찰된 자료가 이러한 공간과정의 반복을 통

하여 도출된 여러 가능성 중 하나라는 의미를 가짐

◦ 만일 실증 자료에 대한 값 (=)을 포함하여 999번 반복해서 <그

림 Ⅳ-4>와 같은 가상의 1000개의 값들을 도출했다고 한다면 임의의

반복을 통하여 도출한 값은 일종의 시뮬레이션 결과에 해당함

◦ 이 경우 1000개로 구성된 값들의 도수분포도(histogram)를 그려보면 대략

적으로 평균을 중심으로 좌우대칭인 정규분포(normal distribution) 형태를

띠게 되는데 이 때 평균을 가까운 값을 가지는 공간패턴은 특정한 공간

과정이 작용하지 않아서 우연히 형성된 것일 가능성이 높은 것임

◦ 다시 말하면 비슷한 값들의 공간군집을 조장하는 공간과정이 없는 경

우 임의의 (확률변수) 값을 가지는 단위지역들에 대한 값은 평균을 중

심으로 가장 많은 빈도수를 보일 것이라는 것임

◦ <그림 3>의 예에서는 실증 자료에 대한 값을 계산한 결과 도수분포

Page 12: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 12 -

도 상에서 가장 큰 값을 보이는 것으로 표시되어 있는데 이는 도수분

포도 상에서 상위 5%에 해당되는 수치임

◦ 당연히 상위 5%에 해당하는 빈도수는 전체에서 차지하는 비중이 매우

낮을 것인데 그럼에도 불구하고 실증 자료가 이러한 낮은 발생 가능성

을 보이는 값을 보인다면 이는 우연에 의한 것이라고 하기에는 그 가

능성(확률)이 너무 작아서 통계적 반증이 큰 것으로 해석할 수 있음

◦ 물론 이 예에서 상위 5%는 유의수준에 해당되고 의 통계적 반

증 즉, p-값은 0일 경우 이는 <그림 3>의 맨 오른쪽에서 실증 자료가

보이는 공간패턴이 우연히 형성되었다고 볼 수 없는 통계적 증거로써

매우 강력한 반증임

◦ 다시 말하면, 실증 자료에서는 어떤 공간과정이 강하게 작용한 결과 양의

공간자기상관성을 보이는 공간패턴이 나타난 것으로 결론지을 수 있음

◦ 물론 이러한 공간작용의 원인은 다양할 것인데 예를 들어, 특히 과거로

부터 농촌 지역의 쇠퇴에 따라 일자리 부족 등의 이유로 젊은 계층 인

구유출이 지속적으로 누적된 결과 이러한 경향이 강한 단위지역들을

중심으로 노인인구의 비중이 커져왔고 이러한 지역들이 공간적 군집을

이룬 결과로 해석할 수도 있음

◦ 통계량은 <그림 1>에서 나타내는 세 유형의 공간패턴 중에서 유사한

값들이 이웃하여 혹은 연속적으로 배열된 ‘다‘에서 나타나는 양의

공간자기상관패턴의 정도를 추정할 목적으로 주로 활용됨

◦ 앞서 예시적으로 설명하였듯이 값은 정규분포를 나타내는 확률변수이

기 때문에 의 평균과 분산을 알면 이를 표준화하여 표준정규분포 확

률변수인 z-값으로 변환할 수 있음. (식3)과 (식4)는 의 평균(mean)과

분산(variance)을 정의함(Rogerson, 2001)

Page 13: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 13 -

단,

◦ (식3)과 (식4)는 의 평균과 분산을 유도하는데 필요한 되는 두 가지 전

제인 정규성 가정(normality assumption)과 임의성 가정(randomization

assumption) 중 정규성 가정을 적용한 결과임

◦ 정규성 가정은 각 단위지역이 가질 수 있는 확률변수 값이 단위지역에

상관없이 모두 같은 평균과 분산으로부터 추출된 표본이라는 가정이고,

임의성 가정은 한 단위지역 값이 다른 단위지역에 나타날 가능성이 동

일하다는 가정임

◦ <그림 3>의 예에서처럼 맨 오른쪽의 실증 자료가 나타내는 단위지역별

값을 무작위로 섞어서 (randomly shuffling) 값을 계산한 뒤 이를 999

번 반복하면 값의 실증적 도수분포도 생성이 가능함

◦ 유사하게 정규성 가정의 경우 각 단위지역 확률변수 값의 평균과 분산

을 기준으로 임의의 정규분포 난수(normal distribution random number)

를 생성하여 역시 값을 반복 계산하면 비슷한 형태의 실증적 도수분

포도를 생성할 수 있음

◦ 임의성 가정을 전제로 (식3)과 (식4)와 같은 이론적인 평균과 분산은 수

학적으로 약간 더 복잡한 형태를 띠고 있지만 두 전제로부터 도출한

의 표준정규분포 확률변수 계산결과는 거의 차이가 없는 것으로 알려

져 있음(Rogerson, 2001)

◦ (식1)을 (식3) 및 (식4)와 결합하여 의 표준정규분포 확률변수인 를

아래의 (식5)와 같이 정의할 수 있음

Page 14: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 14 -

◦ (식5)는 일반적인 표준정규분포 확률변수를 해석하는 방식을 적용하여

통계적 유의성을 해석할 수 있는데 를 표준화하여 분석결과를 해석하

는 데에는 두 가지 이유가 있음

◦ 첫째, 가 -1과 1사이에 분포하고 경계에서의 해석기준이 명확하다고는

하지만 실증적으로 계산한 값만을 놓고 보면 명확한 해석이 어려운

경우가 다반사임

◦ 예를 들어, 값이 0.3으로 계산된 경우 이는 1보다는 0에 가깝기 때문

에 무작위 공간패턴으로 해석하기 쉬울 것임

◦ 그러나 이 0.3은 수많은 값이 가질 수 있는 범위 내에서 어떠한 위치

를 차지하는가를 볼 필요가 있음

◦ <그림 3>에서처럼 실증적 값()이 0.3이더라도 확률변수 관점에

서 실제로 무작위 공간패턴을 가정하고 를 계산한 결과 대부분이 0.3

보다 작은 값으로 계산된 경우 0.3은 통계적으로 매우 유의한 위치를

차지하며 따라서 본래의 이론적 범위에서의 경계(-1~+1)를 적용하여

해석하는 것만으로는 오류의 여지가 있는 것임

◦ 둘째, 는 로 표준화할 수 있고 는 통계적 유의성과 관련된 보

편적으로 명확한 해석기준을 적용할 수 있기 때문임

◦ 예를 들어, 유의수준 95%의 양측검정에서 가 1.96보다 큰 2.1일 경

우 이는 양의 공간자기상관도가 해당 유의수준 하에서 통계적으로 유

의하며 따라서 이러한 공간패턴을 형성한 공간과정이 존재한다고 결론

지을 수 있는 것임

◦ <표 2>은 표준정규분포 확률변수의 유의수준별 임계값(critical value)을

나타냄3)

3) Lee(2008)와 Lee and Lim(2009)은 공간군집도를 나타내는 통계량을 표준정규분포 확률변

Page 15: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 15 -

공간자기상관도 유의수준

2.57≤ 매우 높음 1%

1.96≤<2.57 높음 5%

1.64≤<1.96 약간 높음 10%

-1.64≤<1.64 보통 (무작위 패턴)

-1.96≤<-1.64 약간 낮음 10%

-2.5≤<-1.96 낮음 5%

≤-2.57 매우 낮음 1%

<표 2> 의 통계적 해석기준

출처 : Lee(2008), pp:62 (재구성)

(2) Local Moran 통계량

◦ 통계량이 전역적 공간자기상관도를 나타내는 통계지수인 반면 국지

적 통계량 혹은 Local Moran 통계량은 공간자기상관의 국지적 분

포를 나타내기 위한 통계지수에 해당함4). 국지적 통계량(이후 )는

아래 (식6)과 같이 정의함

◦ (식6)에서 는 와 가 인접할 경우 1로, 반대의 경우는 0으로 주어지

는 공간가중치이기 때문에 위 식은 결국 분석대상지 내 공간단위별 변

량을 표준정규분포 확률변수 즉, -값으로 변환한 뒤 공간단위 에서의

-값에다 와 인접한 공간단위 에서의 -값을 곱한 뒤 이들을 합한

수로 변환하여 결과를 해석하는 과정에서 <표 Ⅳ-3>과 같은 임계기준 적용방안을 제시하였음4) (국지적) 통계량의 산술적 합(혹은 합의 스칼라 곱)은 (전역적) 통계량으로 귀결됨 (Anselin,

1995)

Page 16: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 16 -

값임을 알 수 있음

◦ 는 유사한 값들이 공간적으로 인접하여 분포하는 경우 즉, 큰 값들이

인접해 있거나 혹은 작은 값들이 인접한 경우 그 값이 증가함

◦ 큰 값 및 작은 값은 대상지 내 변량들의 평균보다 크거나 작음을 의미

하는데 (식6)의 정의상 평균보다 크거나 작은 경우 모두 그 값은 큰 값

을 가지게 됨

◦ 만일 지역 에서의 값은 평균보다 큰데 주변 지역들()에서의 값이 평

균보다 작을 경우 (식6)은 음의 값을 가지게 됨

- 이는 평균으로부터의 차이라는 관점에서 상당히 다른 값들이 공간적으로 인접한

경우 는 음(negative)의 값을 가지게 됨을 의미함

◦ 는 기본적으로 (식1)로 정의한 전역적 통계량으로부터 도출할 수 있

으며 그 과정은 아래의 <그림 4>에 순차적으로 정리됨

◦ <그림 4>로부터 알 수 있듯이 ①에서 정의한 전역적 통계량을 전개

하여 ⑧의 과정까지에 이르면 결국 통계량은 국지적 통계량인 의

합, 엄밀히 말해서 합의 스칼라() 배에 해당함을 알 수 있음

Page 17: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 17 -

<그림 4> 전역적 로부터 국지적 를 도출하는 전개과정

◦ 공간자기상관수준을 추정하고자 하는 변량()이 정규분포 확률변수로

부터 추출된 것임을 전제로 는 <그림 4>의 ⑦에서 참조할 수 있는 바

와 같이 아래 (식7)과 같이 변환할 수 있음

Page 18: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 18 -

◦ 는 기본적으로 정규분포확률변수에 해당하며5) 그 평균과 분산은 아래

의 (식8) 및 (식9)와 같이 정의함(Anselin, 1995)

단,

◦ (식7), (식8), (식9)로부터 를 표준정규분포 확률변수로 변환하면 (식10)

과 같음

◦ (식10)은 전역적 통계량의 -값인 (식5)와 마찬가지로 <표 2>의 해석

기준을 적용함

- 예를 들어, 가 2.36인 경우 이는 5% 유의수준 하에서 유사한 값들이 단위

지역 를 중심으로 인접하여 분포하려는 값들이 강하며 이러한 경향은 우연한

결과가 아닌 통계적으로 유의미한 결과로 해석함6)

5) 중심극한정리(Central Limit Theorem)에 의하면 임의의 확률변수( )의 합으로 정의한 또 다른 확률변수( )는 정규분포 확률변수로 수렴하게 됨. 예를 들어, 분석대상지내에 개의 단위지역들이 있고 를 단위지역 에서의 인구수를 의미하는 확률변수로 정의할 경우 (식7)이 나타내는 는 ⋯ ⋯와 같이 단위지역별 확률변수들의 합으로 정의됨. 만일 개의 단위지역들 중 와 인접하는 단위지역들의 수가 많을 경우 정규분포 확률변수에 더욱 근사하게 됨. 또한 확률변수 가 정규분포를 따르지 않는다고 하더라도 그 합은 역시 중심극한정리에 의하면 정규분포 확률변수에 근사하기 때문에 결국 (식7)은 정규분포 확률변수로 볼 수 있음

Page 19: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 19 -

◦ 일반적으로 <표 2>에서 정리된 기준 즉, 표준정규분포 확률변수의 임계

값을 적용하여 를 지도상에 나타내는데 -값이 클수록 가령 진한

빨간색으로 표시할 경우 공간자기상관성이 강한 단위지역들 즉, 주변

에 크든 작은 유사한 값들이 인접한 지역들은 빨간색 톤이 확연하게

분포할 것이고 이러한 공간자기상관성을 초래한 공간과정(spatial

process)이 무엇인지 추가로 고찰할 가치가 있음을 뒷받침하는 논거로

삼을 수 있음

◦ 결론적으로 는 공간단위(혹은 단위지역) 주변에 유사한 값들이 가까

이 분포해 있으면 (혹은 군집해 있으면) 큰 값을 보고 반대의 경우 작

은 값을 가지게 되는데 모든 공간단위를 대상으로 를 계산한 뒤 일정

한 기준에 따라 이를 단계구분도(choropleth)로 매핑(mapping)하면 분석

대상지 내 어느 지역에서 공간자기상관경향이 강하게 나타나는지 찾아

낼 수 있음

◦ 유사한 값들이 국지적으로 인접해 있음으로 인하여 문제가 발생할 경

우 국지적으로 양의 공간자기상관성을 초래한 원인을 추론하고 가능할

경우 정책적 문제완화 방안을 적용할 수 있는 실증적 논거로써의 활용

성을 도모해 볼 수 있음

(3) Global 통계량

◦ 통계량이 유사한 값들을 가지는 단위지역들이 공간적으로 인접하여

분포하려는 경향 즉, 공간자기상관성을 추정하기 위한 통계지표라면

Global 통계량(이후 통계량)은‘높은’값을 가지는 단위지역들이

공간적으로 군집하려는 경향을 가늠하기 위한 지표임

6) 반대로 가 가령 –2.2인 경우 이는 음(negative)의 공간자기상관성이 강함을 의미함. 다시 말하면, 한 단위지역을 중심으로 평균을 중심으로 상당히 다른 값들을 가지는 단위지역들이 마치 바둑판처럼 배열된 경우 이러한 값이 도출될 가능성이 있음. 그러나 이러한 패턴이 나타날 가능성이 상당히 낮은 것으로 알려져 있음(Rogerson, 2001)

Page 20: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 20 -

◦ 따라서 통계량은 큰 값의 공간적 군집과 작은 값의 공간적 군집을

본질적으로 동일한 과정으로 처리하여 큰 값 혹은 작은 값의 군집 모

두 통계량의 값을 크게 하는데 기여하는 반면 통계량은 큰 값의

군집경향만이 통계량 증가에 기여한다는 점이 근본적 차이임

◦ <그림 5>은 통계량의 구성 원리를 개념적으로 제시함

◦ <그림 5>의 오른쪽은 큰 값들이 공간적으로 가까이 모여서 분포하려는

공간군집경향이 강한 공간패턴을 나타냄

◦ 빨간색으로 표시된 지역은 일종의 공간 hot spots에 해당하는데 공간군

집이 문제가 되는 지리적 현상 가령 범죄/질병/교통사고 발생이 특정

지역에서 뚜렷한 군집경향을 보일 경우 이는 모종의 공간현상(spatial

process)이 작용하여 나타난 결과로 볼 수 있음

◦ 왼쪽의 경우처럼 파란색으로 표시된 지역들이 공간적으로 인접한 경우

즉, 분석대상지 내에서 작은 값들의 공간군집도가 우세한 경우 이는

통계량 값을 감소시키는데 기여함

◦ 만일 분석대상지 내 큰 값들의 공간 군집경향보다 작은 값들이 인접하

여 분포하려는 공간구조가 강할 경우 통계량은 작아짐

Page 21: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 21 -

<그림 5> 통계량의 공간적 구성 원리

◦ 일반적으로는 공간군집으로 인하여 문제가 되는 현상에 대해서 통

계량을 적용할 때 큰 값들의 군집경향이 주된 관심사인데 이는 군집으

로 인한 공간적 병리현상을 간접적으로 진단하는 지표이기 때문임

◦ 통계량은 Getis and Ord(1992)가 제안하였으며 아래의 (식11)과 같이

정의함

◦ (식11)에서 와 는 각각 지역 와 의 변수 값(예: 노인인구비율)을

나타내고 는 공간가중치에 해당함

◦ 지역 로부터 반경 이내에 지역 가 위치해 있으면 해당 공간가중치

는 1로, 반대의 경우는 0으로 주어짐7)

◦ 따라서 두 지역 간 일정한 거리()를 공간적 인접성 조건으로 부여할

경우 해당 거리 이내에 큰 값을 가지는 단위지역들이 밀집해 있을수록

7) 두 지역 간 거리는 일반적으로 각 지역의 중심점들(centroids) 간 거리를 의미함

Page 22: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 22 -

(식11)의 분자는 큰 값을 가지게 됨

◦ (식11)에서 분모는 상수(constant)이기 때문에 결국 분자의 크기가 일정

한 거리 조건 하에서의 통계량의 크기 즉, 공간군집도를 결정함

◦ 거리 는 일종의 매개변수(parameter)에 해당하며 이로 인하여 통계

량은 매개변수를 포함한 로 표현하는 것이 일반적임

◦ 해석적 의미와 관련하여 특정 (예: 1,000미터)에서 통계량이 최댓

값을 가질 경우 해당 공간현상은 이 거리에서 공간적 군집화가 가장

뚜렷함을 의미함

◦ 예를 들어, 지역(읍면동)별 범죄의 발생건수의 공간군집도 추정을 위하

여 통계량을 적용한 결과 반경 1,500미터에서 (식11)이 가장 큰 값을

보인 경우 해당 범죄는 이 반경에서 공간적으로 군집하여 발생하려는

경향이 가장 우세한 것으로 볼 수 있음

◦ 통계량과 마찬가지로 통계량 역시 정규분포 확률변수에 해당함8).

Getis and Ord(1992)는 통계량의 이론적 평균과 분산을 아래의 (식

12)와 (식13)과 같이 제시하였음

단,

단,

8) 이는 (식11)의 분모는 상수이고 분자는 변량()들의 합의 형태로 주어져 있기 때문임. 단위지역들의 개수()가 클수록 중심극한정리에 의하여 의 분포는 정규분포에 근접하게 됨

Page 23: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 23 -

◦ (식11), (식12), (식13)에 의하여 통계량은 (식14)와 같이 표준정규분

포 확률변수로 변환이 가능함

◦ (식14) 역시 <표 Ⅳ-3>의 해석기준을 적용하여 공간군집도 분석결과를

해석할 수 있음

- 예를 들어, 어느 시 지역의 읍면동별 폭력범죄 발생건수에 대한 통계량을 계

산하여 (식14)로 변환한 결과가 2.32라고 하면 표준정규분포 확률변수의 유의수

준 1% (-임계값=2.57, -값=0.01) 하에서 해당 지역의 폭력범죄는 공간적으로

매우 군집해 있으며 이는 우연의 산물이 아닌 절도범죄의 공간군집을 유도하는

공간과정(예: 폭력범죄의 가능성을 높이는 것으로 판단되는 유흥가의 공간적 밀

집 과정)의 결과임을 통계적으로 반증할 수 있는 결과로 해석함

(4) Local 통계량

◦ 통계량이 분석대상지 전체의 공간적 군집경향을 나타내기 위한 지

수인 반면, local 통계량(이후 )은 공간군집경향을 형성하는데

크게 혹은 작게 기여한 위치가 구체적으로 어디인지를 찾아내는데 활

용할 수 있는 국지적 통계량(local statistic)임

Page 24: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 24 -

- 통계량은 (식15)와 같이 정의함(Getis-Ord, 1992)

◦ 통계량의 이론적 평균과 분산 역시 Getis-Ord(1992)가 (식16) 및

(식17)과 같이 제시함

≠ 식

단,

◦ (식15), (식16), (식17)에 의하여 통계량은 (식18)과 같이 표준정규

분포 확률변수로 변환됨

◦ 단위지역()에서의 국지적 공간군집도를 표준정규분포 확률변수 즉,

는 단위지역 를 중심으로 반경 이내에 큰 값을 가지는 단위

지역들이 밀집할수록 큰 값을 가지게 됨

◦ 범죄와 같이 공간적 군집이 사회적 문제 지역을 형성하는 경우 특정

Page 25: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 25 -

지역()에서의 값이 클수록 이 지역을 중심으로 해당 공간범위

()에서의 사회적 병리현상이 국지적으로 심각함을 의미함

◦ 예를 들어 =1,500미터에서 값이 가장 큰 값을 가질 경우 해당

지역으로부터 반경 1,500미터 정도의 공간범위에 대해서 순찰인력을

집중함으로써 범죄예방 및 완화 등에 도움을 줄 수 있는 공간의사결정

정보로 활용성을 예시해 볼 수 있음

◦ (식18) 역시 <표 Ⅳ-3>의 해석기준을 적용하여 공간군집도 분석결과를

해석할 수 있음

- 예를 들어, 단위지역 를 중심으로 반경 1km 이내에 위치하여 이웃한 단위지역

들에서의 범죄발생빈도를 대상으로 를 추정하여 2.12라는 결과가 나온

경우 이는 유의수준 5%(-임계값=1.96, -값=0.05)를 기준으로 통계적으로 유의

한(statistically significant) 결과임을 반증함

◦ 이는 단위지역 를 중심으로 범죄발생의 군집을 초래한 잠재적 요인

(예: 유흥업소 밀집, 불량한 주거환경 등)과의 공간적 연관관계를 구체

적으로 살펴보도록 하는 유인을 제공하는 국지적 통계정보임

◦ 통계량 및 통계량의 관계와 유사하게 통계량을 통하여 분석

하고자 하는 현상이 대상지 내에서 보이는 전반적 공간적 군집경향이

어느 정도인지 추정하고 전반적으로 높은 공간군집 경향이 나타난 경우

이러한 공간패턴을 형성하는데 기여한 국지적 지역이 구체적으로 어디

인지를 통계량을 통하여 탐색하는 것이 일반적인 활용 방식임

◦ 이러한 방식은 포괄적인 관점에서 보면 탐색적 공간자료 분석

(Exploratory Spatial Data Analysis: ESDA) 패러다임의 핵심으로서 통계

적 공간분석 결과를 지도로 시각화함으로써 원 자료(raw data)의 단순

한 매핑(mapping)만으로는 도출하기 어려운 공간패턴에 내재된 군집화

공간구조를 진단하고 문제가 되는 지역들을 구체적으로 규명하는데 유

용한 활용성이 있음(Lee, 2008)

Page 26: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 26 -

(5) Nearest Neighbor Statistic

◦ Nearest neighbor statistic(이후 최근린 통계량)은 Clark and Evans(1954)

가 식물 종(plant species)의 공간적 분포특성을 분석하기 위하여 개발

한 공간통계량임

◦ 최근린 통계량은 이후 지리적 점 사상(geogrpahic point event)의 전반

적 공간군집경향을 추정하는데 가장 기본적으로 활용되어오고 있음

◦ 최근린 통계량의 방법론 구성 원리의 핵심은 xy-좌표를 가지는 지리적

점 사상들이 분석대상지 내에서 무작위 분포(random distribution)함을

가정하고 실제 관찰된 점 분포가 이와 얼마나 차이가 나는지를 통계적

으로 검증하는 것임

◦ 최근린 통계량은 아래와 같이 (식19)로 정의함(Rogerson, 2001)

단,

◦ 위 식에서 혹은 는 분석대상지 내에서 관찰된 모든 지리적 사상

점들(예: 범죄 발생지점)로부터 가장 가까운 점까지의 거리들의 평균값

을 나타내고 는 분석대상지 내 모든 점들이 무작위로 분포한 것으로

가정했을 경우의 최근린 거리 평균값 즉, 의 이론적 평균 혹은 기대

값을 의미하는데 이는 약 에 해당함

◦ 는 대상지 내 단위면적당 점의 개수 즉, 점 밀도로서 점의 개수()를

대상지 면적()으로 나눈 비율()임

- 위 식에서 알 수 있듯이 최근린 통계량은 이 두 변량들 간 비율임

◦ Rogerson(2001)에 의하면 최근린 통계량 은 0과 2.14 사이에 분포하는

것으로 알려져 있는데 0은 모든 점들이 한 지점에 있음을 의미하고

Page 27: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 27 -

2.14는 모든 점들이 이론적으로 완벽하게 고른 혹은 체계적 분포를 보

임을 나타냄

◦ 이 1인 경우 관찰된 점들의 분포가 무작위 분포와 일치함을 의미함

◦ 의 통계적 유의성 검정은 일반적으로 를 표준정규분포 확률변수로

변환한 -값을 통하여 이루어지는데 의 기댓값은 위에서 밝힌 바와

같이 이고 무작위 점 분포 상황 하에서의 의 분산은 아래의 (식20)

과 같음

◦ 따라서 (식20)으로부터 의 z-값은 아래의 (식21)과 같이 정의함

◦ (식21)의 -값은 역시 <표 2>에서 제시된 표준정규분포 확률변수 임계

치 기준을 적용하여 결과를 해석함

- 해석시 주의할 점은 최근린 통계량은 작을수록 점들 간 평균적 거리가 줄어듦을

의미하고 이는 점들이 서로 가까이 위치하려는 경향을 나타내는 결과이기 때문

에 (식21)이 나타내는 -값은 값이 작을수록 혹은 음의 방향(negative)으로 커질

수록 공간적 군집겨향이 뚜렷함을 의미함

◦ 예를 들어 (식21)의 -값이 -1.96보다 작은 경우 이는 분석대상지 내

점들의 분포가 공간적으로 군집하려는 경향이 강하며 5% 유의수준 하

에서 통계적으로 유의미한 것으로 해석할 수 있음

◦ <그림 6>은 최근린 통계량의 계산 및 해석 과정을 예시하기 위한 가상

적인 점 분포를 나타냄9)

◦ 위 그림의 가상의 대상지에는 총 6개의 점이 분포해 있고 각 점들 간

거리는 그림에 숫자로 표시되어 있음

9) Rogerson(2001)의 그림(163p)을 재구성하였음

Page 28: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 28 -

<그림 6> 최근린 통계량 예시를 위한 가상적 점 분포도

출처 : Rogerson(2001), pp:163 (재구성)

◦ <그림 6>에서 예시된 점 분포를 대상으로 (식19)의 와 그리고 이로

부터 (식21)의 값을 계산하면 아래와 같음

×

◦ <그림 6>에서 예시된 점 분포에 최근린 통계량을 적용한 위 계산결과

에 의하면 유의수준 5%(-임계값=1.96, -값=0.05)를 기준으로 점들 간

군집하려는 경향이 있으며 이는 통계적으로도 유의한 공간패턴임을 알

수 있음

◦ 최근린 통계량은 본질적으로 전역적 공간통계량(global spatial statistic)

이기 때문에 위 예시에서의 분석결과( )와 같이 분석대상지 내

전반적인 공간군집도에 대한 정보를 하나의 숫자로 제시함

◦ 이는 전반적인 공간군집도라는 공간패턴에 대한 유용한 정보임에는 틀

림없지만 대상지 내 최근린 점들의 공간적 분포특성을 국지적으로 파

Page 29: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 29 -

악하기에는 한계가 있음

◦ 아래 <그림 7>은 이러한 맥락에서의 한계를 일정 부분 보완하기 위하

여 각 점들의 최근린 점들을 연결하여 지도로 시각화하는 과정을 예시

한 것임

◦ 이는 전역적 공간패턴을 대표하는 통계정보()와 함께 참고해 볼 만한

국지적 시각정보임

<그림 7> 최근린 통계량 분석결과 시각화(mapping): 개념적 예시

(6) -function

◦ -function은 점(point)으로 표시할 수 있는 지리적 사상(사건)들

(geographic events)의 공간적 군집경향 혹은 공간 의존성(spatial

dependence)을 가늠하기 위하여 고안된 공간통계량으로서 아래의 (식

22)와 같이 정의함 (Bailey and Gatrell, 1995)

· ≠ 식

단,

◦ (식 22)는 면적 인 분석 대상지 내에 개의 지리적 사건들이 분포하

고 있을 경우 -function의 분모는 다음과 같은 과정을 통하여 계산함

- 대상지 내 한 사건을 중심으로 공간반경 이내 위치한 다른 사건들 수(빈도) 계산

- 대상지 내 다른 모든 사건들에 대하여 1)의 과정을 반복함

- 합산 결과를 으로 나눈 값이 ·가 됨

Page 30: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 30 -

◦ 아래의 <그림 8>는 -function의 핵심 구성요소인 ·의 개념을 도

식적으로 설명하는데 이 그림에서 빨간색 점으로 표시한 한 사건(기준

점)으로부터 공간 반경 (파란색 원) 이내에 위치한 또 다른 사건들

(노란색 작은 원형 점)의 개수(빈도)를 계산하고 대상지 내 모든 사건

들을 기준점으로 하여 동일한 과정을 적용하여 계산한 결과(개수 혹은

빈도)를 모두 합산한 뒤 총 기준점들 수인 으로 나눈 값이 ·임10)

◦ 개념적으로 보면 결국 -function은 이 ·를 단위밀도() 즉, 단위면

적당 평균적으로 발생한 지리적 사상(사건)의 개수로 나눈 값에 해당함

◦ 해석적 관점에서 대상지 내 모든 사건들이 무작위로 분포할 경우 임의

의 한 사건으로부터 공간 반경 내에 다른 사건들의 개수를 계산함으

로써 예상되는 ·는 기대치(expected value)에 해당함

<그림 8> -function의 핵심구성요소인 · 의 개념

출처 : 김대종·구형수(2011), pp:53

◦ 사건들의 무작위 공간분포를 가정할 경우의 · 즉, 대상지 내 임의

의 사건 발생위치를 중심으로 일정 반경 내에 들어올 것으로 예상되는

다른 사건들의 개수는 아래의 (식23)과 같음

10) 김대종·구형수(2011)의 그림(53p)을 인용하였음

Page 31: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 31 -

·

◦ 지점들의 무작위 공간분포란 대상지 내 어디서는 단위밀도 즉, 단위면

적 당 평균적인 사건 발생 빈도 혹은 확률이 동일함을 의미하기 때문

에 일정 반경() 면적에 단위밀도를 곱하면 해당 공간범위에 대한

-function의 기대치가 됨

◦ 이러한 맥락에서 점들의 공간적 무작위 분포를 가정할 경우의

-function에 해당하는 ·와 실제 관찰된 점 자료를 대상으로 수행

한 -function 분석결과 값을 비교함으로써 공간적 군집경향이 어느

정도인지 추정할 수 있음

◦ 이에 대한 구체적 해석기준은 아래의 (식24)와 같음

→ 식

◦ 만일 대상지 내 사건들이 공간적으로 군집하려는 성향을 보인다면 위

그림에서 제시한 과정으로부터 계산한 사건들의 평균 빈도는 ·보다

많을 것이며 그 정도가 클수록 공간적 군집경향이 강한 것으로 추론함

◦ -function의 분석결과를 해석할 때 반드시 고려해야 될 두 가지 사항

이 있음

◦ 하나는 -function의 분석파라미터(analysis parameter)인 공간 반경

를 어떻게 설정하는가에 따라서 분석결과가 달라질 수 있다는 점임

◦ 예를 들어, 이 parameter 값이 클수록 -function 값이 증가할 경우 공

간적으로 넓은 범위에서 군집경향이 강함을 의미함

◦ 만일 특정 값(공간 반경)에서 -function 값이 최대값을 보인다면 해당

공간 범위에서 군집화 경향이 가장 강한 것으로 해석할 수 있음

Page 32: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 32 -

◦ 결과해석과 관련하여 또 다른 유의할 점은 분석결과 공간적 군집경향

이 나타날 경우 이러한 공간적 군집경향이 공간상에서 우연(by

chance)히 발생했을 가능성도 있다는 것임

◦ 따라서 -function을 통하여 공간적 군집경향이 공간과정상의 우연의

산물인지 아니면 해당 현상의 공간군집을 형성한 모종의 공간과정이

작용한 결과인지 객관적 근거를 적용하여 판단할 필요가 있음

◦ 다른 많은 공간통계량과 마찬가지로 -function의 경우 이론적 분포를

가정한 통계적 유의성 검정이 쉽지 않기 때문에 -function 결과의 통

계적 유의성 검정을 위하여 몬테카를로 시뮬레이션(Monte Carlo

simulation)을 실시함

◦ 몬테카를로 시뮬레이션은 분석대상지 내 실제 관찰된 점들의 공간적

위치(x-y 좌표)를 무작위(random)로 재구성하여 인위적 데이터

(simulated data)를 생성한 뒤 이로부터 K-function값을 계산함

◦ 이러한 과정을 많이(예: 999회) 반복하면 공간 반경 h에서의 공간군집

경향의 범위를 추정할 수 있음

◦ 아래 예는 대상지 내 총 10개의 지리적 사상들(예: 질병/범죄 발생)의

점 분포를 가정하여 공간군집경향의 통계적 유의성 검정을 위하여 몬

테카를로 시뮬레이션을 수행하는 과정을 개념적으로 설명한 것임

◦ <그림 9>의 개념적 예에서는 대상지 내에 10개의 점들이 분포해 있음

을 전제로 맨 좌측의 파란색 점들을 실제 관찰된 데이터로부터 지도상

에 표시한 점들의 공간분포로 가정함

◦ 만일 점들의 공간적 군집을 유인하는 모종의 공간과정(underlying

spatial process)이 없다면 이러한 10개의 점들이 무작위(randomly)로 분

포해 있어야 함을 전제할 수 있음

◦ 만일 파란색 점 분포와 같은 실제 관찰된 데이터로부터 계산한

-function 결과값이 무작위 점 분포를 전제로 도출한 -function 값과

Page 33: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 33 -

‘상당히’다르다면 실제 관찰된 점들이 공간적으로 군집한 패턴을 보

이는 것은 우연의 산물이 아닌 모종의 공간과정이 있어야 가능함을 반

증해 볼 수 있음

<그림 9> -function 분석결과의 통계적 유의성 검정을 위한

몬테카를로 시뮬레이션 수행과정의 개념적 예시

◦ 이를 위하여 10개의 파란색 점들을 공간상에서 무작위로 분포시킴으로

써 우연의 산물로서의 -function값을 계산할 수 있는데 이는 시뮬레

이션을 위한 단위과정에 해당함

◦ 이러한 단위과정으로부터 계산한 -function 값은 실제 관찰된 데이터

로부터 추정한 -function 값보다 근본적으로 작은 값이어야 함

◦ 근본적으로 작은 값이라는 의미는 무작위로 점을 분포시키는 과정을

‘충분히 많이’반복할 경우 도출된 값들이 관찰된 데이터로부터 도출

된 -function 결과 값들보다 일정한 허용범위 이내에서 일관되게 작

다는 것을 의미함

◦ <그림 9>의 예에서처럼 이러한 단위과정을 999회 반복해서 무작위 점

분포 가정하에서의 -function 값들을 999개 도출할 경우 실제 관찰된

데이터(파란색 점들)로부터 계산한 -function 값이 이 들 중 어느 위

치에 있는지 파악해 볼 수 있음

◦ 즉, 1000개의 -function 값들(-function from 999 simulated data +

-function from 1 observed data)을 내림차순으로 정렬했을 때 관찰된

Page 34: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 34 -

데이터로부터 계산한 -function 값이 예를 들어 상위 32번째일 경우

-값은 0.032(=1-(1000-32)/1000)가 됨

- 이로써 일반적인 통계적 유의성 검정기준 가령, 유의수준 5%(-임계값=1.96, -

값=0.05) 조건을 적용할 경우 관찰된 데이터로부터 계산한 -function 값은 이

유의수준 하에서 통계적으로 유의미한 결과임을 알 수 있음

◦ 즉, 관찰된 데이터가 나타내는 공간적 군집경향이 우연의 산물이 아닌

특정한 공간과정의 결과라는 것이 통계적으로 반증된 것임

◦ 만일 해당 점 사상이 범죄, 질병, 교통사고 등 공간적 병리현상을 나타

낼 경우 공간군집에 따른 문제를 방치할 경우 사회경제적 비용이 예상

되는 상황 하에서 공간적 군집요인이 무엇인지 조사함으로써 문제해결

을 위한 공간적 실마리를 찾기 위한 노력이 필요한데 -function 분석

결과는 그 필요성을 뒷받침하기 위한 분석적 통계정보로 활용성이 있음

◦ -function을 대상으로 수행하는 몬테카를로 시뮬레이션은 일반적으로

공간 반경 를 전제로 해당 공간범위 내에서의 공간적 군집경향의 통

계적 유의성을 판단하기 위한 임계 값(threshold value)을 찾아내기 위

한 수단임

◦ 일반적으로 공간 반경 를 축으로, 그에 대응하는 -function 결과

값을 축으로 하는 그래프를 그리는 방식으로 공간 반경 의 변화에

따른 공간 군집도 혹은 공간 의존성의 변화 추이를 탐색할 수 있음

◦ (식24)를 그대로 적용할 경우 -function은 에 비례하는 형태가 되기 때

문에 그래프를 적절하고 쉽게 해석할 수 있도록 하기 위하여 아래의 (식

25)와 같이 -function을 변형한 -function을 적용하여 그래프를 작성함

◦ (식24)는 공간 반경 를 축으로 하여 그에 대응하는 -function 결과

값을 축에 나타낼 수 있기 때문에 공간 반경 변화에 따른 공간군집도

Page 35: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 35 -

의 변화를 쉽게 해석할 수 있음

◦ 만일 공간 반경 에서의 -function 값이 양수일 경우 이는 해당 공

간 반경의 경우 무작위 분포가 아닌 공간적 군집경향이 나타남을 보이

며 그 정도가 클수록 그 경향이 강함을 의미

◦ 일반적으로 상위 95%, 평균, 하위 5%에 해당하는 값들과 실제 자료로

부터 계산한 -function 결과를 선형 그래프로 표시함

◦ 아래 그림에서 빨간색 선이 95% 임계 값 보다 큰 공간 반경은 초록색

으로 표시된 영역임

◦ 해당 영역에서는 공간 군집화 경향 혹은 공간 의존성 경향이 예상보다

강하게 나타나며 통계적으로도 의미가 있는 현상임을 나타냄

<그림 10> 공간 반경별 몬테카를로 시뮬레이션 임계경계 및 -function 그래프

(7) Knox Statistic

◦ Knox(1964)는 시공간 상에서 발생하는 점들의 군집도를 추정하기 위하

여 시공간 임계거리를 매개로 하는 공간통계량을 제안하였으며 제안자

Page 36: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 36 -

의 이름을 따서 statistic(이후 통계량)으로 지칭함

◦ 통계량은 시공간 상에서 발생하는 사상(사건)들이 시공간 좌표(,

, )를 가짐을 전제로 각 지점(point in space and time)으로부터

일정한 시공간 반경 내에 들어오는 지점 쌍들(point pairs)의 총 개수를

나타내며 다음의 (식26)과 같이 정의함

단, i f≤

i f≤

◦ (식26)에서 알 수 있듯이 통계량에서는 시공간 임계거리 와

를 분석파라미터로 설정하여 시공간 지점 로부터 해당 임계거리 내에

또 다른 시공간 지점 가 들어올 경우 는 의 시공간 지점 쌍(point

pair)으로 정의함

◦ <그림 11>는 (식26)에서 수학적으로 정의한 내용을 개념적으로 도식화

한 것임

◦ <그림 11>에서 기준지점(파란색 원)으로부터 일정한 임계거리 내에 위

치하는 다른 시공간 지점들은 빨간색 원으로, 밖에 위치하는 경우는

검은색 원으로 표시하였음

◦ 원통의 반지름은 공간 임계거리 를 나타내고 원통의 높이의 반은 시

간 임계거리 를 의미함

◦ 이 경우 기준 지점(파란색 원)은 총 4개의 지점들(빨간색 원)과 쌍(pair)

을 이루게 되는데, 이러한 쌍을 세는 과정을 분석대상지 내 모든 점들

에 대하여 수행한 뒤 그 총합을 계산하면 (식26)이 나타내는 통

계량이 산출됨

◦ 만일 이러한 지점들이 시공간상에서 무작위로 분포한다면 임의의 기준

Page 37: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 37 -

지점으로부터 임의의 공간 및 시간 임계거리 내에 들어오는 다른 지점

들 즉, 지점 쌍들의 개수는 일정한 값을 가지게 되는데 이 값이 (식26)

이 나타내는 통계량의 기댓값(expected value)에 해당함

<그림 11> 통계량의 개념적 정의

◦ Knox(1964)는 시공간 지점들의 발생이 포아송(Poisson) 확률을 따르는

것으로 보고 통계량이 카이제곱분포(chi-square distribution)에 근

사하는 것으로 가정하여 통계적 유의성 검정과정을 제시하였음

◦ <그림 12>은 통계량이 카이제곱분포로부터 추출할 수 있음을 전

제로 그 통계적 유의성을 검정하는 과정을 개념적으로 설명함11)

◦ <그림 12>에서 은 기준 지점으로부터 일정한 시공간 임계거리 내에

위치하는 지점들의 개수 즉, 지점 쌍들의 수를 의미함

◦ 와 는 각각 공간 임계거리에는 포함이 되지만 시간 임계거리 밖에

있는 지점들의 개수 및 반대로 시간 임계거리에는 포함되지만 공간 임

계거리에는 포함되지 않는 지점들의 수를 나타냄. 당연히 는 시간

및 공간 임계거리 밖에 위치한 지점들의 개수임

11) Nevine (2013)이 CrimeStat IV에서 제시한 <표 12.2>를 참고하여 재구성하였음

Page 38: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 38 -

<그림 12> 통계량의 contingency table 구성원리 및 검정에 필요한 파라미터

출처 : Levine (2013), pp:746

◦ 분석대상지 내 모든 점들을 대상으로 <그림 12>과 같은 정보를 구성한

뒤 이를 (식27)의 통계량에 적용하면 분석대상지 내 전반적인 시공

간 군집경향의 통계적 유의성을 검정할 수 있음

◦ 즉, (식27)이 나타내는 통계량은 자유도 1을 가지면 분포 테이블

상에서의 임계값을 적용하여 통계적 유의성을 검정함

◦ (식27)은 관찰값()들 간 독립성(independence)을 전제로 통계적 유의

성 검정이 가능하지만 실제로 시공간상에서 발생하는 사상들에 대하여

계산한 는 시공간 자기상관성으로 인하여 통계적 정보가 중첩되기

때문에 독립성 가정이 위배되는 경우가 일반적임

Page 39: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 39 -

◦ 이 경우에는 몬테카를로 시뮬레이션을 적용하여 -값을 추정함으로써

실질적으로 통계적 유의성을 검정하는 것이 일반적임

◦ 통계량에 대한 몬테카를로 시뮬레이션을 수행하는 과정은

-functionm의 경우와 본질적으로 동일한 구조를 가짐

◦ 즉, 공간군집을 초래할만한 시공간 요인들이 없는 상태 즉 무위적 공간과

정(이를 null spatial process라고 함)을 가정할 경우 시공간 지점들은 시

공간 상에서 무작위 분포(random distribution)를 보일 것이기 때문에 시

공간 지점들을 무작위로 재배열(혹은 재배치) 함으로써 -function과 유

사한 방식으로 관찰된 데이터로부터 시뮬레이션 자료들을 얻을 수 있음

◦ 이러한 방식으로 추출한 시뮬레이션 자료가 나타내는 시공간 지점들

정보를 이용하여 (식26)을 계산하고 이를 여러 차례(예: 999회) 반복하

여 시뮬레이션 결과를 도출한 뒤 이를 오름차순으로 정렬하여 실제 관

찰된 데이터를 적용하여 (식26)을 계산한 결과의 순위를 계산하면 -값

을 구할 수 있음

◦ 예를 들어, 관찰된 데이터로부터 (식26)을 계산한 결과와 999개의 시뮬

레이션 결과를 비교한 결과 관찰된 데이터로부터 통계량을 계산

한 값이 위에서부터 5번째에 위치한다면 -값은 0.005(1-995/1000)가 됨

◦ 이는 1%(-값=0.001) 유의수준 조건 하에서 통계적으로 유의미한 결과

로서 시공간적 군집경향이 단순히 무위적 공간과정(null spatial

process)에 의한 우연의 산물이 아닌 군집을 초래하는 공간요인이 작용

한 결과임을 반증하는 결과임

◦ 통계량은 공간 및 시간 임계거리에 따라서 동일한 자료에 대해

서도 그 결과가 달라질 수 있음에도 불굴하고 이 파라미터를 어떻게

결정할지에 대한 분명한 지침이 없음

◦ 따라서 공간군집경향을 파악해보고자 하는 시공간 과정을 포착해낼 수

있는 공간 및 시간 임계거리가 적용되지 않을 경우 다소 인위적인 결

Page 40: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 40 -

과가 도출될 수 있는 단점이 있음

◦ 즉, 공간 및 시간 임계거리 설정에 있어서의 인위성이 통계량을

적용하는 과정에서의 문제로 지적되어오고 있음

◦ 따라서 -function과 마찬가지로 일정한 범위의 공간 및 시간 임계거

리를 일정한 구간으로 세분화하고 각 구간별 통계량을 계산할

경우 최대 값을 가지는 공간 및 시간 임계거리는 해당 현상의 군집화

과정이 가장 우세한 것으로 해석함으로써 인위적인 임계거리 적용에

따른 인위적 결과도출이라는 단점을 다소간 극복할 수 있는 대안으로

써의 활용성을 고려해 볼 수 있음

(8) Spatial Scan Statistic

◦ Spatial scan statistic(이후 공간검색 통계량)은 분석대상지 내에서 지리

적 사상(사건)들이 발생할 가능성(확률)이 가장 큰 지점 및 공간적 범

위를 찾아내기 위한 공간통계 분석방법론으로서 Kuldorff(1997)에 의하

여 고안되었음

◦ 공간검색 통계량은 기본적으로 베르누이 모형(Bernoulli model)과 포아

송 모형(Poisson model)로 구분함

◦ 포아송 모형은 공간상에서 상대적으로 희귀하게 발생하여 그 발생 가

능성(확률)이 매우 낮은 사상(사건)에 적용되는 모형으로서 예를 들어,

상대적 발생빈도가 낮은 희귀성 질병의 발생 등의 공간적 군집지역을

찾아내기 위하여 활용함

◦ 베르누이 모형은 포아송 모형에서의 사건 발생 확률이 상대적으로 큰

현상에 대하여 공간적 군집경향이 가장 우세한 지점과 공간적 범위를

탐색하는데 주로 이용함

◦ 상대적으로 이해하기 쉽고 도시공간에서의 많은 현상들에 대하여 큰

무리 없이 베르누이 모형을 적용할 수 있음을 전제로 여기서는 베르누

Page 41: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 41 -

이 모형에 초점을 맞추어 설명을 진행함

◦ <그림 13>는 베르누이 모형을 적용한 공간검색 통계량을 정의하기 위

하여 필요한 분석 파라미터를 예시함12)

◦ 이 그림에서 분석 대상지 내 총 인구수

는 명이고 이중 질병 발생건수는 명

이며, 대상지 내 단위지역 안(inside)

에 명이 거주하는데 이중 질병 발생

건수는 명임

- 따라서 단위지역 밖(outside)의 총인구는

명이고 이 중 발생건수는 명임

◦ 이를 전제로 단위지역 안과 밖의 질병

발생확률은 각각 , 으

로 추정함

출처 : LeeㆍKweon(2012), pp:13

◦ 만일 대상지 내에서 임의의 단위지역 안과 밖에 상관없이 질병이 발생

할 확률이 동일하다면 그 확률은 으로 추정하는데 이는 1인당 발

생 가능성임

◦ 이는 대상지 내 특정 지역에서 유난히 더 많은 질병이 발생하여 공간

군집을 형성할만한 특별한 공간적 요인이 없는 상황 즉, 공간적 귀무

가설(null hypothesis) 조건 하에서의 발생 가능성을 의미함

◦ 만일 단위지역 내 특별한 공간적 군집요인이 있다면 해당 단위지역 내

에서는 더 많은 질병이 발생할 것임

- 예를 들어, Radon 수치가 높은 지역에서 폐암이 빈발할 경우 Radon이라는 외부

요인인 폐암 발생의 공간적 군집요인이 됨

◦ 이는 해당 단위지역의 경우 귀무가설 조건 하에서보다 1인당 예상되는

12) Lee·Kweon(2012)의 그림(13p)을 재구성하였음

<그림 13> 공간검색 통계량

정의를 위한 분석파라미터

Page 42: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 42 -

발생 가능성이 클 것임을 시사하는 것임

◦ 단위지역 내 발생 가능성과 밖의 발생 가능성 간 차이가 클수록 해당 지역

내에서의 질병발생 군집요인이 강력하게 작용한 결과로 추론할 수 있음

◦ 이를 전제로 단위지역 내 명중 명이 질병에 감염되고 단위지역 밖에

서는 명중 명이 발생할 확률은 아래의 (식28)과 같음

◦ 만일 귀무가설 조건 하에서 단위지역 안과 밖의 1인당 발생 및 미 발

생 가능성이 같다면 (식28)은 아래의 (식29)와 같이 고쳐 쓸 수 있음

◦ 즉, 귀무가설 조건 하에서는 단위지역 안이나 밖이나 1인당 질병 발생

가능성이 로 동일하기 때문에 공간군집을 가정하는 대립가설

(Alternative Hypothesis: HA)에서의 발생확률은 로부터 으로 변환됨

◦ 공간검색 통계량은 단위지역을 내부와 외부의 질병의 발생 및 미 발생

가능성을 비교하여 그 차이가 가장 큰 단위지역과 공간적 범위를 찾아

내기 위한 공간통계량으로 와 간 비율을 바탕으로 정의할 수 있음

- 이는 아래의 (식30)과 같음

◦ (식30)을 정리하면 (식31)과 같은 우도비(: Likelihood Ratio)가 도출됨

Page 43: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 43 -

◦ 공간검색 통계량은 (식31)로부터 도출한 우도비 중에서 가장 큰 값으로

아래의 (식32)와 같이 정의함

공간검색통계량

단위지역

단위지역 식

◦ 각 단위지역별로 계산한 우도비(LR)들 중 가장 큰 값을 보이는 단위지

역의 위치(중심점)과 공간적 범위를 지도상에 표시함

◦ 이는 most likely cluster(1st cluster)로 지칭하며 동일한 과정을 차 순위별로

적용하면 2nd cluster, 3rd cluster 역시 도출하여 지도상에 표시할 수 있음

◦ 단위지역이란 아래의 <그림 14>와 같이 특정 공간단위가 될 수 도 있

고 이를 시작으로 범위를 점점 확장해 가면서 중심점들 간 거리가 가

까운 순으로 주변 지역들을 통합한(aggregated) 집합적 단위지역들을

하나의 단위지역으로 지칭하기도 함

◦ 이들 중 가장 (및 두 번째, 세 번째) 큰 우도비를 보이는 단위지역(혹은

집합적 단위지역)을 찾아내는 것임

- 단, 집합적 단위지역은 인구수가 전체인구의 50% 이내가 되도록 함

<그림 14> 공간검색 통계량에서의 단위지역의 개념

◦ 탐색된 cluster들(most likely cluster, 2nd cluster, 3rd cluster)은 몬테카를

Page 44: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 44 -

로 시뮬레이션을 적용하여 통계적 유의성을 검정하는데 공간검색 통계

량의 경우는 multinomial randomization technique(이후 다항난수 생성기

법)을 적용하는데 <그림 15>은 이 기법의 개념을 예시적으로 나타냄

◦ 다항난수 생성기법에 대한 설명의 편의상 대상지 내 총인구는 10,000명이

고 총 4개의 단위지역(예: 읍/면/동, Census Tract 등)으로 구성되어 있으

며 각 단위지역의 인구수는 아래 그림과 같은 비율을 따른다고 가정함

- 예를 들어, 단위지역 ①의 인구는 3,000명임 (10,000×0.3)

<그림 15> 다항난수 생성기법의 개념적 예시

◦ 귀무가설 상황 즉, 질병발생의 군집을 초래하는 공간적 요인이 없을 경

우 인구수에 비례하여 질병이 발생할 것이므로 질병 발생 건수가 총

100건이라고 가정하면 0과 1 사이의 난수를 100번 발생시킴으로써 귀

무가설 하에서의 단위지역별 질병발생 건수를 시뮬레이션 할 수 있음

◦ 이러한 방식으로 할당한 단위지역 빈도수가 귀무가설 하에서 질병발생

건수임

◦ 이러한 방식으로 단위지역별 발생건수를 인위적으로 발생시킨 후 우도비

를 계산한 뒤 크기순으로 정렬한 뒤 most likely cluster, 2nd cluster, 3rd

cluster에 해당하는 우도비를 추출함

- 이는 시뮬레이션 1회에 해당함

Page 45: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 45 -

◦ 많은 시뮬레이션(예: 999회)을 통하여 most likely cluster, 2nd cluster,

3rd cluster에 해당하는 우도비를 추출한 뒤 실제 자료로부터 계산한

most likely cluster, 2nd cluster, 3rd cluster의 우도비와 비교함으로써

p-value를 계산할 수 있음

◦ 예를 들어 999회의 시뮬레이션 결과와 1개의 실제 자료로부터 도출한

결과를 내림차순으로 정렬하여 만일 실제 자료 결과가 상위 960번째에

해당한다고 가정하면 -값은 0.04(1-960/1000)로써 5% 유의수준 하에서

통계적으로 유의미한 most likely cluster로 결론지을 수 있음

◦ 마찬가지 방식으로 의 경우 2nd cluster, 3rd cluster의 -값을 계산하여

통계적 유의성 검정결과를 지도상에 함께 표시함

◦ 주의할 점은 most likely cluster, 2nd cluster, 3rd cluster 는 지리적으로

서로 중첩되지 않아야 함

- 예를 들어, 두 번째로 큰 우도비를 가지는 집합적 단위지역들 중 일부가 만일

most likely cluster에 포함되는 경우 이는 우도비 기준만 적용하면 두 번째로 큰

결과지만 지리적 중첩에 따른 다중가설검정 문제가 발생할 우려가 있음

◦ 따라서 most likely cluster와 일부 단위지역이 겹치지 않는 조건을 전제

로 우도비가 두 번째로 큰 (집합적) 단위지역(들)이 실질적 의미에서의

2nd cluster에 해당함. 이러한 원칙은 3rd cluster 에도 적용됨

◦ 정리하면 공간검색 통계량은 특정 지점을 기준으로 일정 반경 내 사건

(event)이 발생한 확률과 반경 밖에서 사건이 발생할 확률의 우도비

(Likelihood Ratio: )로 정의함

◦ 우도비를 최대로 하는 즉, 최대우도비(Maximum Likelihood Ratio: )

를 보이는 지점과 반경을 찾아서 가장 주요한 공간적 군집지역(1st

spatial cluster)으로 탐색하며, 1st spatial cluster와 공간적으로 겹치지

않으면서 동시에 다음으로 큰 우도비를 보이는 지역과 반경이 2nd

spatial cluster로 탐색됨

- 이러한 과정을 반복하여 여러 개의 순차적 공간군집지역을 찾아냄

Page 46: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 46 -

◦ 또한 몬테카를로 시뮬레이션(구체적으로는 다항난수 생성기법)을 적용

하여 탐색된 각 공간군집지역에 대한 통계적 유의성을 검정할 수 있음

◦ 즉, 최대우도비를 보이는 지역(들)이 무위적 공간과정(null spatial

process)에 의하여 우연하게 생성된 결과가 아니라 군집을 유도한 (국

지적) 요인이 있음을 통계적으로 반증하는 결과임

(9) Moran Scatter Plot

◦ Moran Scatter Plot (이후 모란 산점도)는 일종의 산포도로써 x-축에는

원 자료의 z-값을, y-축에는 값을 표시함으로써 정량적 속성을 가지

는 공간자료의 공간자기상관성을 산포도 형태로 파악하는데 유용한 분

석도구임

◦ <그림 16>은 모란 산점도를 개념적으로 예시한 것임

◦ 위 그림의 산포도 예시에서 알 수 있듯이 큰 속성 값을 가지는 한 공

간단위 주변에 이웃한 공간단위들 역시 큰 속성 값을 가지거나 반대로

작은 값들 주변에 작은 값들이 모이려 할 경우 양의 공간자기상관

(positive spatial autocorrelation) 경향이 있는 것으로 추론함

Page 47: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 47 -

<그림 16> 모란 산점도의 개념적 예시

◦ 그림에서 초록색 점은 큰 값을 가지는 공간단위 주변에 역시 큰 값을

가지는 공간단위가 인접해 있음을 나타냄

- 빨간색은 작은 값 주위에 큰 값이 있는 것을 나타내며 보통 outlier로 간주함

◦ 모란 산포도는 통계량을 함께 표시하여 나타냄

- 위 그림의 예에서 으로서 양의 공간자기상관성이 비교적 강한 것을

알 수 있는데 이는 산포도 상에서 점의 경향선 기울기가 45도에 가까운 것으로

부터도 확인할 수 있음

◦ 물론 0.746은 예시를 위한 가상의 값이지만 이 값이 1에 가까울수록 양

의 공간적 자기상관 경향은 강한 것으로 해석하며 개념적으로는 산포

도 상의 점들의 45도 직선 가까이 분포하는 것에 해당함

- 이론상 인 경우 모란 산점도 상의 모든 자료 값들은 45도 직선 위에 위치

하게 됨

◦ 모란 산포도는 유사한 값들이 공간적으로 인접하여 분포하려는 경향을

산포도의 형태로 쉽게 시각화함으로써 값이 나타내는 공간자기상관성

을 좀 더 직관적으로 파악하기에 유용한 분석도구로 활용됨

Page 48: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 48 -

2. 공간 통계 분석 결과 해석

1) 연구·교육을 위한 실증적 활용방안

(1) Moran’s I Statistic

◦ 공간자기상관성을 탐색하기 위한 전역적 통계량() 및 국지적 통계량()

에 대한 분석결과는 <그림 17>과 같은데 이는 2010년 우리나라 시군구

단위 노인인구의 공간적 분포패턴을 나타냄

◦ 이를 위하여 원시자료인 시군구 단위 노인인구수를 전국의 노인인구

비율 대비 시군구별 노인인구 비율로 변환하여 및 계산과정에서

공간자기상관성을 탐색하기 위한 변수()로 활용하였음

◦ 노인인구 비율이란 전체 연령을 아우르는 총인구수 대비 노인에 해당

하는 연령대의 인구수의 비율을 의미함

◦ 해석적 관점에서 전국의 노인인구 비율보다 특정 시군구(예: 시군구 )

의 노인인구 비율이 높은 경우 즉, 가 1보다 크다면 이는 노인인구

비중에 있어서 해당 시군구가 전국 경향을 상회하여 벗어나는 것으로

볼 수 있으며 그 차이가 클수록 해당 지역은 고령화 정도가 큰 것으로

해석함

◦ 만일 값이 커서 고령화가 큰 시군구들이 지역적으로 가까이 모여 있

거나 반대로 노인인구 비중이 전국 경향에 비하여 높지 않은 지역들이

군집하는 경우 공간자기상관성은 증가하게 되는데 이는 노인인구 비중

의 분포패턴이 국토공간상에서 양극화된 것으로 진단할 수 있음

◦ <그림 17>의 지도는 국지적 통계량() 결과를 지도 및 표로 나타낸 것

으로 지도상에 빨간색으로 표시된 지역은 공간자기상관성이 높은 지역

즉, 비슷한 값들이 서로 인접하여 군집한 정도가 큰 지역을 나타냄

Page 49: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 49 -

<그림 17> Moran’s I Statistic 분석결과 예시

◦ 위 그림의 오른쪽 분석패널은 () 통계량 계산에 필요한 분석 파라미

터 설정 사용자 인터페이스 및 분석결과 집계표를 나타냄

◦ () 통계량의 경우 분석변수 및 공간가중치를 설정할 필요가 있는데

위 예에서는 역거리가중법(inverse distance method)을 적용하되 탐색반

경은 130km로, 분석변수로써 ‘LQ’를 선택하여 실행한 결과임. LQ는

앞서 설명한 시군구 단위 노인인구수를 전국의 노인인구 비율 대비 시

군구별 노인인구 비율을 나타내는 것으로 그 개념적 정의가 입지지수

혹은 특화지수(Location Quotient)와 동일하기 때문에 LQ로 명명하였음

◦ 오른쪽 중간에 위치한 표는 전역적 통계량 분석결과를 나타내는데 이

예에서 값은 0.1994이고 기댓값 및 분산은 각각 –0.004 및 0.0001로 나

타났으며 결과적으로 의 값은 약 22.4로 <표 2>을 적용할 경우 통계

적으로 매우 유의미한 결과임

◦ 그림 왼쪽의 범례는 <표 2>을 적용하여 구성한 것으로 예를 들어 가장

진한 빨간색의 경우 값이 2.57(유의수준 0.01)을 초과하는 지역임을 나

Page 50: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 50 -

타냄. 따라서 빨간색으로 표시된 시군구들은 비슷한 값을 가지는 지역들

이 인접하여 분포하고 있음을 의미함. 파란색의 경우는 상당히 다른 값

(예: +1.7과 –2.1)을 가지는 시군구들이 공간적으로 인접함을 나타냄

◦ 이는 전국적 경향에 비하여 노인인구 비중이 유사한(크거나 작은 경우

모두 해당됨) 시군구들이 공간적으로 인접하여 분포하려는 경향이 강

하게 나타남을 의미함

◦ 분석결과로 도출된 지도를 보면 특히 전라도 및 경상도 내륙 및 해안

가 지역과 수도권 지역에서 빨간색으로 표시된 시군구가 뚜렷하게 군

집한 것을 알 수 잇는데 이는 전역적 공간자기상관성이 뚜렷한 전국적

경향이 국지적으로 어디를 중심으로 두드러지는지를 알려주는 결과임

◦ 해석적 관점에서 보면 우리나라의 경우 2010년을 기준으로 노인인구의

비중이 높은 즉, 고령화가 심화된 지역들이 특히 지방의 내륙 및 해안

지역을 중심으로 공간적으로 군집한 것으로 볼 수 있음

◦ 한 가지 유의할 점은 수도권의 경우 노인인구의 절대 수는 지방보다

크겠지만 수도권의 총인구가 워낙 커서 수도원 전체인구에서 노인인구

가 차지하는 비율은 상대적으로 낮을 것임을 전제한다면 지도상에 수

도권 지역이 빨간색으로 표시된 것은 노인인구 비중이 전국 경향에 비

해서도 상대적으로 낮은 지역들이 군집한 결과로 추측해 볼 수 있음

◦ 이러한 분석결과는 갈수록 심화되고 있는 고령화 추세를 고려해볼 때

노인인구 관련 국토 및 지역정책 수립 시 어디를 중심으로 세부적인

정책안을 우선적용할지 등에 관한 의사결정 지원정보로써의 활용성이

있을 것으로 기대됨

◦ <그림 18>는 <그림 17>의 분석결과에 대한 모란 산점도(Moran Scatter

Plot)를 나타냄

Page 51: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 51 -

<그림 18> 모란 산점도: 노인인구 비중의 시군구별 공간분포 패턴요약

◦ 이 그림은 <그림 17>에서 빨간색으로 표시된 지역들의 경우 1사분면

및 3사분면에 연계되어 표시되어 있는 반면 2사분면에 군집한 점들(시

군구들)의 경우는 주변 지역과 상당히 다른 값을 가지는 지역들을 나

타내는데 주로 수도권 및 광역시와 농촌 지역 간 노인인구 비중이 점

진적으로 변화하는 점이지대에 위치한 지역들로 추정해볼 수 있음

Page 52: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 52 -

(2) Getis-Ord’s G Statistic

◦ <그림 19>는 공간자기상관성 분석 즉, 및 통계량에 적용했던 실증

자료를 공간군집도 분석을 위하여 및 에 적용하여 도출한

분석결과를 나타냄

<그림 19> Getis-Ord’s G Statistic 분석결과 예시

◦ 위 그림은 () 통계량 분석결과를 나타내는 <그림 Ⅳ-23>과 유사한 방

식으로 화면이 구성됨

◦ 위 그림이 나타내는 공간군집도 분석결과 역시 전역적 군집도()와

국지적 군집도()를 지도 및 표에 함께 표시함

◦ 전역적 분석결과의 경우 위 그림 오른쪽 패널 중간의 표에서 표시된

탐색반경 100km에서의 값 및 기댓값, 분산으로부터 계산한 값은

4.58임

◦ 이는 유의수준 0.01 기준 하에서 통계적으로 매우 유의미한 결과를 나

타내는데 해석적으로 보면 노인인구 비중에 있어서 전국적 경향을 상

회하는 지역들이 공간적으로 군집한 정도가 매우 큰 것을 의미함

◦ 지도상에 표시된 빨간색의 분포로부터 전라남도와 경상북도를 45도 대

각선 형태로 아우르는 지역들의 경우 전체인구 중에서 노인인구가 차

Page 53: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 53 -

지하는 비율이 전국적 경향에 비하여 상대적으로 큰 지역들이 공간적

으로 군집해 있음을 알 수 있음

◦ <그림 17>의 지도를 <그림 19>의 지도와 비교할 경우 전라도, 경상도를

중심으로 하는 빨간색 시군구들의 분포는 전반적으로 일치하고 있는

반면 수도권 지역은 전혀 다른 결과를 보임을 알 수 있음

◦ 이러한 차이는 와 를 정의하는 방식의 차이를 나타내는 것으로

의 경우 작은 값들의 공간군집과 큰 값들의 공간군집 모두 큰 (양의)

결과 값을 산출하는 반면, 의 경우는 큰 값들의 공간군집만 큰

(양의) 결과 값을 보이며 작은 값들을 가진 시군구들이 공간적으로 군

집하는 경우는 작은 결과 값이 산출됨

◦ 수도권의 경우 노인인구 비중에 있어서 전국 경향보다 작은 값을 가지

는 시군구들이 인접하여 분포함으로 인하여 국지적 공간군집도 즉,

값 엄밀히 말하면 는 작은 값으로 산출되어 지도상에는

파란색 시군구들이 밀집한 결과를 보이고 있음

◦ 각 시군구를 표시하는 지도상의 색 역시 <표 Ⅳ-3>의 임계기준을 적용

한 결과임

◦ 이로써 지도상에서 값을 통하여 구분이 어려웠던 큰 값과 작은 값

의 공간군집도를 의 경우는 확연히 구분할 수 있음

◦ 일반적으로 동일한 실증자료에 대하여 와 를 동시에 살펴

봄으로써 큰 값과 작은 값의 공간적 군집을 비교·분석하고 전반적인

공간자기상관성 및 공간군집도 결과를 바탕으로 국지적인 차이를 파악

하는 방식으로 활용함

◦ 마지막으로 <그림 21>은 의 중요한 분석 파라미터인 탐색반경

의 범위에 따라 전반적인 공간군집도가 어떻게 변화하는지 탐색적으

로 살펴보기에 유용한 분석도구를 결과와 함께 예시하고 있음

Page 54: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 54 -

<그림 21> 탐색반경() 변화에 따른 공간군집도 변화 탐색도구

◦ 위 그림을 보면 약 80km 정도의 탐색반경에서 공간적 군집도가 최댓값

을 나타내는데 이는 해당 공간범위에서 노인인구 비중이 높은 시군구

들이 군집하려는 경향이 가장 강함을 함의함

(3) Nearest Neighbor Statistic

◦ 최근린 통계량 실증분석을 위하여 영국 Cardiff 지역 내 청소년 범죄자

들의 주거지 위치 자료를 이용하였음13)

◦ <그림 22>은 이 자료를 실증·적용하여 도출한 최근린 통계량의 분석

결과를 나타냄

◦ 이 분석결과는 최근린 지점 쌍들 (nearest neighbor point pairs) 간 평

13) 이 자료는 Bailey and Gatrell(1995)이 점 분포 패턴 분석(point pattern analysis) 방법론 설명 과정에서 예시적으로 활용한 바 있으며, 이 연구에서 사용한 PySAL 라이브러리 인스톨 과정에서 ESRI Shapefile (Point) 형태의 실습자료로 제공된 것임

Page 55: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 55 -

균거리를 값을 나타내며 각 점으로부터 최근린 지점을 빨간색 선으로

연결하여 지도상에 표시하였음

◦ 분석결과 최근린 통계량(=0.83)의 값이 -4.25로서 유의수준 0.01에 해당하

는 임계기준인 –2.57보다도 훨씬 작은 값이 산출되었는데 이로부터 대상

지 내 청소년 범죄자들의 주거지 위치들은 공간상에서 서로 군집하려는

경향이 강한 특성을 보이는데 이는 통계적으로도 유의한 결과임을 의미함

<그림 22> 최근린 통계량 실증 분석결과

◦ 이 결과로부터 한편으로는 청소년 범죄의 경우 인접한 곳에 살고 있어

서 서로 알고 지낼 가능성이 높은 청소년들이 함께 범행에 가담했을

가능성을 조심스레 추론해 볼 수도 있음

(4) -function

◦ <그림 23>은 -function의 분석결과를 나타내는데 분석에 사용된 실증

자료 역시 최근린 통계량에 사용된 영국 Cardiff 지역 내 청소년 범죄

자들의 주거지 위치 자료임

◦ 분석결과는 그림에서 왼쪽의 그래프와 오른쪽의 범죄발생지점을 나타

내는 지도로 표현됨

◦ 그래프는 -function으로부터 도출된 결과를 (식25)의 -function으로

Page 56: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 56 -

스케일 변환을 통하여 구성한 것임

◦ 그래프에서 알 수 있듯이 에서 탐색반경인 가 대략 12km 정도

일 때 범죄 청소년들이 거주하는 주거지 위치의 공간적 군집도가 가장

크며 이로부터 탐색반경이 증가함에 따라 공간적 군집도는 점점 작아

지고 있음

<그림 23> -function 분석결과 예시

◦ 그래프에서 빨간색 선은 실증자료에 대한 -function값을 나타내며 파

란색 점선과 파란색 옅은 실선 및 진한 실선은 각각 몬테카를로 시뮬

레이션을 통하여 구출한 하위 5%, 중간값, 상위 5% 경계를 나타냄

◦ 몬테카를로 시뮬레이션은 실증자료가 나타내는 범죄 청소년들의 주거

지 위치를 무작위로 재배열하여 특정 탐색반경에 대한 -function을

산출하고 이를 여러 차례(예: 99회) 반복하여 계산한 -function 값들

을 오름차순으로 정렬하여 임계치 경계(예: 상위 5%)를 도출하기 위하

여 필요한 과정임

◦ 이러한 시뮬레이션 과정을 일정 범위 내 모든 탐색반경에 대하여 실시

함으로써 <그림 23>의 왼쪽과 같은 그래프를 생성할 수 있음

Page 57: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 57 -

◦ 해석적 관점에서 볼 때 탐색반경 약 13km 정도에 이르면 빨간색 실선

이 파란색 실선 즉, 시뮬레이션 결과 설정된 상위 5% 경계보다 작은

값이 도출되는데 이는 유의수준 5% 조건 하에서 해당 탐색반경을 넘어

설 경우 공간적 군집도가 통계적으로 유의하지 않음을 함의하는 것임

◦ 반대로 해당 탐색반경 이하에서는 동일한 유의수준 하에서 통계적으로

유의미한 공간적 군집경향을 보이고 있음을 추론할 수 있음

(5) Statistic

◦ <그림 24>는 통계량 분석결과 예시이며, 분석을 위해 우간다

(Uganda)의 Burkitt’s lymphoma 발생위치 및 시점자료를 이용하였음14)

◦ 분석에 필요한 파라미터는 공간 및 시간 탐색반경인데 이 예시에서는

공간 탐색반경의 경우 질병 발생 지점들의 MBR 길이의 1/20을 적용하

였고 시간 탐색반경 역시 최초 발생 시점과 마지막 발생 시점 간 차이

의 1/20을 적용하여 분석을 수행하였음

<그림 24> 통계량 분석결과 예시

14) 이 자료 역시 Bailey and Gatrell(1995)이 점 분포 패턴 분석(point pattern analysis) 방법론 설명 과정에서 활용하였으며 PySAL 라이브러리 인스톨 과정에서 ESRI Shapefile (Point) 형태의 실습자료로 제공되었음

Page 58: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 58 -

◦ (식26)이 나타내는 통계량을 실제 자료에 적용하여 계산한 뒤 몬

테카를로 시뮬레이션을 수행하여 통계적 유의성 검정을 위한 경계값을

추정함

◦ 몬테카를로 시뮬레이션은 실증자료의 공간 및 시간적 위치를 무작위로

재배열한 뒤 새로 생성된 자료에 대하여 (식26)을 적용한 계산결과를

도출하는데 이 과정을 여러 차례 반복한 뒤 생성된 결과 값들을 오름

차순으로 정렬하여 경계에 해당하는 값들을 설정함

◦ 실증자료의 공간 및 시간적 위치를 무작위로 재배열하는 과정은 공간

적 위치는 고정시키고 각 지점에서의 발생 시간을 무작위로 부여하는

방식을 적용하는 것이 일반적임

◦ 분석결과 실증자료에 대한 통계량의 -값이 0.1%(=0.001)로 매우

작은 값을 보이는데 이는 해당 질병이 시공간 상에서 일정 범위(시간

및 공간 range 값의 1/20)에서 군집하려는 경향이 강하며 이는 통계적

으로도 매우 유의한 결과임을 함의하는 것임

◦ 따라서 우간다에서 발생한 Burkitt’s lymphoma는 시공간상에서 군집

을 유도하는 모종의 환경적 요인이 작용한 결과였을 가능성이 있는 것

으로 추론해 볼 수 있음

(6) Spatial Scan Statistic

◦ <그림 25>은 공간검색 통계량 분석결과를 예시하는데 분석을 위하여

미국 뉴욕 주 이리-나이아가라 카운티 지역(Erie & Niagara County,

New York, USA) 내 우편구역 경계(ZIP code boundary)별 유방암 발생

건수(case)와 잠재적 발생위험 인구수(control: population at-risk)를 나

타내는 자료를 이용하였음15)

15) 이 자료 역시 ESRI Shapefile 형태로 구축한 것인데 인터넷에 공개된 대상지역 내 우편구역 경계별 유방암 발생건수 및 인구정보를 ArcGIS를 이용하여 우편구역 경계를 나타내는 ploygon shapeifle에 join하는 방식으로 구축하였음

Page 59: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 59 -

◦ (식32)에서 정의한 공간검색 통계량은 본질적으로 최대우도비(maximum

of likeihood ratio)에 해당하는데 이 값을 찾아내어 지도에 표시하고 통

계적 유의성 정보를 함께 나타내는 방식으로 분석결과를 제시함

◦ 최대우도비는 <그림 14>에서 예시된 과정을 적용하여 찾아냄

<그림 25> Spatial Scan Statistic 분석결과 예시

◦ 최대우도비는 통상 1st 우도비에 해당하는데 이를 확장하여 2nd 및 3rd

우도비 역시 함께 찾아서 지도에 표시함으로써 최대우도비와 함께 추

가적인 분석정보를 제공할 수 있음

◦ 최대우도비의 통계적 유의성 역시 몬테카를로 시뮬레이션을 적용한 경

계값 설정을 통하여 검증하는데 공간검색 통계량의 경우 <그림 15>에

서 나타내는 다항난수 생성기법을 적용하는 방식으로 유방암 발생건수

를 각 우편구역 경계별로 새로 생성(부여)하였음

◦ 이러한 과정을 무수히(예: 999회) 반복하면 시뮬레이션을 통한 최대우

도비의 경계값(예: 유의수준 0.05일 경우 999회 시뮬레이션 결과값의

경우 오름차순 정렬시 상위 50번째에 해당함)을 설정하여 통계적 유의

Page 60: 2000년도 사업계획서(안) 양식 - geeps.krihs.re.krgeeps.krihs.re.kr/download/files/공간통계분석이론.pdf · - 4 - 건보다 적게 발생한 달도 있고 반대로

- 60 -

성을 검정할 수 있음

◦ 이러한 통계적 유의성 검정과정은 2nd 및 3rd 우도비 경우에도 유사한

방식으로 적용할 수 있음. 즉, 시뮬레이션을 통하여 산출한 우도비들

중 2nd 및 3rd에 해당하는 값들만을 모아서 역시 오름차순으로 정렬한

뒤 특정 유의수준 하에서 경계 값을 찾아내는 것임

◦ <그림 25>의 분석결과로부터 대상지 내 유방암 발생 최대(1st)우도비 발

생지역의 위치와 최대우도비 값을 가지는 공간적 범위가 빨간색 원으

로 표시되어 있음

◦ 또한 2nd 및 3rd우도비 역시 각각 파란색과 초록색 원으로 공간적 범위

등이 지도에 표시되어 있음

◦ 세 경우 모두 값은 모두 0.01보다 훨씬 작은 것으로 보아 1% 유의수준

(0.01) 조건 하에서 통계적으로 매우 유의미한 결과임을 알 수 있음

◦ 해석적 관점에서 볼 때 대상지 내 유방암 발생 공간패턴으로부터 도출

된 군집지역들(clusters)은 우연의 산물이 아니라 모종의 공간과정을 통

하여 형성된 결과임을 의미함

◦ 이는 높은 유방암 발병률의 잠재적 환경요인이 무엇인지를 규명하기

위하여 추가적 역학조사가 필요한 경우 해당 지역에 우선순위를 부여

할 수 있음을 함의하는 것임