Autocorrelação Espacial Estatística espacial MAUP ... · agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação. MAUP Efeitos

Sistemas de Informação Geográfica II

Alexandre GonçalvesDECivil - IST

[email protected]

Estatística espacialMAUP

Autocorrelação Espacial

Os dados de locais próximos entre si tendem a ser mais similares que os de locais mais afastados.

Primeira lei da geografia, enunciada por Waldo Tobler: «Todas as coisas estão relacionadas entre si, mas as coisas mais próximas [no espaço] têm maior relação que as mais distantes»

Exemplos:• Preço das casas• Altitude• Temperatura

Estatísticas espaciais

• Manipulação de informação espacial– Operações mais comuns: queries (por atributo ou por

localização), medições, sobreposições da análise espacial– Análise de dados espaciais: descritiva e exploratória– Visualização

• Análise estatística espacial: teste de hipóteses– Serão os dados “esperados” ou “inesperados” em relação a

algum modelo estatístico � habitualmente algo é comparado com um processo aleatório

• Modelação espacial: predição– Construção de modelos (de processos) para predizer resultados

(padrões)– Análises what if ?

Estatística espacial

Estatística espacial ≠ estatística para entidades com uma distribuição espacial

�Avalia as propriedades espaciais do conjunto de dados, i.e., distância, padrões de distribuição, etc, etc.

�Pode ser descritiva ou quantitativa�Descritiva: qualifica um padrão de distribuição

espacial�Quantitativa: avalia e mede um padrão ou relação

com outros dados espaciais

Medidas de distribuição espacial Análise de padrões

• Distribuição de padrões de pontos• Média do Vizinho mais Próximo (Average Nearest Neighbor)• Ripley’s K• Diagramas de Voronoi• Semivariograma e ferramentas analíticas exploratórias da

geoestatística• Análise quadrat: comparação de contagens esperadas e verificadas

de objetos com áreas de amostragem (quadrats) para testar padrões de distribuição como aleatoriedade e clustering

• Distribuição de padrões de pontos– Contínuos: gradientes e variabilidade local

• Moran’s I• Getis-Ord General G

– Dados discretos ou categóricos• Métricas de paisagem• Join count

Average Nearest Neighbor Ripley’s K

• Multi-distance Spatial Cluster Analysis

• Ripley’s K determina se um conjunto de dados está agrupado (clustered) a múltiplas distâncias distintas

• O resultado é uma tabela

• Distância variávelhhhh

h

Ripley’s K

• Conta as entidade em [classes de] distâncias definidas

• Avalia a distribuição espacial (agrupada, uniforme, aleatória)

• Deteta a escala desses padrões em função de intervalos

• Supõe:– Estacionariedade: inexistência de tendências nos dados– Isotropia: sem deteção direcional– Área de estudo regular (raramente encontrada)

Ripley’s K

Ripley’s K Diagrama de Voronoi

Semivariograma

• O variogram teórico 2γ(x,y) é uma função que descreve o grau de dependência espacial de uma processo estocástico Z(x).

• O que é construído é o semivariograma empírico:

onde N(h) denota o conjunto de pares de observações tais que| xi − xj | = h, e | N(h) | é o número de pares de pontos

Semivariograma

Semivariograma

• Range (alcance): distância média na qual a variável permanece espacialmente autocorrelacionada � a extensão das tendências epaciais, distância além da qual a amostragem relvela aleatoriedade

• Sill (patamar): máxima variância dos dados amostrados

• Nugget (pepita): erros de medição ou pequenas variações na distância mínima de amostragem sampling distance

Análise quadrat

• Se a distribuição de pontos pelas células de uma grelha é aleatoria, pode ser modelada pela distribuição de Poisson

• Estatísticas calculáveis– média de pontos por bloco– variância

• Um teste pode ser aplicado (χ2)

• O tamanho e forma das células influencia o resultado

http://www.spatialanalysisonline.com/

Moran’s I (autocorrelação espacial)

• Expressa a semelhança entre entidades vizinhas• Aplicável a grandezas contínuas• Varia de -1 a 1 Positiva

NegativaZero: não se nota efeito espacial, a

variação parece ser aleatória

A distribuição não-aleatória de fenómenos espaciais tem várias consequências para a análise estatística.

Parâmetros de estimação enviesadosRedundância de dados (afecta o cálculo de intervalos de confiança)

Moran’s I (autocorrelação espacial)

Moran’s I (autocorrelação espacial) Getis-Ord General G

• Compara a razão entre o que se iria obter se os valores fossem aleatoriamente distribuídos entre as entidades, com os valores observados

• Mede concentrações de valores altos/baixos• Valor alto = os valores altos estão agrupados• A relação entre os valores observados e os expectáveis deterimana de o

índice geral G é significativo ou não a um nível estatístico• A hipótese nula é “não há clustering”

Getis-Ord General G Getis-Ord General G

Join count statistic

• Aplicável a polígonos, com um atributo binário– O polígono tem ou não tem uma certa característica – Por exemplo, um candidato ganhou ou não

ganahou uma eleição local• Base na análise de polígonos que partilham fronteira

– Os polígonso vizinhos têm a mesma característica?

• Usa matriz de contiguidade

• Estatística de teste: Z = (Obs. – Exp.) / (StDev Exp.)E (JBB)=kpB

2 E (JRR)=kpR2 E (JRB)=2kpBpR k=nº de “joins”

Mesmo valor

de ambos os

lados

Valores

distintos em

cada lado

JRB= 15

JRR= 87

JBB= 24

Correlação Cruzada

• Positiva• Negativa• Zero

MAUP

Área Modificável: As unidades são arbitrariamente definidas e uma organização distinta cria resultados analíticos diferentes.

MAUP

MAUP (cartograma distorcido)

MAUP - Modifiable Areal Unit Problem

As unidades espaciais mínimas são habitualmente artificiais e modificáveis, no sentido em que podem ser combinadas, por agregação, para produzir outras unidades de diferente configuração

As unidades de agregação usadas são arbitrárias em relação ao fenómeno em estudo; e vão afetar as estatísticas feitas a partir de dados com essa configuração

Se as unidades espaciais forem diferentes, observam-se padrões e relações distintas

MAUP

Efeito de escala: valorações distintas de índices estatísticos para os mesmos dados de base quando sujeitos a diferentes níveis de agregação.

Efeito de generalização: evidencia-se através das várias alternativas como o agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação

MAUPEfeitos de escala (B, C, D) e generalização (E, F)

A: m = 18,75 σ2 = 105,00

20 10 10

30 20 20

10 30 10

10 30 10

40

30

10

10

15

25

20

20

20

25

15

C: m = 18,75 σ2 = 22,92

15

25

25

10

10

B: m = 18,75 σ2 = 41,07

18

17,5

20

E: m = 18,875 σ2 = 1,73

20

F: m = 21,84 σ2 = 124,73

10

15,71

26,66

35

D: m = 18,75 σ2 = 98,21

25 15 15 35

10 30 10 10

MAUP

• Gerrymandering: acção de alterar as unidades de base para condicionar resultados

3-1

4-0

2-2

1-3

MAUP

Há problemas em todas as áreas de aplicação

Exemplo, as fronteiras dos círculos eleitorais: quem tem mais votos pode não ficar em 1.º lugar

Soluções?

Dados a um nível mais desagregado � mas até onde?

Optimizar a agregação

� mas como?

Falácia Ecológica

A “Falácia Ecológica” ocorre quando se faz uma inferência sobre um indivíduo com base em informação agregada.

(o oposto é a “Generalização Precipitada”)

(Reference: http://jratcliffe.net/research/ecolfallacy.htm)

Falácia Ecológica

• A falácia ecológica e o MAUP são concretizações do problema denominado Problema de Mudança de Suporte(COSP).

• Há mais termos para descrever COSP particulares e respectivas soluções incluindo o problema de escala, inferência entre sistemas de zona incompatíveis, krigagem por blocos, interpolação picnofilática, etc.

Documents

Autocorrelação Espacial Estatística espacial MAUP ... · agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação. MAUP Efeitos