Upload
buiduong
View
218
Download
0
Embed Size (px)
Citation preview
Sistemas de Informação Geográfica II
Alexandre GonçalvesDECivil - IST
Estatística espacialMAUP
Autocorrelação Espacial
Os dados de locais próximos entre si tendem a ser mais similares que os de locais mais afastados.
Primeira lei da geografia, enunciada por Waldo Tobler: «Todas as coisas estão relacionadas entre si, mas as coisas mais próximas [no espaço] têm maior relação que as mais distantes»
Exemplos:• Preço das casas• Altitude• Temperatura
Estatísticas espaciais
• Manipulação de informação espacial– Operações mais comuns: queries (por atributo ou por
localização), medições, sobreposições da análise espacial– Análise de dados espaciais: descritiva e exploratória– Visualização
• Análise estatística espacial: teste de hipóteses– Serão os dados “esperados” ou “inesperados” em relação a
algum modelo estatístico � habitualmente algo é comparado com um processo aleatório
• Modelação espacial: predição– Construção de modelos (de processos) para predizer resultados
(padrões)– Análises what if ?
Estatística espacial
Estatística espacial ≠ estatística para entidades com uma distribuição espacial
�Avalia as propriedades espaciais do conjunto de dados, i.e., distância, padrões de distribuição, etc, etc.
�Pode ser descritiva ou quantitativa�Descritiva: qualifica um padrão de distribuição
espacial�Quantitativa: avalia e mede um padrão ou relação
com outros dados espaciais
Medidas de distribuição espacial Análise de padrões
• Distribuição de padrões de pontos• Média do Vizinho mais Próximo (Average Nearest Neighbor)• Ripley’s K• Diagramas de Voronoi• Semivariograma e ferramentas analíticas exploratórias da
geoestatística• Análise quadrat: comparação de contagens esperadas e verificadas
de objetos com áreas de amostragem (quadrats) para testar padrões de distribuição como aleatoriedade e clustering
• Distribuição de padrões de pontos– Contínuos: gradientes e variabilidade local
• Moran’s I• Getis-Ord General G
– Dados discretos ou categóricos• Métricas de paisagem• Join count
Average Nearest Neighbor Ripley’s K
• Multi-distance Spatial Cluster Analysis
• Ripley’s K determina se um conjunto de dados está agrupado (clustered) a múltiplas distâncias distintas
• O resultado é uma tabela
• Distância variávelhhhh
h
Ripley’s K
• Conta as entidade em [classes de] distâncias definidas
• Avalia a distribuição espacial (agrupada, uniforme, aleatória)
• Deteta a escala desses padrões em função de intervalos
• Supõe:– Estacionariedade: inexistência de tendências nos dados– Isotropia: sem deteção direcional– Área de estudo regular (raramente encontrada)
Ripley’s K
Ripley’s K Diagrama de Voronoi
Semivariograma
• O variogram teórico 2γ(x,y) é uma função que descreve o grau de dependência espacial de uma processo estocástico Z(x).
• O que é construído é o semivariograma empírico:
onde N(h) denota o conjunto de pares de observações tais que| xi − xj | = h, e | N(h) | é o número de pares de pontos
Semivariograma
Semivariograma
• Range (alcance): distância média na qual a variável permanece espacialmente autocorrelacionada � a extensão das tendências epaciais, distância além da qual a amostragem relvela aleatoriedade
• Sill (patamar): máxima variância dos dados amostrados
• Nugget (pepita): erros de medição ou pequenas variações na distância mínima de amostragem sampling distance
Análise quadrat
• Se a distribuição de pontos pelas células de uma grelha é aleatoria, pode ser modelada pela distribuição de Poisson
• Estatísticas calculáveis– média de pontos por bloco– variância
• Um teste pode ser aplicado (χ2)
• O tamanho e forma das células influencia o resultado
http://www.spatialanalysisonline.com/
Moran’s I (autocorrelação espacial)
• Expressa a semelhança entre entidades vizinhas• Aplicável a grandezas contínuas• Varia de -1 a 1 Positiva
NegativaZero: não se nota efeito espacial, a
variação parece ser aleatória
A distribuição não-aleatória de fenómenos espaciais tem várias consequências para a análise estatística.
Parâmetros de estimação enviesadosRedundância de dados (afecta o cálculo de intervalos de confiança)
Moran’s I (autocorrelação espacial)
Moran’s I (autocorrelação espacial) Getis-Ord General G
• Compara a razão entre o que se iria obter se os valores fossem aleatoriamente distribuídos entre as entidades, com os valores observados
• Mede concentrações de valores altos/baixos• Valor alto = os valores altos estão agrupados• A relação entre os valores observados e os expectáveis deterimana de o
índice geral G é significativo ou não a um nível estatístico• A hipótese nula é “não há clustering”
Getis-Ord General G Getis-Ord General G
Join count statistic
• Aplicável a polígonos, com um atributo binário– O polígono tem ou não tem uma certa característica – Por exemplo, um candidato ganhou ou não
ganahou uma eleição local• Base na análise de polígonos que partilham fronteira
– Os polígonso vizinhos têm a mesma característica?
• Usa matriz de contiguidade
• Estatística de teste: Z = (Obs. – Exp.) / (StDev Exp.)E (JBB)=kpB
2 E (JRR)=kpR2 E (JRB)=2kpBpR k=nº de “joins”
Mesmo valor
de ambos os
lados
Valores
distintos em
cada lado
JRB= 15
JRR= 87
JBB= 24
Correlação Cruzada
• Positiva• Negativa• Zero
MAUP
Área Modificável: As unidades são arbitrariamente definidas e uma organização distinta cria resultados analíticos diferentes.
MAUP
MAUP (cartograma distorcido)
MAUP - Modifiable Areal Unit Problem
As unidades espaciais mínimas são habitualmente artificiais e modificáveis, no sentido em que podem ser combinadas, por agregação, para produzir outras unidades de diferente configuração
As unidades de agregação usadas são arbitrárias em relação ao fenómeno em estudo; e vão afetar as estatísticas feitas a partir de dados com essa configuração
Se as unidades espaciais forem diferentes, observam-se padrões e relações distintas
MAUP
Efeito de escala: valorações distintas de índices estatísticos para os mesmos dados de base quando sujeitos a diferentes níveis de agregação.
Efeito de generalização: evidencia-se através das várias alternativas como o agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação
MAUPEfeitos de escala (B, C, D) e generalização (E, F)
A: m = 18,75 σ2 = 105,00
20 10 10
30 20 20
10 30 10
10 30 10
40
30
10
10
15
25
20
20
20
25
15
C: m = 18,75 σ2 = 22,92
15
25
25
10
10
B: m = 18,75 σ2 = 41,07
18
17,5
20
E: m = 18,875 σ2 = 1,73
20
F: m = 21,84 σ2 = 124,73
10
15,71
26,66
35
D: m = 18,75 σ2 = 98,21
25 15 15 35
10 30 10 10
MAUP
• Gerrymandering: acção de alterar as unidades de base para condicionar resultados
3-1
4-0
2-2
1-3
MAUP
Há problemas em todas as áreas de aplicação
Exemplo, as fronteiras dos círculos eleitorais: quem tem mais votos pode não ficar em 1.º lugar
Soluções?
Dados a um nível mais desagregado � mas até onde?
Optimizar a agregação
� mas como?
Falácia Ecológica
A “Falácia Ecológica” ocorre quando se faz uma inferência sobre um indivíduo com base em informação agregada.
(o oposto é a “Generalização Precipitada”)
(Reference: http://jratcliffe.net/research/ecolfallacy.htm)
Falácia Ecológica
• A falácia ecológica e o MAUP são concretizações do problema denominado Problema de Mudança de Suporte(COSP).
• Há mais termos para descrever COSP particulares e respectivas soluções incluindo o problema de escala, inferência entre sistemas de zona incompatíveis, krigagem por blocos, interpolação picnofilática, etc.