Upload
internet
View
104
Download
1
Embed Size (px)
Citation preview
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USPProf. Humberto Rocha
Análise Estatística Multivariada•Técnica das Componentes Principais (CP)(ou Funções Ortogonais Empíricas)
Motivação
variáveis hidroclimatológicas do sistema climático : grande quantidademuitas vezes correlacionadas entre si
uma tecnica estatistica que, sem perder as informação relevantes, viabiliza:
•Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade
•Reduzir a interpretação a um número de variáveis menor, ou seja:
• prover variaveis não correlacionadas entre si (limitação da técnica de regressão)• diminuir a redundância de informação
Climatologia II - ACA226 (Iag/USP)
Se i = j então tem-se a variância:
Climatologia II - ACA226 (Iag/USP)
Revisão
A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n
Revisão 2. A matriz de covariância Σ
Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo k=1,n
é a matriz quadrática (p x p) definida como
Como s12 = s21, por ex, a matriz é simétrica
Climatologia II - ACA226 (Iag/USP)
Revisão 3. Matriz de Correlação
Outra matriz importante nos cálculo das CP é a matriz de correlação.O coeficiente de correlação entre duas variáveis Xi e Xj é definido como
2 2
cov( , )
var( ) var( )i j
i ji j
x xsijrij
x xs s
Se i = j, então2
2 21i
ii
i i
sr
s s
A matriz de correlação é
r11 = r22 = ... rpp = 1 define a diagonal da matriz
Climatologia II - ACA226 (Iag/USP)
rij
Revisão 4. Variáveis Independentes
O coeficiente de correlação linear é
Assim
Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0
Contudo, o oposto nem sempre é verdadeiro.
Climatologia II - ACA226 (Iag/USP)
Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0
Revisão 5. Problema de autovetores e Autovalores
a) Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2)
Uma transformação linear em X, obtida por uma matriz A (conhecida)
que obtem o vetor Y, Y= A X (1)
e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida)
Y= λ X (2)
tem como solução possíveis os valores de λ, chamados autovalores,
e de X como o autovetor associado (calculado) a λ,
onde A é chamada de matriz de transformação.
Climatologia II - ACA226 (Iag/USP)
Determinação dos autovalores e autovetoresDe (1) e (2) A X = λ X ↔ (A – λ I) X = 0 (3)
Definindo-se a matriz A e a matriz identidade I, temos
11 21 1
12 22 2
1 0, ,
0 1
a a xA X I
a a x
Então em (3)
a11x1 + a12x2 – λx1 = 0 (a11 - λ) x1 + a12x2 = 0
a21x1 + a22x2 – λx2 = 0 a21x1 + (a22 - λ)x2 = 0↔
A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja
e que é chamada de equação característica da matriz A ,com soluções (chamadas características) que são os autovalores λ1 e λ2.
Climatologia II - ACA226 (Iag/USP)
Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja,(no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades:
os autovetores Xi são lineares independentes, portanto formam uma base vetorial,
são ortogonais entre si;
nenhum Xk pode ser expresso em função de outro Xj;
cov(Xk,Xj)k≠j = 0
Revisão 6. Variância de um Sistema Def: a Variância total do Sistema (V) de Y = f(x1,x2) dependente das v.a. x1 e x2 na relação
linear y = (a1x1 + a2x2) é definida como
V = Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a2
2Var(x2)+2a1a2cov(x1,x2)
Climatologia II - ACA226 (Iag/USP)
1
2( ) '( ), onde ,
p
a
aVar y a a a
a
= matriz de covariância de Xa’ = matriz transposta de a
Demonstração:
11 12 1 1
21 22 2 2
1 2
...
...'( ) 1 2
...
p
p
p p pp p
s s s a
s s s aa a a a ap
s s s a
1 11 2 12 1
1 21 2 22 2
1 1 2 2
( .. )
( .. )'( ) 1 2
( .. )
p p
p p
p p p pp
a s a s a s
a s a s a sa a a a ap
a s a s a s
Ou na forma genérica (i=1, ..,p)
mostra-se que
Climatologia II - ACA226 (Iag/USP)
Na diagonal principal vem
Nas diagonais em geral
1 2 12 1 2 1 2
1
( )
2 2 cov( , )
2 cov( , )p
i j i ji
i p
a a s a a x x
a a x x
Portanto cqd
2
1 1
'( ) var( ) 2 cov( , )
'( ) ( )
p p
i i j i ji i
a a a xi a a x x
a a Var y
Climatologia II - ACA226 (Iag/USP)
Na 1ª diagonal por ex
Componentes principais : definição e determinaçãoSeja o sistema (V) de Y = f(X1,X2,..,Xp ) de p variáveis independentes, com n eventos cada (no tempo por ex), as CP serão determinadas com o fim de reter o máximo de informação das variáveis (X1,..,Xp) transformando-as em outras p variáveis Y1, Y2,...Yp, onde se:(a) garanta a sua ortogonalidade de Yi (i=1,p) ;(b) retenha somente k variáveis mais importantes (k<p), Y1,...,Yk ; (c) Possa interpretar a importância de cada Xi (i=1,p) nas CP.
As CP são definidas como o conjunto de vetores Y = (Y1,Y2,...,Yp ) , formado por p combinações lineares de X tal que
pi
i
i
i
l
l
l
l
...
3
2
1
ppppppp
pp
pp
XlXlXlXlY
XlXlXlXlY
XlXlXlXlY
...´
...
...´
...´
2211
222211222
122111111
ilcom o vetor
Climatologia II - ACA226 (Iag/USP)
Cálculo das Componentes principais
Objetivo: maximizar Var(Yi) onde
e que Var(Y1) > Var(Y2) > ... > Var(Yp)
Para a 1ª CP Var(Y1) = l1’(Σ l1) onde Σ = matriz covariancia de X l1’ = (l11,l21,...,lp1) , transposto de l1
maximizar (var(Y1)) = max(l1’(Σ l1))
condição de contorno: l1’ l1=1
seja então Q1 = l1’ (Σ l1) e introduzimos um multiplicador lagrangiano λ1
Q1 = l1’(Σ l1) + λ1 - λ1l1’l1 ↔ Q1 = l1’(Σ l1) + λ1(1 - l1’l1)
max(Q1) leva a 1
1 1 1 1 11
0 0 ( )Q
l l I ll
Eq. Característica da matriz com p-pares solução (λ1, l1), mas para obter
uma solução única de l1 vem:1 1 1 1 1 1
1 1 1 1 1 1
0
multiplicando por ' ' '
l l l l
l l l l l
p
i ji
p
i i YYYVarYVar11
),cov(2)()(
0
Vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante
11 .1)( YVar 11 )( YVar
das p soluções possíveis, toma-se o maior λ1 e o l1 associado
Climatologia II - ACA226 (Iag/USP)
Climatologia II - ACA226 (Iag/USP)
a) Procedimento de cálculo : dada matriz de covariância Σ de X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp)
Identifica-se a 1ª CP no maior λ1, e assim sucessivamente a 2ª CP até k-esima CP tal que (λ1 > λ2 > ... > λp )
b) Construção de cada CP (chamada também de factor) é
ppppppp
pp
pp
XlXlXlXlY
XlXlXlXlY
XlXlXlXlY
...´
...
...´
...´
2211
222211222
122111111
O coeficiente lk1 é o “peso” (chamado de loading) da variável Xk na 1ª CP relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta)
infere-se a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)
Propriedades
(1) Com a matriz de covariância , a equação característica | Σ - λ I|=0define-se a matriz dos coeficientes das componentes principais U e a matriz L
U’ Σ U = L , onde
As colunas de U , (u1, u2,...un) são os auto-vetores da matriz ΣOs elementos da diagonal de L , (λ 1, λ 2...λ n) são os autovalores da matriz Σ
A variância total do sistema é dada por
e a variância explicada pela i-ésima CP é
Portanto escolhe-se somente as k primeiras CPs (Y1,Y2,...,Yk), (k>p)que respondam pela maior parte da variância total, para fins de interpretação.
pppp
p
p
lll
lll
lll
U
...
......................
...
...
21
22212
12111
p
L
...00
......................
0...0
0...0
2
1
pii
pii LtraçoYVar
,1,1
)()(
%100.
,1 pi
i
i
Climatologia II - ACA226 (Iag/USP)
Exemplo 1 : duas séries temporais
Temperatura média diária em 2 estações próximas, T1 e T2, durante 15 dias
Dia T 1 T 2
1 10 10.7
2 10.4 9.8
3 9.7 10
4 9.7 10.1
5 11.7 11.5
6 11.0 10.8
7 8.7 8.8
8 9.5 9.3
9 10.1 9.4
10 9.6 9.6
11 10.5 10.4
12 9.2 9.0
13 11.3 11.6
14 10.1 9.8
15 8.5 9.2
Climatologia II - ACA226 (Iag/USP)
Matriz de covariância
determinando a equação característica
Climatologia II - ACA226 (Iag/USP)
Com soluções λ1 = 1.44 e λ2 = .086
053.112.073.068.0
68.079,0 2
IS
Climatologia II - ACA226 (Iag/USP)
auto-vetores li obtidos pela solução da equação 0 IS
0
0
44.173.068.0
68.044.179,0
12
1111 l
llIS Para λ1 = 1.44
Para λ2 = .086 analogamente
69.0
72.01l
72.0
69.02l
variância do sistema = soma dos auto-valores = 1.44 + .09 = 1.53
variância explicada pela 1ª CP = 1.44/1.53 = 0.94 (ou ~94%) variância explicada pela 2ª CP = 0.09 /1.53 = 0.06 ( ou ~6,0%)
72.069.0
69.072.0Usautovetoredosmatriz
Interpretação geométrica das CPs : rotação de eixosno sistema de coordenadas centrado na média =(10,10) definem-se eixos de variação:
Na 1ª CP l11=0.72 = cosseno do ângulo abscissa c/1º eixo (linha azul sólida), cos(43,65o)=0.72;
Na 2ª CP l21=-0.69 = cosseno do ângulo abscissa c/2º eixo (linha verde), cos(90o+46,35o)=-0.69é Ortogonal ao 1º eixo
regressão linear de T2 =f (T1) indicada linha preta
Climatologia II - ACA226 (Iag/USP)
Var
iave
l T2
Variavel T1
46,35o
Eixo u = direção principal de variação entre X1 e X2
Eixo v = 2a direção principal
assim as direções u e v são chamadas de Componentes Principais.
1o autovetor2o autovetor
Exemplo 2: com 3 variáveis
Exemplo 3 - Aplicação em campos espaciais
Variáveis: série histórica de precipitação (acumulado em pentadas) 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003)
Disposição: grade regular na America do Sul (60S a10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t
Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos, ou seja,
Climatologia II - ACA226 (Iag/USP)
1º CP 18.6% da variância explicada 2º CP 7.8% da variância explicada
3º CP 4.36% da variância explicada4º CP 3.92% da variância explicada
Climatologia II - ACA226 (Iag/USP)
Coeficiente temporal do 1º CP Coeficiente temporal do 2º CP
Coeficiente temporal do 3º CP Coeficiente temporal do 4º CP
Reconstrução temporal das CPs
Climatologia II - ACA226 (Iag/USP)
Reconstrução da Série =CP x coeficiente temporal
Dados originais de Precipitação pentadal
evento 25-maio-1984evento 25-maio-1984
Climatologia II - ACA226 (Iag/USP)