Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
ESTATISTICA AVANCADA:MODELOS NAO LINEARES
Modulo 3: Teoria Assintotica
Gilvan Guedes, Cedeplar - UFMGMelissa Pinho, Estatıstica - UFMG
Escola do Legislativo - ALMGBelo Horizonte, Minas Gerais
21 de setembro de 2015
Sumario
1 Propriedades Assintoticas dos Estimadores 2
2 Propriedades Assintoticas 32.1 Consistencia de um estimador . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Convergencia em quadrado medio ou media quadratica . . . . . . . . . . . 52.3 O Teorema de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Convergencia em Distribuicao . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Consistencia de β 83.1 Prova de Consistencia de β . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Normalidade Assintotica de β de MQO . . . . . . . . . . . . . . . . . . . . 123.3 Prova da Normalidade Assintotica de β . . . . . . . . . . . . . . . . . . . . 13
3.3.1 TCL variante de Lindberg-Feller . . . . . . . . . . . . . . . . . . . . 153.4 Consistencia de s2 e a variancia assintotica de β . . . . . . . . . . . . . . . 173.5 Eficiencia assintotica de β . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Pratica de Teoria Assintotica 194.1 Simulacao de Monte Carlo Simples e Propriedades Assintoticas . . . . . . . 19
1
1 Propriedades Assintoticas dos Estimadores
Esse texto e de autoria da Profa. Sueli Moro (Departamento de
Economia/UFMG) e esta estritamente proibida sua reproduc~ao. A maior
parte das formulas e baseada no livro do (Greene, 2012). Algumas
pequenas alterac~oes no texto original foram feitas para adequar linguagem
e notac~ao para o LateX.
A econometria tem se tornado “cheia de assintotico”(Leamer, 1988).
A teoria assintotica trata do que acontece a uma estatıstica ou estimador quandoo tamanho da amostra se torna muito grande. Essa estatıstica pode ser a media,variancia, os coeficientes do modelo linear e ate mesmo os testes estatısticos.
Indexamos sempre em n ou T para mostrar o papel do tamanho da amostra:
βn ou βt
O quao grande precisa ser uma amostra para que o estimador mostre as suas pro-priedades assintoticas?
Goldfeld and Quandat (1972) mostram um exemplo em que uma amostra de tamanho 30ja e suficientemente grande. Mostram tambem outro exemplo em que e necessaria umaamostra de 200 observacoes. Segundo os autores, grandes amostras sao mais impor-tantes quando existe maior interesse na variancia do que nos valores.
2
Como quase sempre trabalhamos com pequenas amostras (finitas), defender um estimadorcom base nas suas propriedades assintoticas faria sentido somente se estimadores commelhores propriedades assintoticas tambem tivessem melhores propriedadesem amostras finitas. E parece que e isso que acontece!
2 Propriedades Assintoticas
Um estimador nao viesado e aquele cuja distribuicao amostral e centrada no verdadeirovalor do parametro; ou seja:
E[θ] = θ
Essa propriedade nao depende do tamanho da amostra: um estimador nao viesado e naoviesado em pequenas e grandes amostras!
Mas as vezes nao e possıvel encontrar um estimador que tenha boas propriedades empequenas amostras. Quando isso acontece, precisamos justificar o uso do estimador combase em suas propriedades assintoticas, ou seja, a sua distribuicao em grandes amostras.
A distribuicao de um estimador muda com o tamanho da amostra. A mediada amostra, por exemplo, tem uma distribuicao amostral que e centrada na media dapopulacao:
E[X] = µ
Mas a variancia da media torna-se menor a medida que a amostra aumenta:
V ar[X] =σ2
n
Quais sao as propriedades assintoticas que precisamos definir para um estimador?
1. Consistencia: utiliza o conceito de convergencia em probabilidade. Questao:a distribuicao de β colapsa para um valor especıfico quando n aumenta?
2. Eficiencia assintotica: utiliza o conceito de convergencia em distribuicao eesta relacionada com o conceito de distribuicao assintotica. Questao: a distribuicaode β se aproxima de uma forma conhecida (ex. normal) quando n aumenta?
Para provar que um estimador e eficiente assintoticamente, e necessario conhecer a dis-tribuicao assintotica desse estimador! Observacao: ela precisa ser normal!
Mas o que e a distribuicao assintotica de um estimador?
Considerar a distribuicao de um estimador β para amostras cada vez maiores: se as dis-tribuicoes vao se tornando cada vez mais parecidas com alguma distribuicaoespecıfica, esta e chamada de distribuicao assintotica desse estimador!
Algumas consideracoes:
3
1. Se a distribuicao assintotica de β se concentra em um valor k quando a amostratende ao infinito, diz-se que k e a probabilidade limite de β. Se limn→∞ β = β,dizemos que β e um estimador consistente!
2. A variancia da distribuicao assintotica e chamada de variancia assintotica.
Entao, se β e consistente e a sua variancia assintotica e menor que a variancia assintoticade qualquer outro estimador consistente, β e chamado de assintoticamente eficiente!
• A propriedade plimβ = β pode ser vista como o equivalente de ausencia de vies emgrandes amostras (atencao, isso somente no sentido de que se refere ao valor doparametro)
• Consistencia pode ser pensada como o equivalente da propriedade de minimum meansquare error (mınimo erro quadratico medio)
que MSE pode ser definido como:
MSE = Var(θ) + [Vies(θ)]2
A variancia de um estimador assintoticamente eficiente tende a zero mais rapidamenteque a variancia de qualquer outro estimador consistente.
2.1 Consistencia de um estimador
Observacao: mesma intuicao da esperanca, no sentido que se refere a valores.
Para estabelecer consistencia, precisamos do conceito de convergencia em probabi-lidade. O conceito de convergencia em probabilidade e usado para definir a con-sistencia de estimadores.
Convergencia em Probabilidade:
A sequencia de variaveis aleatorias
z1, z2, . . . , zn
converge em probabilidade para a variavel aleatoria z se:
limT→∞
Prob[|zn − z| > ε] = 0 ∀ ε > 0
Diz-se, entao que:zn
p→ z
Ou seja, zn converge em probabilidade para z. E que:
plim(zn) = z
Isso quer dizer que a probabilidade da diferenca ser maior que qualquer numeropositivo, por menor que ele seja, e zero.
4
Uma condicao suficiente (mas nao necessaria) para que ocorra a convergencia ea convergencia em quadrado medio ou media quadratica (mean square). Econdicao suficiente porque pode haver convergencia sem que ocorra convergencia em mediaquadratica.
Exemplo Uma variavel aleatoria z toma dois valores 0 e T com probabilidades:
P (z = 0) = 1− 1
T
e
P (z = T ) =1
T
Quando T aumenta a P (z = 0) tende a 1 e a P (z = T ) tende a 0. Nesse caso, z convergeem probabilidade a 0 e, portanto:
limT→+∞
zT = 0
ezT
p→ 0 ou seja, plim(zT ) = 0
2.2 Convergencia em quadrado medio ou media quadratica
Se zn tem media µn e variancia σ2n tais que:
limn→+∞
E[zn] = c
elim
n→+∞V ar[zn] = 0
entao zn converge em media quadratica para c e
plim(zn) = c
A prova e obtida pelo Teorema de Chebychev. Ou seja, limite da esperanca e uma cons-tante e limite da variancia e zero.
Para nosso estimador β, teriamos:
limn→+∞
E[βn] = β
elim
n→+∞V ar[βn] = 0
Convergencia em media quadratica implica em convergencia em probabilidade,mas a recıproca nao e verdadeira!
5
Observacao: Convergencia em media quadratica: o limite da esperanca tem que ser umaconstante e o limite da variancia tem que ser zero.
Exemplo de um caso em que a convergencia em probabilidade nao implica em convergenciaem quadrado medio: Seja xn = 0, T , P (xn = 0) = 1− 1
Te P (xn = T ) = 1
T. Nesse caso:
E[xn] = 0
(1− 1
T
)+ T
(1
T
)= 1
elim
n→+∞E[xn] = 1
mas a probabilidade limite e zero, porque:
xnp→ 0
ou seja,plim(xn) = 0
Conclusao: O limite da esperanca e 1 e a plim e 0.
O limite da variancia tambem nao e zero:
E(x2n) = (0)2(
1− 1T
)+ (T )2 1
T= T
V ar(xn) = E[xn − E(xn)]2
V ar(xn) = E[xn − 1]2 = E[x2n]− 2E[xn] + (1)2
V ar(xn) = T − 2 + 1 = T − 1
(1)
Conclusao: A variavel zn converge em probabilidade, mas nao converge em quadradomedio, porque a media converge para uma constante, mas a variancia nao con-verge para zero.
Felizmente, isso e raro de acontecer. Normalmente, convergencia em probabilidade im-plica em convergencia em quadrado medio.
O conceito de convergencia em probabilidade e usado para definir a consistencia de esti-madores:
• Convergencia → Para onde vai? plim
• Consistencia→ Vai para onde eu quero que va e a variancia se aproxima de zero?plimβ = β?
Entao, um estimador sera consistente se plimβ = β e sua variancia se aproximade zero quando n aumenta.
6
Consistencia da media de uma amostra
A media de uma amostra e um estimador consistente para a media da populacao. Istoporque:
E[x] = µ
e
V ar[x] =σ2
n
Assim,lim
n→+∞var(x) = 0
elim
n→+∞E[x] = µ
2.3 O Teorema de Slutsky
E uma consequencia interessante da consistencia. E uma das razoes que possibilita usara teoria assintotica. Isso porque a algebra associada ao calculo das esperancas, que enecessaria para encontrar as propriedades em amostras finitas, as vezes e muito difıcil,pode ser ate impossıvel, e no limite tudo fica mais facil!
Teorema de Slutsky:
Para uma funcao contınua de xn, g(xn),
plimg(xn) = g[plim(xn)]
Observacao: g(xn) precisa ser uma funcao contınua. Isto e: a plim de uma funcaocontınua e a funcao avaliada na plim.
Isso nao e verdade para a esperanca matematica, pois o valor esperado de uma funcaonao-linear de uma estatıstica nao e uma funcao nao-linear do valor esperado daquela es-tatıstica.
Exemplo Seja g uma funcao quadratica de um estimador g(b) = b2, entao:
E[b2] = V ar(b) + [E(b)]2
Lembre-se que V ar(x) = E(x2)− [E(x)]2 → E(x2) = V ar(x) + [E(x)]2
Sabemos que E[b2] 6= [E(b)]2. Mas no limite V ar(b) tende a zero e, portanto:
limn→+∞
E[b2] = [E(b)]2
eplim[b2] = plim[E(b)]2
O Teorema de Slutsky e utilizado em varias situacoes como, por exemplo, em plim damultiplicacao de funcoes, plim da soma de funcoes, etc.
7
2.4 Convergencia em Distribuicao
Convergencia em distribuicao e a forma mais fraca de convergencia. O Teorema Cen-tral do Limite e um teorema sobre convergencia em distribuicao.
Convergencia em probabilidade nao e a mesma coisa que convergencia em distribuicao.Vejamos a diferenca:
• Convergencia em probabilidade: diz que a variavel aleatoria converge para umvalor conhecido (o parametro na populacao).
• Convergencia em distribuicao: diz que as variaveis se comportam da mesma ma-neira, ou seja, tem a mesma distribuicao, mas nao tem necessariamente os mesmosparametros.
E importante para a distribuicao limite e para a distribuicao assintotica.
Observacao: Convergencia em distribuicao e a forma de convergencia mais fraca (weakconvergence) e nao implica nenhum outro tipo de convergencia. Mas todos os outros ti-pos de convergencia implicam em convergencia em distribuicao, como a convergencia emprobabilidade.
3 Consistencia de β
Para que β seja um estimador consistente de β e preciso que plimβ = β (o vies e avariancia se aproximem de 0)!Observacao: Lembre-se que β e uma variavel aleatoria em amostras repetidas.
Se β convergir em probabilidade para uma constante, ou seja, a media na populacao, e sea sua variancia convergir para zero, teremos convergencia em mean square, e a probabili-dade limite de β e β. Isso porque convergencia em mean square implica em convergenciaem probabilidade.
Entao, para onde converge β = (XTX)−1XTy?
A partir de agora fazemos toda a analise indexada em n, ou seja, o tamanho da amostraagora e importante, porque desejamos saber as propriedades do estimador quando n au-menta.
Quando dividimos por n temos medias e queremos saber se essas medias de amostrasconvergem para medias na populacao.
8
3.1 Prova de Consistencia de β
O metodo dos Mınimos Quadrados Ordinarios busca minimizar a soma dos quadradosdos erros, utilizando como base as equacoes normais:
(β) = εTε = (Y −Xβ)T (Y −Xβ)
S(β) = YTY − βTXTY −YTXβ + βTXTXβ
S(β) = YTY − 2βTXTY + βTXTXβ
∂S(β)∂β
= −2XTY + 2XTXβ
(2)
As equacoes normais sao obtidas como:
S(β)/β = 0
∂S(β)∂β
= −2XTY + 2XTXβ = 0
XTXβ = XTY
(3)
Como:∂S(β)∂β = −2XTY + 2XTXβ = 0
β = (XTX)−1XTY
∂2S(β)∂β∂β
= 2XTX
(4)
Assim, XTX e uma matriz positiva e definida.
O estimador MQO de β e:β = (XTX)−1XTy
Substituindo y = Xβ + ε, temos:
β = (XTX)−1XT(Xβ + ε)
β = (XTX)−1(XTX)β + (XTX)−1Xε
β = β + (XTX)−1Xε
(5)
Multiplicando e dividindo a parte destacada de β por n teremos:
plim(XTX)−1Xε = plim
[(XTX)−1
n
XTε
n
]
9
Utilizando o Teorema de Slutsky:
plim(g(x)) = g(plim(x))
temos:
plim
[(XTX)−1
n
XTε
n
]= plim
(XTX)−1
nplim
XTε
n
Dividir a equacao acima por n faz sentido porque agora n→ +∞ e tambem porque XTX euma matriz de somas de produtos e os elementos de sua diagonal sao somas de quadrados.
Se existe um intercepto, o elemento superior a direita da matriz XTX sera igual a n.Entao, quando n → +∞, algumas dessas somas tendem a ficar muito grandes. Por isso,nao faz sentido achar plim(XTX). Quando olhamos a plim(X
TXn
) estamos olhando paraos valores medios de XTX, e esses sao finitos quando n aumenta.
Pressuposto:
limn→+∞
XTX
n= Q
em que Q e uma matriz finita, positiva definida e nao-singular. E uma media dosomatorio de produtos e dos somatorios de quadrados de variaveis.
Isso implica que quando n aumenta os elementos de XTX nao aumentam a uma taxamaior do que n. Mas quando essa expressao se torna infinita (no caso da equacao detendencia) a sua inversa se torna 0.Vamos mostrar que:
σ2(XTX)−1 = var(β)
vai se aproximando de zero quando n aumenta, ou seja:
limn→∞
σ2(XTX)−1 = var(β) = 0
A expressao limn→+∞XTXn
= Q tambem implica que quando n aumenta, os elementos deXTX sao linearmente independentes no limite, uma vez que ela e nao-singular, admitindoinversa. Vejamos um exemplo de violacao dessa hipotese.
Equacao de tendencia:y = β1 + β2 + ε
XTX =
[T T (T+1)
2
T (T + 1) T (T+1)(2T+1)6
]Veja que a equacao viola o pressuposto, pois
limT→+∞
(XTX
T
)=
[1 +∞
+∞ +∞
]esta matriz nao e finita, ou seja, “explode”no infinito.Outra equacao que viola o pressuposto e:
yt = β1 + β2λt + εt
10
em que: |λ| < 1
Nesse caso,
limT→+∞
(XTX
T
)=
[1 00 0
]que e uma matriz singular.
Felizmente, a matriz XTX satisfaz as condicoes de Grenander, que sao mais fracas esuficientes para a consitencia dos β.
Condic~oes de Grenander (Greene, 2012):
G1 - Para cada coluna de X, xk, se d2nk = xTk xk, ent~ao limn→+∞ d
2nk = +∞. Portanto,
xk n~ao degenera a uma sequencia de zeros. As somas dos quadrados continuar~ao
a crescer na medida em que o tamanho da amostra aumenta. Nenhuma variavel
degenerara para uma sequencia de zeros.
G2 - limn→+∞ x2ik/d
2nk = 0 para todo i = 1, . . . , n. Essa condic~ao implica que nenhuma
observac~ao individual dominara xTk xk, e na medida em que n→ +∞, observac~oes
individuais se tornar~ao menos importantes.
G3 - Seja Rn a matriz de correlac~ao amostral das colunas da matriz X, excluindo
o termo constante caso haja um. Ent~ao, limn→+∞Rn = C, uma matriz positiva
definida. Essa condic~ao implica que a condic~ao de posto completo sempre sera
atingida. Ja assumimos que X tem posto completo em uma amostra finita, ent~ao
esse pressuposto assegura que a condic~ao nunca sera violada.
Ate agora provamos que
limn→+∞
XTX
n= Q
ou que pelo menos XTX satisfaz as condicoes de Grenander. Portanto, temos agora que:
plimβ = β + plim
(XTXn
)−1plim
(XTεn
)
plimβ = β + Q−1plim
(XTεn
) (6)
Agora precisamos fazer a prova assintotica de plim
(XTεn
). Fazendo:
XTε
n=
1
n
n∑i=1
xiεi =1
n
n∑i=1
wi = w
Assim, teremos:plimβ = β + Q−1plimw
11
Supondo que X seja nao-estocastico (e portanto, nao-correlacionado com o erro), temos:
Media de w
E[w] =1
n
n∑i=1
E[wi] =1
n
n∑i=1
E[xi, εi] =1
n
n∑i=1
xiE(εi) =1
nXTE[ε] = 0
Variancia de w
V ar(w) = E[wwT ] = E
[XTεn
εTXn
]V ar(w) = 1
nXTE(εεT|X)X
n= 1
nσ2XTX
n= σ2
nXTXn
(7)
Tomando o limite:
limn→+∞
var(w) = limn→+∞
(σ2
n
XTX
n
)= 0Q = 0
Entao, uma vez que a media de w e zero (uma constante) e sua variancia converge parazero, w converge em media quadratica para zero.
Assim:plim(w) = 0
e
plim
(1
nXTε
)= 0
Observacao: Lembre-se que isso e a prova da consistencia de β e que estamos usandoconvergencia em probabilidade.
Entao:β = β + (XTX)−1XTε
plimβ = β + Q−1plimXTεn
plimβ = β + Q−10
plimβ = β
(8)
Conclusao: β e um estimador consistente no modelo de Regressao Classico.
3.2 Normalidade Assintotica de β de MQO
Nessa sessao perguntamos qual e a distribuicao assintotica de β.
Vimos que em uma amostra finita nao precisamos de normalidade dos erros nem dos βpara provar a eficiencia dos β de MQO (a prova e obtida utilizando Gauss-Markov).
12
Mas vimos tambem que so podemos afirmar que β tem uma distribuicao normal quandoε tem uma distribuicao normal. Ou seja, somente podemos inferir sobre a distribuicao deβ quando os erros sao normais.
Agora, para derivar a distribuicao assintotica de β precisamos assumir a matriz X inde-pendente dos erros (ou seja, exogeneidade). Usamos o Teorema Central do Limite e naoprecisamos de normalidade em amostra finita.
Distribuicoes assintoticas: sao tambem caracterizadas por suas medias e varianciascomo nas distribuicoes finitas.
Temos entao a media assintotica e a variancia assintotica:
β = E[β] = β
A media assintotica e igual a esperanca assintotica que e dada por plimβ = β. Nocaso dos estimadores, como no limite temos uma constante β, a variancia e zero! Entao adistribuicao assintotica nao e a distribuicao no limite, porque no limite e uma distribuicaodegenerada!
Observacao: No limite nao ha distribuicao, e um pico! Entao a distribuicao assintoticae a distribuicao da jornada final, antes de colapsar para um ponto.
A distribuicao de um determinado estimador e diferente (ou pode ser), a medida queo tamanho da amostra aumenta. Pode diferir nao somente na media e variancia, mastambem na forma matematica (lembrar que a binomial e assintoticamente uma normal).
A essencia do Teorema Central do Limite pode ser resumida como:
Quando o tamanho da amostra aumenta a distribuicao da media amostralaproxima-se da normal. Diz-se entao que a normal e a distribuicao assintoticada media amostral.
Quando estamos interessados em saber se os momentos da amostra convergem para osmomentos da populacao, a Lei dos Grandes Numeros (LGN) nos da essa resposta.Veja que ha uma diferenca entre a LGN e o TCL:
• LGN: momentos → media, variancia, etc.
• TCL: distribuicao
3.3 Prova da Normalidade Assintotica de β
Para derivar a distribuicao de β, nao precisamos que os erros sejam normais. No entanto,precisaremos de duas condicoes:
• Teorema Central do Limite (TCL)
• assumir que X e uma matriz de variaveis independentes dos erros
13
Observacao: Fazemos a prova utilizando uma funcao de β, ao inves de β diretamente,porque se β converge para β - que e uma constante - no limite nao ha distribuicao, apenasum pico.
Lembre-se que:
β = β + XTXn
−1XTεn
β − β = XTXn
−1XTεn
(9)
Multiplicando ambos os lados por√n, obtemos:
√n(β − β) =
[XTXn
−1 XTε√n√n
]√n
√n(β − β) = XTX
n
−1XTε√n
(10)
Temos que a distribuicao limite de√n(β−β) e igual a distribuicao limite do lado direito,
ou seja:
plim
[(XTX
n
)−1(XTε√n
)]Ja obtivemos a plim
(XTXn
)−1, que e Q−1. Mas nao temos a plim
(XTε√n
), embora tenha-
mos a plim
(XTεn
)= 0.
Entao, qual seria a distribuicao limite de
(XTε√n
)? Veja que essa e uma distribuicao que
sera mais lenta para convergir, pois e indexada em√n ao inves de n:(
1√n
)XTε =
√nw
Lembre-se que w = XTεn
= XTε√n√n
√nw =
√n XTε√
n√n
= XTε√n
= 1√nXTε(11)
14
Calculando a esperanca e a variancia de√nw, temos:
Media:E[√nw] =
√nE[w] = 0
Variancia:V ar[
√nw] = nV ar(w)
V ar[√nw] = n
[σ2
nXTXn
]V ar[
√nw] = σ2XTX
n
(12)
Se tomarmos o limite da variancia de√nw, teremos:
limn→+∞
V ar[√nw] = lim
n→+∞σ2XTX
n= σ2Q
Resta agora aplicar uma variante do Teorema Central do Limite (variante de Lindberg-Feller) ao vetor
√nw. Vejamos o TCL de Lindberg-Feller.
3.3.1 TCL variante de Lindberg-Feller
Caso Univariado
Se x1, . . . , xn e uma amostra aleatoria de uma distribuicao de probabilidade com media µe variancia σ2 na populacao:
Xn =1
n
n∑i=1
xi
Entao, √n(Xn − µ)
d∼ N [0, σ2]
em que (Xn − µ) sao desvios da media da amostra em relacao a media da populacao.
A media de√n(Xn − µ) e obtida por:
E[√n(Xn − µ)] = E[
√nX]− E[
√nµ] =
√nE[X]−
√nE[µ]
E[√n(Xn − µ)] =
√nµ−
√nµ = 0
(13)
Caso Multivariado
Agora temos x1, . . . ,xn representando amostras de uma distribuicao multivariada. Assim:
√n(X− µ)
d∼ N [0,Q]
No nosso caso, temos que1√n
XTε =√n[w − E(w)]
15
em que: √n[w − E(w)]
d∼ N [0,Q]
Entao:1√n
XTεd∼ N [0, σ2Q]
Segue-se que:√n(β − β) =
(XTXn
−1)
XTε√n
limn→+∞[√n(β − β)] = limn→+∞
[(XTXn
−1)
XTε√n
]limn→+∞[
√n(β − β)] = Q−1 1√
nXTε
Q−1 1√nXTε
d∼ N [Q−10,Q−1(σ2Q)Q−1]
Q−1 1√nXTε
d∼ N [Q−10, σ2Q−1]
(14)
Observacao: Lembre-se que o primeiro termo e a media de Q−1 1√nXTε:
E
[Q−1
1√n
XTε
]= Q−10
e o segundo termo e a variancia de Q−1 1√nXTε:
V ar
(Q−1
1√n
XTε
)= Q−1(σ2Q)Q−1
Entao: √n(β − β)
d∼ N [0, σ2Q−1]
Vamos agora utilizar um resultado do Greene (2012):
Teorema: Se√n(θn − θ)
d∼ N [0, V ], entao θ ∼ N
[θ, 1
nV
], em que a primeira expressao
diz que√n(θn−θ) converge em distribuicao para uma normal com media zero e variancia
V e a segunda expressao diz que θ e assintoticamente normalmente distribuido commedia 0 e variancia 1
nV .
No caso do estimador MQO, se:
√n(β − β)
d∼ N [0, σ2Q−1]
entao:
β ∼ N
[β,σ2Q−1
n
]ou
β ∼ N [β, σ2(XTX)−1]
Logo, a normalidade assintotica de β nao necessita da normalidade dos erros! E umaconsequencia do Teorema Central do Limite!
16
3.4 Consistencia de s2 e a variancia assintotica de β
Para computar as propriedades assintoticas de β precisamos saber se o estimador davariancia, σ2 e consistente. Aqui so precisamos de consistencia!
O problema e a consistencia do estimador de σ2, σ2 = s2, uma vez que Q−1 nao e pro-blema. Sera que s2 e consistente?
s2 = εTεn−k
s2 = 1n−kε
TMε
(15)
Lembre-se que M e a matriz geradora de resıduos, obtida como se segue:
ε = y −Xβ
ε = y −X(XTX)−1XTy
ε = I−X(XTX)−1XT)y
ε = My
ε = M(Xβ + ε)
ε = MXβ + Mε = Mε
εTε = εTMTMε
εTε = εTMε
(16)
Abrindo a expressao s2 e multiplicando, temos:
s2 = 1n−kε
T[I−X(XTX)−1XT]ε
s2 = 1n−k [εTε− εTX(XTX)−1XTε]
(17)
Multiplicando por nn, temos:
s2 = nn−k [ ε
Tεn− εTX
n
(XTX−1
n
)XTεn
]
limn→+∞ s2 = limn→+∞n
n−k [ εTεn− εTX
n
(XTX−1
n
)XTεn
]
(18)
17
Sabe-se que nn−k converge para 1, εTX
ne XTε
nconvergem para zero e XTX
nconverge para
Q−1. Portanto, resta saber qual o limite de εTεn
, ou seja:
limn→+∞
s2 = limn→+∞
εTε
n
Para chegar a este resultado, utilizamos o seguinte teorema:
Teorema de Kinshine: A media de uma amostra aleatoria de observacoes indepen-dentes e identificamente distribuıdas (i.i.d.) e um estimador consistente da media dapopulacao.
Entao, precisamos apenas assumir que os erros sao i.i.d., nao precisamos assumir que elessao normais.
Neste caso, basta olharmos ε21, ε22, . . . , ε
2n como uma amostra aleatoria i.i.d. com media na
populacao igual σ2.
Observacao: Isso e valido porque:
E[ε2i ] = σ2
A media de ε2i nossa amostra e dada por:
ε2 =
∑ni=1 ε
2i
n=εTε
n
Temos entao que εTεn
e um estimador consistente da media da populacao σ2 (pelo Te-orema de Kinshine).
Logo:
plim
(εTε
n
)= σ2
Entao:plim(s2) = σ2
Observacao:
β ∼ N
[β, σ2Q−1
n
]ou
β ∼ N [β, σ2XTX−1
]
A variancia assintotica de β e:
AsyV ar[β] = s2(XTX)−1
exatamente igual a da amostra finita.
18
3.5 Eficiencia assintotica de β
Definicao: “um estimador e assintoticamente eficiente quando ele e consistente, assin-toticamente normalmente distribuıdo e tem uma matriz de variancia-covarianciaassintotica que nao e maior que nenhuma outra matriz de variancia-covarianciaassintotica de um outro estimador nas mesmas condicoes, isto e, consistente e nor-malmente assintoticamente distribuıdo”.
Ja vimos que o vetor β dos MQO e consistente, normalmente distribuıdo. Alem dessas pro-priedades assintoticas, e provado que a matriz da variancia-covariancia assintoticae mınima.
4 Pratica de Teoria Assintotica
4.1 Simulacao de Monte Carlo Simples e Propriedades Assintoticas
Nesse exercıcio trabalharemos com duas variaveis aleatorias, x e z, com mesma media evariancias diferentes.
1. Crie erros aleatorios com distribuicao normal, com media zero e variancia unitaria.Peca as medias para as variaveis x e z e para os erros criados para diferentes numerosde observacoes (por exemplo, 10, 100, 1000) e verifique que as variancias das variaveisdiminuem a medida que aumenta o numero de observacoes.
2. Crie novas variaveis (variaveis dependentes) y como funcao de x e z, de cada vez,da seguinte forma: y = 20 + 0, 6x+ ε e y = 20 + 0, 6z + ε.
3. Estime os modelos de regressao linear para numeros diferentes de observacoes (10, 10, 1000),tanto para y = f(x, ε) quanto para y = f(z, ε)
4. Crie uma variavel w correlacionada com os erros aleatorios, da seguinte maneira:w = 150 + ε
5. Transforme as variaveis x e z de modo a serem correlacionadas com os erros, daseguinte maneira: wx = x+ 500ε e wz = z + 5ε
6. Calcule as medias e teste as correlacoes entre todas as variaveis e os erros. O quese observa?
7. Estime modelos de regressao linear com os y criados e as variaveis x, z, w, wx e wzpara diferentes tamanhos de amostras (10, 100, 1000). Observe a convergencia dosparametros para cada modelo e discuta com detalhes, segundo o que voce conhecesobre a propriedade de consistencia do estimador dos MQO.
Observacoes Gerais:
19
A convergencia do estimador dos MQO pode ser compreendida da seguinte forma:
β = (XTX)−1XY
β = (XTX)−1X(Xβ + ε)
β = (XTX)−1XXβ + (XTX)−1XTε
β = β + (XTX)−1XTε
plimβ = β + plim
(XTXn
)−1XTεn
(19)
Atencao: quanto maior a variabilidade na matrix X, mais rapida e a convergencia.
Para casa: crie uma variavel xk muito correlacionada com os erros e repita o procedi-mento. Conclua.
Referencias
Goldfeld, S. M. and R. E. Quandat (1972). Nonlinear methods in econometrics.
Greene, W. H. (2012). Econometric Analysis (7th ed.). Pearson Education India.
Leamer, E. E. (1988). 3 things that bother me. Economic Record 64 (4), 331–335.
20