ESTAT ISTICA AVANC˘ADA: MODELOS NAO LINEARES~ Modulo … · 1 Propriedades Assint oticas dos Estimadores Esse texto e de autoria da Profa. Sueli Moro (Departamento de Economia/UFMG)

ESTATISTICA AVANCADA:MODELOS NAO LINEARES

Modulo 3: Teoria Assintotica

Gilvan Guedes, Cedeplar - UFMGMelissa Pinho, Estatıstica - UFMG

Escola do Legislativo - ALMGBelo Horizonte, Minas Gerais

21 de setembro de 2015

Sumario

1 Propriedades Assintoticas dos Estimadores 2

2 Propriedades Assintoticas 32.1 Consistencia de um estimador . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Convergencia em quadrado medio ou media quadratica . . . . . . . . . . . 52.3 O Teorema de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Convergencia em Distribuicao . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Consistencia de β 83.1 Prova de Consistencia de β . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Normalidade Assintotica de β de MQO . . . . . . . . . . . . . . . . . . . . 123.3 Prova da Normalidade Assintotica de β . . . . . . . . . . . . . . . . . . . . 13

3.3.1 TCL variante de Lindberg-Feller . . . . . . . . . . . . . . . . . . . . 153.4 Consistencia de s2 e a variancia assintotica de β . . . . . . . . . . . . . . . 173.5 Eficiencia assintotica de β . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 Pratica de Teoria Assintotica 194.1 Simulacao de Monte Carlo Simples e Propriedades Assintoticas . . . . . . . 19

1

1 Propriedades Assintoticas dos Estimadores

Esse texto e de autoria da Profa. Sueli Moro (Departamento de

Economia/UFMG) e esta estritamente proibida sua reproduc~ao. A maior

parte das formulas e baseada no livro do (Greene, 2012). Algumas

pequenas alterac~oes no texto original foram feitas para adequar linguagem

e notac~ao para o LateX.

A econometria tem se tornado “cheia de assintotico”(Leamer, 1988).

A teoria assintotica trata do que acontece a uma estatıstica ou estimador quandoo tamanho da amostra se torna muito grande. Essa estatıstica pode ser a media,variancia, os coeficientes do modelo linear e ate mesmo os testes estatısticos.

Indexamos sempre em n ou T para mostrar o papel do tamanho da amostra:

βn ou βt

O quao grande precisa ser uma amostra para que o estimador mostre as suas pro-priedades assintoticas?

Goldfeld and Quandat (1972) mostram um exemplo em que uma amostra de tamanho 30ja e suficientemente grande. Mostram tambem outro exemplo em que e necessaria umaamostra de 200 observacoes. Segundo os autores, grandes amostras sao mais impor-tantes quando existe maior interesse na variancia do que nos valores.

2

Como quase sempre trabalhamos com pequenas amostras (finitas), defender um estimadorcom base nas suas propriedades assintoticas faria sentido somente se estimadores commelhores propriedades assintoticas tambem tivessem melhores propriedadesem amostras finitas. E parece que e isso que acontece!

2 Propriedades Assintoticas

Um estimador nao viesado e aquele cuja distribuicao amostral e centrada no verdadeirovalor do parametro; ou seja:

E[θ] = θ

Essa propriedade nao depende do tamanho da amostra: um estimador nao viesado e naoviesado em pequenas e grandes amostras!

Mas as vezes nao e possıvel encontrar um estimador que tenha boas propriedades empequenas amostras. Quando isso acontece, precisamos justificar o uso do estimador combase em suas propriedades assintoticas, ou seja, a sua distribuicao em grandes amostras.

A distribuicao de um estimador muda com o tamanho da amostra. A mediada amostra, por exemplo, tem uma distribuicao amostral que e centrada na media dapopulacao:

E[X] = µ

Mas a variancia da media torna-se menor a medida que a amostra aumenta:

V ar[X] =σ2

n

Quais sao as propriedades assintoticas que precisamos definir para um estimador?

1. Consistencia: utiliza o conceito de convergencia em probabilidade. Questao:a distribuicao de β colapsa para um valor especıfico quando n aumenta?

2. Eficiencia assintotica: utiliza o conceito de convergencia em distribuicao eesta relacionada com o conceito de distribuicao assintotica. Questao: a distribuicaode β se aproxima de uma forma conhecida (ex. normal) quando n aumenta?

Para provar que um estimador e eficiente assintoticamente, e necessario conhecer a dis-tribuicao assintotica desse estimador! Observacao: ela precisa ser normal!

Mas o que e a distribuicao assintotica de um estimador?

Considerar a distribuicao de um estimador β para amostras cada vez maiores: se as dis-tribuicoes vao se tornando cada vez mais parecidas com alguma distribuicaoespecıfica, esta e chamada de distribuicao assintotica desse estimador!

Algumas consideracoes:

3

1. Se a distribuicao assintotica de β se concentra em um valor k quando a amostratende ao infinito, diz-se que k e a probabilidade limite de β. Se limn→∞ β = β,dizemos que β e um estimador consistente!

2. A variancia da distribuicao assintotica e chamada de variancia assintotica.

Entao, se β e consistente e a sua variancia assintotica e menor que a variancia assintoticade qualquer outro estimador consistente, β e chamado de assintoticamente eficiente!

• A propriedade plimβ = β pode ser vista como o equivalente de ausencia de vies emgrandes amostras (atencao, isso somente no sentido de que se refere ao valor doparametro)

• Consistencia pode ser pensada como o equivalente da propriedade de minimum meansquare error (mınimo erro quadratico medio)

que MSE pode ser definido como:

MSE = Var(θ) + [Vies(θ)]2

A variancia de um estimador assintoticamente eficiente tende a zero mais rapidamenteque a variancia de qualquer outro estimador consistente.

2.1 Consistencia de um estimador

Observacao: mesma intuicao da esperanca, no sentido que se refere a valores.

Para estabelecer consistencia, precisamos do conceito de convergencia em probabi-lidade. O conceito de convergencia em probabilidade e usado para definir a con-sistencia de estimadores.

Convergencia em Probabilidade:

A sequencia de variaveis aleatorias

z1, z2, . . . , zn

converge em probabilidade para a variavel aleatoria z se:

limT→∞

Prob[|zn − z| > ε] = 0 ∀ ε > 0

Diz-se, entao que:zn

p→ z

Ou seja, zn converge em probabilidade para z. E que:

plim(zn) = z

Isso quer dizer que a probabilidade da diferenca ser maior que qualquer numeropositivo, por menor que ele seja, e zero.

4

Uma condicao suficiente (mas nao necessaria) para que ocorra a convergencia ea convergencia em quadrado medio ou media quadratica (mean square). Econdicao suficiente porque pode haver convergencia sem que ocorra convergencia em mediaquadratica.

Exemplo Uma variavel aleatoria z toma dois valores 0 e T com probabilidades:

P (z = 0) = 1− 1

T

e

P (z = T ) =1

T

Quando T aumenta a P (z = 0) tende a 1 e a P (z = T ) tende a 0. Nesse caso, z convergeem probabilidade a 0 e, portanto:

limT→+∞

zT = 0

ezT

p→ 0 ou seja, plim(zT ) = 0

2.2 Convergencia em quadrado medio ou media quadratica

Se zn tem media µn e variancia σ2n tais que:

limn→+∞

E[zn] = c

elim

n→+∞V ar[zn] = 0

entao zn converge em media quadratica para c e

plim(zn) = c

A prova e obtida pelo Teorema de Chebychev. Ou seja, limite da esperanca e uma cons-tante e limite da variancia e zero.

Para nosso estimador β, teriamos:

limn→+∞

E[βn] = β

elim

n→+∞V ar[βn] = 0

Convergencia em media quadratica implica em convergencia em probabilidade,mas a recıproca nao e verdadeira!

5

Observacao: Convergencia em media quadratica: o limite da esperanca tem que ser umaconstante e o limite da variancia tem que ser zero.

Exemplo de um caso em que a convergencia em probabilidade nao implica em convergenciaem quadrado medio: Seja xn = 0, T , P (xn = 0) = 1− 1

Te P (xn = T ) = 1

T. Nesse caso:

E[xn] = 0

(1− 1

T

)+ T

(1

T

)= 1

elim

n→+∞E[xn] = 1

mas a probabilidade limite e zero, porque:

xnp→ 0

ou seja,plim(xn) = 0

Conclusao: O limite da esperanca e 1 e a plim e 0.

O limite da variancia tambem nao e zero:

E(x2n) = (0)2(

1− 1T

)+ (T )2 1

T= T

V ar(xn) = E[xn − E(xn)]2

V ar(xn) = E[xn − 1]2 = E[x2n]− 2E[xn] + (1)2

V ar(xn) = T − 2 + 1 = T − 1

(1)

Conclusao: A variavel zn converge em probabilidade, mas nao converge em quadradomedio, porque a media converge para uma constante, mas a variancia nao con-verge para zero.

Felizmente, isso e raro de acontecer. Normalmente, convergencia em probabilidade im-plica em convergencia em quadrado medio.

O conceito de convergencia em probabilidade e usado para definir a consistencia de esti-madores:

• Convergencia → Para onde vai? plim

• Consistencia→ Vai para onde eu quero que va e a variancia se aproxima de zero?plimβ = β?

Entao, um estimador sera consistente se plimβ = β e sua variancia se aproximade zero quando n aumenta.

6

Consistencia da media de uma amostra

A media de uma amostra e um estimador consistente para a media da populacao. Istoporque:

E[x] = µ

e

V ar[x] =σ2

n

Assim,lim

n→+∞var(x) = 0

elim

n→+∞E[x] = µ

2.3 O Teorema de Slutsky

E uma consequencia interessante da consistencia. E uma das razoes que possibilita usara teoria assintotica. Isso porque a algebra associada ao calculo das esperancas, que enecessaria para encontrar as propriedades em amostras finitas, as vezes e muito difıcil,pode ser ate impossıvel, e no limite tudo fica mais facil!

Teorema de Slutsky:

Para uma funcao contınua de xn, g(xn),

plimg(xn) = g[plim(xn)]

Observacao: g(xn) precisa ser uma funcao contınua. Isto e: a plim de uma funcaocontınua e a funcao avaliada na plim.

Isso nao e verdade para a esperanca matematica, pois o valor esperado de uma funcaonao-linear de uma estatıstica nao e uma funcao nao-linear do valor esperado daquela es-tatıstica.

Exemplo Seja g uma funcao quadratica de um estimador g(b) = b2, entao:

E[b2] = V ar(b) + [E(b)]2

Lembre-se que V ar(x) = E(x2)− [E(x)]2 → E(x2) = V ar(x) + [E(x)]2

Sabemos que E[b2] 6= [E(b)]2. Mas no limite V ar(b) tende a zero e, portanto:

limn→+∞

E[b2] = [E(b)]2

eplim[b2] = plim[E(b)]2

O Teorema de Slutsky e utilizado em varias situacoes como, por exemplo, em plim damultiplicacao de funcoes, plim da soma de funcoes, etc.

7

2.4 Convergencia em Distribuicao

Convergencia em distribuicao e a forma mais fraca de convergencia. O Teorema Cen-tral do Limite e um teorema sobre convergencia em distribuicao.

Convergencia em probabilidade nao e a mesma coisa que convergencia em distribuicao.Vejamos a diferenca:

• Convergencia em probabilidade: diz que a variavel aleatoria converge para umvalor conhecido (o parametro na populacao).

• Convergencia em distribuicao: diz que as variaveis se comportam da mesma ma-neira, ou seja, tem a mesma distribuicao, mas nao tem necessariamente os mesmosparametros.

E importante para a distribuicao limite e para a distribuicao assintotica.

Observacao: Convergencia em distribuicao e a forma de convergencia mais fraca (weakconvergence) e nao implica nenhum outro tipo de convergencia. Mas todos os outros ti-pos de convergencia implicam em convergencia em distribuicao, como a convergencia emprobabilidade.

3 Consistencia de β

Para que β seja um estimador consistente de β e preciso que plimβ = β (o vies e avariancia se aproximem de 0)!Observacao: Lembre-se que β e uma variavel aleatoria em amostras repetidas.

Se β convergir em probabilidade para uma constante, ou seja, a media na populacao, e sea sua variancia convergir para zero, teremos convergencia em mean square, e a probabili-dade limite de β e β. Isso porque convergencia em mean square implica em convergenciaem probabilidade.

Entao, para onde converge β = (XTX)−1XTy?

A partir de agora fazemos toda a analise indexada em n, ou seja, o tamanho da amostraagora e importante, porque desejamos saber as propriedades do estimador quando n au-menta.

Quando dividimos por n temos medias e queremos saber se essas medias de amostrasconvergem para medias na populacao.

8

3.1 Prova de Consistencia de β

O metodo dos Mınimos Quadrados Ordinarios busca minimizar a soma dos quadradosdos erros, utilizando como base as equacoes normais:

(β) = εTε = (Y −Xβ)T (Y −Xβ)

S(β) = YTY − βTXTY −YTXβ + βTXTXβ

S(β) = YTY − 2βTXTY + βTXTXβ

∂S(β)∂β

= −2XTY + 2XTXβ

(2)

As equacoes normais sao obtidas como:

S(β)/β = 0

∂S(β)∂β

= −2XTY + 2XTXβ = 0

XTXβ = XTY

(3)

Como:∂S(β)∂β = −2XTY + 2XTXβ = 0

β = (XTX)−1XTY

∂2S(β)∂β∂β

= 2XTX

(4)

Assim, XTX e uma matriz positiva e definida.

O estimador MQO de β e:β = (XTX)−1XTy

Substituindo y = Xβ + ε, temos:

β = (XTX)−1XT(Xβ + ε)

β = (XTX)−1(XTX)β + (XTX)−1Xε

β = β + (XTX)−1Xε

(5)

Multiplicando e dividindo a parte destacada de β por n teremos:

plim(XTX)−1Xε = plim

[(XTX)−1

n

XTε

n

]

9

Utilizando o Teorema de Slutsky:

plim(g(x)) = g(plim(x))

temos:

plim

[(XTX)−1

n

XTε

n

]= plim

(XTX)−1

nplim

XTε

n

Dividir a equacao acima por n faz sentido porque agora n→ +∞ e tambem porque XTX euma matriz de somas de produtos e os elementos de sua diagonal sao somas de quadrados.

Se existe um intercepto, o elemento superior a direita da matriz XTX sera igual a n.Entao, quando n → +∞, algumas dessas somas tendem a ficar muito grandes. Por isso,nao faz sentido achar plim(XTX). Quando olhamos a plim(X

TXn

) estamos olhando paraos valores medios de XTX, e esses sao finitos quando n aumenta.

Pressuposto:

limn→+∞

XTX

n= Q

em que Q e uma matriz finita, positiva definida e nao-singular. E uma media dosomatorio de produtos e dos somatorios de quadrados de variaveis.

Isso implica que quando n aumenta os elementos de XTX nao aumentam a uma taxamaior do que n. Mas quando essa expressao se torna infinita (no caso da equacao detendencia) a sua inversa se torna 0.Vamos mostrar que:

σ2(XTX)−1 = var(β)

vai se aproximando de zero quando n aumenta, ou seja:

limn→∞

σ2(XTX)−1 = var(β) = 0

A expressao limn→+∞XTXn

= Q tambem implica que quando n aumenta, os elementos deXTX sao linearmente independentes no limite, uma vez que ela e nao-singular, admitindoinversa. Vejamos um exemplo de violacao dessa hipotese.

Equacao de tendencia:y = β1 + β2 + ε

XTX =

[T T (T+1)

2

T (T + 1) T (T+1)(2T+1)6

]Veja que a equacao viola o pressuposto, pois

limT→+∞

(XTX

T

)=

[1 +∞

+∞ +∞

]esta matriz nao e finita, ou seja, “explode”no infinito.Outra equacao que viola o pressuposto e:

yt = β1 + β2λt + εt

10

em que: |λ| < 1

Nesse caso,

limT→+∞

(XTX

T

)=

[1 00 0

]que e uma matriz singular.

Felizmente, a matriz XTX satisfaz as condicoes de Grenander, que sao mais fracas esuficientes para a consitencia dos β.

Condic~oes de Grenander (Greene, 2012):

G1 - Para cada coluna de X, xk, se d2nk = xTk xk, ent~ao limn→+∞ d

2nk = +∞. Portanto,

xk n~ao degenera a uma sequencia de zeros. As somas dos quadrados continuar~ao

a crescer na medida em que o tamanho da amostra aumenta. Nenhuma variavel

degenerara para uma sequencia de zeros.

G2 - limn→+∞ x2ik/d

2nk = 0 para todo i = 1, . . . , n. Essa condic~ao implica que nenhuma

observac~ao individual dominara xTk xk, e na medida em que n→ +∞, observac~oes

individuais se tornar~ao menos importantes.

G3 - Seja Rn a matriz de correlac~ao amostral das colunas da matriz X, excluindo

o termo constante caso haja um. Ent~ao, limn→+∞Rn = C, uma matriz positiva

definida. Essa condic~ao implica que a condic~ao de posto completo sempre sera

atingida. Ja assumimos que X tem posto completo em uma amostra finita, ent~ao

esse pressuposto assegura que a condic~ao nunca sera violada.

Ate agora provamos que

limn→+∞

XTX

n= Q

ou que pelo menos XTX satisfaz as condicoes de Grenander. Portanto, temos agora que:

plimβ = β + plim

(XTXn

)−1plim

(XTεn

)

plimβ = β + Q−1plim

(XTεn

) (6)

Agora precisamos fazer a prova assintotica de plim

(XTεn

). Fazendo:

XTε

n=

1

n

n∑i=1

xiεi =1

n

n∑i=1

wi = w

Assim, teremos:plimβ = β + Q−1plimw

11

Supondo que X seja nao-estocastico (e portanto, nao-correlacionado com o erro), temos:

Media de w

E[w] =1

n

n∑i=1

E[wi] =1

n

n∑i=1

E[xi, εi] =1

n

n∑i=1

xiE(εi) =1

nXTE[ε] = 0

Variancia de w

V ar(w) = E[wwT ] = E

[XTεn

εTXn

]V ar(w) = 1

nXTE(εεT|X)X

n= 1

nσ2XTX

n= σ2

nXTXn

(7)

Tomando o limite:

limn→+∞

var(w) = limn→+∞

(σ2

n

XTX

n

)= 0Q = 0

Entao, uma vez que a media de w e zero (uma constante) e sua variancia converge parazero, w converge em media quadratica para zero.

Assim:plim(w) = 0

e

plim

(1

nXTε

)= 0

Observacao: Lembre-se que isso e a prova da consistencia de β e que estamos usandoconvergencia em probabilidade.

Entao:β = β + (XTX)−1XTε

plimβ = β + Q−1plimXTεn

plimβ = β + Q−10

plimβ = β

(8)

Conclusao: β e um estimador consistente no modelo de Regressao Classico.

3.2 Normalidade Assintotica de β de MQO

Nessa sessao perguntamos qual e a distribuicao assintotica de β.

Vimos que em uma amostra finita nao precisamos de normalidade dos erros nem dos βpara provar a eficiencia dos β de MQO (a prova e obtida utilizando Gauss-Markov).

12

Mas vimos tambem que so podemos afirmar que β tem uma distribuicao normal quandoε tem uma distribuicao normal. Ou seja, somente podemos inferir sobre a distribuicao deβ quando os erros sao normais.

Agora, para derivar a distribuicao assintotica de β precisamos assumir a matriz X inde-pendente dos erros (ou seja, exogeneidade). Usamos o Teorema Central do Limite e naoprecisamos de normalidade em amostra finita.

Distribuicoes assintoticas: sao tambem caracterizadas por suas medias e varianciascomo nas distribuicoes finitas.

Temos entao a media assintotica e a variancia assintotica:

β = E[β] = β

A media assintotica e igual a esperanca assintotica que e dada por plimβ = β. Nocaso dos estimadores, como no limite temos uma constante β, a variancia e zero! Entao adistribuicao assintotica nao e a distribuicao no limite, porque no limite e uma distribuicaodegenerada!

Observacao: No limite nao ha distribuicao, e um pico! Entao a distribuicao assintoticae a distribuicao da jornada final, antes de colapsar para um ponto.

A distribuicao de um determinado estimador e diferente (ou pode ser), a medida queo tamanho da amostra aumenta. Pode diferir nao somente na media e variancia, mastambem na forma matematica (lembrar que a binomial e assintoticamente uma normal).

A essencia do Teorema Central do Limite pode ser resumida como:

Quando o tamanho da amostra aumenta a distribuicao da media amostralaproxima-se da normal. Diz-se entao que a normal e a distribuicao assintoticada media amostral.

Quando estamos interessados em saber se os momentos da amostra convergem para osmomentos da populacao, a Lei dos Grandes Numeros (LGN) nos da essa resposta.Veja que ha uma diferenca entre a LGN e o TCL:

• LGN: momentos → media, variancia, etc.

• TCL: distribuicao

3.3 Prova da Normalidade Assintotica de β

Para derivar a distribuicao de β, nao precisamos que os erros sejam normais. No entanto,precisaremos de duas condicoes:

• Teorema Central do Limite (TCL)

• assumir que X e uma matriz de variaveis independentes dos erros

13

Observacao: Fazemos a prova utilizando uma funcao de β, ao inves de β diretamente,porque se β converge para β - que e uma constante - no limite nao ha distribuicao, apenasum pico.

Lembre-se que:

β = β + XTXn

−1XTεn

β − β = XTXn

−1XTεn

(9)

Multiplicando ambos os lados por√n, obtemos:

√n(β − β) =

[XTXn

−1 XTε√n√n

]√n

√n(β − β) = XTX

n

−1XTε√n

(10)

Temos que a distribuicao limite de√n(β−β) e igual a distribuicao limite do lado direito,

ou seja:

plim

[(XTX

n

)−1(XTε√n

)]Ja obtivemos a plim

(XTXn

)−1, que e Q−1. Mas nao temos a plim

(XTε√n

), embora tenha-

mos a plim

(XTεn

)= 0.

Entao, qual seria a distribuicao limite de

(XTε√n

)? Veja que essa e uma distribuicao que

sera mais lenta para convergir, pois e indexada em√n ao inves de n:(

1√n

)XTε =

√nw

Lembre-se que w = XTεn

= XTε√n√n

√nw =

√n XTε√

n√n

= XTε√n

= 1√nXTε(11)

14

Calculando a esperanca e a variancia de√nw, temos:

Media:E[√nw] =

√nE[w] = 0

Variancia:V ar[

√nw] = nV ar(w)

V ar[√nw] = n

[σ2

nXTXn

]V ar[

√nw] = σ2XTX

n

(12)

Se tomarmos o limite da variancia de√nw, teremos:

limn→+∞

V ar[√nw] = lim

n→+∞σ2XTX

n= σ2Q

Resta agora aplicar uma variante do Teorema Central do Limite (variante de Lindberg-Feller) ao vetor

√nw. Vejamos o TCL de Lindberg-Feller.

3.3.1 TCL variante de Lindberg-Feller

Caso Univariado

Se x1, . . . , xn e uma amostra aleatoria de uma distribuicao de probabilidade com media µe variancia σ2 na populacao:

Xn =1

n

n∑i=1

xi

Entao, √n(Xn − µ)

d∼ N [0, σ2]

em que (Xn − µ) sao desvios da media da amostra em relacao a media da populacao.

A media de√n(Xn − µ) e obtida por:

E[√n(Xn − µ)] = E[

√nX]− E[

√nµ] =

√nE[X]−

√nE[µ]

E[√n(Xn − µ)] =

√nµ−

√nµ = 0

(13)

Caso Multivariado

Agora temos x1, . . . ,xn representando amostras de uma distribuicao multivariada. Assim:

√n(X− µ)

d∼ N [0,Q]

No nosso caso, temos que1√n

XTε =√n[w − E(w)]

15

em que: √n[w − E(w)]

d∼ N [0,Q]

Entao:1√n

XTεd∼ N [0, σ2Q]

Segue-se que:√n(β − β) =

(XTXn

−1)

XTε√n

limn→+∞[√n(β − β)] = limn→+∞

[(XTXn

−1)

XTε√n

]limn→+∞[

√n(β − β)] = Q−1 1√

nXTε

Q−1 1√nXTε

d∼ N [Q−10,Q−1(σ2Q)Q−1]

Q−1 1√nXTε

d∼ N [Q−10, σ2Q−1]

(14)

Observacao: Lembre-se que o primeiro termo e a media de Q−1 1√nXTε:

E

[Q−1

1√n

XTε

]= Q−10

e o segundo termo e a variancia de Q−1 1√nXTε:

V ar

(Q−1

1√n

XTε

)= Q−1(σ2Q)Q−1

Entao: √n(β − β)

d∼ N [0, σ2Q−1]

Vamos agora utilizar um resultado do Greene (2012):

Teorema: Se√n(θn − θ)

d∼ N [0, V ], entao θ ∼ N

[θ, 1

nV

], em que a primeira expressao

diz que√n(θn−θ) converge em distribuicao para uma normal com media zero e variancia

V e a segunda expressao diz que θ e assintoticamente normalmente distribuido commedia 0 e variancia 1

nV .

No caso do estimador MQO, se:

√n(β − β)

d∼ N [0, σ2Q−1]

entao:

β ∼ N

[β,σ2Q−1

n

]ou

β ∼ N [β, σ2(XTX)−1]

Logo, a normalidade assintotica de β nao necessita da normalidade dos erros! E umaconsequencia do Teorema Central do Limite!

16

3.4 Consistencia de s2 e a variancia assintotica de β

Para computar as propriedades assintoticas de β precisamos saber se o estimador davariancia, σ2 e consistente. Aqui so precisamos de consistencia!

O problema e a consistencia do estimador de σ2, σ2 = s2, uma vez que Q−1 nao e pro-blema. Sera que s2 e consistente?

s2 = εTεn−k

s2 = 1n−kε

TMε

(15)

Lembre-se que M e a matriz geradora de resıduos, obtida como se segue:

ε = y −Xβ

ε = y −X(XTX)−1XTy

ε = I−X(XTX)−1XT)y

ε = My

ε = M(Xβ + ε)

ε = MXβ + Mε = Mε

εTε = εTMTMε

εTε = εTMε

(16)

Abrindo a expressao s2 e multiplicando, temos:

s2 = 1n−kε

T[I−X(XTX)−1XT]ε

s2 = 1n−k [εTε− εTX(XTX)−1XTε]

(17)

Multiplicando por nn, temos:

s2 = nn−k [ ε

Tεn− εTX

n

(XTX−1

n

)XTεn

]

limn→+∞ s2 = limn→+∞n

n−k [ εTεn− εTX

n

(XTX−1

n

)XTεn

]

(18)

17

Sabe-se que nn−k converge para 1, εTX

ne XTε

nconvergem para zero e XTX

nconverge para

Q−1. Portanto, resta saber qual o limite de εTεn

, ou seja:

limn→+∞

s2 = limn→+∞

εTε

n

Para chegar a este resultado, utilizamos o seguinte teorema:

Teorema de Kinshine: A media de uma amostra aleatoria de observacoes indepen-dentes e identificamente distribuıdas (i.i.d.) e um estimador consistente da media dapopulacao.

Entao, precisamos apenas assumir que os erros sao i.i.d., nao precisamos assumir que elessao normais.

Neste caso, basta olharmos ε21, ε22, . . . , ε

2n como uma amostra aleatoria i.i.d. com media na

populacao igual σ2.

Observacao: Isso e valido porque:

E[ε2i ] = σ2

A media de ε2i nossa amostra e dada por:

ε2 =

∑ni=1 ε

2i

n=εTε

n

Temos entao que εTεn

e um estimador consistente da media da populacao σ2 (pelo Te-orema de Kinshine).

Logo:

plim

(εTε

n

)= σ2

Entao:plim(s2) = σ2

Observacao:

β ∼ N

[β, σ2Q−1

n

]ou

β ∼ N [β, σ2XTX−1

]

A variancia assintotica de β e:

AsyV ar[β] = s2(XTX)−1

exatamente igual a da amostra finita.

18

3.5 Eficiencia assintotica de β

Definicao: “um estimador e assintoticamente eficiente quando ele e consistente, assin-toticamente normalmente distribuıdo e tem uma matriz de variancia-covarianciaassintotica que nao e maior que nenhuma outra matriz de variancia-covarianciaassintotica de um outro estimador nas mesmas condicoes, isto e, consistente e nor-malmente assintoticamente distribuıdo”.

Ja vimos que o vetor β dos MQO e consistente, normalmente distribuıdo. Alem dessas pro-priedades assintoticas, e provado que a matriz da variancia-covariancia assintoticae mınima.

4 Pratica de Teoria Assintotica

4.1 Simulacao de Monte Carlo Simples e Propriedades Assintoticas

Nesse exercıcio trabalharemos com duas variaveis aleatorias, x e z, com mesma media evariancias diferentes.

1. Crie erros aleatorios com distribuicao normal, com media zero e variancia unitaria.Peca as medias para as variaveis x e z e para os erros criados para diferentes numerosde observacoes (por exemplo, 10, 100, 1000) e verifique que as variancias das variaveisdiminuem a medida que aumenta o numero de observacoes.

2. Crie novas variaveis (variaveis dependentes) y como funcao de x e z, de cada vez,da seguinte forma: y = 20 + 0, 6x+ ε e y = 20 + 0, 6z + ε.

3. Estime os modelos de regressao linear para numeros diferentes de observacoes (10, 10, 1000),tanto para y = f(x, ε) quanto para y = f(z, ε)

4. Crie uma variavel w correlacionada com os erros aleatorios, da seguinte maneira:w = 150 + ε

5. Transforme as variaveis x e z de modo a serem correlacionadas com os erros, daseguinte maneira: wx = x+ 500ε e wz = z + 5ε

6. Calcule as medias e teste as correlacoes entre todas as variaveis e os erros. O quese observa?

7. Estime modelos de regressao linear com os y criados e as variaveis x, z, w, wx e wzpara diferentes tamanhos de amostras (10, 100, 1000). Observe a convergencia dosparametros para cada modelo e discuta com detalhes, segundo o que voce conhecesobre a propriedade de consistencia do estimador dos MQO.

Observacoes Gerais:

19

A convergencia do estimador dos MQO pode ser compreendida da seguinte forma:

β = (XTX)−1XY

β = (XTX)−1X(Xβ + ε)

β = (XTX)−1XXβ + (XTX)−1XTε

β = β + (XTX)−1XTε

plimβ = β + plim

(XTXn

)−1XTεn

(19)

Atencao: quanto maior a variabilidade na matrix X, mais rapida e a convergencia.

Para casa: crie uma variavel xk muito correlacionada com os erros e repita o procedi-mento. Conclua.

Referencias

Goldfeld, S. M. and R. E. Quandat (1972). Nonlinear methods in econometrics.

Greene, W. H. (2012). Econometric Analysis (7th ed.). Pearson Education India.

Leamer, E. E. (1988). 3 things that bother me. Economic Record 64 (4), 331–335.

20

Documents

ESTAT ISTICA AVANC˘ADA: MODELOS NAO LINEARES~ Modulo … · 1 Propriedades Assint oticas dos Estimadores Esse texto e de autoria da Profa. Sueli Moro (Departamento de Economia/UFMG)