Download pdf - Econometria: Regressão por Variáveis Instrumentais (VI) · Para que o estimador de MQO da primeira equação seja consistente, ... z y x n y x n β β β β. Variáveis ... não

Econometria:Regressão por Variáveis Instrumentais (VI)

Slides do curso de econometria de Marco Cavalcanti da

Pontifícia Universidade Católica do Rio de Janeiro

PUC-Rio

Sumário

� Motivação para o uso de VI

� Principais causas do viés do estimador de

MQO

� Erros de mensuração

� Simultaneidade

� Estimação por VI

2

� Estimação por VI

� Mínimos Quadrados em 2 Estágios

Motivação para o uso de VI

� Vimos anteriormente que:

� Sob a hipótese cov(u,x) = 0, (I)

MQO é consistente

� Sob a hipótese E(u|x) = 0, (II)

MQO é não-viesado

� Se essas hipóteses forem violadas, MQO

será viesado e inconsistente, sendo

3

será viesado e inconsistente, sendo

necessário buscar um novo método de

estimação

� O método de regressão por “variáveis

instrumentais” (VI) é uma solução possível

que fornece estimadores consistentes dos

parâmetros de interesse

Principais causas do viés do

estimador de MQO

� As razões mais comuns para a existência

de correlação entre o distúrbio (u) e alguma

variável explicativa (x) são:

(1) Omissão de variáveis relevantes

(2) Erros de mensuração

(3) Simultaneidade

4

� O caso (1) já foi discutido anteriormente

� A seguir, veremos brevemente os casos (2)

e (3)

Erros de mensuração

� Considere o modelo de regressão simples:

onde cov(x*,u) = E(x*u) = 0.

� Nesse modelo, a estimação por MQO deveria

gerar estimadores consistentes dos parâmetros.

Supõe-se, porém, que a variável x* seja

uxy ++= *10 ββ

5

� Supõe-se, porém, que a variável x* seja

observada com erro

� Isto é, o que observamos na prática é

onde E(e) = 0

cov(x*,e) = E(x*e) = 0

cov(e,u) = E(eu) = 0

exx += *


� Exemplo:

� Para explicar o CR de um aluno da PUC,

podemos estar interessados em usar como

variáveis explicativas (dentre outras): renda

familiar, número de horas dedicadas ao

estudo, tempo necessário para o trajeto

casa-PUC etc.

6

� Todas essas variáveis estão sujeitas a erros

de mensuração, pois os alunos podem

errar (deliberadamente ou não) ao

responder à pesquisa

� Se os erros forem puramente aleatórios,

isto é, não estiverem correlacionados com

outras variáveis relevantes, as hipóteses do

modelo acima serão satisfeitas.


� Reescrevendo o modelo em função da

variável observada x:

�

�

� Agora, a estimação por MQO não gera

εββ

βββ

ββ

ββ

++=

−++=

+−+=

++=

x

eux

uex

uxy

10

110

10

*10

)(

)(

� Agora, a estimação por MQO não gera

estimadores consistentes dos parâmetros,

pois:

7

0

)()()()(

][

)])([(

)(),cov(

21

21

*1

*

21

*1

*

1*

≠

−=

−−+=

−−+=

−+=

=

e

eEexEeuEuxE

eexeuuxE

euexE

xEx

σβ

ββ

ββ

β

εε


� Lembre que

∑

∑

∑

=

=

−

−

−

=

n

n

i

i

n

i

ii

xx

xx

yxx

1

2

11

)(

)(

)(

ˆ

ε

β

8

� E note que

∑

∑

=

=

−

−

+=n

i

i

i

i

xx

xx

1

2

11

)(

)(

ε

β

22*

*

)var()var()var(

ex

exx

σσ +=

+=


� Aplicando a Lei dos Grande Números:

+−=

+−=

+=

22*

2

1

22*

21

1

11

1

)var(

),cov()ˆ(plim

ex

e

ex

e

x

x

σσ

σβ

σσ

σββ

εββ

9

� Pergunta 1: o estimador de MQO é sempre

inconsistente na regressão acima?

� Pergunta 2: o viés (assintótico) do estimador

de MQO é para cima, para baixo, ou

“depende”?

� Pergunta 3: o que acontecerá se o erro de

mensuração for na variável dependente?

+ 22

* ex σσ

Simultaneidade

� Considere a equação:

onde y é a incidência da AIDS por país

(em%), x é a porcentagem de jovens que

usam camisinha nas relações sexuais de

“alto risco”, e v é um vetor que inclui outras

variáveis relevantes para explicar y, tal que

uxy +++= vγ'10 ββ

10

variáveis relevantes para explicar y, tal que

cov(v,u) = 0.

� Não seria razoável esperar que o “modelo

estrutural” que relaciona as variáveis

acima contivesse uma segunda equação,

,

ou seja, que x também dependesse de y?

eyx +++= wδ'10 αα

Simultaneidade

� Suponha que estejamos interessados em

estimar a primeira equação (que é a mais

interessante do ponto de vista da

formulação de políticas sócio-econômicas)

� Será que a estimação por MQO é uma boa

alternativa?

11

� A resposta é, em geral, não!

� De fato, mostraremos a seguir que, na

primeira equação, em geral a condição

cov(x,u) = 0 é violada – e, portanto, o

estimador de MQO é inconsistente.

Simultaneidade

� O fato de que x e u devem ser

correlacionados na equação 1 pode ser

verificado facilmente.

� Note que:

(1) quando u varia, y varia na mesma direção,

pela equação 1;

12

(2) quando y varia, x também varia, pela

equação 2;

(3) logo, há correlação entre u e x: quando u

varia, x também varia!

Simultaneidade

� No nosso exemplo: digamos que certo país

tenha um u “alto” em decorrência de algum

fator puramente aleatório (por exemplo,

maior promiscuidade), o que implica maior

incidência de AIDS, ceteris paribus.

� Mas isso significa, por sua vez, que mais

jovens usarão camisinha para se proteger

13

jovens usarão camisinha para se proteger

(pois a maior incidência de AIDS torna o

sexo sem proteção mais arriscado).

� Logo, há correlação entre os fatores em u e

a porcentagem de jovens que usam

camisinha.

Simultaneidade

� Em termos mais formais, temos um sistema

de duas equações e duas incógnitas (y e x)

– o “modelo estrutural”:

� Resolvendo o sistema para y e x em função

eyx

uxy

+++=

+++=

wδ'

vγ'

10

10

αα

ββ

14

das variáveis exógenas (v e w) e dos

distúrbios, obtemos a “forma reduzida”:

]

[1

1

]

[1

1

1

101011

1

101011

eu

x

ue

y

+++

++−

=

+++

++−

=

α

αβααβα

β

βαβββα

wδ'

vγ'

vγ'

wδ'

Simultaneidade

� Para que o estimador de MQO da primeira

equação seja consistente, é necessário que

cov(u,x)=0.

� Ou seja, a covariância entre u e cada termo que

compõe x (na forma reduzida) deve ser nula.

� Por hipótese, supõe-se:

cov(w,u)=cov(v,u)=cov(e,u)=0.

15

� Isso anula a maior parte dos termos.

� Mas a forma reduzida do modelo mostra

explicitamente que x também depende de u.

� Logo, é evidente que, em geral, há correlação

entre x e u:

01

)(),cov(11

21 ≠

−==

βα

σα uxuEux

Simultaneidade

� Portanto, o estimador de MQO aplicado à

equação 1 é viesado e inconsistente!

� Esse tipo de viés do estimador de MQO é

denominado “viés de equações

simultâneas” ou simplesmente “viés de

simultaneidade”.

16

� Em geral, não é possível saber a direção do

viés.

� Em modelos simples, porém, isso é

possível.

Simultaneidade

� Por exemplo, suponha que o modelo seja:

� Novamente temos

∑ −

n

i uxx )(

eyx

uxy

+++=

++=

wδ'10

10

αα

ββ

17

� E portanto

∑

∑

=

=

−

−

+=n

i

i

i

i

xx

uxx

1

2

111

)(

)(

ˆ ββ

11

21

1

11

1

)var(

),cov()ˆ(plim

βα

σαβ

ββ

−+=

+=

u

x

ux

Simultaneidade

� Outros exemplos:

� Criminalidade X número de policiais em

determinada região

� Horas trabalhadas X salário médio em

determinado setor da indústria (oferta e

demanda)

� Consumo de bebidas alcoólicas X

18

produtividade do trabalhador

� Consumo de bebidas alcoólicas X

desempenho do aluno

� Abertura comercial X crescimento

econômico

� Democracia X crescimento econômico

� Corrupção X crescimento econômico

Variáveis Instrumentais

� Considere a equação:

(*)

onde: E(u) = 0

cov(x,u) ≠ 0

� Independentemente do motivo para a

existência de correlação entre x e u, o

método de variáveis instrumentais (VI)

uxy ++= 10 ββ

19

método de variáveis instrumentais (VI)

fornece um estimador consistente dos

parâmetros de interesse.

� O método se baseia na utilização de uma

variável adicional z, não incluída em (*), que

satisfaça certas condições.


� Tais condições são:

(1) Cov(z,u) = 0

(2) Cov(z,x) ≠ 0

� Quando uma variável z satisfaz ambas as

condições acima, dizemos que z é um

instrumento válido para x.

20

instrumento válido para x.

� Vale notar que a condição (1) não é testável,

pois refere-se à covariância entre z e um erro

não observável

� Você precisa de uma boa “historinha” para

justificar seu instrumento!

� A condição (2), porém, pode ser testada em

uma regressão de x em z [teste de significância

de qual coeficiente?]


� Vejamos como tais condições permitem

estimar consistentemente o parâmetro .

� Lembre que o estimador de MQO podia ser

interpretado como um estimador de

momentos que usava os seguintes

momentos populacionais:

1β

21

E(u) = 0; E(xu) = 0

� Analogamente, o estimador de VI é um

estimador de momentos que usa

E(u) = 0; E(zu) = 0

onde evidentemente usamos a condição (1)

[cov(z,u)=0].


� Logo, temos os momentos populacionais:

� E seus análogos amostrais:

[ ] 0)(E

0)E(

10

10

=−−

=−−

xyz

xy

ββ

ββ

22

0)ˆˆ(1

0)ˆˆ(1

1

10

1

10

=−−

=−−

∑

∑

=

=

n

i

iVIVI

ii

n

i

iVIVI

i

xyzn

xyn

ββ

ββ


� Resolvendo:

xyVIVI10

ˆˆ ββ −=

∑

∑=

−−

=n

n

i

ii

VI

yyzz

11

))((

β̂

23

� Compare essas fórmulas com as fórmulas

de MQO. O que muda?

∑=

−−

n

i

ii xxzz

1

))((


� Pela LGN:

onde fica evidente a relevância da condição

(2) [cov(z,x)≠0] e, na 2a. igualdade, usamos

a condição (1) [cov(z,u)=0].

11),cov(

),cov()ˆlim( ββ ==

xz

yzp

VI

24

� Logo, vemos que um instrumento válido

permite efetivamente obter um estimador

consistente do parâmetro 1β


� Infelizmente, não é sempre fácil encontrar

instrumentos válidos para nossos modelos

� Na verdade, é muito difícil!

� Uma das razões dessa dificuldade reside no fato

de que as duas condições requeridas de um

instrumento são muitas vezes conflitantes

� Exemplo: estimação de equação de salário em

25

� Exemplo: estimação de equação de salário em

função da educação

� Variável omitida: “habilidade” do indivíduo –

viesa coeficiente da educação

� Possível instrumento: educação da mãe

(correlacionada com a educação do indivíduo)

� Mas: educação da mãe também deve ser

correlacionada com a habilidade do indivíduo

presente no erro!


� Vale notar que a condição (2) pode ser

satisfeita com uma correlação entre z e x

diferente de zero, mas baixa.

� Esse é o caso de um instrumento fraco

� Em consequência disso, a variância

(assintótica) do estimador VI aumenta –

ou seja, o estimador perde precisão.

26

ou seja, o estimador perde precisão.

� De fato:

� Por essa razão, devemos procurar um

instrumento que tenha a mais alta

correlação possível com x

21)],()[var(

)var()ˆvar(

zxcorrxn

uVI =β

Mínimos Quadrados em 2 Estágios

� O que acontece quando temos dois

instrumentos válidos para a “variável

endógena” x?

� Ou seja, temos o modelo

(*)

onde: E(u) = 0

uxy ++= 10 ββ

27

cov(x,u) ≠ 0

cov(z1,u) = 0; cov(z1,x) ≠ 0

cov(z2,u) = 0; cov(z2,x) ≠ 0

� Será melhor usar z1 ou z2 como

instrumento?


� A resposta é: é melhor usar os dois!

� Note que podemos escolher a combinação

linear de z1 e z2 que tenha a maior

correlação possível com x

� Além disso, como z1 e z2 tem correlação

zero com u, qualquer combinação linear

28

dessas variáveis também terá correlação

zero com u

� Temos, portanto, um instrumento válido

“relativamente eficiente”

� Sob homocedasticidade, esse seria o melhor

instrumento possível


� Como encontramos a combinação linear de

z1 e z2 com a maior correlação possível

com x?

� Simplesmente regredindo x contra z1 e z2 :

22110 ˆˆˆˆ zzx πππ ++=

29

� De posse dessa nova variável, podemos

utilizá-la como instrumento para x nos

mesmos moldes vistos anteriormente


� Usar como instrumento para x é

equivalente a estimar por MQO a

regressão:

� Logo, quando temos mais de um

instrumento o estimador VI pode ser obtido

x̂

uxy ˆˆˆˆ10 ++= ββ

30

através de duas regressões por MQO:

(1) Estima

(2) Estima

� Por essa razão, esse estimador é

denominado “mínimos quadrados em 2

estágios”



Sistemas de Equações: Identificação

� A estimação de uma equação que faça

parte de um sistema de equações

simultâneas pode ser feita pelo método de

MQ2E

� Logo, quando temos mais de um



31


através de duas regressões por MQO:

(1) Estima

(2) Estima

� Por essa razão, esse estimador é

denominado “mínimos quadrados em 2

estágios”