Econometria:Regressão por Variáveis Instrumentais (VI)
Slides do curso de econometria de Marco Cavalcanti da
Pontifícia Universidade Católica do Rio de Janeiro
PUC-Rio
Sumário
� Motivação para o uso de VI
� Principais causas do viés do estimador de
MQO
� Erros de mensuração
� Simultaneidade
� Estimação por VI
2
� Estimação por VI
� Mínimos Quadrados em 2 Estágios
Motivação para o uso de VI
� Vimos anteriormente que:
� Sob a hipótese cov(u,x) = 0, (I)
MQO é consistente
� Sob a hipótese E(u|x) = 0, (II)
MQO é não-viesado
� Se essas hipóteses forem violadas, MQO
será viesado e inconsistente, sendo
3
será viesado e inconsistente, sendo
necessário buscar um novo método de
estimação
� O método de regressão por “variáveis
instrumentais” (VI) é uma solução possível
que fornece estimadores consistentes dos
parâmetros de interesse
Principais causas do viés do
estimador de MQO
� As razões mais comuns para a existência
de correlação entre o distúrbio (u) e alguma
variável explicativa (x) são:
(1) Omissão de variáveis relevantes
(2) Erros de mensuração
(3) Simultaneidade
4
� O caso (1) já foi discutido anteriormente
� A seguir, veremos brevemente os casos (2)
e (3)
Erros de mensuração
� Considere o modelo de regressão simples:
onde cov(x*,u) = E(x*u) = 0.
� Nesse modelo, a estimação por MQO deveria
gerar estimadores consistentes dos parâmetros.
Supõe-se, porém, que a variável x* seja
uxy ++= *10 ββ
5
� Supõe-se, porém, que a variável x* seja
observada com erro
� Isto é, o que observamos na prática é
onde E(e) = 0
cov(x*,e) = E(x*e) = 0
cov(e,u) = E(eu) = 0
exx += *
Erros de mensuração
� Exemplo:
� Para explicar o CR de um aluno da PUC,
podemos estar interessados em usar como
variáveis explicativas (dentre outras): renda
familiar, número de horas dedicadas ao
estudo, tempo necessário para o trajeto
casa-PUC etc.
6
� Todas essas variáveis estão sujeitas a erros
de mensuração, pois os alunos podem
errar (deliberadamente ou não) ao
responder à pesquisa
� Se os erros forem puramente aleatórios,
isto é, não estiverem correlacionados com
outras variáveis relevantes, as hipóteses do
modelo acima serão satisfeitas.
Erros de mensuração
� Reescrevendo o modelo em função da
variável observada x:
�
�
� Agora, a estimação por MQO não gera
εββ
βββ
ββ
ββ
++=
−++=
+−+=
++=
x
eux
uex
uxy
10
110
10
*10
)(
)(
� Agora, a estimação por MQO não gera
estimadores consistentes dos parâmetros,
pois:
7
0
)()()()(
][
)])([(
)(),cov(
21
21
*1
*
21
*1
*
1*
≠
−=
−−+=
−−+=
−+=
=
e
eEexEeuEuxE
eexeuuxE
euexE
xEx
σβ
ββ
ββ
β
εε
Erros de mensuração
� Lembre que
∑
∑
∑
=
=
−
−
−
=
n
n
i
i
n
i
ii
xx
xx
yxx
1
2
11
)(
)(
)(
ˆ
ε
β
8
� E note que
∑
∑
=
=
−
−
+=n
i
i
i
i
xx
xx
1
2
11
)(
)(
ε
β
22*
*
)var()var()var(
ex
exx
σσ +=
+=
Erros de mensuração
� Aplicando a Lei dos Grande Números:
+−=
+−=
+=
22*
2
1
22*
21
1
11
1
)var(
),cov()ˆ(plim
ex
e
ex
e
x
x
σσ
σβ
σσ
σββ
εββ
9
� Pergunta 1: o estimador de MQO é sempre
inconsistente na regressão acima?
� Pergunta 2: o viés (assintótico) do estimador
de MQO é para cima, para baixo, ou
“depende”?
� Pergunta 3: o que acontecerá se o erro de
mensuração for na variável dependente?
+ 22
* ex σσ
Simultaneidade
� Considere a equação:
onde y é a incidência da AIDS por país
(em%), x é a porcentagem de jovens que
usam camisinha nas relações sexuais de
“alto risco”, e v é um vetor que inclui outras
variáveis relevantes para explicar y, tal que
uxy +++= vγ'10 ββ
10
variáveis relevantes para explicar y, tal que
cov(v,u) = 0.
� Não seria razoável esperar que o “modelo
estrutural” que relaciona as variáveis
acima contivesse uma segunda equação,
,
ou seja, que x também dependesse de y?
eyx +++= wδ'10 αα
Simultaneidade
� Suponha que estejamos interessados em
estimar a primeira equação (que é a mais
interessante do ponto de vista da
formulação de políticas sócio-econômicas)
� Será que a estimação por MQO é uma boa
alternativa?
11
� A resposta é, em geral, não!
� De fato, mostraremos a seguir que, na
primeira equação, em geral a condição
cov(x,u) = 0 é violada – e, portanto, o
estimador de MQO é inconsistente.
Simultaneidade
� O fato de que x e u devem ser
correlacionados na equação 1 pode ser
verificado facilmente.
� Note que:
(1) quando u varia, y varia na mesma direção,
pela equação 1;
12
(2) quando y varia, x também varia, pela
equação 2;
(3) logo, há correlação entre u e x: quando u
varia, x também varia!
Simultaneidade
� No nosso exemplo: digamos que certo país
tenha um u “alto” em decorrência de algum
fator puramente aleatório (por exemplo,
maior promiscuidade), o que implica maior
incidência de AIDS, ceteris paribus.
� Mas isso significa, por sua vez, que mais
jovens usarão camisinha para se proteger
13
jovens usarão camisinha para se proteger
(pois a maior incidência de AIDS torna o
sexo sem proteção mais arriscado).
� Logo, há correlação entre os fatores em u e
a porcentagem de jovens que usam
camisinha.
Simultaneidade
� Em termos mais formais, temos um sistema
de duas equações e duas incógnitas (y e x)
– o “modelo estrutural”:
� Resolvendo o sistema para y e x em função
eyx
uxy
+++=
+++=
wδ'
vγ'
10
10
αα
ββ
14
das variáveis exógenas (v e w) e dos
distúrbios, obtemos a “forma reduzida”:
]
[1
1
]
[1
1
1
101011
1
101011
eu
x
ue
y
+++
++−
=
+++
++−
=
α
αβααβα
β
βαβββα
wδ'
vγ'
vγ'
wδ'
Simultaneidade
� Para que o estimador de MQO da primeira
equação seja consistente, é necessário que
cov(u,x)=0.
� Ou seja, a covariância entre u e cada termo que
compõe x (na forma reduzida) deve ser nula.
� Por hipótese, supõe-se:
cov(w,u)=cov(v,u)=cov(e,u)=0.
15
� Isso anula a maior parte dos termos.
� Mas a forma reduzida do modelo mostra
explicitamente que x também depende de u.
� Logo, é evidente que, em geral, há correlação
entre x e u:
01
)(),cov(11
21 ≠
−==
βα
σα uxuEux
Simultaneidade
� Portanto, o estimador de MQO aplicado à
equação 1 é viesado e inconsistente!
� Esse tipo de viés do estimador de MQO é
denominado “viés de equações
simultâneas” ou simplesmente “viés de
simultaneidade”.
16
� Em geral, não é possível saber a direção do
viés.
� Em modelos simples, porém, isso é
possível.
Simultaneidade
� Por exemplo, suponha que o modelo seja:
� Novamente temos
∑ −
n
i uxx )(
eyx
uxy
+++=
++=
wδ'10
10
αα
ββ
17
� E portanto
∑
∑
=
=
−
−
+=n
i
i
i
i
xx
uxx
1
2
111
)(
)(
ˆ ββ
11
21
1
11
1
)var(
),cov()ˆ(plim
βα
σαβ
ββ
−+=
+=
u
x
ux
Simultaneidade
� Outros exemplos:
� Criminalidade X número de policiais em
determinada região
� Horas trabalhadas X salário médio em
determinado setor da indústria (oferta e
demanda)
� Consumo de bebidas alcoólicas X
18
produtividade do trabalhador
� Consumo de bebidas alcoólicas X
desempenho do aluno
� Abertura comercial X crescimento
econômico
� Democracia X crescimento econômico
� Corrupção X crescimento econômico
Variáveis Instrumentais
� Considere a equação:
(*)
onde: E(u) = 0
cov(x,u) ≠ 0
� Independentemente do motivo para a
existência de correlação entre x e u, o
método de variáveis instrumentais (VI)
uxy ++= 10 ββ
19
método de variáveis instrumentais (VI)
fornece um estimador consistente dos
parâmetros de interesse.
� O método se baseia na utilização de uma
variável adicional z, não incluída em (*), que
satisfaça certas condições.
Variáveis Instrumentais
� Tais condições são:
(1) Cov(z,u) = 0
(2) Cov(z,x) ≠ 0
� Quando uma variável z satisfaz ambas as
condições acima, dizemos que z é um
instrumento válido para x.
20
instrumento válido para x.
� Vale notar que a condição (1) não é testável,
pois refere-se à covariância entre z e um erro
não observável
� Você precisa de uma boa “historinha” para
justificar seu instrumento!
� A condição (2), porém, pode ser testada em
uma regressão de x em z [teste de significância
de qual coeficiente?]
Variáveis Instrumentais
� Vejamos como tais condições permitem
estimar consistentemente o parâmetro .
� Lembre que o estimador de MQO podia ser
interpretado como um estimador de
momentos que usava os seguintes
momentos populacionais:
1β
21
E(u) = 0; E(xu) = 0
� Analogamente, o estimador de VI é um
estimador de momentos que usa
E(u) = 0; E(zu) = 0
onde evidentemente usamos a condição (1)
[cov(z,u)=0].
Variáveis Instrumentais
� Logo, temos os momentos populacionais:
� E seus análogos amostrais:
[ ] 0)(E
0)E(
10
10
=−−
=−−
xyz
xy
ββ
ββ
22
0)ˆˆ(1
0)ˆˆ(1
1
10
1
10
=−−
=−−
∑
∑
=
=
n
i
iVIVI
ii
n
i
iVIVI
i
xyzn
xyn
ββ
ββ
Variáveis Instrumentais
� Resolvendo:
xyVIVI10
ˆˆ ββ −=
∑
∑=
−−
=n
n
i
ii
VI
yyzz
11
))((
β̂
23
� Compare essas fórmulas com as fórmulas
de MQO. O que muda?
∑=
−−
n
i
ii xxzz
1
))((
Variáveis Instrumentais
� Pela LGN:
onde fica evidente a relevância da condição
(2) [cov(z,x)≠0] e, na 2a. igualdade, usamos
a condição (1) [cov(z,u)=0].
11),cov(
),cov()ˆlim( ββ ==
xz
yzp
VI
24
� Logo, vemos que um instrumento válido
permite efetivamente obter um estimador
consistente do parâmetro 1β
Variáveis Instrumentais
� Infelizmente, não é sempre fácil encontrar
instrumentos válidos para nossos modelos
� Na verdade, é muito difícil!
� Uma das razões dessa dificuldade reside no fato
de que as duas condições requeridas de um
instrumento são muitas vezes conflitantes
� Exemplo: estimação de equação de salário em
25
� Exemplo: estimação de equação de salário em
função da educação
� Variável omitida: “habilidade” do indivíduo –
viesa coeficiente da educação
� Possível instrumento: educação da mãe
(correlacionada com a educação do indivíduo)
� Mas: educação da mãe também deve ser
correlacionada com a habilidade do indivíduo
presente no erro!
Variáveis Instrumentais
� Vale notar que a condição (2) pode ser
satisfeita com uma correlação entre z e x
diferente de zero, mas baixa.
� Esse é o caso de um instrumento fraco
� Em consequência disso, a variância
(assintótica) do estimador VI aumenta –
ou seja, o estimador perde precisão.
26
ou seja, o estimador perde precisão.
� De fato:
� Por essa razão, devemos procurar um
instrumento que tenha a mais alta
correlação possível com x
21)],()[var(
)var()ˆvar(
zxcorrxn
uVI =β
Mínimos Quadrados em 2 Estágios
� O que acontece quando temos dois
instrumentos válidos para a “variável
endógena” x?
� Ou seja, temos o modelo
(*)
onde: E(u) = 0
uxy ++= 10 ββ
27
cov(x,u) ≠ 0
cov(z1,u) = 0; cov(z1,x) ≠ 0
cov(z2,u) = 0; cov(z2,x) ≠ 0
� Será melhor usar z1 ou z2 como
instrumento?
Mínimos Quadrados em 2 Estágios
� A resposta é: é melhor usar os dois!
� Note que podemos escolher a combinação
linear de z1 e z2 que tenha a maior
correlação possível com x
� Além disso, como z1 e z2 tem correlação
zero com u, qualquer combinação linear
28
dessas variáveis também terá correlação
zero com u
� Temos, portanto, um instrumento válido
“relativamente eficiente”
� Sob homocedasticidade, esse seria o melhor
instrumento possível
Mínimos Quadrados em 2 Estágios
� Como encontramos a combinação linear de
z1 e z2 com a maior correlação possível
com x?
� Simplesmente regredindo x contra z1 e z2 :
22110 ˆˆˆˆ zzx πππ ++=
29
� De posse dessa nova variável, podemos
utilizá-la como instrumento para x nos
mesmos moldes vistos anteriormente
Mínimos Quadrados em 2 Estágios
� Usar como instrumento para x é
equivalente a estimar por MQO a
regressão:
� Logo, quando temos mais de um
instrumento o estimador VI pode ser obtido
x̂
uxy ˆˆˆˆ10 ++= ββ
30
através de duas regressões por MQO:
(1) Estima
(2) Estima
� Por essa razão, esse estimador é
denominado “mínimos quadrados em 2
estágios”
22110 ˆˆˆˆ zzx πππ ++=
uxy ˆˆˆˆ10 ++= ββ
Sistemas de Equações: Identificação
� A estimação de uma equação que faça
parte de um sistema de equações
simultâneas pode ser feita pelo método de
MQ2E
� Logo, quando temos mais de um
instrumento o estimador VI pode ser obtido
uxy ˆˆˆˆ10 ++= ββ
31
instrumento o estimador VI pode ser obtido
através de duas regressões por MQO:
(1) Estima
(2) Estima
� Por essa razão, esse estimador é
denominado “mínimos quadrados em 2
estágios”
22110 ˆˆˆˆ zzx πππ ++=
uxy ˆˆˆˆ10 ++= ββ