Regresión con Variables Instrumentales (VI) · La regresión MCO de ln(mant i Q) sobre ln(mant i P) adolece de sesgo CS (¿por qu

10-1

Regresión con Variables Instrumentales (VI) (SW Capítulo 10)

Tres problemas a considerar: • Sesgo por omisión de variables (OV) no observadas (y,

por tanto, no incluidas en la regresión) que están correlacionadas con X;

• Sesgo por causalidad simultánea (CS); es decir, X causa a Y e Y causa a X;

• Sesgo por errores en las variables (EV); es decir, medimos X con error.

La regresión VI puede eliminar los anteriores sesgos.

10-2

El estimador VI con un único regresor y un único instrumento (SW Sección 10.1)

Yi = β0 + β1Xi + ui

• La regresión VI divide X en dos partes: una que puede

estar correlacionada con u, y la otra que no. Aislando esta última, podremos estimar β1.

• Para ello, utilizaremos una variable instrumental, Zi, no correlacionada con ui.

• Para estimar β1, la VI detecta aquellos movimientos en Xi que no están correlacionados con ui.

10-3

Terminología: endogeneidad y exogeneidad Una variable es endógena si está correlacionada con u. Una variable es exógena si no lo está.

Nota histórica: “Endógeno” significa literalmente “determinado dentro del sistema,” es decir, una variable que se determina conjuntamente con Y, o bien que está sujeta a CS. Sin embargo, nuestra definición es más general y la regresión IV puede utilizarse también en los casos OV y EV.

10-4

Dos condiciones para que un instrumento sea válido

Yi = β0 + β1Xi + ui Para que un “instrumento” Z sea válido, debe satisfacer las dos siguientes condiciones:

1. relevante: corr(Zi,Xi) ≠ 0

2. exógeno: corr(Zi,ui) = 0 Supongamos que disponemos de un Zi (discutiremos posteriormente la forma de obtenerlo). ¿Cómo lo podemos utilizar para estimar β1?

10-5

El estimador VI: una X y una Z Explicación #1: Mínimos Cuadrados en Dos Etapas Como suena: MC2E tiene dos etapas – dos regresiones: (1) Primero se aísla la parte de X que no está correlacionada con u:

regresión de X sobre Z por MCO

Xi = π0 + π1Zi + vi (1) • Como Zi no está correlacionada con ui, π0 + π1Zi

tampoco lo estará con ui. No conocemos π0 or π1 pero sabemos estimarlos.

• Hallar las estimaciones de Xi, îX , donde ˆ

iX = 0π +

1π Zi, i = 1,…,n.

10-6

(2) Reemplazar Xi por îX en la regresión de interés:

regresión de Y sobre îX por MCO:

Yi = β0 + β1 ˆ

iX + ui (2) • Como ˆ

iX no está correlacionada con ui en muestras grandes, el primero de los supuestos MCO se cumple.

• Por tanto, β1 puede estimarse por MCO en (2) • Éste es un argumento de muestras grandes (es decir π0 y

π1 estarán bien estimadas en (1)) • El estimador resultante es el MC2E, 2

1MC Eβ .

10-7

MC2E (Continuación) Si disponemos de un instrumento válido, Zi, Etapa 1ª:

Regresión de Xi sobre Zi, para obtener îX

Etapa 2ª:

Regresión de Yi sobre îX ; el coeficiente de ˆ

iX es el MC2E, 2

1MC Eβ .

Entonces, 2

1MC Eβ es consistente de β1.

10-8

El estimador VI: una X y una Z, (continuación). Explicación #2: (sólo) un poco de álgebra

Yi = β0 + β1Xi + ui Entonces, cov(Yi,Zi) = cov(β0 + β1Xi + ui,Zi)

= cov(β0,Zi) + cov(β1Xi,Zi) + cov(ui,Zi) = 0 + cov(β1Xi,Zi) + 0 = β1cov(Xi,Zi)

donde cov(ui,Zi) = 0 (instrumento exógeno); por tanto

β1 = cov( , )cov( , )

i i

i i

Y ZX Z

10-9

El estimador VI: una X y una Z. (continuación)

β1 = cov( , )cov( , )

i i

i i

Y ZX Z

El estimador VI reemplaza estas covarianzas poblacionales por las muestrales:

21MC Eβ = YZ

XZ

ss

,

sYZ y sXZ son las covarianzas muestrales. Éste es el estimador MC2E – una derivación diferente.

10-10

Consistencia del estimador MC2E

21MC Eβ = YZ

XZ

ss

Las covarianzas muestrales son consistentes: sYZ p

→

cov(Y,Z) y sXZ p

→ cov(X,Z). Por tanto, 2

1MC Eβ = YZ

XZ

ss

p

→ cov( , )cov( , )

Y ZX Z

= β1

• La condición de relevancia del instrumento, cov(X,Z)

≠ 0, impide dividir por cero.

10-11

Ejemplo #2: Oferta y demanda de mantequilla La regresión IV tuvo su origen en la estimación de elasticidades de demanda de bienes agrícolas, por ejemplo la de la mantequilla:

ln( mantiQ ) = β0 + β1ln( mant

iP ) + ui

• β1 = elasticidad precio de la mantequilla = cambio

porcentual en la cantidad demandada debido a un cambio de un 1% en el precio.

• Datos: observaciones sobre precio y cantidad de mantequilla consumida en distintos años

• La regresión MCO de ln( mantiQ ) sobre ln( mant

iP ) adolece de sesgo CS (¿por qué?)

10-12

La CS en la regresión MCO de ln( mantiQ ) sobre ln( mant

iP ) se debe a que el precio y la cantidad vienen determinados por la interacción de la demanda y oferta

10-13

Esta interacción de demanda y oferta produce…

¿Podría una regresión utilizar estas observaciones para hallar la curva de demanda?

10-14

¿Qué es lo que se obtendría si sólo la curva de oferta se desplazara?

10-15

• MC2E estima la curva de demanda aislando los cambios en el precio y cantidad que son consecuencia de desplazamientos en la curva de oferta.

• Z es una variable que desplaza la oferta pero no la demanda.

Sea Z = lluvia en regiones productoras de leche. ¿Es Z un instrumento válido?

(1) ¿Exógeno? corr(lluviai,ui) = 0? Posiblemente: el que llueva o no en dichas regiones no debería afectar a la demanda

(2) ¿Relevante? corr(lluviai,ln( mantiP )) ≠ 0?

Posiblemente: lluvia escasa significa menos pasto, y, por tanto, menos mantequilla

10-16

MC2E en el ejemplo de oferta y demanda ln( mant

iQ ) = β0 + β1ln( mantiP ) + ui

Zi = lluviai en regiones productoras de leche. Etapa 1: regresión de ln( mant

iP ) sobre lluvia; obtener �ln( )mant

iP �ln( )mant

iP aísla cambios del precio por el lado de la oferta

Etapa 2: regresión de ln( mantiQ ) sobre �ln( )mant

iP

10-17

Ejemplo #2: Número de alumnos y notas • Los resultados de las regresiones en el ejemplo de

California podrían adolecer de sesgo OV (por ejemplo, ayuda de los padres en los estudios de sus hijos).

• Este sesgo podría eliminarse mediante VI (MC2E). • La regresión requiere un instrumento válido,:

(1) relevante: corr(Zi,STRi) ≠ 0

(2) exógeno: corr(Zi,ui) = 0

10-18

Ejemplo #2: Número de alumnos y notas (cont.) El siguiente podría ser un (hipotético) instrumento: • los distritos que han sido afectados por algún terremoto

han tenido también un mayor número de alumnos: Zi = Terri = 1 si ha habido algún terremoto.

• ¿Se cumplirían las dos condiciones de instrumentos válidos?

• El comportamiento aleatorio de los terremotos implica que la variación en STR como consecuencia de uno de ellos es exógena.

• Primera etapa: regresión de STR sobre Terr, aislando así la parte de STR que es exógena.

10-19

Inferencia con MC2E • En muestras grandes, la distribución muestral del

estimador MC2E es normal • Inferencia (tests de hipótesis, intervalos de confianza)

de la misma forma, e.g. ± 1.96SE

• El estimador MC2E es – como los demás tratados hasta ahora – un promedio de variables i.i.d. con media cero, al que podemos aplicar el TCL.

10-20

21MC Eβ = YZ

XZ

ss

= 1

1

1 ( )( )1

1 ( )( )1

n

i iin

i ii

Y Y Z Zn

X X Z Zn

=

=

− −−

− −−

∑

∑

Sustituir en Yi = β0 + β1Xi + ui y simplificar: Primero,

Yi – Y = β1(Xi – X ) + (ui – u ) luego

1

1 ( )( )1

n

i ii

Y Y Z Zn =

− −− ∑ = 1

1

1 [ ( ) ( )]( )1

n

i i ii

X X u u Z Zn

β=

− + − −− ∑

= 11 1

1 1( )( ) ( )( )1 1

n n

i i i ii i

X X Z Z u u Z Zn n

β= =

− − + − −− −∑ ∑ .

10-21

Por tanto

21MC Eβ = 1

1

1 ( )( )1

1 ( )( )1

n

i iin

i ii

Y Y Z Zn

X X Z Zn

=

=

− −−

− −−

∑

∑

= 1

1 1

1

1 1( )( ) ( )( )1 1

1 ( )( )1

n n

i i i ii i

n

i ii

X X Z Z u u Z Zn n

X X Z Zn

β= =

=

− − + − −− −

− −−

∑ ∑

∑

= β1 + 1

1

1 ( )( )1

1 ( )( )1

n

i iin

i ii

u u Z Zn

X X Z Zn

=

=

− −−

− −−

∑

∑.

Restando β1 de ambos lados obtenemos,

10-22

21

ˆ MC Eβ – β1 = 1

1

1 ( )( )1

1 ( )( )1

n

i iin

i ii

u u Z Zn

X X Z Zn

=

=

− −−

− −−

∑

∑

Multiplicando por 1n − y utilizando la aproximación

1n − ≈ n ,

n ( 21

ˆ MC Eβ – β1) ≈ 1

1

1 ( )( )

1 ( )( )

n

i ii

n

i ii

u u Z Zn

X X Z Zn

=

=

− −

− −

∑

∑

10-23

n ( 21

ˆ MC Eβ – β1) ≈ 1

1

1 ( )( )

1 ( )( )

n

i ii

n

i ii

u u Z Zn

X X Z Zn

=

=

− −

− −

∑

∑

• Numerador: en muestras grandes,

1

1 ( )( )n

i ii

u u Z Zn =

− −∑ ~ N(0,var[(Z–µZ)u])

• Denominator:

1

1 ( )( )n

i ii

X X Z Zn =

− −∑ p

→ cov(X,Z) por LGN

donde cov(X,Z) ≠ 0 porque el instrumento es relevante

10-24

Consecuentemente:

n ( 21

ˆ MC Eβ – β1) ≈ 1

1

1 ( )( )

1 ( )( )

n

i ii

n

i ii

u u Z Zn

X X Z Zn

=

=

− −

− −

∑

∑

1

1 ( )( )n

i ii

X X Z Zn =

− −∑ p

→ cov(X,Z)

1

1 ( )( )n

i ii

u u Z Zn =

− −∑ ~ N(0,var[(Z–µZ)u])

Finalmente, 21

ˆ MC Eβ se distribuye aproximadamente N(β1,

1

2ˆTSLSβσ ),

donde 21

2ˆ MC Eβσ = 2

1 var[( ) ][cov( , )]

i Z i

i i

Z un Z X

µ− .

10-25

Inferencia con MC2E (cont.) 2

1ˆ MC Eβ se distribuye aprox. N(β1, 2

1

2ˆ MC Eβσ ),

• Inferencia como siempre. • Justificación como siempre: muestras grandes. • Instrumentos válidos. • Nota importante sobre errores estándar:

o Los errores estándar MCO de la 2ª etapa no son los correctos – no consideran que la primera etapa ha sido estimada ( ˆ

iX ). o En su lugar, usaremos MC2E y los SEs correctos. o Como siempre, usaremos los SEs robustos a la

heteroscedasticidad.

10-26

Digresión: Breve historia de IV

• ¿Cuánto dinero se recaudaría mediante una tarifa de importación sobre aceites vegetales y animales (mantequilla, aceite de soja, linaza, etc.)?

• Para calcularlo, necesitamos conocer las elasticidades de oferta y demanda, interior y exterior.

• Este problema fue resuelto por primera vez en el apéndice B de Wright (1928), “The Tariff on Animal and Vegetable Oils.”

10-27

Gráfico 4, p. 296, Apéndice B (1928):

10-28

Philip Wright (1861-1934) economista y poeta MA Harvard, Econ, 1887

Lect.r, Harvard, 1913-1917

Sewall Wright (1889-1988) famoso estadístico en Genética

ScD Harvard, Biology, 1915 Prof., U. Chicago, 1930-1954

10-29

Ejemplo: Demanda de Tabaco

• ¿Cuánto reducirá un impuesto el consumo de tabaco? • Para ello, necesitaremos conocer su elasticidad de

demanda; es decir, β1, en la regresión,

ln( tabacoiQ ) = β0 + β1ln( tabaco

iP ) + ui

• ¿Estará sesgado el MCO?

¿Por qué o por qué no?

10-30

Ejemplo: Demanda de tabaco (cont.) ln( tabaco

iQ ) = β0 + β1ln( tabacoiP ) + ui

Datos de Panel:

• Consumo anual de tabaco y precio medio (impuestos incluidos)

• 48 estados de USA, 1985-1995 Propuesta VI:

• Zi = Impuesto = SalesTaxi • ¿Es válido?

(1) ¿Relevante? corr(SalesTaxi, ln( tabacoiP )) ≠ 0?

(2) ¿Exógeno? corr(SalesTaxi,ui) = 0?

10-31

Por ahora, sólo utilizaremos observaciones de 1995. Primera etapa: regresión MCO

�ln( )tabacoiP = 4.63 + .031SalesTaxi, n = 48

Segunda etapa: regresión MCO

�ln( )tabacoiQ = 9.72 – 1.08 �ln( )tabaco

iP , n = 48 Regresión combinada con errores estándar robustos a la heteroscedasticidad:


iP , n = 48 (1.53) (0.32)

10-32

STATA Ejemplo: Demanda de tabaco, Primera etapa Instrumento = Z = rtaxso = impuesto (real $/pack)

X Z. reg lravgprs rtaxso if year==1995, r;

Regression with robust standard errors Number of obs = 48F( 1, 46) = 40.39Prob > F = 0.0000R-squared = 0.4710Root MSE = .09394

------------------------------------------------------------------------------| Robust

lravgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

rtaxso | .0307289 .0048354 6.35 0.000 .0209956 .0404621_cons | 4.616546 .0289177 159.64 0.000 4.558338 4.674755

------------------------------------------------------------------------------

X-hat. predict lravphat; Now we have the predicted values from the 1st stage

10-33

Segunda etapa Y X-hat

. reg lpackpc lravphat if year==1995, r;


------------------------------------------------------------------------------| Robust

lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------lravphat | -1.083586 .3336949 -3.25 0.002 -1.755279 -.4118932

_cons | 9.719875 1.597119 6.09 0.000 6.505042 12.93471------------------------------------------------------------------------------

• Éstas son las estimaciones MC2E • Los errores estándar no son los correctos porque

ignoran el hecho de que la primera etapa fue estimada

10-34

Regresión combinada: Y X Z

. ivreg lpackpc (lravgprs = rtaxso) if year==1995, r;

IV (2SLS) regression with robust standard errors Number of obs = 48F( 1, 46) = 11.54Prob > F = 0.0014R-squared = 0.4011Root MSE = .19035

------------------------------------------------------------------------------| Robust

lpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

lravgprs | -1.083587 .3189183 -3.40 0.001 -1.725536 -.4416373_cons | 9.719876 1.528322 6.36 0.000 6.643525 12.79623

------------------------------------------------------------------------------Instrumented: lravgprs This is the endogenous regressorInstruments: rtaxso This is the instrumental varible------------------------------------------------------------------------------

OK, the change in the SEs was small this time...but not always!


iP , n = 48 (1.53) (0.32)

10-35

Resumen de la regresión VI con únicos X y Z • Un instrumento válido Z debe satisfacer dos

condiciones:

(1) relevancia: corr(Zi,Xi) ≠ 0

(2) exogeneidad: corr(Zi,ui) = 0 • MC2E: regresión de X sobre Z para obtener X , y luego

de Y sobre X . • La idea más importante es que en la primera regresión

se aísla la parte de la variación de X que no está correlacionada con u

• Si el instrumento es válido, la distribución en muestras grandes del MC2E será normal.

10-36

El modelo general de regresión VI (SW Sección 10.2)

• Hasta ahora hemos considerado la regresión VI con un

único regresor endógeno (X) y un únco instrumento (Z). • Ahora extenderemos el modelo a:

o múltiples regresores endógenos (X1,…,Xk) o múltiples variables exógenas (W1,…,Wr) o múltiples instrumentos (Z1,…,Zm)

Más instrumentos pueden producir menor varianza en MC2E: el R2 de la primera etapa aumenta, es decir mayor variación en X .

10-37

Ejemplo: Demanda de tabaco • Otro determinante de la demanda de tabaco es la renta;

su omisión resultará en sesgo por OV. • demanda con una X, una W, y 2 Z’s:


iP ) + β2ln(Rentai) + ui

Z1i = impuestos generales Z2i = impuesto específico sobre el tabaco

• Otras W’s podrían ser los efectos del Estado y/o Año

(con datos de panel…)

10-38

El modelo general de regresión VI: notación Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui • Yi es la variable dependiente • X1i,…, Xki son regresores endógenos (potencialmente

correlacionados con ui) • W1i,…,Wri son regresores exógenos incluidos or (no

correlacionados con ui) • β0, β1,…, βk+r son los coeficientes desconocidos • Z1i,…,Zmi son m instrumentos (variables exógenas

excluidas)

10-39

El modelo general de regression VI (cont.) Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui

• Terminología: identificación y sobreidentificación • MC2E con variables exógenas incluidas

o un regresor endógeno o múltiples regresores endógenos

• Supuestos: o instrumentos válidos (relevancia y exogeneidad) o supuestos generales de la regresión VI

10-40

Identificación • En general, un parámetro está identificado si diferentes

valores del parámetro dan lugar a diferentes distribuciones de las observaciones.

• En la regresión VI, el que los coeficientes estén identificados depende del número de instrumentos (m) y el de regresores endógenos (k)

• Intuitivamente, si hay menos instrumentos que regresores endógenos, no podremos estimar β1,…,βk

• Por ejemplo, k = 1 y m = 0 (ningún instrumento)!

10-41

Identificación (cont.) Los coeficientes β1,…,βk están • exactamente identificados si m = k. • overidentified if m > k.

Hay más instrumentos de los necesarios para estimar β1,…,βk. Podremos, sin embargo, contrastar la validez de ellos mediante tests de sobreidentificación

• no identificados si m < k. No hay un número suficiente de instrumentos para estimar β1,…,βk. Si es así, necesitaremos buscar más instrumentos!

10-42

Regresión general VI: MC2E, 1 regresor endógeno Yi = β0 + β1X1i + β2W1i + … + β1+rWri + ui

• Instrumentos: Z1i,…,Zm • Primera etapa

o Regresión de X1 sobre todos los regresores exógenos: X1 sobre W1,…,Wr,Z1,…,Zm por MCO

o Hallar 1ˆ

iX , i = 1,…,n • Segunda etapa

o Regresión de Y sobre 1X ,W1,…,Wr por MCO o Los coeficientes de esta segunda etapa son MC2E,

pero SEs son incorrectos • Para obtener los SEs correctos, hágalo en un solo paso

10-43

Ejemplo: Demanda de tabaco


iP ) + β2ln(Rentai) + ui

Z1i = impuesto generali Z2i = impuesto específicoi

• Regresor endógeno: ln( tabaco

iP ) (“una X”) • Regresor exógeno incluido: ln(Rentai) (“una W”) • Instrumentos (variables exógenas excluidas): impuestos

general y específico (“dos Zs”) • ¿Está la elasticidad de demanda β1 sobre-, exactamente

o no identificada?

10-44

Ejemplo: Demanda de tabaco, un instrumento Y W X Z

. ivreg lpackpc lperinc (lravgprs = rtaxso) if year==1995, r;


------------------------------------------------------------------------------| Robust


lravgprs | -1.143375 .3723025 -3.07 0.004 -1.893231 -.3935191lperinc | .214515 .3117467 0.69 0.495 -.413375 .842405

_cons | 9.430658 1.259392 7.49 0.000 6.894112 11.9672------------------------------------------------------------------------------Instrumented: lravgprsInstruments: lperinc rtaxso STATA lists ALL the exogenous regressors

as instruments – slightly differentterminology than we have been using

------------------------------------------------------------------------------

• Un sólo comando da los SEs correctos • Usar , r para los SEs robustos a la heteroscedasticidad

10-45

Ejemplo: Demanda de tabaco, dos instrumentos Y W X Z1 Z2

. ivreg lpackpc lperinc (lravgprs = rtaxso rtax) if year==1995, r;


------------------------------------------------------------------------------| Robust


lravgprs | -1.277424 .2496099 -5.12 0.000 -1.780164 -.7746837lperinc | .2804045 .2538894 1.10 0.275 -.230955 .7917641

_cons | 9.894955 .9592169 10.32 0.000 7.962993 11.82692------------------------------------------------------------------------------Instrumented: lravgprsInstruments: lperinc rtaxso rtax STATA lists ALL the exogenous regressors

as “instruments” – slightly differentterminology than we have been using

------------------------------------------------------------------------------

10-46

MC2E, Z = impuesto (m = 1) �ln( )tabaco

iQ = 9.43 – 1.14�ln( )tabacoiP + 0.21ln(Rentai)

(1.26) (0.37) (0.31) MC2E, Z = impuestos general y específico (m = 2) �ln( )tabaco

iQ = 9.89 – 1.28�ln( )tabacoiP + 0.28ln(Rentai)

(0.96) (0.25) (0.25) • Menores SEs con m = 2. Utilizando 2 instrumentos es

más informativo– mayor variación aleatoria. • Baja elasticidad renta (no es un bien de lujo); no es

significativamente distinta de cero • Sorprendentemente alta elasticidad precio

10-47

Regresión general VI: MC2E con múltiples regresores endógenos Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui • Instrumentos: Z1i,…,Zm • Ahora hay k regresiones en primera etapa:

o X1 sobre W1,…, Wr, Z1,…, Zm por MCO o Hallar 1

îX , i = 1,…,n

o X2 sobre W1,…, Wr, Z1,…, Zm por MCO o Hallar 2

îX , i = 1,…,n

o Repetir con todas las X’s y obtener 1ˆ

iX , 2ˆ

iX ,…, ˆkiX

10-48

MC2E con múltiples regresores endógenos (cont.) • Segunda etapa

o Y sobre 1ˆ

iX , 2ˆ

iX ,…, ˆkiX , W1,…, Wr por MCO

o Los coeficientes de esta segunda etapa son MC2E, pero sus SEs son incorrectos

• Para obtener los SEs correctos, hágalo en un sólo paso • ¿Qué sucedería en la segunda etapa si los coeficientes

no estuviesen identificados ( #instrumentos < #variables endógenas);por ejemplo, k = 2, m = 1?

10-49

Distribución muestral de MC2E en el modelo de regresión general VI • Significado de instrumento “válido” en el caso general • Supuestos • Implicaciones: si se cumplen los supuestos, entonces

MC2E se distribuye normal, y la inferencia (contrastes e intervalos de confianza) se lleva a cabo como siempre

10-50

Conjunto de instrumentos “válidos” en el caso general El conjunto debe ser relevante y exógeno: 1. Relevancia: Caso especial de una X Al menos uno de los instrumentos debe ser significativo en la primera etapa. 2. Exogeneidad

Ninguno debe estar correlacionado con u: corr(Z1i,ui) = 0,…, corr(Zm,ui) = 0

10-51

Instrumentos “Válidos” en el caso general (cont.) (1) Condición general de relevancia:

• Múltiples X’s Supongamos que la segunda etapa pudiera utilizar los valores de predicción de la primera etapa poblacional. Entonces, no habría multicolinealidad.

• Caso especial de una X Al menos uno de los instrumentos debe ser significativo en la primera etapa.

10-52

Supuestos Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui 1. E(ui|W1i,…,Wri) = 0 2. (Yi,X1i,…,Xki,W1i,…,Wri,Z1i,…,Zmi) son i.i.d. 3. Las X’s, W’s, Z’s, e Y poseen momentos finitos de

cuarto orden no nulos. 4. Las W’s no son perfectamente multicolineales. 5. Los (Z1i,…,Zmi) satisfacen las condiciones de validez. • #1 dice “los regresores exógenos son exógenos.” • #2 – #4 no son nuevos; hemos discutido #5.

10-53

Implicaciones: Distribución muestral de MC2E • Si los supuestos se cumplen, entonces MC2E se

distribuye normal en grandes muestras. • Inferencia (contrastación, intervalos de confianzas) se

lleva a cabo como siempre. • Dos notas sobre los errores estándar:

o Los SEs de la segunda etapa son incorrectos porque no tienen en cuenta que la primera etapa ha sido estimada; para obtener los correctos, deberá llevarse a cabo la regresión con un único comando.

o Utilizar SEs robustos.

10-54

Comprobación de la validez (SW Sección 10.3)

Recuérdese que los dos requisitos para que un instrumento sea válido son: 1. Relevancia (caso especial de una X)

Al menos uno de los instrumentos debe ser significativo en la primera etapa.

2. Exogeneidad Ningún instrumento debe estar correlacionado con el término de error: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

10-55

Comprobar el Supuesto #1: Relevancia En el caso de un único regresor endógeno incluido,

Yi = β0 + β1Xi + β2W1i + … + β1+rWri + ui Primera etapa: Xi = π0 + π1Z1i +…+ πmiZmi + πm+1iW1i +…+ πm+kiWki + ui

• Los instrumentos serán relevantes si al menos uno de los π1,…,πm es no nulo.

• Los instrumentos serán débiles si todos los π1,…,πm son nulos o cercanos a cero.

• Instrumentos débiles explican muy poco de la variación en X, más allá de la ya explicada por W’s

10-56

¿Qué consecuencias tienen los instrumentos débiles? Considerar el caso más simple:

Yi = β0 + β1Xi + ui Xi = π0 + π1Zi + ui

• 21MC Eβ = YZ

XZ

ss

• Si cov(X,Z) es cero o cercana a cero, sXZ sera pequeña. • En este caso, la distribución muestral de 2

1MC Eβ (y su

estadístico t) no estará bien aproximado por una normal…

10-57

Ejemplo: Distribución de MC2E - t con instrumentos débiles

Línea oscura = instrumentos irrelevantes Línea punteada = instrumentos fuertes

10-58

¿Por qué falla la aproximación normal? 2

1MC Eβ = YZ

XZ

ss

• Si cov(X,Z) es baja, pequeños cambios en sXZ (de una muestra a otra) producirán grandes cambios en 2

1MC Eβ

• Supongamos que en una muestra sXZ = .00001! • Entonces, la normal no será una buena aproximación a

la distribución muestral de 21MC Eβ

• Una aproximación mejor es que 21MC Eβ se distribuya

como un cociente de dos normales correlacionadas (véase SW Ap. 10.4)

• Si los instrumentos son débiles, no deberemos confiar en los métodos tradicionales de inferencia.

10-59

Cómo medir en la práctica la fortaleza de un instrumento: El estadístico F de la 1ª etapa • Primera etapa (una X):

Regresión de X sobre Z1,..,Zm,W1,…,Wk.

• Instrumentos totalmente irrelevantes ⇔ todos los

coeficientes de Z1,…,Zm, son cero. • El estadístico F de la 1ª etapa contrasta la hipótesis de

que Z1,…,Zm no entre en la primera regresión. • Instrumentos débiles implican un valor pequeño de F.

10-60

Comprobar instrumentos débiles con una única X • Hallar F de la primera etapa

Consejo: Si F es menos de 10, considerar que el conjunto de instrumentos es débil.

• En este caso, MC2E estará sesgado, y desconfiaremos de la inferencia (errores estándar, contrastes, intervalos de confianza).

• Nótese que no es suficiente rechazar simplemente que los coeficientes de Z sean cero – necesitaremos además un contenido predictivo sustancial para considerar a la normal una buena aproximación.

10-61

¿Qué hacemos si nuestros instrumentos son débiles? • Buscarlos mejores (!) • Si disponemos de muchos, algunos serán más débiles

que otros y sera una Buena idea eliminar los más débiles (lo que aumentará el F de 1ª etapa)

• Utilizar un estimador VI distinto de MC2E o Hay muchos estimadores VI cuando los

coeficientes están sobreidentificados. o Máxima Verosimilitud con Información Limitada

(LIML) se ve menos afectada con instrumentos débiles.

10-62

Comprobación del Supuesto #2: Exogeneidad

• Exogeneidad: Ningún instrumento estará correlacionado con el término de error: corr(Z1i,ui) = 0,…, corr(Zmi,ui) = 0

• En otro caso, la 1ª etapa de MC2E no aislará convenientemente el componente de X incorrelacionado con u, y X estará correlacionada con u y MC2E será inconsistente.

• Si se dispone de más instrumentos que regresores endógenos, será posible contrastar – parcialmente – la exogeneidad de los instrumentos.

10-63

Contraste de sobreidentificación Considerar el caso más simple:

Yi = β0 + β1Xi + ui, • Disponemos de 2 instrumentos válidos: Z1i, Z2i • Llevar a cabo 2 regresiones separadas MC2E. • Si las estimaciones MC2E son muy distintas, entonces

algo debe estar mal: uno u otro (o los dos) deben ser inválidos.

• El contraste J de sobreidentificación hace esta comparación de forma precisa cuando #Z’s > #X’s

10-64

Supongamos que #instruments = m > # X’s = k Yi = β0 + β1X1i + … + βkXki + βk+1W1i + … + βk+rWri + ui

Contraste J 1. Estimar la ecuación mediante MC2E utilizando los m

instrumentos; hallar iY , utilizando el valor observado de X’s (no las X ’s de la 2ª etapa)

2. Hallar los residuos îu = Yi – iY 3. Regresión de îu sobre Z1i,…,Zmi, W1i,…,Wri 4. Hallar F del contraste de la hipótesis de que todos los

coeficientes de Z1i,…,Zmi son cero; 5. Estadístico J es J = mF

10-65

J = mF, donde F es el del contraste de significación conjunta de los coeficientes de Z1i,…,Zmi en la regresión de los residuos MC2E sobre Z1i,…,Zmi, W1i,…,Wri.

Distribución del estadístico J • Bajo la nula de que todos los instrumentos son

exógenos, J se distribuye como una chi-cuadrado con m–k grados de libertad

• If m = k, J = 0 (¿tiene sentido?) • Si algunos instrumentos son exógenos y otros no, J será

grande, y la nula rechazada.

10-66

Aplicación a la demanda de tabaco (SW Sección 10.4)

¿Por qué estamos interesados en conocer la elasticidad de la demanda de tabaco?

• Teoría de la imposición óptima: el impuesto óptimo está relacionado inversamente con dicha elasticidad.

• Externalidades: o Fumadores pasivos o Externalidades monetarias

10-67

Datos de Panel • Consumo anual de tabaco, precio medio (impuestos

incluidos), renta personal • 48 estados USA, 1985-1995

Estrategia de estimación

• Datos de panel nos permite controlar el efecto “estado” no observable que entra en la demanda de tabaco, en tanto en cuanto no varía con el tiempo.

• Pero todavía necesitamos VI para eliminar el sesgo CS de la interacción entre la oferta y demanda.

10-68

Modelo de Efectos Fijos (EF) ln( tabaco

itQ ) = αi + β1ln( tabacoitP ) + β2ln(Rentait) + uit

• i = 1,…,48, t = 1985, 1986,…,1995 • αi recoge factores omitidos no observables que varían

con los estados pero no con el tiempo; e.g. actitud en relación con fumar

• corr(ln( tabacoitP ),uit) puede ser no nula debido a las

interacciones entre la oferta y demanda • Estrategia de estimación:

o Eliminar αi o MC2E contra el sesgo CS.

10-69

Regresión con datos de panel: dos enfoques (a) El método de los “n-1 indicadores binarios” (b) El método de los “cambios” (cuando T=2) (a) Método de los “n-1 indicadores binarios” Escribir

ln( tabacoitQ ) = αi + β1ln( tabaco

itP ) + β2ln(Rentait) + uit

como ln( tabaco

itQ ) = β0 + β1ln( tabacoitP ) + β2ln(Rentait)

+ γ2D2it + … + γ48D48it + uit Instrumentos:

Z1it = impuesto generalit Z2it = impuesto específicoit

10-70

Éste es el modelo general VI: ln( tabaco

itQ ) = β0 + β1ln( tabacoitP ) + β2ln(Rentait)

+ γ2D2it + … + γ48D48it + uit

• X (regresor endógeno) = ln( tabacoitP )

• 48 W’s (regresores exógenous incluidos) = ln(Rentait), D2it,…, D48it

• Dos instrumentos = Z1it, Z2it • Estimar el modelo complete por MC2E! • ¿Cómo introducir efectos retardados? (respuesta

dinámica) – se necesita tiempo para dejar de fumar

10-71

(b) Método de los “cambios” (cuando T=2) • Una forma de estudiar la dinámica es la consideración

de cambios en 10 años, entre 1985 y 1995 • Escribir la regression en la forma de “cambios”:

ln( 1995tabacoiQ ) – ln( 1985

tabacoiQ )

= β1[ln( 1995tabaco

iP ) – ln( 1985tabaco

iP )] +β2[ln(Rentai1995) – ln(Rentai1985)] + (ui1995 – ui1985)

• Variables de “cambio a 10 años”, por ejemplo: Cambio a 10 años en log-precio = ln(Pi1995) – ln(Pi1985)

• Estimar la elasticidad de demanda por MC2E utilizando cambios a 10 años en los instrumentos

• Seguiremos este enfoque

10-72

STATA: Demanda de tabaco Primero creamos “variables a 10 años”

Cambio a 10 años en log-precio = ln(Pit) – ln(Pit–10) = ln(Pit/Pit–10)

. gen dlpackpc = log(packpc/packpc[_n-10]); _n-10 is the 10-yr lagged value

. gen dlavgprs = log(avgprs/avgprs[_n-10]);

. gen dlperinc = log(perinc/perinc[_n-10]);

. gen drtaxs = rtaxs-rtaxs[_n-10];

. gen drtax = rtax-rtax[_n-10];

. gen drtaxso = rtaxso-rtaxso[_n-10];

10-73

Elasticidad de demanda por MC2E utilizando variables de “cambios a 10 años”

Y W X Z. ivreg dlpackpc dlperinc (dlavgprs = drtaxso) , r;


------------------------------------------------------------------------------| Robust

dlpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

dlavgprs | -.9380143 .2075022 -4.52 0.000 -1.355945 -.5200834dlperinc | .5259693 .3394942 1.55 0.128 -.1578071 1.209746

_cons | .2085492 .1302294 1.60 0.116 -.0537463 .4708446------------------------------------------------------------------------------Instrumented: dlavgprsInstruments: dlperinc drtaxso------------------------------------------------------------------------------

NOTE:- All the variables – Y, X, W, and Z’s – are in 10-year changes- Estimated elasticity = –.94 (SE = .21) – surprisingly elastic!- Income elasticity small, not statistically different from zero- Must check whether the instrument is relevant…

10-74

Comprobación de la relevancia: F de 1ª etapa . reg dlavgprs drtaxso dlperinc , r;


------------------------------------------------------------------------------| Robust

dlavgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

drtaxso | .0254611 .0043876 5.80 0.000 .016624 .0342982dlperinc | -.2241037 .2188815 -1.02 0.311 -.6649536 .2167463

_cons | .5321948 .0295315 18.02 0.000 .4727153 .5916742------------------------------------------------------------------------------

. test drtaxso; We didn’t need to run “test” herebecause with m=1 instrument, the

( 1) drtaxso = 0 F-statistic is the square of thet-statistic, that is,

F( 1, 45) = 33.67 5.80*5.80 = 33.67Prob > F = 0.0000

First stage F = 33.7 > 10 so instrument is not weak

¿Podemos comprobar la exogeneidad? No…m = k

10-75

Dos instrumentos (impuestos general y específico) . ivreg dlpackpc dlperinc (dlavgprs = drtaxso drtax) , r;


------------------------------------------------------------------------------| Robust

dlpackpc | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

dlavgprs | -1.202403 .1969433 -6.11 0.000 -1.599068 -.8057392dlperinc | .4620299 .3093405 1.49 0.142 -.1610138 1.085074

_cons | .3665388 .1219126 3.01 0.004 .1209942 .6120834------------------------------------------------------------------------------Instrumented: dlavgprsInstruments: dlperinc drtaxso drtax------------------------------------------------------------------------------

drtaxso = general sales tax onlydrtax = cigarette-specific tax onlyEstimated elasticity is -1.2, even more elastic than using generalsales tax only

Con m>k, podemos contrastar sobreidentificación

10-76

Contraste de sobreidentificación . predict e, resid; Computes predicted values for most recently

estimated regression (the previous TSLS regression). reg e drtaxso drtax dlperinc; Regress e on Z’s and W’s

Source | SS df MS Number of obs = 48-------------+------------------------------ F( 3, 44) = 1.64

Model | .037769176 3 .012589725 Prob > F = 0.1929Residual | .336952289 44 .007658007 R-squared = 0.1008

-------------+------------------------------ Adj R-squared = 0.0395Total | .374721465 47 .007972797 Root MSE = .08751

------------------------------------------------------------------------------e | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------drtaxso | .0127669 .0061587 2.07 0.044 .000355 .0251789

drtax | -.0038077 .0021179 -1.80 0.079 -.008076 .0004607dlperinc | -.0934062 .2978459 -0.31 0.755 -.6936752 .5068627

_cons | .002939 .0446131 0.07 0.948 -.0869728 .0928509------------------------------------------------------------------------------. test drtaxso drtax;

( 1) drtaxso = 0 Compute J-statistic, which is m*F,( 2) drtax = 0 where F tests whether coefficients on

the instruments are zero

F( 2, 44) = 2.47 so J = 2 × 2.47 = 4.93

Prob > F = 0.0966 ** WARNING – this uses the wrong d.f. **

10-77

Los grados de libertad del estadístico J son m–k: • J = mF, donde F es el F del contraste de significación

conjunta de los coeficientes de Z1i,…,Zmi en la regresión de los residuos MC2E sobre Z1i,…,Zmi, W1i,…,Wmi.

• Bajo la nula de que todos los instrumentos son exogenous,, J se distribuye chi-cuadrado con m–k gradops de libertad

• Aquí, J = 4.93, distribuido chi-cuadrado con g.l. = 1; el valor crítico al 5% es 3.84; por tanto, rechazamos al 5% de nivel de significación.

. dis "J-stat = " r(df)*r(F) " p-value = " chiprob(r(df)-1,r(df)*r(F));J-stat = 4.9319853 p-value = .02636401

J = 2 × 2.47 = 4.93 p-value from chi-squared(1) distribution

10-78

Comprobar relevancia: F de 1ª etapa X Z1 Z2 W

. reg dlavgprs drtaxso drtax dlperinc , r;


------------------------------------------------------------------------------| Robust

dlavgprs | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

drtaxso | .013457 .0031405 4.28 0.000 .0071277 .0197863drtax | .0075734 .0008859 8.55 0.000 .0057879 .0093588

dlperinc | -.0289943 .1242309 -0.23 0.817 -.2793654 .2213767_cons | .4919733 .0183233 26.85 0.000 .4550451 .5289015

------------------------------------------------------------------------------

. test drtaxso drtax;

( 1) drtaxso = 0( 2) drtax = 0

F( 2, 44) = 88.62 88.62 > 10 so instruments aren’t weakProb > F = 0.0000

10-79

Resumen de los resultados:

10-80

¿Cómo debe interpretarse el rechazo por J? • J rechaza el que ambos instrumentos sean exógenos • O bien rtaxso is endógena, o bien lo es rtax, o ambas • ¡J no nos dice cuál! ¡debemos pensar! • ¿Por qué rtax (específico) debería ser endógena?

o Por presión social, la imposición sobre el tabaco ha sido tradicionalmente baja

o En este caso, el impuesto específico sobre el tabaco sería endógeno

• Este razonamiento no es aplicable a una imposición general

• ⇒ utilizar un único instrumento: el impuesto general

10-81

La demanda de tabaco: Resumen de los resultados empíricos

• Utilizar la elasticidad estimada por MC2E con el impuesto general como único instrumento:

Elasticity = -.94, SE = .21 • Esta elasticidad es sorprendentemente elástica. – un

incremento del 1% en el precio reduce las ventas en cerca de un 1%.

• Ésta es una elasticidad de largo plazo (cambio a 10 años). ¿Como esperaría Vd. que fuese la elasticidad de corto plazo (cambio a 1 año)? – ¿más o menos elástica?

10-82

¿Qué problemas quedan por resolver que afecten a la validez interna del modelo?

• ¿Sesgo OV? o El estimador con datos de panel probablemente

sea el correcto • ¿Especificación inadecuada de la forma funcional del

modelo? o Hmmm…deberíamos comprobarlo… o Una cuestión relacionada sería la distinta

interpretación de la elasticidad según el cambio sea a 10 años (largo plazo) o a 1 año (corto plazo)

10-83

• ¿Sesgo CS

o No si el impuesto general es un instrumento válido: � ¿relevancia? � ¿exogeneidad?

• ¿Sesgo EV? ¿Estamos midiendo correctamente el precio? ¿Qué hay del contrabando?

• ¿Sesgo de selección? (no, disponemos de observaciones sobre todos los estados)

10-84

¿De dónde proceden los instrumentos válidos? (SW Sección 10.5)

• Instrumentos válidos son (1) relevantes y (2) exógenos • Una forma general de encontrar instrumentos válidos es

buscando variación exógena que afecte a X – variación “como si” fuese generada aleatoriamente. o La lluvia desplaza la curva de oferta de mantequilla

pero no la de demanda; lluvia “como si” fuese aleatoriamente asignada

o Los impuestos desplazan la curva de oferta de tabaco pero no la de demanda; impuestos “como si” fuesen aleatoriamente asignados

10-85

Ejemplo: Cateterización cardiaca (CC) ¿Mejora la longevidad de los pacientes que han sufrido algún ataque al corazón el haber recibido CC? Yi = tiempo de supervivencia (en días)

Xi = 1 si el paciente recibe CC, = 0 si el paciente no la recibe

• Historiales clínicos han demostrado que CardCath afecta SurvivalDays.

• ¿Pero es el tratamiento realmente efectivo? SurvivalDaysi = β0 + β1CardCathi + ui

• ¿Es MCO insesgado? La decisión de utilizar CC es endógena – sólo se administra a aquellos pacientes que, por lo demás, se encuentran en buen estado de salud

10-86

• Si sólo aquellos pacientes con mejor estado de salud reciben CC, MCO adolecerá de sesgo CS, y estimará al alza el efecto CC

• Instrumento propuesto: distancia al hospital CC más cercano

• Z = distancia al hospital CC o ¿Relevante? Si el hospital CC está muy alejado, el

paciente no será trasladado allí y no recibirá CC o ¿Exógena? Si la distancia afecta a SurvivalDays sólo

a través de CardCathi, entonces corr(distancia,ui) = 0 y, por tanto, será exógena

10-87

o Si la localización del paciente es aleatoria, entonces la distancia estará asignada “como si” fuese aleatoriamente.

o La 1ª etapa es un modelo de probabilidad lineal: la distancia afecta a la probabilidad de recibir el tratamiento

• Resultados (McClellan, McNeil, Newhous, JAMA, 1994): o MCO significativo y gran efecto CC o MC2E no significativo y pequeño efecto CC

10-88

Resumen: Regresión VI (SW Sección 10.6)

• Un instrumento válido nos permite aislar la parte de X no correlacionada con u, y utilizarla para estimar el efecto de un cambio en X sobre Y

• La regresión VI está basada en instrumentos válidos: (1) Relevancia: comprobar F de la 1ª etapa (2) Exogeneidad: Contrastar sobreidentificación via J

• Un instrumento válido aísla la variación en X “como si” fuese aleatoriamente asignada.

• El requisito de al menos m instrumentos válidos no puede ser contrastado – Debe Vd. Utilizar su cabeza.

Documents

Regresión con Variables Instrumentales (VI) · La regresión MCO de ln(mant i Q) sobre ln(mant i P) adolece de sesgo CS (¿por qu