Cole -- Elementos de Econometría Aplicada (3a Ed.)

Embed Size (px)

Citation preview

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    1/110

    See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/275970926

    Elementos de Econometría Aplicada

    BOOK · JUNE 2014

    READS

    195

    1 AUTHOR:

    Julio H. Cole

    Francisco Marroquín University

    33 PUBLICATIONS  94 CITATIONS 

    SEE PROFILE

    Available from: Julio H. Cole

    Retrieved on: 01 February 2016

    https://www.researchgate.net/profile/Julio_Cole?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_7https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/profile/Julio_Cole?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_5https://www.researchgate.net/?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_1https://www.researchgate.net/profile/Julio_Cole?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_7https://www.researchgate.net/institution/Francisco_Marroquin_University?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_6https://www.researchgate.net/profile/Julio_Cole?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_5https://www.researchgate.net/profile/Julio_Cole?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_4https://www.researchgate.net/?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_1https://www.researchgate.net/publication/275970926_Elementos_de_Econometria_Aplicada?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_3https://www.researchgate.net/publication/275970926_Elementos_de_Econometria_Aplicada?enrichId=rgreq-b44822be-f43b-4e51-85dc-c6450923fdbd&enrichSource=Y292ZXJQYWdlOzI3NTk3MDkyNjtBUzoyMjY5MDA2MDI1NjA1MTJAMTQzMTEwODcyNzEzOA%3D%3D&el=1_x_2

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    2/110

     

    Julio H. Cole

    ELEMENTOS DE ECONOMETRÍA APLICADA 

    Tercera Edición

    J & G Ediciones ————————————————————————————————–  

    Guatemala

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    3/110

     

     Para Gina,

    con todo mi amor  

    Copyright © 1996, 2006, 2014 por Julio H. Cole. Derechos reservados.J & G Ediciones (Guatemala).

    Impreso en Guatemala —  Printed in Guatemala

    Cole, Julio Harold (1955 –   )

    Elementos de Econometría Aplicada.

    Tercera edición [2014]. Bibliografía.103 p., ilustrado, tablas.

    1. Econometría. I. Título.

    330.015195 C689

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    4/110

     

    CONTENIDO

    Prefacio a la Segunda Edición …………………………………………………. v . Prefacio a la Tercera Edición ………….………………………………………. v . 

    Capítulo

    1. I NTRODUCCIÓN …........................................................................................ 1

    2. R EGRESIÓN LINEAL SIMPLE …...….............................................................. 5

    2.1.  Introducción 2.2.  Método de Mínimos Cuadrados 2.3. Coeficiente de Determinación ( R2)

    Preguntas de Repaso

    Casos Aplicados

    3. R EPASO DE ALGEBRA MATRICIAL ……....................................................... 20

    3.1.  Matrices 3.2. Operaciones con Matrices 3.3. Teoremas sobre Matrices 3.4. Clases Especiales de Matrices 3.5. Traza de una Matriz Cuadrada 3.6. Transposición de Matrices 3.7.  Matriz Inversa 

    Preguntas de Repaso

    4. R EGRESIÓN LINEAL MÚLTIPLE ……............................................................ 27

    4.1. Vector Mínimo-Cuadrático 4.2.  Inferencia Estadística en la Regresión Lineal4.3. Coeficiente de Determinación ( R2) 4.4.  Aplicación —  Costos Administrativos en la Banca Comercial  

    Casos Aplicados

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    5/110

      5. AMPLIACIONES DEL MODELO LINEAL ………............................................. 44

    5.1.  Estimación de Formas No-Lineales 5.2. Variables Binarias o Cualitativas 5.3.  Problemas Especiales en la Regresión Lineal

    5.3.1. Variables Omitidas y Variables Irrelevantes 5.3.2.  Multicolinealidad5.3.3.  Heteroscedasticidad  

    Preguntas de Repaso

    Casos Aplicados

    6. AUTOCORRELACIÓN …................................................................................ 67

    6.1.  Naturaleza del Problema 6.2.  Efectos de la Autocorrelación 

    6.3. Cómo Detectar la Autocorrelación 6.4.  Estimación en Presencia de Autocorrelación 

    Preguntas de Repaso

    Caso Aplicado

    7. R ETARDOS DISTRIBUIDOS ……................................................................... 82

    7.1. Variables Retardadas en Econometría 7.2.  Autocorrelación en Regresiones con Retardos 7.3.  Aplicación —  Inflación en Guatemala 

    Casos Aplicados

    A NEXOS .............................................................................................................. 95. A-1. Areas de la Distribución Normal EstándarA-2. Percentiles de la Distribución t  (Student)A-3. Valores Críticos de la Distribución Chi-cuadradoA-4. Estadístico Durbin-Watson: Valores Críticos (5 %) para d L y d U 

    R EFERENCIAS …............................................................................................... 100

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    6/110

     

    PREFACIO A LA SEGUNDA EDICIÓN 

    La primera edición de este libro se publicó en 1996. Para esta reedición he man-tenido la estructura del texto original, pero he aprovechado la oportunidad pararealizar algunas ligeras correcciones y cambios de presentación, y también paraincorporar varios casos aplicados que he desarrollado en estos últimos 10 años.Estos casos han resultado de gran utilidad en el curso introductorio de econome-tría que imparto desde hace muchos años en la Universidad Francisco Marroquín,y me alegro de poder ahora compartirlos con un público más amplio.

    J. H. C.Guatemala, 2006  

    PREFACIO A LA TERCERA EDICIÓN 

    Para esta tercera edición he mantenido la estructura del texto original, pero he in-cluido algunos temas adicionales, y he efectuado algunos ligeros cambios de pre-sentación. He incluido también algunos casos prácticos que he usado con éxito enmi curso de econometría en la Universidad Francisco Marroquín, pero que no ha- bía previamente incorporado al texto. Reitero el gusto que me da ahora podercompartirlos con un público más amplio.

    J. H. C.

    Guatemala, 2014 

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    7/110

     

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    8/110

     

    [1]

    Capítulo 1

    I NTRODUCCIÓN 

    ― All models are wrong, but some models

    are useful …. ‖  —  G. E. P. Box1 

    ― … if you torture the data enough, nature

    will always confess .… ‖  —  R. H. Coase2 

    La Econometría es aquella rama de la ciencia económica que aplica losinstrumentos de la economía teórica, del análisis matemático y de la estadísticainferencial al análisis cuantitativo de los fenómenos económicos. Las teoríaseconómicas típicamente expresan relaciones funcionales entre diferentesvariables. La curva de demanda, por ejemplo, representa la cantidad demandadade una mercancía como función de su precio. En la teoría de la empresa, por otrolado, el costo de producción se considera como función de la escala de

     producción, mientras que en el análisis macroeconómico la ―función consumo‖relaciona los gastos de consumo con el nivel de ingreso nacional. Todos estos sonejemplos de relaciones entre dos variables, aunque por supuesto que unaformulación más completa debe incluir varias variables diferentes en cadarelación.

    El propósito de la Econometría consiste en desarrollar métodos para la esti-mación numérica de los parámetros que definen las relaciones funcionales entrelas diversas variables económicas que nos pueden interesar, y para testar y com- probar las diversas hipótesis que se pueden postular acerca de dichos parámetros.El primer paso en cualquier investigación econométrica debe ser la especificación

    1 Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.

    2―How Should Economists Choose?‖ [1981], en Ideas, Their Origins, and Their Conse-quences: Lectures to Commemorate the Life and Work of G. Warren Nutter  (Washing-ton: American Enterprise Institute, 1988), p. 74. 

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    9/110

     

    [2]

    de un modelo matemático para representar la relación que se desea investigar. Enla práctica, lo común es partir de una ―ecuación de regresión‖ que postula una r e-lación causal entre una variable ―dependiente‖ y una o más variables ―indepen-dientes.‖ (En econometría, una variable es denominada ―dependiente‖ si podemos

    suponer que es función de otras variables, y el análisis de regresión consiste en

    ―explicar‖ los cambios observados en la variable dependiente por medio de loscambios observados en estas otras variables independientes.) Luego debemos re-coger datos relevantes de la economía o sector que deseamos describir por mediodel modelo. Como tercer paso, se utilizan estos datos para estimar los parámetrosdel modelo. Por último, se realizan pruebas sobre el modelo estimado, a fin dedeterminar si constituye una representación adecuada del fenómeno estudiado, osi debemos realizar modificaciones en la especificación original.

    En la econometría aplicada, la forma funcional que más se utiliza en la práctica para representar la relación causal entre variables dependientes eindependientes es la función ―lineal,‖ que en su forma más general puede

    expresarse de la siguiente manera:

    Y  = 0 + 1 X 1 + 2 X 2 + ... + k  X k  + u 

    donde Y  representa el valor de la variable dependiente,  X 1, X 2, ... , X k  representanlos valores de las variables independientes, 0  representa la ―ordenada en elorigen,‖ 1, 2  , ... , k   representan los coeficientes de las respectivas variablesindependientes, y u representa un término de error.

    En un problema de econometría aplicada, deseamos obtener estimaciones delos k  + 1 parámetros (0, 1, 2, ... , k ) que contiene esta ecuación. Consideremosla interpretación de estos parámetros, obviando por el momento los problemas deestimación. El parámetro 0 es relativamente fácil de interpretar, ya que como semencionó en el párrafo anterior, es simplemente la ―ordenada en el or igen,‖ o sea,el valor de Y  cuando todas las variables independientes son exactamente cero. Porotra parte, los coeficientes 1, 2, etc., pueden interpretarse como las derivadas parciales de Y   respecto de las respectivas variables independientes: así, 1  nosdice cuánto cambia Y  en respuesta a un cambio de una unidad en X 1, suponiendoque las demás variables independientes no cambian, y los demás coeficientes se pueden interpretar de la misma manera. Obviamente, es muy importante contarcon estimaciones confiables de la magnitud de estos coeficientes, y el trabajo del

    econometrista consiste en proporcionar estas estimaciones.

    La presencia del término de error (u) en esta ecuación refleja el hecho de quelos datos económicos nunca se ajustan a funciones matemáticamente exactas, demodo que funciones simples como la anterior sólo pueden considerarse comoaproximaciones a las verdaderas relaciones que se están investigando. Aún si la

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    10/110

     

    [3]

    verdadera relación no es lineal, sin embargo, si el rango relevante de variación delas variables no es muy grande, entonces la forma lineal podría constituir de todasmaneras una buena aproximación a la verdadera forma funcional.

    El Prof. Johnston ha propuesto tres diferentes razones para justificar el tér-

    mino de error en un análisis econométrico.3

      Por un lado, los datos económicossiempre contienen errores de medición, ya que las variables económicas no pue-den ser medidas con exactitud. En este sentido, u puede ser interpretado literal-mente como un ―error‖ genuino. Por otro lado, en un análisis aplicado sólo pue-den tomarse en cuenta las variables más importantes para la explicación de un fe-nómeno, y por tanto las ecuaciones en la práctica no pueden incluir todas las va-riables que pueden afectar una determinada variable dependiente. El efecto netode las variables omitidas se refleja en el término de error, que en este sentido esinterpretado como un ―residuo.‖ Por último, y como ya se mencionó en el párrafoanterior, las relaciones económicas probablemente no serían exactas aún si noexistiera ningún error de medición, y aún si todas las variables relevantes son in-

    cluidas en el análisis. En última instancia, las variables económicas dependen dela acción humana, y existe una cierta indeterminación en el comportamiento hu-mano que sólo puede ser representada mediante un término de perturbación alea-torio, cuya varianza es incrementada por los errores de medición y el efecto resi-dual de variables omitidas. Se reconoce de entrada, por tanto, que las estimacio-nes econométricas siempre contienen cierto elemento de incertidumbre. Con téc-nicas adecuadas, se puede tratar de reducir esta incertidumbre, aunque nunca se podrá eliminar del todo. El estudiante de econometría debe estar siempre cons-ciente de las limitaciones de sus métodos de análisis.

    El propósito de este texto es familiarizar al estudiante de economía y/o

    administración con las técnicas más comunes que se emplean en el análisiseconométrico aplicado. Esencialmente, se trata de estimar los coeficientes deecuaciones lineales, tales como la ecuación (1). En el siguiente capítulo se discuteel caso más sencillo, el de una sola variable independiente, que puede ser tratadocon técnicas algebraicas relativamente simples. El caso más general de k  variablesindependientes requiere de técnicas más sofisticadas, y por esto es que el Capítulo3 se dedica a un repaso de álgebra matricial, previo a la discusión del modelo de―Regresión Lineal Múltiple,‖ que es el tema del Capítulo 4. En el Capítulo 5 seconsideran ampliaciones del modelo lineal, como ser la estimación de formas no-lineales y el uso de variable binarias, y se discuten algunos problemas especialesque frecuentemente surgen en el análisis de regresión, tales como multi-colinealidad, heteroscedasticidad y el efecto de variables omitidas, mientras queel importante problema de la autocorrelación es tratado a fondo en el Capítulo 6.

    3J. Johnston,  Econometric Methods, 2a ed. (Nueva York: McGraw-Hill, 1972), pp. 10-11.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    11/110

     

    [4]

    Finalmente, el Capítulo 7 trata de los problemas especiales que puede plantear la presencia de retardos en las ecuaciones de regresión.

    La lectura de este texto presupone que el estudiante conoce los rudimentos delcálculo, y ciertos elementos de estadística matemática. También es conveniente

    cierta familiaridad con las computadoras, y particularmente con el manejo de ho- jas electrónicas tipo Excel. Como lo indica el título, este es un texto para un cursointroductorio de econometría aplicada. Un texto introductorio debe ser selectivo,y si bien se ha hecho un esfuerzo por incluir la mayoría de las herramientas queen la práctica debe emplear el investigador típico en la situación típica, sin dudaexisten algunas lagunas más o menos importantes. En aras de la brevedad, porejemplo, se ha omitido por completo el tema de la estimación de modelos deecuaciones simultáneas, de modo que el texto se limita únicamente al caso demodelos de ecuación única, e incluso en este caso sólo se discuten los problemasque más comúnmente se plantean en la práctica. El estudiante que desea especia-lizarse en este campo podrá subsanar estas deficiencias consultando algunos de

    los textos citados en la bibliografía.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    12/110

     

    [5]

    Capítulo 2

    R EGRESIÓN LINEAL SIMPLE 

    2.1.  Introducción.

    En este capítulo consideramos el caso más simple de una regresión lineal, quees el de una ecuación lineal con una variable dependiente (Y ), y una sola variableindependiente ( X ). Este modelo básico puede ser representado como:

    Y  = 0 + 1 X  + u 

    donde 0 y 1 son los parámetros respectivos, y u es el término de error. (Siempreconviene recordar que en econometría las relaciones entre variables no son fun-ciones exactas, sino que son únicamente relaciones estadísticas. Por esto siemprees necesario incluir una variable de error en la relación.)

    El parámetro 0, conocido como la ―ordenada en el origen,‖ nos dice cuántoes Y   cuando  X   = 0. El parámetro 1, conocido como la ―pendiente,‖ nos dicecuánto aumenta Y  por cada aumento de una unidad en  X . Estos parámetros sondesconocidos, y nuestro problema consiste en obtener estimaciones numéricas delos mismos a partir de una muestra de observaciones sobre las variables estudia-

    das. El método de estimación más comúnmente empleado en el análisis de regre-sión es el método de ―mínimos cuadrados.‖ La mejor forma de ilustrar la aplica-ción de este método es por medio de un ejemplo práctico.

    Consideremos el Cuadro 2.1, que muestra datos mensuales de producción ycostos de operación para una empresa británica de transporte de pasajeros por ca-rretera durante los años 1949-52. (La producción se mide en términos de miles demillas-vehículo recorridas por mes, y los costos se miden en términos de miles delibras por mes). Para poder visualizar el grado de relación que existe entre las va-riables, como primer paso en el análisis es conveniente elaborar un diagrama dedispersión, que es una representación en un sistema de coordenadas cartesianas

    de los datos numéricos observados. En el diagrama resultante, en el eje  X  se mi-den las millas-vehículo recorridas, y en el eje Y   se mide el costo de operaciónmensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo ycostos de operación) que corresponde a un mes determinado. Como era de espe-rarse, existe una relación positiva  entre estas variables: una mayor cantidad demillas-vehículo recorridas corresponde un mayor nivel de costos de operación.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    13/110

     

    [6]

    Por otro lado, también se aprecia por qué este gráfico se denomina undiagrama de ―dispersión‖: no existe una relación matemáticamente exacta entre

    las variables, ya que no toda la variación en el costo de operación puede serexplicada por la variación en las millas-vehículo. Si entre estas variables existierauna relación lineal perfecta, entonces todos los puntos caerían a lo largo de la

    recta de regresión, que también ha sido trazada y que muestra la relación―promedio‖ que existe entre las dos variables. En la práctica, se observa que lamayoría de los puntos no caen directamente sobre la recta, sino que están―dispersos‖ en torno a ella. Esta dispersión representa la variación en Y  que no puede atribuirse a la variación en X .

     ————————————————————————————————–  CUADRO 2.1.

    OPERACIONES MENSUALES EN UNA EMPRESA DE TRANSPORTE DE PASAJEROS  ————————————————————————————————–  

    Costos Millas- Costos Millas-Totales Vehículo Totales Vehículo(miles) (miles) (miles) (miles)

    Mes Nº Y    X   Mes Nº Y X   ————————————————————————————————–  

    1 213.9 3147 20 243.7 40192 212.6 3160 21 262.3 43943 215.3 3197 22 252.3 42514 215.3 3173 23 224.4 38445 215.4 3292 24 215.3 3276

    6 228.2 3561 25 202.5 31847 245.6 4013 26 200.7 30378 259.9 4244 27 201.8 31429 250.9 4159 28 202.1 3159

    10 234.5 3776 29 200.4 313911 205.9 3232 30 209.3 320312 202.7 3141 31 213.9 330713 198.5 2928 32 227.0 358514 195.6 3063 33 246.4 407315 200.4 309616 200.1 3096

    17 201.5 315818 213.2 333819 219.5 3492

     ————————————————————————————————–  Fuente: J. Johnston,  Análisis Estadístico de los Costes  (Barcelona: Sagitario, S. A.,…… 1966), p. 118.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    14/110

     

    [7]

    DIAGRAMA DE DISPERSIÓN 

    180

    200

    220

    240

    260

    280

    2500 3000 3500 4000 450

    MILLAS

          C      O      S      T      O      S

     

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    15/110

     

    [8]

    2.2.  Método de Mínimos Cuadrados.

    En un análisis de regresión, tratamos de contestar dos preguntas básicas:

    1. ¿Cuál es la relación estadística que existe entre la variable dependiente (Y ) y la

    variable independiente ( X )? Para contestar esta pregunta, debemos obtener esti-maciones de los parámetros de la recta de regresión, es decir, los coeficientes 0 y1 de la ecuación (1). En el ejemplo concreto que nos concierne aquí, el estima-dor de 1 nos ayuda a responder una pregunta muy importante: ¿cuánto aumenta,en promedio, el costo de operación por cada milla-vehículo adicional?

    2. ¿Qué porcentaje de la variación total en la variable dependiente se puede atri- buir a la variación en la variable independiente? Para contestar esta pregunta, de- bemos comparar la dispersión de los datos en torno a la recta de regresión con lavariación total en la variable dependiente.

    La primera de estas dos preguntas supone encontrar la recta que ―mejor‖ seajusta a los datos observados, lo que obviamente requiere algún criterio deselección. Supongamos que tenemos dos estimadores de los coeficientes 0 y 1,que denotaremos por b0 y b1, respectivamente, y consideremos el i-ésimo puntodel diagrama de dispersión, que representa un valor para la variableindependiente ( X i) y un valor para la variable dependiente (Y i). Dado el valor de X i, el valor de Y  calculado por la recta de regresión será b0 + b1 X i y la diferenciaentre este valor calculado y el valor realmente observado (Y i) será el errorcorrespondiente a la i-ésima observación:

    ei = Y i  –  b0  –  b1 X i 

    Sea n el número total de observaciones en la muestra (en este ejemplo n = 33).Para cada observación individual habrá un error correspondiente, y el método de―minimos cuadrados‖ consiste en encontrar los valores de b0 y b1 que minimizanla suma de los errores cuadrados para la muestra en conjunto. Es decir, se tratade minimizar la variable:

    2

    1

    1

    0

    1

    2 )( i

    n

    i

    i

    n

    i

    i   X bbY eQ    

     

     Nótese que esta expresión es función de b0 y b1, ya que diferentes valores paraestos parámetros producirán diferentes conjuntos de errores. En otras palabras, lasuma de los errores cuadrados es función de la recta de regresión. Según elcriterio de mínimos cuadrados, la ―mejor‖ recta de regresión es la que minimiza

    Q. Aplicando un conocido principio del cálculo, para minimizar Q calculamos lasderivadas parciales respecto de b0 y de b1, y las igualamos a 0:

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    16/110

     

    [9]

    0)(2 11

    0

    0

    i

    n

    i

    i   X bbY b

    0)(2 11

    0

    1

    ii

    n

    i

    i   X  X bbY b

    Esto nos proporciona un sistema de dos ecuaciones con dos incógnitas. Resol-viendo el sistema podemos obtener los valores de b0 y b1. En la terminología delanálisis de regresión estas ecuaciones son a veces denominadas las ―ecuacionesnormales.‖ Nótese que la primera de estas ecuaciones equivale a la restricción

    0   ie , mientras que la segunda equivale a la restricción 0   iie X  . Este esun resultado importante que será utilizado más adelante en este capítulo. (En losucesivo suprimiremos el uso del subíndice en las sumatorias, para facilitar la no-tación. Se entiende que todas las sumas se efectúan sobre i = 1, 2, ... , n.) Simpli-ficando estas ecuaciones, podemos obtener las siguientes expresiones equivalen-

    tes:

    (1)     X bnbY  10  

    (2)     210   X b X b XY   

    La ecuación (1) también puede expresarse como

    (3)  xb yb 10    

    dondenY  y    es el promedio aritmético de los valores para Y , y n X  x    es el

     promedio aritmético de los valores para  X . Sustituyendo (3) en (2), y reordenandotérminos, obtenemos la siguiente expresión para b1:

    (4)

     X  x X 

     X  y XY b

    21 

    Las fórmulas (3) y (4) nos permiten calcular b0 y b1 a partir de los datos observa-dos. Para el ejemplo de los costos de transporte, tenemos:

        1.231,7Y   (por tanto 12424.219331.231,7    y )

        879,113 X   (por tanto 8788.450,333879,113    x )

        3.020,216,25 XY        769,855,3982 X   

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    17/110

     

    [10]

    Sustituyendo estos valores en la fórmula (4) obtenemos:

    044673.0)879,113)(8788.450,3(769,855,398

    )879,113)(12424.219(3.020,216,251  

    b  

    Por último, sustituyendo este valor en la fórmula (3), juntamente con los valores para  x  y  y , obtenemos:

    963.64)8788.450,3)(044673.0(12424.2190   b  

    Estos dos parámetros definen la recta de regresión, que podemos expresar comosigue:

     X Y    044673.0963.64ˆ  

    (Usamos el símbolo Y ̂  para representar el valor calculado de Y  según la recta de

    regresión. Es muy importante distinguir claramente entre Y ˆ

     y Y , que es el valorobservado  de la variable dependiente.) Según esta estimación, y en númerosredondos, podemos esperar que en promedio el costo de operación se incrementealrededor de 0.045 libras por cada milla-vehículo adicional, mientras que el―costo fijo‖ mensual (i.e., la parte del costo de operación que no varía con las

    millas recorridas) es de aproximadamente 65,000 libras al mes, en promedio.

    2.3. Coeficiente de Determinación ( R2).

    Habiendo calculado la recta de regresión, podemos ahora tratar de responder a

    la segunda pregunta planteada en la sección anterior: ¿qué porcentaje de la varia-ción total en el costo de operación (Y ) se debe a la variación en las millas-vehículo recorridas ( X )? En otras palabras, y en términos más generales, ¿cuál esla proporción de la variación total en Y  que puede ser ―explicada‖ por la variaciónen X ? Para poder contestar esta pregunta, debemos antes descomponer la varia-ción total en Y  en sus dos componentes: la variación ―explicada,‖ que se puedeatribuir a la variación en X , y la variación ―no-explicada,‖ que se debe a factoresdesconocidos y que representamos por los errores de la regresión.

    Por definición de la recta de regresión, tenemos que para cualquier observa-ción individual el valor observado de Y  será igual a la Y  ―calculada‖ más el error: 

    iii   eY Y      ˆ  

     Nótese que esto implica que     ii   Y Y ̂ , ya que se recordará que    0ie  porla primera ecuación normal. Esto implica a su vez que el promedio de las Y ̂es

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    18/110

     

    [11]

    exactamente igual a  y . Si restamos  y  de ambos lados de esta ecuación y eleva-mos al cuadrado tendremos:

    iiiiiii   e yY e yY e yY  yY    )ˆ(2)ˆ(])ˆ[()(   2222  

    Por último, si sumamos sobre todas las observaciones tendremos:(5)     e yY e yY  yY    )ˆ(2)ˆ()(   222  

    donde nuevamente hemos suprimido los subíndices para simplificar la notación.Consideremos ahora la expresión:

        eY e yeY e yY    ˆˆ)ˆ(  

    ya que    0e , por la primera ecuación normal. A su vez, por la definición deY ̂ tenemos que:

        0)(ˆ 1010   Xebebe X bbeY   

    ya que    0e   por la primera ecuación normal, y    0 Xe   por la segundaecuación normal. Por tanto, la ecuación (5) se reduce a la siguiente expresión:

        222 )ˆ()(   e yY  yY   

    En palabras, esto nos indica que la variación total de la variable dependiente (entorno a su promedio) se puede descomponer en dos partes: (1) la variación totalde la Y   ―calculada‖, y (2) la suma de los errores cuadrados. Puesto que lavariación de la Y  ―calculada‖ se debe totalmente a la variación en X , a este primercomponente de la variación total en Y  se le conoce como la variación ―explicada,‖ya que es la parte de la variación en Y  que puede ser atribuida a la variación en lavariable independiente. El segundo componente de la variación en Y , la suma delos errores cuadrados, representa la variación ―no-explicada,‖ ya que es la parteresidual de la variación en Y  que no puede ser atribuida a la variación en  X . Siexpresamos la variación explicada  como porcentaje de la variación total ,obtenemos el siguiente estadístico importante que se conoce como el ―coeficiente

    de determinación‖: 

     

     

     

     

    2

    2

    2

    2

    2

    )(1)(

    )ˆ(

     yY 

    e

     yY 

     yY 

     R  

    Los cálculos relevantes para el caso de los costos de transporte se muestran en elCuadro 2.2. El valor de 0.9464 para  R2 nos indica que la variación en las millas-vehículo recorridas explica el 94.64 % de la variación en el gasto de operaciónmensual. El resto de la variación observada (5.36 %) se debe a otros factores.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    19/110

     

    [12]

     ————————————————————————————————–  CUADRO 2.2.  CÁLCULO DE R2 PARA EL CASO DE LOS COSTOS DE TRANSPORTE.

     ————————————————————————————————–  

    Mes Nº  Y    X   Y ̂   e  e2  Y 2  ————————————————————————————————–  

    1 213.9 3147 205.5489 8.3511 69.7409 45753.212 212.6 3160 206.1297 6.4703 41.8648 45198.76

    3 215.3 3197 207.7826 7.5174 56.5113 46354.09

    4 215.3 3173 206.7104 8.5896 73.7812 46354.09

    5 215.4 3292 212.0265 3.3735 11.3805 46397.16

    6 228.2 3561 224.0436 4.1564 17.2757 52075.24

    7 245.6 4013 244.2357 1.3643 1.8613 60319.36

    8 259.9 4244 254.5552 5.3448 28.5669 67548.01

    9 250.9 4159 250.7580 0.1420 0.0202 62950.81

    10 234.5 3776 233.6482 0.8518 0.7256 54990.25

    11 205.9 3232 209.3461 -3.4461 11.8756 42394.81

    12 202.7 3141 205.2809 -2.5809 6.6610 41087.29

    13 198.5 2928 195.7655 2.7345 7.4775 39402.2514 195.6 3063 201.7964 -6.1964 38.3954 38259.36

    15 200.4 3096 203.2706 -2.8706 8.2403 40160.16

    16 200.1 3096 203.2706 -3.1706 10.0527 40040.01

    17 201.5 3158 206.0403 -4.5403 20.6143 40602.25

    18 213.2 3338 214.0815 -0.8815 0.7770 45454.24

    19 219.5 3492 220.9611 -1.4611 2.1348 48180.25

    20 243.7 4019 244.5039 -0.8039 0.6463 59389.69

    21 262.3 4394 261.2562 1.0438 1.0895 68801.29

    22 252.3 4251 254.8679 -2.5679 6.5941 63655.29

    23 224.4 3844 236.6860 -12.2860 150.9458 50355.36

    24 215.3 3276 211.3117 3.9883 15.9065 46354.09

    25 202.5 3184 207.2018 -4.7018 22.1069 41006.2526 200.7 3037 200.6349 0.0651 0.0042 40280.49

    27 201.8 3142 205.3256 -3.5256 12.4299 40723.24

    28 202.1 3159 206.0850 -3.9850 15.8802 40844.41

    29 200.4 3139 205.1915 -4.7915 22.9585 40160.16

    30 209.3 3203 208.0506 1.2494 1.5610 43806.49

    31 213.9 3307 212.6966 1.2034 1.4482 45753.21

    32 227.0 3585 225.1157 1.8843 3.5506 51529.00

    33 246.4 4073 246.9161 -0.5161 0.2664 60712.96

    Sumas 7231.1 113879 7231.0953 (*) 0.0047 663.3451 1596893.53

     ————————————————————————————————–  

    2557.384,12)12424.219)(33(53.893,596,1)()(   2222     ynY  yY   

    9464.0)2557.384,123451.663(12  R  

     ————————————————————————————————–  (*) La suma algebraica de los errores no es exactamente 0 debido a errores de redondeo.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    20/110

     

    [13]

    PREGUNTAS DE REPASO

    1. Defina los siguientes conceptos:

    a) diagrama de dispersión b) recta de regresiónc) criterio de mínimos cuadradosd) coeficiente de determinación.

    2. (Regresión por el Origen) En algunas situaciones, se sabe que la relación en-tre Y  y X  ―pasa por el or igen‖ en el sentido de que 0 = 0. Este sería el casocuando Y  = 0 por definición cuando  X  = 0. En este caso la recta de regresiónsería simplemente Y  = 1 X  + u.

    a) Derive la fórmula para b1, el estimador de

    1, usando el criterio de míni-

    mos cuadrados.

     b) Nótese que en este caso la suma algebraica de los errores,   ie , ya no esigual a 0. ¿Por qué? ¿Qué implicaciones tiene esto para la interpretación de R

    2?

    c) En el caso de una regresión lineal convencional, 0

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    21/110

     

    [14]

    CASOS APLICADOS

    Caso A —   Elecciones en Florida 

    En las elecciones presidenciales norteamericanas de Noviembre 2000 los conten-dientes principales, George Bush y Al Gore, resultaron casi empatados en térmi-nos de votos electorales, por lo que el resultado dependía crucialmente de los co-micios en el estado de Florida, donde el escrutinio inicial no dio un resultado de-finitivo a favor de ninguno de los candidatos. A medida que proseguía el conteo,surgieron varias anomalías, una de las cuales tuvo que ver con el condado dePalm Beach. Entre otras cosas, se alegó que en este condado muchos votantes quedeseaban votar por Gore se confundieron, debido al diseño de la papeleta electo-ral, y votaron por error por un candidato marginal, Pat Buchanan, del ReformParty. (El condado de Palm Beach tenía una papeleta electoral un tanto confusa ycon un formato diferente a la de los demás condados en el estado.)

    El cuadro adjunto muestra la votación obtenida por Buchanan en todos los con-dados del estado de Florida, y se aprecia claramente que la cantidad de votos ob-tenidos por ese candidato en Palm Beach fue exageradamente grande en compa-ración al resto del estado. Presumiblemente, muchos de estos fueron efectivamen-te votos erróneos (y probablemente con la intención de votar por Gore, debido aldiseño de la papeleta). La pregunta es si se puede obtener una estimación aproxi-mada de la cantidad de estos votos erróneos.

    Como una primera aproximación, se esperaría que la votación obtenida por Bu-chanan en un condado determinado estaría positivamente relacionada con la can-

    tidad de personas afiliadas al Reform Party residentes en ese condado. Este datotambién se muestra en el cuadro adjunto.

    Con esta información:

    (a)  Construya un diagrama de dispersión, relacionando las dos variables.

    (b)  Calcule la línea de regresión (excluyendo la observación para PalmBeach), y con los resultados obtenidos, haga una estimación de la ―vota-ción excedente‖ obtenida por Buchanan en Palm Beach. 

    (c)  Tomando en cuenta que según los resultados oficiales, Bush ganó a Goreen Florida por una diferencia de 537 votos (sobre un total de más de6,100,000 votos emitidos), comente sobre las implicaciones de este análi-sis para el resultado final de las elecciones presidenciales de ese año.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    22/110

     

    [15]

    R ESULTADOS ELECTORALES EN FLORIDA,  NOV 2000  —  R EFORM PARTY (P. BUCHANAN)

    Registrados Votos por Registrados Votos porCondado Reform Party Buchanan Condado Reform Party Buchanan

     Alachua 91 263 Lake 80 289Baker 4 73 Lee 113 305Bay 55 248 Leon 80 282Bradford 3 65 Levy 17 67Brevard 148 570 Liberty 0 39Broward 332 788 Madison 2 29Calhoun 2 90 Manatee 140 271Charlotte 41 182 Marion 108 563Citrus 44 270 Martin 48 112Clay 40 186 Monroe 62 47Collier 118 122 Nassau 13 90Columbia 35 89 Okaloosa 96 267Dade 217 560 Okeechobe 27 43Desoto 7 36 Orange 199 446Dixie 0 29 Osceola 62 145Duval 150 652 Pasco 167 570Escambia 130 502 Pinellas 425 1013Flagler 30 83 Polk 119 532Franklin 0 33 Putnam 27 148Gadsden 11 38 Santa Rosa 55 311Gilchrist 6 29 Sarasota 154 305Glades 2 9 Seminole 81 194Gulf 3 71 St.Johns 59 229

    Hamilton 3 23 St.Lucie 25 124Hardee 4 30 Sumter 21 114Hendry 10 22 Suwannee 7 108Hernando 43 242 Taylor 3 27Highlands 24 127 Union 1 37Hillsborough 299 847 Volusia 176 496Holmes 2 76 Wakulla 7 46Indian River 66 105 Walton 22 120Jackson 8 102 Washington 9 88Jefferson 2 29Lafayette 0 10 PALM BEACH 337 3407

    Fuentes: Florida Dept. of State, Division of Elections, "County Voter Registration byParty," Oct 10, 2000 (http://election.dos.state.fl.us/pdf/2000voterreg/2000genparty.pdf);

     ABC News, "Florida: Real-Time County Returns" (www.abcnews.go.com/sections/politics/2000vote/general/FL_county.html), visited June 15, 2001.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    23/110

     

    [16]

    Caso B —   Desempleo y Crecimiento Económico 

    En 1962 el economista norteamericano Arthur Okun planteó un modelo macro-económico para explicar las variaciones en la tasa de desempleo. Según este mo-delo, que se conoce hoy en día como la ―ley de Okun,‖ existe una relación lineal

    entre el cambio en la tasa de desempleo y la tasa de crecimiento del Producto In-terno Bruto (PIB) real.4 El siguiente cuadro muestra datos sobre desempleo y cre-cimiento económico en los Estados Unidos durante el período 1972-2011:

    Tasa de Crecimiento Tasa de Crecimiento Año Desempleo (%) PIB real (%) Año Desempleo (%) PIB real (%)

    1972 5.6 5.3 1992 7.5 3.41973 4.9 5.8 1993 6.9 2.91974 5.6 -0.6 1994 6.1 4.11975 8.5 -0.2 1995 5.6 2.51976 7.7 5.4 1996 5.4 3.71977 7.1 4.6 1997 4.9 4.51978 6.1 5.6 1998 4.5 4.41979 5.8 3.1 1999 4.2 4.81980 7.1 -0.3 2000 4.0 4.11981 7.6 2.5 2001 4.7 1.11982 9.7 -1.9 2002 5.8 1.81983 9.6 4.5 2003 6.0 2.51984 7.5 7.2 2004 5.5 3.51985 7.2 4.1 2005 5.1 3.1

    1986 7.0 3.5 2006 4.6 2.71987 6.2 3.2 2007 4.6 1.91988 5.5 4.1 2008 5.8 -0.31989 5.3 3.6 2009 9.3 -3.51990 5.6 1.9 2010 9.6 3.01991 6.8 -0.2 2011 8.9 1.7

    Fuente: Economic Report of the President, 2012  (Washington: U.S. Government PrintingOffice, 2012), Table B-4, Table B-43 (pp. 321, 369).

    4A. M. Okun, ―Potential GNP: Its Measurement and Significance,‖  Proceedings (Busi-ness and Economics Section), American Statistical Association, 1962, pp. 98-104. Paraaplicaciones más recientes del modelo de Okun véase Paul Krugman, ―How Fast Canthe U.S. Economy Grow?‖  Harvard Business Review, 75 (1997): 123-29 y J. CrespoCuaresma, ―Okun’s Law Revisited,‖ Oxford Bulletin of Economics and Statistics, 65(2003): 439-51.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    24/110

     

    [17]

    a)  Use estos datos para estimar el modelo de Okun, y explique el significadode los coeficientes obtenidos.

     b)  En este problema, el punto donde la recta intersecta al eje  X  tiene un sig-nificado económico interesante. Determine este punto para este caso, yexplique su significado en términos del modelo de Okun.

    Caso C —   Desempleo y Crecimiento Económico (cont.)

    Como regularidad empírica, la ―Ley de Okun‖ es una de las relaciones macroec o-nómicas más estables que se conocen. Para comprobarlo, vuelva a estimar el mo-delo de Okun usando datos sobre desempleo y crecimiento económico en EstadosUnidos durante el período 1929-54. (Para el estudio de las fluctuaciones en eldesempleo, este período muestral es particularmente interesante, porque incluyeel período de la Gran Depresión de los años 30’s.) 

    Compare con la regresión estimada en el caso anterior, y comente sobre los resul-tados.

    Tasa de Crecimiento Tasa de Crecimiento Año Desempleo (%) PIB real (%) Año Desempleo (%) PIB real (%)

    1929 3.2 ….  1942 4.7 12.11930 8.9 -9.5 1943 1.9 11.21931 15.9 -7.0 1944 1.2 7.11932 23.6 -15.0 1945 1.9 -1.2

    1933 24.9 -2.7 1946 3.9 -10.01934 21.7 9.4 1947 3.6 -0.11935 20.1 10.4 1948 3.4 3.81936 17.0 13.3 1949 5.5 -0.11937 14.3 5.9 1950 5.0 8.71938 19.0 -4.6 1951 3.0 7.51939 17.2 8.1 1952 2.7 3.41940 14.6 8.7 1953 2.5 4.41941 9.9 15.7 1954 5.0 -1.6

    Fuentes: (a) Desempleo — Stanley Lebergott, “Annual Estimates of Unemployment in

    the U.S., 1900-1950,” en The Measurement and Behavior of Unemployment  (Princeton University Press, 1957), Table 1, pp. 215-16; (b) Crecimiento PIB real — Economic Report of the President, 1962   (Washington: Government Printing Office,1962), Table B-3, p. 210.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    25/110

     

    [18]

    Caso D —  Costos de Impresión 

    Se espera que mientras mayor sea el número de páginas en un libro, mayor sea sucosto de impresión, ceteris paribus. Usted desea estimar la relación entre el costo promedio por ejemplar y el número de páginas, tomando una muestra de los últi-

    mos 10 anuarios publicados por una asociación académica5

    :

    Libro No.Número de

    PáginasCantidad deEjemplares

    Costo Total

    1 754 12,400 $ 16,253.002 677 12,700 $ 15,471.003 689 14,000 $ 16,780.004 745 14,800 $ 18,914.005 675 15,800 $ 19,759.00

    6 615 16,000 $ 18,277.007 753 17,700 $ 23,440.008 698 18,500 $ 23,362.009 652 20,000 $ 23,264.00

    10 670 22,500 $ 28,405.00

    (a) ¿Qué porcentaje de la variación en el costo promedio se explica por la varia-ción en el número de páginas?

    (b) ¿Cuál sería su estimación del costo marginal por ejemplar para un libro de500 páginas?

    5Los datos sobre costos de publicación fueron tomados de H. F. Williamson, ―Report ofthe Secretary for the Year 1966,‖  American Economic Review, 57 (May 1967), p. 690(Exhibit II). 

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    26/110

     

    [19]

    Caso E —  Costos de Operación en Escuelas Públicas 

    En un estudio de los costos de operación en escuelas públicas del estado de Wis-consin,6 el economista John Riew clasificó a 109 escuelas secundarias en grupossegún su tamaño (número de estudiantes inscritos), y encontró que el costo anual

     promedio por alumno se comportaba de la siguiente manera:

    Tamaño dela Escuela

    Número deEscuelas

    Costo Promediopor Alumno

    143-200 6 $ 531.90201-300 12 $ 480.80301-400 19 $ 446.30401-500 17 $ 426.90501-600 14 $ 442.60601-700 13 $ 413.10

    701-900 9 $ 374.30901-1100 6 $ 433.20

    1101-1600 6 $ 407.301601-2400 7 $ 405.60

    Total 109

    Use estos datos para obtener una estimación aproximada del costo marginal poralumno en escuelas de este tipo.

    6John Riew, ―Economies of Scale in High School Operation,‖  Review of Economics andStatistics, 48 (1966), p. 282 (Table 2).

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    27/110

     

    [20]

    Capítulo 3

    R EPASO DE ALGEBRA MATRICIAL 

    En el capítulo anterior se discutió el caso más simple de una regresión lineal conuna sola variable independiente. Por cierto que la aplicabilidad práctica de estemodelo simple es relativamente limitada, ya que generalmente las variaciones enla variable dependiente no obedecen a un solo factor, sino que más bien existenvarios factores diferentes que pueden estarla influenciando.

    En el caso más general de k  diferentes variables independientes, nuestro pro-

     blema consiste en estimar los coeficientes de la siguiente ecuación:

    Y  = 0 + 1 X 1 + 2 X 2 + ... + k  X k  + u 

    Se puede apreciar que en este caso la aplicación del criterio de ―mínimos cuadr a-dos‖ por medio de métodos algebraicos sería sumamente tedioso y complicado.

    Afortunadamente, por medio de álgebra matricial se puede obtener una solución bastante compacta por medio de unas pocas fórmulas muy simples. Por tanto, eneste capítulo repasaremos los elementos del álgebra de matrices que serán reque-ridos en el resto del texto.

    3.1.  Matrices.

    Una ―matriz‖ es una colección rectangular de elementos, ordenados en filas y

    columnas. En su forma más general, una matriz tiene la siguiente forma:

    A =

    mnmm

    n

    n

    aaa

    aaa

    aaa

    .........

    ......

    ...

    ...

    21

    22221

    11211

     

    donde aij (el ―elemento característico‖ de la matriz) es el elemento ubicado en lafila i y la columna  j. Si una matriz tiene m filas y n columnas, se dice que es de

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    28/110

     

    [21]

    orden ―m por n‖ (   nm ). La expresión [aij] también se usa para denotar a la ma-triz que tiene aij como elemento característico. En este caso, A = [aij].

    Un ―vector‖ es un caso especial de una matriz que tiene una sola fila (―vectorfila‖) o una sola columna (―vector columna‖). En lo que sigue, usaremos letras

    mayúsculas para denotar matrices, y letras minúsculas para denotar vectores.

    3.2. Operaciones con Matrices.

    a) Igualdad de dos matrices —  Se dice que dos matrices A y B son iguales cuan-do son del mismo orden y aij = bij para todo i,  j. Esto es, las matrices deben seriguales, elemento por elemento.

     b) Suma y resta de matrices —  Si A y B son del mismo orden, entonces A + B será una nueva matriz C tal que cij = aij + bij. Esto es, se suman los elementos co-

    rrespondientes de las dos matrices. En forma similar, A  –  B será una nueva matrizD tal que d ij = aij  –  bij, esto es, se restan los elementos correspondientes de las dosmatrices.

     Ejemplo.

    3 4 1

    0 1 2

    1 2 0

     B 

    0 0 1

    5 6 4

    4 1 6  

     B 3 4 25 7 6

    5 3 6

     A  B 3 4 0

    5   5   23 1   6  

    c) Multiplicación escalar —  Si  es una constante, entonces el ―producto escalar‖de  por una matriz A  será tal que A = [aij]. Esto es, se multiplica cada ele-mento de A por .

    d) Multiplicación de matrices —  Si A es una matriz de orden nm , y B es unamatriz de orden  pn , entonces el producto AB  será una matriz C  de orden

     pm con elemento característico:

    n

    kjik ij   bac1

     

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    29/110

     

    [22]

    Es decir, el elemento en la i-ésima fila y  j-ésima columna de AB  se encuentramultiplicando los elementos de la i-ésima fila de A por los elementos correspon-dientes de la j-ésima columna de B, y sumando los productos.

     Ejemplo.

    3 4

    0 1

    1 2

     B   5 6

    4 1  AB 

    31 22

    4 1

    13 8  

     Nótese que para poder multiplicar dos matrices, el número de columnas de la primera matriz debe ser igual al número de filas de la segunda matriz (caso con-trario, el producto no está definido). Cuando se multiplican dos matrices, la ma-triz resultante tendrá el mismo número de filas que la primera matriz, y el mismonúmero de columnas que la segunda matriz. Es muy importante el orden en quese multiplican las matrices, ya que en el caso de álgebra matricial ―el orden de los

    factores sí altera el producto‖: BA generalmente no será igual a AB, y podría noexistir.

    3.3. Teoremas sobre Matrices.

    (i) Ley Conmutativa de la Suma.

    A + B = B + A 

    Este resultado se desprende directamente de la definición de la suma de ma-

    trices.

    (ii) La Multiplicación de Matrices no es Conmutativa.

    Como ya se mencionó en la sección anterior, en general AB ≠ BA (excepto enel caso algunas matrices especiales). De hecho, a veces alguno de estos productosni siquiera estará definido. Los dos productos AB y BA existirán si las matricesson de orden nm  y mn , respectivamente. En ese caso, el primer producto se-rá de orden mm , y el segundo de orden nn . (Aún en el caso de que los dos productos sean del mismo orden, en general no serán iguales.)  

    (iii) Ley Asociativa de la Suma.

    (A + B) + C = A + (B + C)

    (iv) Ley Asociativa del Producto.

    (AB)C = A(BC)

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    30/110

     

    [23]

    (v) Ley Distributiva.

    A(B + C) = AB + AC 

    (A + B)C = AC + BC 

    3.4. Clases Especiales de Matrices.

    Matriz Cuadrada: Se dice que una matriz es ―cuadrada‖ si el número de filas  es igual al número de columnas (m = n).

    Matriz Diagonal: Es una matriz cuadrada que tiene elementos, no necesaria-mente iguales, a lo largo de su ―diagonal principal‖ (los elementos aii), y ceros enel resto. Obviamente, sólo las matrices cuadradas tienen una diagonal principal.

    Matriz Identidad: Es una clase especial de matriz diagonal, que sólo tieneunos en la diagonal principal. Esta es una matriz muy importante, y se representa por el símbolo especial I. Se comprueba fácilmente que si se multiplica cualquiermatriz A por una matriz identidad del orden apropiado, entonces AI = A y IA =A.

    Matriz Escalar: Es una matriz diagonal que tiene la misma constante en ladiagonal principal. Si la constante es , entonces la matriz escalar se puede repre-sentar por I.

    Matriz Idempotente: Es una matriz cuadrada tal que AA = A.

    3.5. Traza de una Matriz Cuadrada.

    La ―traza‖ de una matriz cuadrada de orden n, tr(A), se define como la sumade los elementos de su diagonal principal:

    tr(A) =

    n

    i

    iia1

     

    Es obvio que tr(A + B) = tr(A) + tr(B), y tr(A  –  B) = tr(A) –  tr(B).

    La traza también tiene la siguiente propiedad importante: Si el producto de dosmatrices A y B es una matriz cuadrada, entonces tr(AB) = tr(BA).

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    31/110

     

    [24]

     Demostración. Sea C = AB, donde A es de orden nm , y B es de orden mn .Entonces el elemento característico de C será:

    n

    kjik ij   bac1

     

    tr(AB) =

    m

    i

    n

    n

    m

    i

    ik kikiik 

    m

    i

    ii   abbac1 1 1 11

    = tr(BA)

    ya que

    m

    i

    ik kiab1

    es el elemento d kk  de D = BA.

    Corolario: tr(ABC) = tr(BCA) = tr(CAB).

    3.6. Transposición de Matrices.

    A' (―A transpuesta‖) es la matriz que resulta de A tras intercambiar filas porcolumnas. El elemento característico de A' es a'ij = a ji. Por ejemplo,

    A =

    3813

    214

    12231

      A' =

    321

    8122

    13431

     

    Si A' = A, se dice que A es una matriz ―simétrica‖. (Obviamente, para que una

    matriz sea simétrica, tiene que ser cuadrada.)

    Teoremas sobre Transpuestas.

    3.6.1. (A')' = A 

    3.6.2. (A + B)' = A' + B'

    3.6.3. (AB)' = B'A'

     Demostración. Si C = AB, entonces

    n

    kjik ij   bac1

    . Por tanto, el elemento carac-

    terístico de C' será

    n

    kjik 

    n

     jk ki

    n

    ki jk  jiij   ababbacc111

    '''  

    que es precisamente el elemento característico del producto B'A'.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    32/110

     

    [25]

    Corolario. (ABC)' = C'B'A'

    Otro Corolario. AA' y A'A  son simétricas. (Nota: En general AA' ≠ A'A, perosus trazas son siempre iguales. ¿Por qué?)

    3.7.  Matriz Inversa.

    Se dice que A – 1 es la ―inversa‖ de una matriz cuadrada A, si A – 1A = AA – 1 = I.

     Propiedades de la Inversa.

    3.7.1. (A – 1) – 1 = A 

    3.7.2. (AB) – 1 = B – 1A – 1 

     Demostración. AB(B – 1A – 1) = A(BB – 1)A – 1 = AA – 1 = I 

    3.7.3. (A') – 1 = (A – 1)'

     Demostración. Se sabe que

    (1) A'(A') – 1 = I 

    Transponiendo (1) tenemos ((A') – 1)'A = I. Por tanto,

    (2) ((A') – 1)' = A – 1 

    Transponiendo (2) obtenemos el teorema.

    Corolario. Si A es simétrica, entonces A = A', y por tanto (A – 1)' = A – 1 (la inversade una matriz simétrica es simétrica).

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    33/110

     

    [26]

    PREGUNTAS DE REPASO

    1. Defina los siguientes términos:

    a) Matriz cuadrada b) Matriz identidadc) Diagonal principald) Matriz simétricae) Matriz idempotentef) Traza de una matriz

    2. Construya algunos ejemplos numéricos para verificar los teoremas sobrematrices enunciados en las secciones 3.3, 3.6 y 3.7.

    3. Expanda (A + B)(A  –  B) y (A  –  B)(A + B). ¿Son iguales? ¿Por qué no?

    4. Compruebe que para una matriz X de orden k n , las siguientes matrices sonidempotentes:

    a) X(X'X) – 1X'

     b) I  –  X(X'X) – 1X'

    5. Compruebe que para una matriz X de orden k n , tr[I  –  X(X'X) – 1X'] = n  –  k .

    6. Si y  es un vector 1n , y X es una matriz k n , ¿cuál es el orden de la si-guiente expresión?

    (X'X) – 1X'y 

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    34/110

     

    [27]

    Capítulo 4

    R EGRESIÓN LINEAL MÚLTIPLE 

    En este capítulo discutiremos el modelo general de regresión múltiple. En la primera sección derivamos el estimador mínimo-cuadrático para el caso generalde k  variables independientes, siguiendo un razonamiento análogo al del Capítulo2. En la segunda sección introducimos el tema de la inferencia estadística en laregresión lineal. Este es un tema nuevo, que no ha sido discutido en capítulosanteriores. En la tercera sección comentamos sobre la interpretación delcoeficiente de determinación ( R2) en el contexto de regresiones múltiples.

    Finalmente, en la cuarta sección ilustramos la aplicación de los resultadosanalíticos obtenidos por medio de un ejemplo numérico.

    4.1. Vector Mínimo-Cuadrático.

    4.1.1.  Planteo del Problema.

    Expresamos una variable ―dependiente‖ Y  como función lineal de k  variables―independientes‖ X 1, X 2, ... , X k :

    Y  = 0 + 1 X 1 + 2 X 2 + ... + k  X k  + u 

    donde 0, 1, 2, ... , k  son constantes desconocidas, y u es una variable aleatoriaque refleja la variación en Y  que no puede atribuirse a las variables independien-tes (o ―explicativas‖). El problema consiste en obtener estimaciones de los k  + 1coeficientes en este modelo mediante análisis de n observaciones conjuntas sobrela variable dependiente y las k  variables independientes.

     Nótese que podemos representar las observaciones sobre Y  como un vector y de orden 1n , mientras que las observaciones sobre las X  podemos representar-

    las como una matriz X de orden k n :

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    35/110

     

    [28]

     —————————————————————————  Observación

     Nº Y    X 1   X 2  ....  X k   —————————————————————————  

    1 Y 1   X 11   X 12 ....  X 1k  

    2 Y 2   X 21  X 22 ....  X 2k  

    3 Y 3   X 31  X 32 ....  X 3k  . . . . .... .. . . . .... .

    i  Y i    X i1  X i2 ....  X ik  . . . . .... .. . . . .... .

    n  Y n   X n1   X n2  ....  X nk  

    y  X 

     —————————————————————————  

    Se comprueba además que si la matriz X  se aumenta con una columna de 1’s(para poder tomar en cuenta 0, la ordenada en el origen), entonces el modelolineal para las n observaciones se puede expresar como:

    y = X  + u 

    donde es un vector de orden 1)1(   k   cuyos elementos son los coeficientes del

    modelo lineal (0, 1, 2, ... , k ), X es una matriz de orden )1(     k n  de obser-

    vaciones sobre la variables independientes (incluyendo la columna de 1’s) y u esun vector-columna de orden 1n  cuyos elementos (u1, u2, ... , un) consisten de nvariables aleatorias idénticamente distribuidas.

    Dado un vector b de estimadores de los coeficientes, el vector y también pue-de expresarse como:

    y = Xb + e 

    donde e es un vector de orden 1n  cuyos elementos (e1, e2, ... , en) son los resi-duos obtenidos de la ecuación estimada. (Esto es, e = y  –  Xb, donde Xb es la Y  ―calculada.‖ No debe confundirse b con , ni e con u.)

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    36/110

     

    [29]

    4.1.2. Estimación de b.

    El vector b que minimiza la suma de los errores cuadrados (e'e) se llama el―vector mínimo-cuadrático.‖ Por definición,

    e'e = 2221102 )...( k k  X b X b X bbY e    

    (Nuevamente, suprimimos los sub-índices i  para facilitar la notación.) Paraminimizar e'e, derivamos respecto de cada uno de los k   + 1 coeficientes, eigualamos a cero. Así, obtenemos las ―ecuaciones normales‖: 

    (1) 0)...(2'

    22110

    0

      k k  X b X b X bbY 

    b

    ee 

    (2)0)...(2

    '

    1221101

      X  X b X b X bbY 

    b

    ee

    k k   

    (3) 0)...(2'

    222110

    2

      X  X b X b X bbY 

    b

    eek k   

    . .

    . .

    . .

    (k  + 1) 0)...(2'

    22110  

      k k k 

     X  X b X b X bbY b

    ee 

    Estas k  + 1 ecuaciones también pueden expresarse como

    (1) 0e  

    (2) 01     e X   

    (3) 02     e X   . .. .. .

    (k  + 1) 0   e X k   

    Se puede comprobar fácilmente que en términos de nuestra notación matricialeste sistema de k  + 1 ecuaciones puede expresarse como

    X'e = 0

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    37/110

     

    [30]

    donde 0 es un vector de ceros de orden 1)1(   k  . Puesto que e = y  –  Xb, estotambién lo podemos expresar como

    X'(y  –  Xb) = 0 

    Por tanto,

    X'Xb = X'y 

    Multiplicando ambos lados por (X'X) – 1 obtenemos el vector mínimo-cuadrático:

    b = (X'X) – 1X'y 

    Los k  + 1 elementos de este vector-columna (b0, b1, b2, ... , bk ) son los respectivosestimadores de 0, 1, 2, ... , k .

    En la práctica el investigador no calculará el vector b directamente usando es-ta fórmula, ya que existen programas de computadora que hacen todos los cálcu-los requeridos con mayor rapidez y precisión que lo que podría hacerlo una per-sona armada únicamente de una calculadora manual. Es importante, sin embargo,tener una idea clara de qué es lo que hace la computadora cuando se corre un pro-grama de regresión, y además esta expresión nos será muy útil más adelante para propósitos analíticos.

    4.2.  Inferencia Estadística en la Regresión Lineal .

    4.2.1. Supuestos Básicos.

    El objetivo de esta sección es desarrollar procedimientos para testar hipótesissobre los coeficientes del modelo lineal. Para esto, debemos hacer ciertas suposi-ciones sobre el comportamiento estadístico de los errores. Los dos supuestos másimportantes en el modelo clásico de regresión lineal son los siguientes:

    Supuesto No. 1: ui tiene una distribución N(0, 2) para toda i.

    En palabras, suponemos que todas las ui  tienen una misma distribución normal,con la misma media (0) y la misma varianza (2). Una implicación de este su- puesto es que E(u) = 0, es decir, que el valor esperado del vector u es un vector

    de ceros.Supuesto No. 2: E(uu') = 2I.

     Nótese que el elemento característico de la matriz uu' es uiu j. Por tanto, suponerque el valor esperado de uu' es una matriz escalar equivale a suponer lo siguiente:

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    38/110

     

    [31]

    (1) E(uiu j) = 0 para i ≠  j, o sea, todos los elementos no-diagonales de E(uu') soncero. Esto implica que las ui son independientes unas de otras.

    (2) E(ui2) = 2, o sea, todos los elementos de la diagonal de E(uu') son iguales a

    2. Esto implica que cada ui  tiene la misma varianza

    2. (Si suponemos que la

    media de ui es 0, entonces E(ui2

    ) será la varianza de ui.)4.2.2. Valor Esperado y Matriz de Varianza-Covarianza de b.

    Puesto que según el modelo lineal y = X  + u, entonces

    b = (X'X) – 1X'y = (X'X) – 1X'(X 

    + u) = + (X'X) – 1X'u 

    Por tanto, el valor esperado del vector b será

    E(b) = + E[(X'X) – 1X'u] = + (X'X) – 1X'E(u) =

    dado que E(u) = 0. Este es un resultado muy importante, ya que significa que b esun estimador insesgado de . Además, puesto que b  –   = (X'X) – 1X'u, entonces

    (b  –   )( b  –   )' = (X'X) – 1X'uu'X(X'X) – 1 

    (Recuérdese que X'X es una matriz simétrica.) Si obtenemos el valor esperado deesta expresión y aplicamos el supuesto No. 2, tendremos:

    E[(b  –   )( b  –   )'] = (X'X) – 1X'E(uu')X(X'X) – 1 = (X'X) – 1X'2IX(X'X) – 1 

    = 2(X'X) – 1 

     Nótese que el elemento característico de E[(b  –   )(b  –   )'] es E[(bi  –  

    i)(b

     j  –  

     j)],

    que es la covarianza entre bi y b j. Para i =  j (los elementos de la diagonal de estamatriz) esto se reduce a E[(bi  –  i)

    2], que es la varianza de bi. Por tanto, a estamatriz se le llama la ―matriz de varianza-covarianza del vector b‖. 

    4.2.3.  Estimación de 2  y 2(X'X) – 1.

    En general, no conocemos 2, pero podemos obtener un estimador insesgadode la siguiente manera. Por definición, el vector de residuos de la regresión esti-mada será

    e = y  –  Xb = y  –  X(X'X) – 1X'y = [I  –  X(X'X) – 1X']y 

    = [I –  X(X'X) – 1X'](X  + u) = [I –  X(X'X) – 1X']u 

     Nótese que la expresión entre corchetes es una matriz simétrica idempotente, yque la traza de esta matriz es la diferencia entre las trazas de dos matrices identi-dad:

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    39/110

     

    [32]

    tr[I –  X(X'X) – 1X'] = tr(I) –  tr[X(X'X) – 1X'] = tr(I) –  tr[(X'X) – 1X'X] = n  –  (k  + 1)

    ya que la primera matriz identidad es de orden n, y la segunda es de orden (k  + 1).Además, la suma de los errores cuadrados (e'e) es de orden 11 , y por tanto seráigual a su traza:

    e'e = tr(e'e) = tr(u'[I –  X(X'X) – 1X']u) = tr([I  –  X(X'X) – 1X']uu')

    = tr(uu'[I –  X(X'X) – 1X'])

    Por último, puesto que la traza es una sumatoria,

    E(e'e) = E[tr(uu'[I –  X(X'X) – 1X'])] = tr[E(uu')(I –  X(X'X) – 1X')]

    = tr(2I[I –  X(X'X) – 1X'] ) = 2tr[I –  X(X'X) – 1X'] = 2(n  –  k   –  1)

    Por tanto, puede obtenerse un estimador insesgado de 2 calculando:

    11

    '  2

    2

      k n

    e

    k n

    eeS 

      i 

    y el estimador insesgado de 2(X'X) – 1 será S 2(X'X) – 1. Los elementos de la diago-nal de esta matriz cuadrada de orden (k  + 1) son los estimadores de las varianzasde los coeficientes del vector b: el primer elemento de la diagonal de S 2(X'X) – 1 esla varianza muestral de b0, el segundo elemento es la varianza muestral de b1,etc.7 

    4.2.4. Testado de Hipótesis.

    Supongamos que se desea testar la siguiente hipótesis nula sobre uno de loscoeficientes de regresión:

    H0: i = * (donde * es algún valor numérico). Para testar esta hipótesis, se cal-cula el siguiente estadístico:

    )(

    *

    i

    i

    b s

    b     

    7Esto es para el caso general de un modelo que incluye una ordenada en el origen ( 0).Si la regresión es ―por el origen‖ (ver Pregunta de Repaso No. 2 del Capítulo 2), en ton-ces tr[I  –  X(X'X) – 1X'] = n  –  k , ya que la matriz X sólo tiene k  columnas, y el denomina-dor en la fórmula para S 2 es n  –  k . El primer elemento de la diagonal de S 2(X'X) – 1 es lavarianza muestral de b1, el segundo elemento es la varianza muestral de b2, etc.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    40/110

     

    [33]

    donde  s(bi) es la desviación estándar de bi, o sea, la raíz cuadrada del elementocorrespondiente de la diagonal de S 2(X'X) – 1. Este estadístico tiene una distribu-ción t  con n  –  k   –  1 grados de libertad.8 Por tanto, si la prueba es ―a dos colas‖con un nivel de significancia de 5 %, rechazamos H 0 si el valor absoluto de esteestadístico es mayor que el valor crítico de t  para 2.5 % y n  –  k   –  1 grados de li-

     bertad. (Si la prueba es ―a una cola,‖ usamos el valor crítico para 5 %.) 

    Muchas veces, la hipótesis nula que queremos testar en un análisis deregresión es H0: i = 0, o sea, la hipótesis de que la variable independiente  X i notiene realmente ningún efecto sobre Y . En este caso, para testar esta hipótesis

    simplemente se calcula)( i

    i

    b s

    b y se compara con el valor crítico relevante para la

    distribución t . En la terminología del análisis de regresión, esta razón se conocecomo la ―razón t ,‖ y si rechazamos la hipótesis nula podemos concluir que  X i sítiene un efecto sobre Y . A menudo esto se expresa diciendo que X i es una variable

    ―significativa,‖ o que su coeficiente (i) es ―significativamente mayor (o menor)que 0.‖9 

    4.3. Coeficiente de Determinación ( R2).

    En un análisis de regresión múltiple, el coeficiente de determinación ( R2) sedefine igual que en el caso de la regresión simple, y tiene la misma interpretación,aunque debe tomarse en cuenta que en este caso lo que estamos midiendo es el porcentaje de la variación en Y   que se explica por la variación conjunta  de lasvariables independientes. (El estudiante podrá comprobar también que la  R2 en

    una regresión múltiple es igual a la R2 de la regresión simple de Y  contra .ˆY   Esta

    segunda interpretación es quizá más fácil de visualizar.)

    En general, no podemos descomponer la variación explicada en términos decuánto aporta cada variable independiente individual, pero existe un caso especialdonde esto sí es posible. Si la correlación entre las diferentes variables explicati-vas es exactamente cero, entonces la  R2 de la regresión múltiple será igual a la

    8Para una demostración rigurosa, véase Johnston,  Econometric Methods, pp. 135-38.(Por lo expuesto en la Nota 7, una regresión ―por el origen‖ cuenta con n  –  k  grados de

    libertad.)9A menudo los econometristas usan la siguiente regla empírica para decidir si una varia-

     ble es ―significativa‖ en una regresión lineal: Concluir que la variable es significativa si

    su coeficiente estimado es por lo menos dos veces mayor, en valor absoluto, que su des-viación estándar (o sea, si el valor absoluto de la ―razón t ‖ es mayor que 2). ¿Cómo jus-tificaría usted el empleo de este criterio?

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    41/110

     

    [34]

    suma de las  R2 de las regresiones simples de cada variable explicativa contra Y .Es muy raro que suceda esto en la práctica, pero si los datos provienen de un ex- perimento controlado entonces es posible diseñar  el experimento en forma tal quelos datos muestrales tengan esta propiedad.

    4.3.1. Comparando dos o más regresiones en términos de R2

    .

    Un problema que surge cuando se calculan diferentes regresiones para unamisma variable dependiente es que los valores de  R2 no son estrictamente compa-rables. Cuando se agregan variables independientes a una regresión, el resultadoes que la  R2 necesariamente aumenta, ya sea que las variables adicionales seansignificativas o no. Recordemos que R2 se calcula por medio de la fórmula:

     

     

     

     

    2

    2

    2

    )(1

     yY 

    e R  

    Supongamos que tenemos dos regresiones: una primera regresión con k  varia- bles independientes (Regresión 1), y una segunda regresión que contiene, ademásde estas variables, una variable adicional  X k +1  (Regresión 2). Puesto que

    2)(   yY     será igual para las dos regresiones, el efecto sobre  R2 dependerá delos que sucede con .2e  Para la Regresión 2 la suma de los errores cuadradosnecesariamente será menor o igual que para la Regresión 1, no importando si  X k +1 es significativa o no. Para entender por qué, notemos que si aumenta   2e cuan-do se agrega  X k +1, entonces significa que los coeficientes estimados para la Re-gresión 2 no minimizan ,2e ya que existe otro vector de coeficientes que pro-ducirá una menor suma de errores cuadrados: este sería un vector que mantienelos coeficientes de la Regresión 1, y asignando 0 para el coeficiente de  X k +1. Portanto   2e no puede ser mayor para la Regresión 2, y sólo será igual en las dosregresiones si el coeficiente estimado de  X k +1 es exactamente 0, lo cual es muy poco probable que suceda en la práctica ya que incluso si la variable adicional notiene realmente ningún efecto sobre Y , su coeficiente estimado será pequeño perono 0, debido a la variación muestral. En la práctica, entonces,   2e siempre serámenor para la Regresión 2, y por tanto R2 siempre aumentará.

    4.3.2.  R2 ajustada (  2

     R ).

    Esto significa que R2 no es, por sí sola, una buena guía para comparar diferen-tes regresiones, ya que este coeficiente  siempre aumentará si se agregan más va-riables independientes, aun cuando éstas no son significativas. Debido a esto,Henri Theil propuso una modificación a la fórmula convencional, para compensar

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    42/110

     

    [35]

     por este efecto cuando se comparan regresiones diferentes.10 En el ajuste propues-to por Theil se toma en cuenta el hecho de que, para un tamaño de muestra de-terminado, más variables explicativas en una regresión implican menos grados delibertad para la estimación. A diferencia de la  R2 convencional, que compara lavariación no-explicada (suma de los errores cuadrados) con la variación total en

    Y , la R2 ―ajustada‖ (que se representa por medio del símbolo2

     R ) compara la va-rianza de los errores con la varianza de Y :

     

      

     

     

      

     

    2

    2

    2

    2

    2

    )(1

    11

    1

    )

    11)(

    )(1

     yY 

    e

    k n

    n

    n

     yY 

    k n

    e

    Y Var 

    eVar  R  

    Esto también puede expresarse como:

    )1(1

    11   22

     Rk n

    n R     

      

     

    2

     R  puede ser negativa, y su valor siempre será menor o igual que la  R2 conven-

    cional.11 Además, a diferencia de la  R2 convencional,2

     R  puede aumentar o dis-minuir cuando se agregan más variables independientes. La dirección del efectodependerá de si la reducción en   2e compensa o no la reducción en los gradosde libertad debido a la inclusión de la variable adicional.

     4.4.  Aplicación —  Costos Administrativos en la Banca Comercial .

    Ahora podemos finalmente realizar un ejemplo numérico para ilustrar la apli-cación de estos conceptos. Como ya se mencionó antes, en la práctica la mayor parte de los cálculos en un análisis de regresión se realizan por medio de un pro-grama de computación, por lo que no viene al caso ilustrar numéricamente loscálculos matriciales. El ejemplo concreto que se desarrolla a continuación está basado en un estudio estadístico de los costos de administración en los bancoscomerciales guatemaltecos durante el año 1991. Los resultados de este análisis pueden proporcionar una buena indicación sobre el comportamiento de los costos para el banco ―típico‖ en Guatemala, aunque la naturaleza misma de un estudio

    10Henri Theil,  Principles of Econometrics  (New York: John Wiley & Sons, 1971), pp. 178-79.

    11Por lo expuesto en las Notas 7 y 8, cuando la regresión es ―por el origen‖ el denomina-dor correcto para el factor de ajuste es n  –  k .

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    43/110

     

    [36]

    de este tipo no puede arrojar resultados estrictamente aplicables a cada uno de los bancos considerados individualmente. No obstante, a pesar de esto, un estudio deeste tipo de todos modos puede ser muy útil, porque los resultados pueden pro- porcionar una ―norma‖ o ―estándar‖ contra el cual se pueden comparar los costos

    administrativos en un banco particular. En ausencia de un estudio de este tipo, un

     banco no tiene realmente un criterio para determinar si sus costos son ―acepta- bles‖ o ―normales,‖ ya que los bancos difieren enormemente en cuanto a cantidadde activos, número de sucursales, etc., por lo que el único criterio objetivo sería elde compararse con un banco de similar tamaño y características. Sin embargo, sise pudiera obtener una fórmula empírica que permita calcular un valor ―normal‖o ―pr omedio‖ para los costos administrativos en función de unas pocas variablesque permitan una medición numérica, entonces se podría fácilmente determinar siel banco en cuestión está ―mejor‖ o ―peor‖ que el banco ―típico‖ a ese respecto.(Estos resultados también podrían servir para comparar el comportamiento de loscostos administrativos en los bancos comerciales con los de otros tipos de institu-ciones financieras.) La variable dependiente para el análisis será el nivel anual de

    los ―Gastos Generales y de Administración‖ en los diferentes bancos del si stema.Si se observa el Cuadro 4.1, se podrá apreciar que estos costos (que en lo sucesi-vo llamaremos simplemente ―costos administrativos‖) varían enormemente de un

     banco a otro. Nuestro problema consistirá, por tanto, en encontrar una lista de va-riables que nos permitan ―explicar ,‖ estadísticamente, esta variación observada.

    4.3.1.  Primera Aproximación.

    A un nivel muy elemental, por supuesto, dicha variación no tiene realmenteningún misterio, ya que los bancos varían mucho en cuanto a su tamaño, y es más bien de esperarse que los bancos más ―grandes‖ tengan también costos adminis-

    trativos más altos por el sólo hecho de ser más grandes. Nuestra tarea será tradu-cir esta noción intuitiva en un concepto operativo, y para esto debemos tratar deexpresar el ―tamaño‖ de un banco en términos de alguna variable numérica. En

    este estudio, la variable escogida para este propósito fue el Total de Activos del banco. Con esto, y como una primera aproximación para el análisis, la recta deregresión será la siguiente:

    (1) Y i = 0 + 1 X i + ui 

    donde Y i = Costos Administrativos del banco i, X i = Activos Totales del banco i.

    Los Activos Totales de un banco son una buena medida de su ―tamaño,‖ aun-que no es la única medida posible, por lo que la decisión de adoptar esta medidaespecífica es en cierto modo arbitraria. Por otro lado, el empleo de los ActivosTotales como variable independiente en la regresión facilita en cierto modo la in-terpretación económica de los coeficientes:

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    44/110

     

    [37]

     ————————————————————————————————————————————————  

    CUADRO 4.1.  B ANCOS COMERCIALES PRIVADOS EN GUATEMALA (1991).

    Millones de QuetzalesGastos Generales

    y de Admin.Total ActivoPromedio Agencias

    G&T 48.8 831.5 30INDUSTRIAL 43.2 1204.0 18

    OCCIDENTE 39.4 1153.5 20

    del CAFE 29.8 499.6 25

    del AGRO 26.2 466.6 30

     AGRICOLA MERC. 24.8 522.3 12

    INTERNACIONAL 24.0 376.6 12

    INMOBILIARIO 21.5 431.3 20

    CONSTRUBANCO 18.3 282.2 10

    del EJERCITO 15.6 311.8 13

    LLOYD’S  14.3 284.5 7

    METROPOLITANO 12.9 339.0 8

    BANEX 12.5 462.8 3

    del QUETZAL 8.8 205.0 12

    PROMOTOR 6.0 162.4 3

    CITIBANK 5.9 45.8 1

    CONTINENTAL 3.6 113.7 4

    REFORMADOR 1.7 237.3 7

    UNO 1.0 170.8 5

    Fuente: Superintendencia de Bancos, Boletín de Estadísticas Bancarias (Guatemala, 4º Trimestre, 1992).

     ————————————————————————————————————————————————  

    (a) El coeficiente 1  nos indica en cuánto incrementa el costo administrativoanual por cada quetzal adicional de activos que maneja el banco. En otras pala- bras, este coeficiente nos mide el ―costo marginal‖ de administrar un quetzal adi-cional de activos. Obviamente, este es un dato sumamente interesante para lostomadores de decisiones en el sector bancario. Esperamos naturalmente que estecoeficiente sea positivo.

    (b) Por otro lado, el coeficiente 0, que matemáticamente es simplemente la ―or-

    denada en el origen‖ (o sea, el valor de Y  cuando X  = 0), nos estaría indicando la parte del costo administrativo que no varía directamente con el nivel de los acti-vos del banco. En otras palabras, esta es la parte del costo administrativo que po-dría interpretarse como un ―costo fijo.‖ Esperamos también que este coeficientesea positivo.

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    45/110

     

    [38]

    4.3.2. Segunda Aproximación.

    Un posible defecto de la ecuación (1) es la suposición de que todos los bancostienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 4.1que los bancos comerciales varían mucho en cuanto al número de sucursales o

    agencias que operan, y este es un factor que seguramente debe afectar el nivel delos costos administrativos. Por esto, como una segunda aproximación, se estimarála siguiente regresión adicional:

    (2) Y  = 0 + 1 X 1 + 2 X 2 + u 

    donde X 1 = Activos Totales del banco i, X 2 = Número de Agencias del banco i.

    (De aquí en adelante suprimiremos el uso del sub-índice i, para facilitar la nota-ción. Se entiende que cada observación corresponde a un banco diferente.) En es-ta segunda regresión, el coeficiente 2 nos está midiendo el incremento en el cos-

    to administrativo anual que resulta de manejar una agencia adicional. Esperamos, por tanto, que este coeficiente sea positivo. (Naturalmente que este coeficientetendría que interpretarse como un costo ―promedio‖ por agencia, ya que ninguna

    agencia es exactamente igual que otra, por lo que difícilmente pueden tener todasel mismo costo.) Los demás coeficientes tienen la misma interpretación que en laecuación (1).

    4.3.3.  Datos.

    Antes de reportar los resultados de las regresiones, es necesario y convenientehacer las siguientes aclaraciones sobre los datos:

    (a) Se tomó la decisión de incluir en la muestra únicamente a los bancos comer-ciales privados, ya que los bancos estatales tienen peculiaridades especiales que posiblemente resulten en un comportamiento diferente en cuanto a sus costosadministrativos. (Puesto que lo que nos interesa es investigar el comportamientode los costos administrativos en el banco comercial ―típico,‖ incluir a los bancosestatales podría resultar en una distorsión de los resultados, ya que dichos bancosno son ―típicos‖ a ese respecto.)

    (b) Podría existir un problema de comparabilidad de los datos sobre Costos

    Administrativos y Activos Totales, dada la manera como se reportan los datos enla fuente original, ya que las cifras sobre Costos Administrativos corresponden alos gastos anuales efectuados durante un año determinado, mientras que las cifrassobre Activos Totales corresponden a los valores al 31 de Diciembre de cada año. No está del todo claro que la cifra correspondiente al final del año sea la másadecuada para propósitos del análisis, y probablemente sería mejor contar con una

  • 8/20/2019 Cole -- Elementos de Econometría Aplicada (3a Ed.)

    46/110

     

    [39]

    cifra para los Activos Totales que represente algún valor promedio durante el año.Para evitar estos problemas, se optó por calcular un promedio aritmético de losActivos Totales al 31 de Diciembre de 1991, y al 31 de Diciembre del añoanterior. Esta cifra promedio, si bien no es la solución perfecta para este problema, probablemente se acerca más al nivel promedio de los Activos Totales

    en cada año, y en todo caso será mejor que simplemente usar la cifra de fines deaño.

    4.3.4.  Resultados.

    Los resultados para la ecuación (1) fueron los siguientes (los números entre paréntesis son las desviaciones estándar de los coeficientes estimados):

    103906.0203.2ˆ  X Y       R2 = 0.7935

    (2.551) (0.00483) n  = 19

    Se puede apreciar en primer lugar que esta regresión, a pesar de ser muy sencilla,tiene un alto grado de poder explicativo: el coeficiente de determinación ( R2) in-dica que la variación en los Activos Totales explica casi 80 % de la variación enlos Costos Administrativos. Como era de esperarse, el valor estimado para b1, la pendiente de la regresión, es positivo y altamente significativo. Para testar for-malmente la hipótesis nula 1 = 0, calculamos el estadístico b1/ s(b1), que en estecaso tiene un valor de 8.087 (= 0.03906 ÷ 0.00483). Consultando la tabla de valo-res críticos para la distribución t   (ver las tablas al final del texto), se puede verque para 17 grados de libertad el valor crítico para 5 % a dos colas es de 2.11.Puesto que 8.087 > 2.11, en este caso se rechaza la hipótesis de que el verdaderocoeficiente 1 es cero, y por tanto concluimos que X 1 es una variable significativa.

    Por otro lado, el valor estimado para b0 , la ordenada en el origen, aunque positi-vo, no es significativo, ya que 2.203 ÷ 2.551 = 0.864 < 2.11. 

    Los resultados para la ecuación (2) fueron los siguientes:

    21   661.00275.022.1ˆ  X  X Y     

    (1.99) (0.0044) (0.157)  R2 = 0.9018

    La R2 para esta segunda regresión es poco más de 90 %, aunque, por lo explicadoen la sección anterior, las dos regresiones no son estrictamente comparables entérminos de la  R2  convencional, por lo que debemos aplicar el concepto de  R2 

    ajustada. Para el primer modelo, con n = 19 y k  = 1,

    7814.0)7935.01(17

    181

    2

     

      

      R  

  • 8/2