29
Curso de Posgrado 2012-2013 FORMACIÓN DE ESPECIALISTAS EN INVESTIGACIÓN SOCIAL APLICADA Y ANÁLISIS DE DATOS Técnicas de modelización de variables cualitativas: Regresión Logística Parte I: El modelo de regresión logística binario Ramón Mahía 1 (UAM) Abril 2013 I. DEFINICIÓN (i): LOGIT como un tipo concreto de MODELOS DE REGRESIÓN PARA VARIABLES DEPENDIENTES LIMITADAS. OJO: CASI TODAS LAS VARIABLES DEPENDIENTES SON LIMITADAS 2 VARIABLE DEPENDIENTE LIMITADA (por tener DISTRIBUCIONES REALES LIMITADAS): CATEGÓRICA: BINARIA: Logit, Probit, y Modelo lineal de probabilidad MULTICOTÓMICA: Logit multinomial NO CATEGÓRICA Dependiente continua con solución de esquina 3 (en el cero): TOBIT Variable “count” 4 (métrica discreta con escasos valores, incluyendo el cero): REGRESIÓN DE POISSON VARIABLE DEPENDIENTE LIMITADA (por diseño experimental con MUESTRAS LIMITADAS): Muestra CENSURADA: Sólo observamos la variable endógena si está por debajo de un determinado “umbral”, pero aún con todo disponemos de la distribución de los regresores 5 REGRESIÓN NORMAL CENSURADA. Dos casos muy habituales son los modelos con “top coding” o los “modelos de duración” 1 [email protected] 2 Hay continuas limitadas, como el porcentaje del salario dedicado a ahorro, la edad de la muerte de una persona, la puntuación en un test de 100 preguntas, ,…) 3 Es una variable para la que una fracción no trivial de la población presenta el valor “0” mientras que en el resto de la población la variable sigue una distribución positiva continua. Por ejemplo, el volumen de alcohol consumido a lo largo de la semana por un individuo, la cantidad gastada en donaciones,..) un modelo lineal llevaría a pronósticos negativos para algunas personas y tomar logaritmos no sería posible (muchos ceros). 4 No son “códigos” de alternativas, sino valores, con sentido numérico, pero en una escala “no continua (discreta) y positiva que incluye el cero (número de hijos, errores en la grabación de un texto informático en cada página, llamadas en una central telefónica por minuto,…) 5 Por ejemplo, cuando hemos preguntado la renta de una familia y en el extremo superior hemos puesto (más de 5.000 euros al mes) o, por ejemplo, queremos medir el tiempo que transcurre desde la libertad de un recluso y su nuevo arresto: sería posible que, por ejemplo, un 60% de los reclusos no vuelven a ser detenidos de modo que la muestra de “períodos” disponibles (reclusos que vuelven a prisión) estaría sesgada de forma “pesimista” (hay muchos que no han vuelto).

Intro Analisis Logit

Embed Size (px)

DESCRIPTION

analisis de regresion logistica

Citation preview

  • Curso de Posgrado 2012-2013

    FORMACIN DE ESPECIALISTAS EN INVESTIGACIN SOCIAL APLICADA

    Y ANLISIS DE DATOS

    Tcnicas de modelizacin de variables cualitativas: Regresin Logstica

    Parte I: El modelo de regresin logstica binario

    Ramn Maha

    1 (UAM) Abril 2013

    I. DEFINICIN (i): LOGIT como un tipo concreto de MODELOS DE REGRESIN PARA VARIABLES DEPENDIENTES LIMITADAS. OJO: CASI TODAS LAS VARIABLES DEPENDIENTES SON LIMITADAS2

    VARIABLE DEPENDIENTE LIMITADA (por tener DISTRIBUCIONES REALES LIMITADAS):

    CATEGRICA:

    BINARIA: Logit, Probit, y Modelo lineal de probabilidad MULTICOTMICA: Logit multinomial

    NO CATEGRICA Dependiente continua con solucin de esquina3 (en el cero): TOBIT Variable count 4 (mtrica discreta con escasos valores, incluyendo el cero):

    REGRESIN DE POISSON

    VARIABLE DEPENDIENTE LIMITADA (por diseo experimental con MUESTRAS LIMITADAS): Muestra CENSURADA: Slo observamos la variable endgena si est por debajo

    de un determinado umbral, pero an con todo disponemos de la distribucin de los regresores 5 REGRESIN NORMAL CENSURADA. Dos casos muy habituales son los modelos con top coding o los modelos de duracin

    1 [email protected] 2 Hay continuas limitadas, como el porcentaje del salario dedicado a ahorro, la edad de la muerte de una persona, la puntuacin en un test de 100 preguntas, ,) 3 Es una variable para la que una fraccin no trivial de la poblacin presenta el valor 0 mientras que en el resto de la poblacin la variable sigue una distribucin positiva continua. Por ejemplo, el volumen de alcohol consumido a lo largo de la semana por un individuo, la cantidad gastada en donaciones,..) un modelo lineal llevara a pronsticos negativos para algunas personas y tomar logaritmos no sera posible (muchos ceros). 4 No son cdigos de alternativas, sino valores, con sentido numrico, pero en una escala no continua (discreta) y positiva que incluye el cero (nmero de hijos, errores en la grabacin de un texto informtico en cada pgina, llamadas en una central telefnica por minuto,) 5 Por ejemplo, cuando hemos preguntado la renta de una familia y en el extremo superior hemos puesto (ms de 5.000 euros al mes) o, por ejemplo, queremos medir el tiempo que transcurre desde la libertad de un recluso y su nuevo arresto: sera posible que, por ejemplo, un 60% de los reclusos no vuelven a ser detenidos de modo que la muestra de perodos disponibles (reclusos que vuelven a prisin) estara sesgada de forma pesimista (hay muchos que no han vuelto).

  • Muestra TRUNCADA: Excluimos del muestreo algunos segmentos de la poblacin basndonos en algn valor de la propia endgena (y)6: REGRESIN NORMAL TRUNCADA

    Muestra TRUNCADA INCIDENTAL: Quedan excluidos de nuestra muestra algunos elementos pero no en funcin de la endgena (como en el truncado) sino por otras variables7 que s pueden ser observadas de modo que puede estimarse la probabilidad de seleccin de los individuos: MODELO DE REGRESIN CON CORRECCIN MUESTRAL

    DEFINICIN (ii): LOGIT Vs Otras tcnicas enfocadas al mismo tipo de variable dependiente

    Respecto al DISCRIMINANTE:

    Es parecida al discriminante en el OBJETIVO aunque a diferencia del A.D.Predictivo (ver ms adelante distincin con el ADD) se centra ms en el anlisis estructural y menos en la prediccin.

    Enfoca ms adecuadamente la contribucin de los predictores al cambio en los valores de la variable dependiente

    Permite incorporar explicativas no mtricas en forma de ficticias Se ve menos afectada por incumplimientos de supuestos tericos

    necesarios a priori (normalidad, por ejemplo) Los resultados admiten explotacin en trminos de probabilidad Maneja mejor las endgena con muchas categoras

    Respecto a los RBOLES DE CLASIFICACIN:

    Ofrece resultados paramtricos, no una mera clasificacin de sujetos, en

    trminos de contribucin de las variables exgenas a la endgena Maneja con naturalidad predictoras mtricas continuas.

    II. Necesitamos un LOGIT?: MODELO LINEAL DE PROBABILIDAD (LPM)

    Qu sucede si realizamos un modelo clsico de regresin sobre una variable dicotmica y 0/1?

    ikikii uXXXy ....33221

    Qu representa por ejemplo una ? Qu significan los parmetros estimados

    En primer lugar debe observarse que el valor estimado de Y para la regresin

    poblacional sera la probabilidad p del suceso Y=1.

    6 Un estudio de los hbitos de ahorro de la poblacin que descarta a todas las familias con renta inferior a 500 euros al mes (no es que se agreguen en un mismo grupo indefinido, sino que se excluyen totalmente del anlisis). Esto puede ser plausible pero el modelo estimado no debera dar un valor estimado inferior a ese umbral de seleccin. 7 Por ejemplo, las muestras con problemas de sesgo de seleccin. Imaginemos el caso de una funcin para estimar cmo est

    relacionada la oferta salarial del mercado laboral con las caractersticas de los oferentes de empleo. Podemos observar el salario de los que tienen empleo, no de los que buscan empleo, por lo que la muestra est truncada en funcin de determinadas caractersticas (en parte indeterminadas).

  • Efectivamente debemos recordar que en modelo de regresin lineal, supuestas las hiptesis bsicas, el modelo refleja el valor esperado para Y condicionado a unos determinados valores de los regresores (variables X):

    xyEXXX kikii |....32221 Pero por otro lado, debe observarse que cuando una variable Y slo toma valores 0 y 1 (variable tipo Bernouilli8) su valor esperado (o media) es la probabilidad p del suceso 19:

    pyPyE 1

    De modo que, considerando el matiz de que, en la regresin, las esperanzas se condicionan al valor de las variables explicativas tenemos que:

    kikii XXXxyPxyE ....|1| 32221 O si se quiere, alternativamente:

    kikii XXXxyP

    xyPxyPxyPxyE

    ....|1

    |1|00|11|

    32221

    Es decir, que en el caso de una dicotmica, el resultado de un modelo de regresin expresa la probabilidad de que y=1 (suceso analizado) dados unos valores de las X.

    Grficamente, para una nica variable explicativa, la recta de regresin atravesara la nube de puntos formada por las dos bandas horizontales de valores de x para cada uno de los dos grupos 0 / 1:

    La recta de regresin verifica (Xmedia, Ymedia), es decir, (Xmedia, p) asignando el valor de la probabilidad del suceso 1 (casos 1/casos totales, 0.5 en el ejemplo) a la media del regresor (X) pero qu representa la pendiente de la recta, es decir, el parmetro estimado?.

    8 Una variable tipo Bernouilli es un caso especial de binomial con n=1, es decir, toma slo dos valores 1/0 con probabilidades p y 1-p. 9 Efectivamente, si una variable de evento =/1 toma valores 1para la ocurrencia del evento y 0 para la No Ocurrencia, la media es el nmero de eventos entre el nmero de casos, o sea, la frecuencia relativa del evento (p).

    -0,2

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    0 2 4 6 8 10 12 14 16

  • Partiendo de la ecuacin (para una nica variable para ilustrarlo con ms simplicidad):

    kikii XXXxyPxyE ....|1| 33221 El parmetro j representara la variacin en la probabilidad de Y=1 condicionada a las X ante una variacin unitaria de Xj:

    ji

    jX

    xyP

    |1

    j

    jjj

    jx

    xXyPxxXyP

    |1|1

    Ejemplo: MROZ.SAV

    Ficheros: - mroz.sav

    Observemos el resultado para el modelo para explicar la participacin de las mujeres casadas en el mercado laboral (inlf - 1, si, 0 no). DE 753 mujeres de la muestra, 428 declararon haber trabajado durante el ltimo ao (p=428/753=trabajar en funcin de los ingresos del marido (nwifeinc - en 1.000 $), nivel educativo (educ - en aos), experiencia laboral previa (exper en aos) , edad (age en aos), nmero de nios menores de 6 aos (kidslt6 nmero) y nmero de nios entre 6 y 18 aos (kidsge6 nmero). Comencemos primero mirando el resultado con slo dos variables explicativas: educ y kidslt6

    Coeficientesa

    Modelo Coeficientes no

    estandarizados

    Coeficientes

    tipificados

    t Sig. B Error tp. Beta

    1 (Constante) ,053 ,095 ,555 ,579

    educ ,046 ,008 ,213 6,083 ,000

    kidslt6 -,224 ,033 -,237 -6,763 ,000

    a. Variable dependiente: inlf

    Qu significado tiene el valor del parmetro de Educ (0.046)? Siguiendo la expresin derivada anteriormente, el parmetro de educ=0.046 significa que, por cada ao ms de educacin (sin variar el nmero de hijos menores) la probabilidad de incorporarse como activa al mercado laboral se incrementa en 0.046, esto es, un 4,6%.

  • Efectivamente, la probabilidad para alguien con 10 aos de estudio y un hijo menor de 6 aos sera:

    289.01224.10046.0053.06224.046.0053.0)1( kidsltEducinlfP

    Mientras que, con un ao ms de estudio:

    335.01224.11046.0053.06224.046.0053.0)1( kidsltEducinlfP

    De modo anlogo, la probabilidad de incorporarse a la fuerza laboral disminuye un 22,4 por cada hijo menor de 6 aos. Esto implica que, por ejemplo para 5 aos de estudio y ningn hijo menor, la probabilidad de trabajar es del 28,3% pero si nace un hijo, la probabilidad pasar entonces a ser de slo el 5,9% (28,3-22,4). La cuestin es Qu ocurre entonces si nace un segundo hijo?. En ese caso, y segn el modelo, el cambio en la probabilidad debera ser de nuevo de -22,4%, lo que significara que la probabilidad de incorporarse a la fuerza laboral sera entonces de:

    Probabilidad de trabajar con 5 aos y 2 hijos= 5,9% - 22,4% = -16,5%? Si aadimos ms variables para evitar los posibles sesgos por omisin de variables tenemos:

    Coeficientesa

    Modelo Coeficientes no

    estandarizados

    Coeficientes

    tipificados

    T Sig.

    Intervalo de confianza de 95,0% para

    B

    B Error tp. Beta Lmite inferior Lmite superior

    1 (Constante) ,586 ,154 3,798 ,000 ,283 ,888

    nwifeinc -,003 ,001 -,080 -2,351 ,019 -,006 -,001

    Educ ,038 ,007 ,175 5,151 ,000 ,024 ,052

    Exper ,039 ,006 ,643 6,962 ,000 ,028 ,051

    expersq -,001 ,000 -,300 -3,227 ,001 -,001 ,000

    Age -,016 ,002 -,262 -6,476 ,000 -,021 -,011

    kidslt6 -,262 ,034 -,277 -7,814 ,000 -,328 -,196

    kidsge6 ,013 ,013 ,035 ,986 ,324 -,013 ,039

    a. Variable dependiente: inlf

    Las variables significativas parecen tener signos correctos (kidsge6 no resulta estadsticamente significativa entre otras razones por su elevada colinealidad con kidslt6 ) Tal y como vimos con el ejemplo anterior correspondiente a una mujer con 5 aos de educacin y un hijo, es posible que algunos de los valores predichos sean negativos para algunas combinaciones de variables. En concreto, en este ejemplo, de hecho, si guardamos el valor estimado en SPSS nos fijamos que dos de los ltimos casos tienen

  • probabilidades pronosticadas negativas aunque afortunadamente no tenemos valores pronosticados mayores que 1.

    En primer problema, por tanto, de un LPM es que las estimaciones pueden quedar fuera del rango correcto para una variable que representa probabilidad. Este es, en todo caso, un problema menor desde el punto de vista prctico puesto que, obviada la incongruencia conceptual, podramos asignar a posterior una probabilidad p(Y=1|X)=0 a los casos con probabilidades negativas y p(Y=1|X)=1 a aquellos con probabilidades superiores a 1. Como curiosidad, debe sealarse que este problema de obtener valores fuera del rango 0,1 no sucede en un modelo con explicativas dicotmicas completamente saturado, es decir, en el que se incluyen dummies 0/1 para recoger caractersticas de los individuos (por ejemplo explicando la participacin laboral con variables como Marital Status (married, unmarried) + Children (Yes,No) + Black (yes, no) +.). En ese caso, la y estimada recoge la probabilidad media definida para cada una de las celdas formadas por las distintas categoras que resultan del cruce de cada explicativa.

    Un segundo problema, mucho ms importante tiene que ver con el asunto

    comentado de la linealidad: el modelo asume que los incrementos en la probabilidad son constantes, algo generalmente poco realista. Es cierto que esta linealidad tambin se asume (con naturalidad) en el caso de un MBRL sobre una dependiente mtrica pero para un modelo cuyo valor estimado representa una probabilidad, lo ms natural parece asumir un comportamiento amortiguado de la pendiente de un modelo de regresin. Es decir, de forma ms natural cabe pensar que la probabilidad de un fenmeno condicionado al cambio en una variable x va evolucionando progresivamente desde el 0 cuando x va tomando valor y del mismo modo se aproxima progresivamente al 1 para valores cada vez mayores de x. En este sentido, parece que es ms sensato suponer un modelo acotado en 0 y 1 y con una evolucin progresiva.

    As pues, parece lgico que el MLP es incapaz de servirnos de instrumento para

    evaluar la probabilidad de un suceso P(y=1) para una combinacin especfica de predictores. No obstante, si el objetivo del modelo es aproximar los efectos parciales de las variables sobre la probabilidad de un suceso promediados para todo el rango

    -

    0,10

    0,20

    0,30

    0,40

    0,50

    0,60

    0,70

    0,80

    0,90

    1,00

    PR

    OB

    AB

    ILID

    AD

    Regresor X

  • de variacin de los regresores el MLP puede servirnos. Sin embargo, esa evaluacin puede no representar la reaccin de y ante cambios en la x para algunos valores de x, en especial, aquellos ms extremos.

    Debe tenerse en cuenta que esta linealidad indeseada en el cambio de P(y=1|x) no es un problema si el regresor es, a su vez, binario (0/1) dado que, en ese caso, el nico cambio posible para el regresor es el paso de 0 a 1, un paso que producir un cambio medio en la probabilidad del suceso que s podra medirse convenientemente con un MLP.

    El anlisis de la Significatividad individual de parmetros puede realizarse con el contraste t derivado de la estimacin MCO. Sin embargo, debe sealarse una limitacin (menos evidente y menos importante que la anterior) en los modelos para endgenas binarias y es que, por construccin analtica, la varianza de una variable y Bernoulli es:

    ppyVar 1 As pues, teniendo en cuenta que, en el caso de una regresin lineal, esa probabilidad p del suceso Y=1 est condicionada al valor de los regresores, tenemos que la varianza de y no es constante para todo i (homocedasticidad) sino que est determinada (relacionada) con el valor de x:

    11| xxppxyVar Es decir, por construccin un modelo sobre una y(0/1) es HETEROCEDSTICO, en tanto que el carcter eficiente del MBRL EXIGE la homocedasticidad. Esto no dificultara la interpretacin de los b en el uso de un MBRL pero reduce la eficiencia del estimador MCO habitualmente utilizado y complica la interpretabilidad de los contrastes de significacin (sesgo en la varianza de los parmetros estimados). Para evitar esto, pueden utilizarse los errores estndar robustos a la heterocedasticidad10 siempre y cuando el programa estadstico facilite esta opcin (lamentablemente SPSS no lo permite). En nuestro ejemplo, usando STATA puede observarse una cierta sobre estimacin de la varianza en el caso de la regresin MCO simple:

    Comparacin Estimacin MCO simple y MCO con Robust.SE (STATA)11

    ------------------------------------------------------------------------ inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- educ | .0463196 .007614 6.08 0.000 .0313724 .0612668 kidslt6 | -.2241021 .0331357 -6.76 0.000 -.2891518 -.1590524 _cons | .0525438 .0946111 0.56 0.579 -.1331903 .2382779 ------------------------------------------------------------------------------

    10 Otra posibilidad es utilizar Mnimos Cuadrado Ponderados utilizando como variable de ponderacin para cada observacin la expresin:

    i

    jiji

    i

    iiiii

    xx

    yyyy

    ,

    1 **

    11

    Comando: regress inlf educ kidslt6, robust

  • ------------------------------------------------------------------------------ | Robust inlf | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- educ | .0463196 .0070533 6.57 0.000 .032473 .0601662 kidslt6 | -.2241021 .0299558 -7.48 0.000 -.2829093 -.1652949 _cons | .0525438 .089992 0.58 0.559 -.1241224 .22921 ------------------------------------------------------------------------------

    Un tema menor pero curioso es sirve la R2? como medida de ajuste global de un

    MLP?.12 AS PUES, podemos usar el modelo con precaucin:

    Para observar en trminos promedio la reaccin de la probabilidad del suceso analizado a un cambio en los predictores en torno al valor medio del rango.

    Para observar cambios en la probabilidad de un suceso con predictores binarios (X = 0/1).

    Para predicciones particulares cuando los valores de las exgenas no se alejen excesivamente del valor medio (para evitar valores pronosticados inferiores a 0 o superiores a 1)

    Cuando la linealidad sea una hiptesis razonable Usando, si es posible, estimadores robustos de la varianza de los

    parmetros.

    LA VENTAJA: Los parmetros son fciles de interpretar

    Ejemplo CIGS.SAV: Ejercicio MLP para realizar en clase: Ficheros:

    - cigs.sav - Syntax_Smoke_Saturated_MLP.sps

    El anlisis pretende evaluar la efectividad de la medida de restriccin del hbito de fumar en los bares y restaurantes. El fichero CIGS.sav contiene informacin sobre el nmero de cigarrillos promedio fumados al da por una serie de individuos y algunas caractersticas bsicas de los mismos (Educacin, Renta y Raza). Mediante el ejemplo vamos a comparar el output obtenido segn enfoquemos el anlisis de regresin de distintos modos: Regresin Lineal Clsica, Modelo Lineal de Probabilidad y Modelo Lineal de Probabilidad Saturado.

    1. Realice una regresin lineal clsica utilizando las variables cigs, renta (income) y educacin (educ) en trminos mtricos aadiendo adems la variable de restriccin (restaurants).

    a. Evale el parmetro relativo a la restriccin en bares y restaurantes.

    12

    No es invlida del todo pero tiene un problema de interpretabilidad porque NUNCA puede valer 1 ya que eso significa que, en el ajuste perfecto, todos los puntos estaran sobre la recta de regresin y eso, cuando una variable vale 0 o 1 no es posible.

  • b. Evale el resto de variables c. Evale la significatividad global

    2. Realice ahora una regresin incluyendo para educ (no significativa en la

    regresin previa) variables flag para el 1er y 3er tercil (Lower Education / Higher Education).

    a. Evale de nuevo el parmetro relativo a la restriccin en bares y

    restaurantes. b. Observe si el resultado para las variables flag de educ ha variado

    y comente c. Reemplace ahora la variable income por las variables de primer t

    tercer tercil (Lower Income / Higher Income ). Cmo varan los resultados si, en lugar de las flag de 1er y 3er tercil incluimos 2 y 3er tercil.

    3. Realice ahora una regresin para la varibale smoke (flag 1=Fumador / 0=No fumador) incluyendo como mtricas educ, income y como binarias Restaurn y White.

    a. Qu significado tiene ahora el parmetro para restaurants? b. Reemplace ahora las variables educ e income por las flag

    correspondientes al 2o y 3er tercil en ambos casos. c. Calcule y compare la probabilidad de fumar para los siguientes

    casos:

    - Hombre de baja renta y educacin con y sin restricciones en su lugar de residencia

    - Hombre de renta alta y educacin alta con y sin restricciones en su lugar de residencia

    d. Es posible que exista interaccin significativa entre los niveles de

    renta y la educacin. Pruebe a introducir alguna combinacin extrema de Educ e Income. Por ejemplo, prueba a utilizar E1&i1 en una regresin con el primer y tercer cuartil de Educ y Renta13. Qu ha sucedido?. Qu significado tiene ahora el parmetro i1_e1?

    III. La solucin a los defectos del (LPM): LOGIT o PROBIT La solucin a los problemas del modelo lineal de probabilidad pasan por sustituir la

    especificacin lineal (no acotada entre el 0-1) por una funcin G(Z)=G(X)14 que toma valores estrictamente entre 0 y 115:

    13 Para introducir la interaccin entre ambos efectos conviene, siguiendo el principio de marginalidad, introducir las dummies de ambos niveles (Educ=1 y Renta=1) dado que interesa evaluar el efecto marginal de la interaccin respecto a los efectos principales de cada variable. 14 Esta funcin se denomina tcnicamente mapping function porque mapea (traduce) el valor de X al espacio de probabilidad (0,1). 15

    En la estadstica actual, este tipo de modelos se considera un caso especfico de los denominados generalized linear model en los que la media de la respuesta de una variable (y) se modeliza a travs de una transformacin monotnica no lineal de una funcin lineal de los predictores g(b0 + b1*x1 + ...). La inversa de esa transformacin g se conoce como funcin de enlace. Las funciones de enlace disponibles dependen de la naturaleza de la variable endgena; as, por ejemplo, para el caso de las variables

  • kikii XXXxyP ....|1 33221

    z real nmero 10

    ....|1 33221

    XG

    XXXGxyP kikii

    Para el caso del LOGIT, G(z) es la funcin logstica sencilla:

    z

    z

    zi e

    e

    eXYP

    11

    1)|1(

    En donde Z16 es el polinomio que contiene el modelo de regresin lineal, o sea:

    kikii

    kikii

    kikii XXX

    XXX

    XXXie

    e

    eXYP

    ....

    ....

    .... 33221

    33221

    33221 11

    1)|1(

    Para el PROBIT, sin embargo, G(z) es la funcin de distribucin acumulativa (cdf) de una normal estandarizada:

    2332212 ....

    2

    1-

    2

    1

    2

    1

    2

    1)|1(

    kikii XXXz

    i eeXYP

    Antes de seguir adelante: Existe alguna diferencia realmente importante entre el

    LOGIT y el PROBIT?:

    La respuesta general est clara, NO demasiada y, en todo caso, no con trascendencia prctica relevante.

    Las caractersticas tcnicas relevantes de ambas son muy similares:

    G(z)>0 para todo z (funcin lineal de las x) Asintticas a 0/1 para G(z) - y G(z)= + Mxima pendiente (crecimiento) para G(z)=0 Centradas

    de distribucin binomial, la funcin de enlace cannica (por defecto) es la funcin LOGIT pero existen otras posibilidades tambin habituales como el probit, la log-log, la complementaria de la funcin log-log 16 Denominado tcnicamente index function.

  • Histricamente, las preferencias de aquellos que se decantaban por el Logit se basaban en la mayor facilidad de clculo de los parmetros de una funcin logstica acumulada que de una normal acumulada, pero hoy en da esto no tiene ninguna trascendencia.

    Por el contrario, los economistas han preferido el Probit, por considerar

    que los errores del modelo latente (se ver ms adelante este concepto) siguen una distribucin normal.

    Aunque en determinadas situaciones (muy especficas y no muy frecuentes)

    pueden obtenerse resultados distintos, en la mayor parte de anlisis los resultados son extremadamente similares en cuanto a significatividad, valores de los parmetros y nivel de ajuste general.

    OKResuelven entonces el LOGIT / PROBIT los problemas del MLP?. Si.

    Los valores estimados de la probabilidad estn entre 0 y 1 La variacin de la probabilidad ya NO ES UNA FUNCIN LINEAL de los

    regresores, sino G(Z), es decir una funcin NO LINEAL, de una expresin lineal (el modelo de regresin) de los regresores.

    El modelo no exige la homocedasticidad (vimos que por definicin eso no puede ocurrir con una endgena 0/1)

    Adicionalmente, no impone una restriccin clsica del MBRL: no supone la normalidad de los errores (que no puede darse ms que asintticamente cuando nuestra endgena es una binomial 0/1)

    IV. La pregunta del milln: qu significan los parmetros de un LOGIT?

  • Los modelos LOGIT y PROBIT, asumen ambos que existe una variable latente no observable (y*)17 que es la que, verdaderamente, est conectada con la variacin de los regresores:

    ikikiii uXXXy ....22110*

    Segn esta idea, cuando esa variable latente supera el umbral del 0, sucede el suceso y=1 y en caso contrario sucede y=0.

    01 * ii yy

    As pues, an cuando tengamos una estimacin de los parmetros , estos representan en realidad el cambio en esa variable latente ante un cambio unitario en la exgena, y no un cambio en la probabilidad del suceso 1. Desde ese punto de vista, los parmetros de un modelo LOGIT o PROBIT no son, en sentido estricto, especialmente informativos. Pocas veces se define con una mnima exactitud cul es la variable latente por lo que el valor del parmetro en si mismo carece de inters.

    En todo caso, antes de observar cmo evaluar los coeficientes, dos salvedades que simplifican el anlisis con logit deben hacerse:

    Los parmetros ser el mismo en el modelo latente que en estimado de modo que EL SIGNO PUEDE INTERPRETARSE SIN PROBLEMAS COMO EL INCREMENTO/DECREMENTO DE LA PROBABILIDAD ANTE VARIACIONES DE LAS EXGENAS.

    LA IMPORTANCIA RELATIVA de los coeficientes puede evaluarse comparando tambin los coeficientes estimados sin que esa importancia relativa dependa del valor de los regresores (x).

    Pero, y los valores absolutos de los coeficientes?...Significa lo anterior que los

    parmetros de un modelo LOGIT / PROBIT no pueden interpretarse como la variacin parcial de la endgena, de la probabilidad, ante un cambio en la exgena?. EXACTO, AS ES, y los motivos son evidentes.

    Ms all de las cuestiones conceptuales sobre la variable latente, dado que el modelo propone una estructura NO LINEAL de relacin entre regresor y endgena P(y=1), el efecto en la probabilidad de un cambio en X depende del punto de partida en que se encuentre la X.

    Esto en trminos tcnicos puede observarse teniendo en cuenta que el efecto de la

    variacin de X en una variable y sera:

    zg

    dx

    zdz

    dz

    Gd

    x

    zG

    x

    xyP

    jjj

    j

    )(|1

    donde:

    17

    Por ejemplo, la utilidad de tomar dos decisiones alternativas.

  • zdz

    Gdzg

    es decir, g(z) se corresponde con la funcin de densidad de la logstica (logit) o de la normal (probit) Lo importante, desde el punto de vista conceptual, es que la variacin de la probabilidad, depende del punto en dnde se evale. En concreto, ese valor depender del valor de la funcin de densidad evaluada en ese punto xj (evaluada, tanto para el regresor de inters como para el resto de los valores de las dems regresoras).

    As, pues, para evaluar el cambio en la probabilidad de una variacin en el regresor, deberamos:

    Opcin 1: evaluar la probabilidad para el nivel de partida y compararlo con la probabilidad para el valor final que deseemos del regresor

    Opcin 2: para pequeas variaciones, lo anterior coincide con el resultado de

    multiplicar el valor del parmetro, por el valor de la funcin de densidad en el punto a evaluar G(Z) y la variacin deseada de las X.

    OJO: En ambos casos, debe decidirse:

    El valor de partida para X La variacin a analizar en la X (o el valor de llegada) (**) El valor o valores que se asignar al resto de regresoras.

    Dado que el clculo depende del punto de partida, habitualmente se evalan valores

    interesantes de la distribucin de las exgena, (mnimo, mximo, cuartiles, media, por ejemplo). Algunos programas, por ejemplo, evalan el cambio en la probabilidad que se obtiene por cada variacin unitaria partiendo del punto medio de todas las exgenas, algo denominado generalmente PEA (Partial Effects at the Average) o Efectos Marginales (at the average). Este PEA, por cierto, se aproximar generalmente al parmetro estimado en el MLP para esa misma especificacin. Es decir, primero se computa la probabilidad para el punto medio:

    kk XXXk eXXXYPXYP

    ....21 332211

    1),...,|1()|1(

    Y despus se evala el cambio en la probabilidad tras la variacin unitaria de cada exgena. Por ejemplo, para el caso de X2 sera:

    ),...,|1(),...,|1()( 112 kk XXYPXXYPXPEA

    En el caso del Stata, por ejemplo, estos efectos pueden observarse tras la estimacin de un logit ejecutando el comando mfx (marginal effects)18:

    18 La secuencia de comandos sera, para este ejemplo, primero la relativa a la estimacin del logit logit inlf educ kidslt6 y a continuacin nicamente para la estimacin de efectos marginales el comando mfx.

  • Marginal effects after logit y = Pr(inlf) (predict) = .57157985 ------------------------------------------------------------------------------ variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------- educ | .0514663 .00891 5.77 0.000 .033994 .068939 12.2869 kidslt6 | -.2473429 .03999 -6.19 0.000 -.325716 -.16897 .237716 ------------------------------------------------------------------------------

    El valor 0.57157985 de la parte superior de la tabla indica la probabilidad

    estimada (en este caso para el suceso inlf) evaluada para los valores medios de las exgenas (educ y kidslt6 en este caso).

    Los coeficientes dy/dx indican el cambio en la probabilidad media previa (0.57157) tras una variacin unitaria de educ (0.0514663=5.1%) o kidslt6 (-.2473=-24.7%)

    Una segunda interpretacin de los parmetros de un modelo consiste en evaluar

    directamente el valor de Exp(). Esta prctica encuentra su fundamento en considerar la expresin alternativa de un logit (simplificado para un nico regresor por simplicidad expositiva)

    iXi eXYP

    2211

    1)|1(

    y elaborar la transformacin de la Odds p/(1-p) que resulta ser iXe 221

    :

    iX

    i

    i

    i

    i eXYP

    XYP

    XYP

    XYP221

    )|1(1

    )|1(

    )|0(

    )|1(

    De modo que:

    e j Odds

    es decir, la exponencial del parmetro representa el logaritmo de la Odds19, o sea, el cambio en la Odds Ratio ante una variacin unitaria de la variable explicativa.

    De hecho, linealizando esa expresin, se observa qu representa exactamente el parmetro : el cambio en el logaritmo de la Odds (algo denominado precisamente logit pero que, conceptualmente, es difcil de interpretar).

    ii

    i XXYP

    XYPOdds 221

    )|1(1

    )|1(lnln

    19 La Odds es un concepto que expresa el ratio de probabilidad de que un suceso ocurra frente a que no ocurra. Por ejemplo, a lazar un dado, el Odds de obtener un 6 es 1/5 expresado tambin como 1 a 5 (mientras que la probabilidad es 1/6) o el Odds de que un da de la semana elegido al azar sea martes es 1/6 (mientras que la probabilidad es 1/7). La Odds se utiliza frecuentemente en juego cuando, al expresar que jugamos una apuesta 1 a 10 existe 1 posibilidad de acierto frente a 10 de fallo. La razn de usar la Odds como estimador de riesgo ms intuitivo es que permite anticipar la ganancia de forma ms directa: si jugamos una apuesta con Odds 6 a 1, significa que si apostamos 10 euros y ganamos, la ganancia ser de 60 euros.

  • Es decir, un cambio unitario en X cambia el logit en y la Odds ratio en e. Debe tenerse en cuenta que el logit supone carcter aditivo de los coeficientes pero carcter multiplicativo en los e. Es decir, por ejemplo para tres variables tenemos:

    iiiiii XXXXXX eeeeeeep

    p 33

    2213322133221

    1

    Esto no soluciona el problema de la no linealidad de los coeficientes, dado que el parmetro, as calculado, no informa sobre el cambio en la probabilidad, sino sobre el cambio en la Odds. La Odds y la probabilidad no son conceptos equivalentes sino que conectan con la expresin20:

    Odds

    Oddsprob

    1

    p

    pOdds

    1

    As, si por ejemplo, si la Odds de un suceso es 1 a 100 (1/100=0.01), la probabilidad es [0.01/(1+0.01)]=0,099=0.99% y obtenemos un parmetro e =6 (de cambio en la Odds) esto significa que la Odds pasara a ser 6* 1/100=6/100=0.06, lo que significa una nueva probabilidad de [0.06/(1+0.06)]=0,0566= 5,66%, es decir, un cambio en la probabilidad del 4,67%. Sin embargo, si la Odds del suceso es de 50 a 100 (50/100=0.5) hablamos de una probabilidad de partida del [0.5/(1+0.5)]=0,33=33,3% de modo que entonces ese mismo parmetro implica una nueva Odds de 300 (6*50) a 100 lo que implica una probabilidad de [3/(1+3)]=0,75=75%, es decir, un incremento de probabilidad del 41,7%.

    Ejemplo CASA.SAV: Practicamos la especificacin mnima de la regresin LOGIT con

    una variable explicativa binaria en SPSS y hacemos la primera interpretacin de parmetros. Fichero: casa.sav. Se plantea a una muestra de jvenes de 20 a 35 que viven con sus padres un escenario de trabajo determinado y se les pregunta sobre su decisin (en ese contexto) sobre irse de casa (variable decisin).

    Realizamos una estimacin logit en SPSS ara la variable decisin exclusivamente en funcin del gnero (gender, Hombre = 1) (no confundir la entrada con LogLinear-Logit) sin alterar ninguna opcin bsica.

    20 Puede observarse que la Odds siempre ser mayor que cero, pero no est limitada en su valor mximo.

  • Obteniendo:

    Variables in the Equation

    B S.E. Wald df Sig. Exp(B)

    Step 1a gender 1,217 ,245 24,757 1 ,000 3,376

    Constant -,847 ,154 30,152 1 ,000 ,429

    a. Variable(s) entered on step 1: gender.

    Qu interpretacin tiene el parmetro 1,21 para el gnero? Dado que el parmetro es positivo (y el suceso y=1 es decisin de irse de casa) implica que la probabilidad de una decisin de emancipacin es superior en los hombres. El incremento de probabilidad habra de evaluarse, eso s, computando la probabilidad para Gender =0 y Gender =1 usando la funcin LOGIT (en este caso, pueden observarse tambin fcilmente salvando las probabilidades como opcin en SPSS).

    Mujer: 30.01

    1)|1(

    )847.0(

    eXYP i

    Hombre: 59.01

    1)|1(

    )217.1847.0(

    eXYP i

    Diferencia de probabilidades: 0.59-0.2=0.39=39%

    Estos nmeros, que representan el fenmeno evaluado en el promedio de hombres y mujeres, podemos observarlos tambin directamente cruzando la variable dependiente y el gnero:

  • gender * decision Crosstabulation

    decision

    Total Mantenerse en casa Irse de casa

    gender Mujer Count 140 60 200

    % within gender 70,0% 30,0% 100,0%

    Hombre Count 47 68 115

    % within gender 40,9% 59,1% 100,0%

    Total Count 187 128 315

    % within gender 59,4% 40,6% 100,0%

    La segunda interpretacin consiste en la del parmetro Exp() que indica el cambio en la ODDS del suceso cuando comparamos un hombre y una mujer. El parmetro del gnero es 3,376. Como es significativamente mayor que 1, entendemos que ser hombre incrementa la ODDS del suceso de irse de casa en 3,376 veces. Observemos qu significa este concepto mirando de nuevo al crosstab de la variable dependiente y el gnero. El ODDS del suceso irse de casa para hombres y mujeres, se calcula como la ratio de la probabilidad del suceso respecto a mantenerse:

    ODDS Irse Mujer: 43,0140

    60

    )|0(

    )|1(

    )|0(

    )|1(

    mYf

    mYf

    mYP

    mYPOdds

    i

    i

    i

    i

    ODDS Irse Hombres: 45,147

    68

    )|0(

    )|1(

    )|0(

    )|1(

    hYf

    hYf

    hYP

    hYPOdds

    i

    i

    i

    i

    Ratio de Odds: 1,45/0,43=3,37

    (**) Una pregunta para la clase. Es el logit entonces equivalente a una tabla de contingencia?. Lo es slo en este caso? Ganamos algo con el logit?

    EJEMPLO HDMA1.SAV: Practicamos la especificacin mnima de la regresin LOGIT con una variable continua en SPSS y hacemos la primera interpretacin de parmetros. Fichero: HMDA1(sol).sav (Archivo reducido de concesin de hipotecas).

    Nos interesa observar la relacin entre la probabilidad de que te denieguen un crdito (la variable de concesin es action, de la que nos interesa la OPCIN 3 Aplication Denied) en funcin de ser de raza Negra o Blanca (la variable de inters es race distinguiendo las categoras 3=Black y 5=White) controlando el nivel de endeudamiento (la variable de inters es pi_ratio Debt to income ratio). Acciones previas:

  • Generamos la variable DICOTMICA deny a partir de action21 Seleccionamos slo los blancos y negros a partir de race (valores 3 o 5) y

    seleccionamos adems slo los tipos de crditos para familia individual o condominio (variable type, valores 1 o 2)22 (deben quedar 2382 casos)

    Generamos la variable BLACK (con race=3)

    1.- Realizamos la regresin LOGIT SLO CON LA VARIABLE PI_RATIO (variable continua) (los parmetros del PROBIT no se estiman en este ejemplo con SPSS):

    Variables en la ecuacin

    B E.T. Wald gl Sig. Exp(B)

    Paso 1a PI_RATIO 5,888 ,733 64,529 1 ,000 360,558

    Constante -4,030 ,268 225,517 1 ,000 ,018

    a. Variable(s) introducida(s) en el paso 1: PI_RATIO.

    El resultado en trminos de la funcin analtica NO puede escribirse como:

    iRATIOPIRATIOPIDENYP _9.54_|1 SINO COMO:

    iRATIOPIGRATIOPIDENYP _9.54_|1

    i

    i

    RATIOPI

    RATIOPI

    e

    eRATIOPIDENYP

    _9.54

    _9.54

    1_|1

    Una vez ms la pregunta es: cmo interpretar el valor del 5.9?. Abrimos el fichero de Excel (HDMA1.xls) Y OBSERVAMOS CMO INTERPRETAR LOS RESULTADOS OBTENIDOS:

    Observamos el LPM: valor constante del 0,6% de incremento de la probabilidad de rechazo por cada punto adicional de endeudamiento. La probabilidad al pasar de un 10% a un 20% sera:

    Endeudamiento 0,1 0,2

    Probabilidades -2,0% 4,0%

    Cambio 6,1%

    Y lo mismo ocurrira si valorsemos el paso de un endeudamiento del 60% al 70%:

    21

    Recodificar en distintas variables. 22 any(race,3,5) & any(type,1,2)

  • Endeudamiento 0,6 0,7

    Probabilidades 28,3% 34,3%

    Cambio 6,1%

    Observamos ahora el LOGIT: Calculamos la probabilidad de deny para un par de valores distintos pi=0,1 y pi=0,6 incrementando un 10% la ratio de endeudamiento. Si la ratio de endeudamiento est en el 10%, un incremento de un 10%

    adicional hace que la probabilidad de rechazo pase del 3,10% al 5,46%, es decir, un incremento de la probabilidad del 2,35% (0,235% por cada punto)

    Si la ratio de endeudamiento est en el 60%, un incremento de un 10%

    adicional (hasta el 70%) hace que la probabilidad de rechazo pase del 37,8% al 52,3%, es decir, un incremento de la probabilidad del 14,5% (1,4% por cada punto)

    Ambos clculos, por cierto, pueden efectuarse tambin de forma

    aproximada con un clculo alternativo (ms sencillo en algunos casos) que consiste en multiplicar el valor de G(z) para el punto de partida por el parmetro de inters y la variacin cuyo efecto quiere observarse:

    Por ejemplo, si queremos observar el efecto en la probabilidad de rechazo de un cambio de un 1% en el endeudamiento partiendo de un 10% podemos hacer

    G(0.1)*0.01=G(-4.03+5.88*0,1)*5.88*0.01= =G(-3.44)* 5.88*0.01=0.03*0.0588=0.00177=0.18%

    un valor semejante al obtenido si evaluamos G(z) en el 10%, despus en el 11% y restamos ambas probabilidades.

    2.- Realizamos la regresin LOGIT CON LA VARIABLE PI_RATIO (variable continua) y la variable BLACK (categrica):

    Variables en la ecuacin

    B E.T. Wald gl Sig. Exp(B)

    Paso 1a PI_RATIO 5,379 ,727 54,807 1 ,000 216,831

    B_black(1) 1,269 ,146 75,386 1 ,000 3,557

    Constante -4,129 ,268 237,521 1 ,000 ,016

    a. Variable(s) introducida(s) en el paso 1: PI_RATIO, B_black.

  • Observamos como en este caso el anlisis del parmetro de Black es algo ms sencillo que para PI dado que los posibles valores que puede tomar Black son slo =(White) o 1 (Black) de modo que slo deben calcularse ambas probabilidades (fijando un valor de referencia para X) observamos, por tanto, que el valor del parmetro, cambia segn el nivel de la otra exgena.

    Observamos ahora cmo se evala el parmetro de PI. En este caso, hay que fijar tambin el valor de black de modo que tenemos dos curvas de parmetros segn el valor de Black. Observemos el ejemplo interesante qu pasa si la ratio de endeudamiento pasa del 70% al 80% comparando el caso de blancos y negros? Tienen menor penalizacin los negros?

    Ejercicio para clase: Realizamos la estimacin logit alternativa a la realizada con el

    MLP para MROZ.SAV al principio del tema para observar la estimacin con mltiples variables.

    Ficheros:

    - mroz.sav

    1. Realice una regresin logstica para explicar la participacin de las mujeres casadas en el mercado laboral (inlf - 1, si, 0 no) en funcin de los ingresos del marido (nwifeinc - en 1.000 $), nivel educativo (educ - en aos), experiencia laboral previa (exper en aos) , edad (age en aos), nmero de nios menores de 6 aos (kidslt6 nmero) y nmero de nios entre 6 y 18 aos (kidsge6 nmero).

    2. Identifique las variables ms relevantes 3. Compare los resultados obtenidos con el MLP

    V. Breve apunte sobre la estimacin de modelos Binarios Para estimar los parmetros de un modelo no lineal como los expuestos en el caso del

    Logit / Probit, MCO no nos ser de ayuda en tanto su carcter lineal. Una primera posibilidad consiste en utilizar Mnimo Cuadrados No Lineales. Los parmetros as obtenidos seran consistentes y normalmente distribuidos (asintticamente) pero, sin embargo, NO SERAN EFICIENTES, o lo que es igual, existen estimadores alternativos igualmente consistes pero con menor varianza.

    Los modelos LOGIT y PROBIT se estimarn con Mxima Verosimilitud por lo que conviene tener unos mnimos fundamentos de cmo funciona este mtodo.

    Mxima verosimilitud es un mtodo de estimacin que tiene en cuenta la informacin completa sobre la distribucin de la variable y condicionada a las variables explicativas x y por lo tanto sobre la u. Cuando estimamos por MCO por ejemplo, slo asumimos algunas propiedades bsicas para garantizar el sesgo y la consistencia como la esperanza condicional nula E(x/u)=E(u)=0 .

  • En ciertos casos, como el que nos ocupa con los modelos LOGIT, es

    imprescindible asumir hiptesis concretas sobre el modelo de distribucin de y condicionado a x porque simples restricciones sobre algunos de sus momentos bsicos no seran suficientes para garantizar una estimacin eficiente.

    Cuando utilizamos la informacin completa sobre la distribucin de los

    valores de la endgena dados los valores de las exgenas (tipo de distribucin, varianza condicionada a los regresores,.) obtenemos generalmente estimadores ms eficientes. El precio a pagar, sin embargo, suele ser una prdida de robustez (sesgo y/o inconsistencia). Efectivamente, cuando alguna porcin de esa informacin completa no se verifica o se define de forma pobre. Por ejemplo si suponemos normalidad en la distribucin para la estimacin de un determinado estimador MV y sin embargo esa normalidad no se verifica.

    Para ilustrar el funcionamiento de MV podemos utilizar el caso de un modelo binario. En

    un modelo binario asumimos que la variable observada y depende del valor de una variable latente y* que a su vez sigue una distribucin lineal en x del modo:

    0

    0

    0

    1*

    *

    i

    i

    y

    yy

    iii uXy *

    Para determinar la probabilidad de que ocurra y=1 tenemos entonces:

    iiii

    iiiii

    XXxXuP

    xXuPxuXPxyPxyP

    1|1

    ||0|0|1 *

    Donde representa lo que anteriormente habamos denominado y que toma una u otra forma dependiendo de la funcin de distribucin acumulada que queramos suponer. Dada la expresin anterior de la probabilidad para el suceso Y=1, tenemos que la funcin de densidad de la variable y para cada observacin i puede escribirse como:

    0,1 y1| i1

    ii y

    i

    y

    iii XGXGXyf

    Y el logaritmo de la funcin (denominado logaritmo de verosimilitud individual):

    1log1log iiii XGyXGy Al escribir expresamos la idea de que nos interesa determinar qu conjunto de parmetros maximizan la probabilidad de encontrar cada una de las observaciones de yi. Por ejemplo, si observamos un caso en el que Yi=1, qu conjunto de parmetros multiplicados por los valores de x para ese caso generaran el mayor valor de la funcin de densidad para Y=1?. La idea en MV es emprender el clculo de esos de cara a

  • maximizar la probabilidad de encontrar, no una observacin concreta i, sino la muestra de N observaciones completa. Si la probabilidad de que cada yi tome un valor u otro es la descrita en la ecuacin anterior (en logaritmos), la probabilidad de encontrar la muestra completa ser la expresada por lo que se denomina logaritmo de la Funcin de Verosimilitud (conjunta) :

    Y el estimador MV de los parmetros maximiza entonces el logaritmo de la Funcin de Verosimilitud. Es entonces cuando, por ejemplo, en el caso del modelo Probit, asumimos que la funcin corresponde a una normal estandarizada o en el caso de un logit a una funcin logstica.

    VI. Contrastes de hiptesis en los resultados de un LOGIT El procedimiento de mxima verosimilitud permite determinar la varianza asinttica de

    los parmetros, imprescindible para la realizacin de contrastes de significacin. Puede demostrarse que el estimador MV obtenido conforme al procedimiento anteriormente ilustrado es consistente y asintticamente normal por lo que pueden utilizarse con sencillez los contrastes t y F para realizar contrastes.

    Significatividad individual:

    Como ya se ha indicado, el estimador MV se distribuye con normalidad para

    muestras grandes por lo que pueden emplearse contrastes t tanto para j (H0: j =0) como para exp(j) (H0: exp( j) =1).

    Algunos programas utilizan la denominacin estndar t o F 23 al reportar los resultados de significatividad individual o incluso la denominacin de Wald (el test de Wald se distribuye como una Chi24). En todo caso, la hiptesis a testar es siempre la misma y el p-value o nivel de significacin el contraste refleja siempre el riesgo asociado al rechazo de la nula (H0: j =0 H0: exp( j) =1).

    El SPSS en concreto muestra el test de Wald (distribuido como una Chi) y el

    intervalo de confianza para exp(j) basado en una distribucin asinttica normal.

    En el caso de las covariables categricas, estas se introducen como binarias

    0/1 para cada categora. As pues (1) se podr realizar un contraste para cada categora y (2) se podr decidir si cul es la categora de referencia con la que comparar el efecto. En este sentido, el SPSS ofrece varias alternativas:

    23

    Recordemos que la F es el cuadrado del contraste t para la nula j=0 24

    Algunos textos / software utilizan en los clculos la distribucin F y otros qxF = Chi, es decir, F=Chi/q o Chi=qxF.

  • Para el caso de Binarias: Indicador (presencia de un efecto respecto a una categora de referencia)

    Para el caso de multicategricas:

    Simple. Cada categora del predictor (excepto la propia categora de referencia) se compara con la categora de referencia.

    Diferencia (Helmert Inverso). Cada categora del predictor, excepto la primera categora, se compara con el efecto promedio de las categoras anteriores.

    Helmert. Cada categora del predictor, excepto la ltima categora, se compara con el efecto promedio de las categoras subsiguientes.

    Repetidas. Cada categora del predictor, excepto la primera categora, se compara con la categora que la precede.

    Para el caso de las covariables mtricas (pero discretas)

    Polinmico. Contrastes polinmicos ortogonales. Se supone que las categoras estn espaciadas equidistantemente.

    Desviacin. Cada categora del predictor, excepto la categora de referencia, se compara con el efecto global.

    Pruebas de hiptesis conjuntas:

    El valor de la funcin de verosimilitud para un determinado modelo se asocia, en la estimacin MV, con una medida de la calidad del ajuste aunque, obviamente, slo en trminos relativos porque su valor absoluto no representa nada.

    Por tanto, cuando se trata de comparar dos modelos o de testar, si se prefiere decir as, alguna hiptesis conjunta relativa a un conjunto de parmetros, se comparan entonces los valores de la funcin de verosimilitud de ambos modelos. El modelo que lleva implcita la hiptesis nula se denomina Modelo Restringido y el valor de su funcin d verosimilitud ser lgicamente menor que el de aquel que generalmente denominamos No restringido.

    Puede comprobarse que el doble de esta diferencia de verosimilitud se distribuye como una Chi cuadrado con q grados de libertad bajo la hiptesis nula (restriccin) donde q representa el nmero de parmetros restringidos. As pues, en lugar de utilizarse la diferencia en bruto, se utiliza el denominado Ratio de verosimilitud o LR expresado como25:

    [ ]

    25

    A veces, extrayendo el logaritmo fuera de las funciones de verosimilitud el contraste LR se escribe tambin como:

    [ ] [ ]

    [

    ]

  • Si el valor del test LR supera el valor de

    rechazamos la restriccin analizada.

    Grado de calidad global del ajuste:

    Un contraste inicial conforme a la definicin previa es el de la nulidad conjunta de

    todos los parmetros. Este aparece en SPSS bajo la denominacin genrica de Omnibus Test y se trata de una aplicacin concreta del test LR26 descrito anteriormente para la hiptesis de nulidad conjunta de todos los parmetros. Es por tanto el equivalente al test F de un modelo de regresin lineal.

    Un segundo dato generalmente ofrecido es el valor de la funcin de verosimilitud para el modelo estimado. En concreto, en lugar de reportarse el valor de

    se ofrece (denominado a veces -2LL o deviance).27

    Evidentemente, este valor no puede evaluarse en trminos absolutos por lo que no sirve como medida de ajuste global pero s puede utilizarse para comparar el ajuste con uno alternativo (del mismo modo que usamos la suma cuadrtica residual en una estimacin de mnimos cuadrados)28.

    Uno de los contrastes habituales es la denominada Pseudo R2 29que compara (en una ratio), el valor L del modelo estimado con el valor del modelo sin ningn parmetro (slo con el trmino independiente)30. Un valor cercano a 0 indica que el modelo especificado no ha mejorado el modelo ingenuo (restringido al trmino independiente).

    Intercep

    Modelo

    L

    LR 12

    Grado de calidad predictiva del modelo LOGIT: Tabla de prediccin correcta. Evidentemente, la forma ms directa de evaluar la

    capacidad predictiva es mediante la habitual tabla de clasificacin. En este sentido, conviene observar que, en el caso del SPSS, se informa del % predicho sin modelo, es decir, asignando todos los casos a la categora ms probable, algo que aparece bajo la denominacin Bloque 0: Bloque inicial. Esta es una clasificacin ex - modelo que marca el umbral mnimo de aciertos a mejorar.

    En algunos programas, como SPSS, junto a la tabla de clasificacin puede

    solicitarse aparece tambin un grfico de clasificacin (classification plot) que permite observar la distribucin de las frecuencias observadas con relacin al valor de la probabilidad estimada. Este grfico puede ayudar a determinar un

    26

    De hecho, stata denomina en su salida a esto directamente LR Test. 27

    Se ofrece el valor negativo porque la funcin de verosimilitud original tiene signo negativo al tratarse de un logaritmo de una probabilidad (0,1). Se multiplica por dos para que pueda utilizarse en bruto para formar test LR de comparacin con otros modelos. 28

    Por ejemplo, el cambio en este valor se utiliza para guiar el procedimiento de seleccin de explicativas en un STEP-WISE. 29

    SPSS denomina a esto Cox & Snell R2. Esta medida est, no obstante, sesgada a la baja porque no alcanza la unidad. La

    alternativa R2 de Nagalkerke est re-escalada a 1 para evitar este defecto.

    30 Es decir, la misma hiptesis testada con el Omnibus. Esa idea es idntica al caso del modelo lineal en la que tambin hay una relacin aritmtica exacta entre el valor de la F (test Omnibus) y la R2.

  • punto de corte ideal en la probabilidad distinto al que, por defecto, se utiliza en la estimacin LOGIT.

    Hosmer-Lemeshow. El test HL contrasta la hiptesis de que exista una relacin lineal entre los predictores y el log(Odds). Es un test de la capacidad predictiva del logit (ms que de la significativiad global del modelo). Se trata de observar si la distribucin real de la variable (suceso y=1) se ajusta a la estimada (probabilidad y=1). Para ello, se ordena la muestra conforme al valor estimado para yi y se divide el eje en decilas conforme a esos valores ordenados. A continuacin, se compara para cada decila el nmero de eventos reales observados (en cada decila) con el nmero de eventos predichos (probabilidad superior a 0.5). El test HL recoge las diferencias para todas las decilas que, debidamente procesadas, se distribuyen conforme a una Chi 31 bajo la nula de un buen ajuste (escasa diferencia de la distribucin de valores reales y pronosticados). Por tanto, el rechazo de nula implica un mal modelo en trminos predictivos. Suele recomendarse para muestras pequeas y en aquellos modelos binarios con covariables mtricas.

    VII. Otros aspectos a valorar en la estimacin de un modelo Binario

    Deteccin de puntos Leverage, y puntos de influencia. En SPSS pueden generarse y guardarse tres tipos habituales (como opcin en la pantalla SAVE): el valor del Leverage32 y, respecto a los puntos de influencia, la distancia de Cook33 y el cambio en los parmetros (DFBeta) 34 .

    Leverage

    Este tipo de valores con x atpicas pueden no influir en los parmetros pero tienen potenciales consecuencias relevantes en las medidas de ajsute global35

    Punto de influencia Este tipo de puntos con valores atpicos en x e Y pueden influir en los parmetros estimados pero tienen potenciales consecuencias relevantes en las medidas de ajsute global

    Debe, puede analizarse la multicolinealidad?. El problema de la multicolinalidad es igual de importante en la regresin normal que en la logstica (en ambas, adems, la interpretacin de los parmetros es esencial) pero SPSS no ofrece formas de

    31

    Con n-2 grados de libertad donde n es el nmero de grupos (decilas, por ejemplo) formados. 32 Medido conforme a la distancia (estandarizada) de cada observacin i al centroide del espacio x. 33

    Que mide el cambio en el ajuste global del modelo al excluir cada una de las observaciones. 34 Que mide el cambio en cada parmetro al excluir cada una de las observaciones. 35 Pueden tener un efecto desproporcionado en el error estndar de los parmetros, en los valores predichos y su exactitud y en las medidas resumen del modelo.

  • diagnosticarla salvo la matriz de . Pede utilizarse una regresin estndar para chequear su existencia antes de entrar en logit an de forma aproximada.

    Cmo evaluamos interacciones?. Debemos introducirlas manualmente (como

    variables generadas previamente).

    Curvas ROC:

    La prediccin de la categora genera falsos positivos y falsos negativos. Los aciertos, por su parte, determinan la sensibilidad de una prueba (verdaderos positivos) y su especificidad (verdaderos negativos). Por ejemplo, en esta tabla de clasificacin tenemos mucha sensibilidad (a lo real) peor poca especificidad (para distinguir lo falso):

    PREDICHO

    V F

    REAL V 36 4 40

    F 35 25 60

    71 29 100

    SENS ACIERTOS "V"

    VERDADEROS "V"

    36

    40 0,9

    ESPEC ACIERTOS "F"

    VERDADEROS "F"

    25

    60 0,4

    La especificidad y sensibilidad son atributos generalmente sustitutivos, y sus pesos relativos pueden alterarse con un criterio ms o menos conservador para realizar la clasificacin.

    En el caso de un LOGIT, alterar el punto de corte cambia la especificidad y sensibilidad de la clasificacin. El grfico ROC nos ayuda a evaluar el trade off entre sensibilidad y especificidad y tomar una decisin sobre el punto de corte a utilizar para lograr uno u otro objetivo en trminos de sensibilidad / especificidad. En el grfico de abajo, por ejemplo, se observa que no es posible alcanzar una sensibilidad (del 80%, por ejemplo), sin renunciar a la especificidad (que estara alrededor del 40%).

  • Para evaluar el perfil de nuestra Curva ROC, se utiliza el rea bajo la curva. Debe pensarse que la situacin ideal es aquella en la que el anlisis tiene un 100% de especificidad y de sensibilidad (valor 0 de 1-Especificidad), es decir, lo ideal es que exista un lugar situado en el eje superior izquierdo, rodeando el marco de la Curva ROC. Si esto es as, el rea bajo la curva es 1 (el grfico es un cuadrado de 1x1). En el peor de los casos, la curva ROC se sita sobre la diagonal (con un rea =0,5). Por debajo de ese nivel (curvas crecientes), debera invertirse el criterio de uso de la prueba

    La cuestin bsica es cmo determinar el punto de equilibrio ideal Sensibilidad / Especificidad?. Para ello, deben evaluarse los beneficios y costes de los aciertos y errores. Con una perspectiva simplista, podemos utilizar esta ratio:

    m coste falsos positivos

    coste falsos negativos*

    1 p

    p

    donde p es el valor de ocurrencia del suceso en la poblacin (o muestra observada). Si el suceso 1 es tan probable como el 0 y el coste del error positivo y negativo es el mismo, un punto de corte que iguale la especificidad y la sensibilidad es adecuado. Sin embargo, si los sucesos son igual de probables pero el falso positivo es el doble de caro que el negativo, se requerira ms sensibilidad y viceversa. En trminos grficos, el punto de corte es aquel en el que la pendiente de la tangente coincide con m.

    Otra forma de medir la capacidad predictiva es usar una Tabla de Ganancias. Sin

    mediar clasificacin, un grupo elegido al azar de un 10% de la muestra debera contener tanto sucesos 1 como proporcin haya en la muestra global. Si ese 10% no es un 10% al azar sino el decil con mayores valores en la endgena estimada en un buen modelo, es seguro que encontraremos ms de un 10% de individuos con valor 1. La tabla de ganancias compara, por deciles de la endgena estimada, los casos pronosticados como 1 segn el modelo, con los que corresponderan a una asignacin aleatoria de casos36.

    36 En SPSS, Definimos la variable de percentiles de la probabilidad estimada. (Transformar Asignar Rangos a Casos Tipos de rango. Conviene invertir el rango asignando 1 al de mayor valor) . SPSS la llamar automticamente NPRE o algo similar. Elaboramos una tabla personalizada utilizando la endgena ordinal (NPRE) para definir las filas y colocando en columnas una variable (ID, por ejemplo) para que muestre los % en cada tramo de (NPER) (arrastramos ID a la tabla y cambiamos el estadstico

  • Ejercicio para clase: Realizamos la estimacin logit del modelo sobre la intencin de irse de casa utilizando una especificacin ms completa.

    Ficheros:

    - casa.sav

    1. Se plantea a una muestra de jvenes de 20 a 35 que viven con sus padres un escenario de trabajo determinado y se les pregunta sobre su decisin (en ese contexto) sobre irse de casa (variable decisin). Utilizaremos en esta ocasin la variable gnero (gender, Hombre = 1), la percepcin del entrevistado sobre su grado de libertad en el hogar (escala 1-9 obtenida a partir de una respuesta en escala grfica), la valoracin sobre su satisfaccin con su situacin sentimental (escala 1-9 obtenida a partir de una respuesta en escala grfica) y la variable de situacin familiar. Nota: Utilice como categora de contraste para la situacin familiar la primera de ellas, es decir, convivencia con ambos progenitores y hermanos.

    2. Observe los parmetros obtenidos y comente su significado y significatividad estadstica.

    3. Calcule la probabilidad de irse de casa para un individuo prototpico y represente los cambios ante variaciones de inters.

    4. Observe las medidas de significatividad conjunta 5. Guarde las medidas de deteccin de atpicos y leverage y filtre los atpicos

    excluyendo a todos aquellos que tengan un valor superior a dos desviaciones tpicas la media de la Distancia de Cook o el valor de Leverage.

    6. Observe las medidas de calidad predictiva. Reduzca el umbral de clasificacin hasta el valor observado de suceso en la poblacin y compruebe el cambio en los resultados.

    de resumen por el recuento en % de la columna). Aadimos ahora tambin por columna la variable de Grupo Pronosticado por el LOGIT. Editamos las categoras y eliminamos la categora asociada al 0 ; volvemos entonces a la tabla y cambiamos el estadstico de resumen (% de N de la Columna). Aadimos el total en las columnas de la fila (Para eso, marcamos la variable que ocupa filas y en la pestaa categoras y totales marcamos el TOTAL).

  • Segundo ejemplo: Fichero nuevaoferta.sav ejemplificamos con step wise Fichero credit.sav para mltiple

    INTRODUCCIN BSICA a la interpretacin un modelo LOGIT MULTINOMIAL

    Qu hacemos si queremos predecir la marca que alguien comprar (de un conjunto de 4), el voto (de un conjunto de 3), la satisfaccin (mala, regular, buena)?. Necesitamos un LOGIT multinomial (no ordinal u ordinal).

    En un logit MULT, existen varias categoras para la endgena, por lo que, a qu probabilidad se asocia la endgena de un modelo LOGIT? Efectivamente, lo primero que habr que hacer es elegir una categora de referencia.

    En el LOGIT binario, los parmetros se asociaban con el cambio en la Odds del suceso 0 frente al 1, o permitan calcular (con las operaciones pertinentes) cmo se incrementaba la probabilidad del suceso 1 frente al 0 al variar la exgena, pero ahora cmo es posible que un nico parmetro evale el cambio desde cada categora a la categora de referencia?. Efectivamente, no es posible, y por eso observaremos, para cada exgena, tantas ecuaciones, y tantos parmetros como categoras existan distintas a la de referencia.

    As, cada ecuacin, los coeficientes nos hablarn del incremento de la probabilidad

    relativa del suceso analizado respecto al suceso de referencia (o sea, como en el LOGIT)