19

Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Análisis de datos categóricos

Regresión multinomial

Ms Carlos López de Castilla Vásquez

Universidad Nacional Agraria La Molina

2017-1

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 2: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Distribución multinomial

Distribución multinomial

Considere una variable aleatoria Y con J categorías cuyas

probabilidades respectivas son π1, · · · , πJ tales que∑πj = 1.

Si existen n observaciones independientes para Y tales que y1corresponden a la categoría 1, y2 corresponden a la categoría 2

y así sucesivamente, entonces:

y ∼M (n,π)

donde y = (y1, · · · , yJ) y π = (π1, · · · , πJ) .La función de probabilidad es:

f (y|n) = n!

y1! · · · , yJ !πy11 · · ·π

yJJ

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 3: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Distribución multinomial

Distribución multinomial

La distribución multinomial no cumple con los requisitos de

una familia exponencial.

Sin embargo existe una relación con la distribución de Poisson

que permite usar los modelos lineales generalizados.

Sean Y1, · · · ,YJ v.a.i. tales que Yj ∼ P(λj). Si n =∑

Yj

entonces n ∼ P (∑λj). Se puede demostrar que:

y|n ∼M(n, πj =

λj∑λj

)La distribución multinomial se puede considerar como la

función de probabilidad conjunta del vector aleatorio de

Poisson condicionado en su suma.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 4: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

Se usa cuando no existe un orden natural entre las categorías

de Y .

Una de las categorías se elige como referencial. Supongamos

que se trata de la primera.

Los logits para las otras categorías se de�nen por:

log

(πjπ1

)= x

Tβj j = 2, · · · , J

La probabilidad para la categoría referencial es:

π̂1 =1

1+∑J

k=2 exp {xTβk}

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 5: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

Las probabilidades restantes se calculan por:

π̂j =exp

{xTβj

}1+

∑Jk=2 exp {xTβk}

j = 2, · · · , J

Los residuales de Pearson son:

ri =oi − ei√

ei

y pueden ser usados para determinar si el modelo es adecuado.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 6: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

El estadístico chi-cuadrado: X 2 =∑N

i=1 r2i

El estadístico de devianza:

D = 2(l(β̂max)− l(β̂)

)El estadístico chi-cuadrado de razón de verosimilitud:

C = 2(l(β̂)− l(β̂min)

)El pseudo R cuadrado:

R2 =l(β̂min)− l(β̂)

l(β̂min)

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 7: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

Los efectos de las variables predictoras se interpretan en

términos de los odds ratios.

Si se tienen J categorías y una variable predictora que

representa la exposición a un factor tal que:

X =

{1 si el factor esta presente

0 si el factor esta ausente

El odds ratio para la categoría j relativa a la categoría de

referencia con respecto a la variable predictora es:

ORj =

πjp

πja

π1pπ1a

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 8: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

Considere el modelo:

log

(πjπ1

)= β0j + β1jx j = 2, · · · , J

Si el factor de exposición esta presente:

log

(πjpπ1p

)= β0j + β1j

Si el factor de exposición no esta presente:

log

(πjaπ1a

)= β0j

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 9: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

El logaritmo del odds ratio es:

logORj = log

(πjpπ1p

)− log

(πjaπ1a

)donde:

ORj = exp {β1j}

Si β1j = 0 entonces ORj = 1 lo cual indica que el factor de

exposición no tiene efecto importante en el modelo.

La elección de la categoría de referencia para Y afecta las

estimaciones de los coe�cientes del modelo pero no las

probabilidades estimadas.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 10: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Ejemplo: Vida después de la muerte

Se clasi�caron las respuestas de un grupo de estudiantes de

acuerdo al género, raza y sobre su opinión acerca de la vida

después de la muerte.

Los datos se encuentran en el aula virtual del curso.

Tabla 1: Opinión sobre la vida después de la muerte

Raza Género Si No sabe No

Blanca Femenino 371 49 74

Masculino 250 45 71

Negra Femenino 64 9 15

Masculino 25 5 13

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 11: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Regresión logística nominalEjemplo: Vida después de la muerte

Regresión logística nominal

Regresión logística nominal

> library(nnet)

> attach(Opiniones)

> m1 <- multinom(Opinion ~ Raza + Genero, weights=Frec)

> �tted.values(m1)

Cambio de categoría referencial

> Raza <- relevel(Raza, "Negra")

> Genero <- relevel(Genero, "Masculino")

> Opinion <- relevel(Opinion, "Nosabe")

> m2 <- multinom(Opinion ~ Raza + Genero, weights=Frec)

> �tted.values(m2)

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 12: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Regresión logística ordinal

Si existe un orden natural entre las categorías de Y entonces

deben ser tomadas en cuenta en la construcción del modelo.

En algunas situaciones existen variables aleatorias difíciles de

medir tales como la severidad de una enfermedad.

Se pueden identi�car puntos de corte Cj para una variable

latente Z .

Los pacientes con valores pequeños de Z son clasi�cados como

no tiene enfermedad y aquellos con valores grandes de Z son

clasi�cados como enfermedad leve o enfermedad moderada.

Los puntos de corte C1, · · · ,CJ−1 de�nen J categorías

ordinales con probabilidades asociadas π1, · · · , πJ .

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 13: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Modelo logístico acumulativo

El odds acumulativo para la categoría j es:

Pr (Z ≤ Cj)

Pr (Z > Cj)=

π1 + π2 + · · ·+ πjπj+1 + πj+2 + · · ·+ πJ

El modelo logit acumulativo es:

log

(π1 + π2 + · · ·+ πj

πj+1 + πj+2 + · · ·+ πJ

)= x

Tβj

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 14: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Modelo de odds proporcionales

Suponga que en el predictor lineal solo el intercepto depende

de la categoría j .

El modelo de odds proporcionales es:

log

(π1 + · · ·+ πjπj+1 + · · ·+ πJ

)= β0j + β1x1 + · · ·+ βpxp

El modelo anterior se basa en el supuesto que los efectos de

las variables predictoras son iguales para cualquiera de las

categorías.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 15: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Modelo de categorías adyacentes

Se puede considerar ratios de probabilidad para categorías

consecutivas, por ejemplo:

π1π2,π2π3, · · · , πJ−1

πJ

El modelo logit de categorías adyacentes es:

log

(πjπj+1

)= β0j + β1x1 + · · ·+ βpxp

El efecto de cada variable predictora se asume que es el mismo

para categorías adyacentes.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 16: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Otros modelos

Otra alternativa es modelar:

π1π2 + · · ·+ πJ

,π2

π3 + · · ·+ πJ, · · · , πJ−1

πJ

El modelo sería:

log

(πj

πj+1 + · · ·+ πJ

)= x

Tβj

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 17: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Ejemplo: Discapacidad mental

Se realizó un estudio de salud mental para una muestra

aleatoria de adultos residentes de Florida.

El estudio intenta relacionar la discapacidad mental de los

pacientes con dos variables explicativas.

La discapacidad mental se considera una varible ordinal con

categorías: ausente, leve, moderado y presente.

La variable explicativa X1 mide el número de eventos

importantes en la vida del paciente como el nacimiento de los

hijos, cambio de trabajo, divorcio, fallecimiento en el entorno

familiar, etc durante los últimos tres años.

La variable explicativa X2 mide el nivel socioeconómico del

paciente (1 = alto y 0 = bajo).

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 18: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Ejemplo: Discapacidad mental

Modelo logístico acumulativo

> attach(Mental)

> Discapacidad <- ordered(Discapacidad, labels=c("Ausente",

"Leve", "Moderado", "Presente"))

> library(VGAM)

> m1 <- vglm(Discapacidad ~ x1 + x2, family=cumulative)

Modelo de odds proporcionales

> m2 <- vglm(Discapacidad ~ x1 + x2,

family=cumulative(parallel=TRUE))

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos

Page 19: Análisis de datos categóricos - La Molinaclopez/Categoricos/Regresion_Multinomial.pdf · Análisis de datos categóricos Regresión multinomial ... estimaciones de los coe cientes

IntroducciónRegresión logística nominalRegresión logística ordinal

Modelo logístico acumulativoModelo de categorías adyacentesEjemplo: Discapacidad mental

Ejemplo: Cinturón de seguridad

Se tiene información correspondiente a 68694 accidentes de

automóviles y camiones ocurridos en el estado de Maine en

1991.

Los conductores fueron clasi�cados por género, ubicación del

accidente y el uso del cinturón de seguridad.

La variable respuesta es la condición del conductor luego del

accidente: (y1) no resulto herido, (y2) herido pero no

transportado por servicios médicos de emergencia, (y3) herido,

transportado por los servicios médicos de emergencia pero no

hospitalizado, (y4) herido y hospitalizado y (y5) fallecido.

Los datos se encuentran en el aula virtual del curso.

Ms Carlos López de Castilla Vásquez Análisis de datos categóricos