30
Bioestadística Inferencias con datos categóricos

Bioestadística Inferencias con datos categóricos

Embed Size (px)

Citation preview

Page 1: Bioestadística Inferencias con datos categóricos

Bioestadística

Inferencias con datos categóricos

Page 2: Bioestadística Inferencias con datos categóricos

Posibles escenariosESTADO REAL (VERDAD)

desconocido

Hay diferencia, Ha es verdadera

EVIDENCIA( DATOS)observado

No diferencia (No rechazar H0)

No hay diferencia, H0 es verdadera

Error Tipo II (β)

Error Tipo I (α)

Diferencia (Rechazar H0 y aceptar Ha)

NO HAY ERROR

NO HAY ERROR

Page 3: Bioestadística Inferencias con datos categóricos

Interpretando pruebas:

P-value de la

muestra< 0.05

α o nivel de significancia

Prob. de error tipo Prob(Ho verdadera) Rechazo Ho y acepto Ha

Me preocupo de que Ho pueda ser verdadera, particularmente si el p-

value es < 0.05 pero no muy “pequeño”

No puedo rechazar Ho y no puedo afirmar nada sobre la validez de HaLa diferencia/asociación observada

tiene relevancia biológica?El tamaño de muestra dió suficiente

“potencia” (1-β)?Si es fácil, calcule la potencia

SI

NO

Page 4: Bioestadística Inferencias con datos categóricos

Usos de la prueba Chi2:

Para determinar si dos variables categóricas están asociadas entre sí

Para determinar el ajuste de datos empíricos provenientes de una muestra a una cierta distribución teórica

Para hacer estimación por intervalos y prueba de hipótesis de una muestra sobre la varianza de una población

Page 5: Bioestadística Inferencias con datos categóricos

Principio central: Cálculo de las diferencias (al cuadrado) entre los

valores observados y esperados de una o mas variables

Los valores esperados se calculan de acuerdo a una distribución planteada como hipótesis nula

Si la suma de las diferencias es “grande”, la distribución propuesta para los valores esperados (H0) no “predice” bien los valores que hemos observado. Se rechaza H0.

Page 6: Bioestadística Inferencias con datos categóricos

Ejemplo: relación entre el género y el status social

Page 7: Bioestadística Inferencias con datos categóricos

La pregunta de interés:

¿El status social está relacionado con el género en las personas encuestadas en el estudio de DEVIDA?

¿La distribución por clase social es diferente entre varones y mujeres?

¿La proporción de varones y mujeres difiere entre los grupos sociales estudiados?

Page 8: Bioestadística Inferencias con datos categóricos

Hipótesis: Comparando la distribución por clase social:

– Hipótesis nula (Ho):

Claseshombres = Clasesmujeres

– Hipótesis alternativa (Ha):

Claseshombres Clasesmujeres

Comparando la distribución por sexo:– Hipótesis nula (Ho):

Sexoalta = Sexomedia = Sexobaja

– Hipótesis alternativa (Ha):

Sexoalta , Sexomedia , Sexobajano son iguales. Al menos una de estas proporciones difiere de las otras

Page 9: Bioestadística Inferencias con datos categóricos

Entendiendo el método:

Un eje para calcular marginales

Page 10: Bioestadística Inferencias con datos categóricos

Calculando valores esperados:

108 * 0.4344 = 46.9 108 * 0.5656 = 61.1

1,261 * 0.4344 = 547.8 1,261 * 0.5656 = 713.2

3,481 * 0.4344 = 2,107.0 3,481 * 0.5656 = 2,473.0

Page 11: Bioestadística Inferencias con datos categóricos

Escogiendo otro eje:

Eje para calcular marginales

Page 12: Bioestadística Inferencias con datos categóricos

Calculando valores esperados:

2,107 * 0.0223 = 46.9 2,107 * 0.2600 = 547.82,107 * 0.7177 = 1,512.3

2,743 * 0.0223 = 61.12,743 * 0.2600 = 713.22,743 * 0.7177 = 1,968.7

Page 13: Bioestadística Inferencias con datos categóricos

Cálculo de la Chi2:

Grados de libertad = (filas – 1) * (columnas –1) = (3-1) * (2-1) = 2

Fil. Col. Obs. Esp. Dif. Dif^2 Dif^2/Esp1 1 60 46.9 13.1 171.6 3.71 2 48 61.1 -13.1 171.6 2.82 1 555 547.8 7.2 51.8 0.12 2 706 713.2 -7.2 51.8 0.13 1 1,492 1,512.3 -20.3 412.1 0.33 2 1,989 1,968.7 20.3 412.1 0.2

Total 7.1

Page 14: Bioestadística Inferencias con datos categóricos

En Stata:

Page 15: Bioestadística Inferencias con datos categóricos

Chi2 con 2 grados de libertad:

0.00

0.03

0.06

0.09

0.12

0 2 4 6 8

Chi-cuadrada

Pro

ba

bil

ida

d

Si Chi2>5.99 (α=0.05),rechaza H0

Chi2 calculado = 7.10 (p=0.029)

Page 16: Bioestadística Inferencias con datos categóricos

Interpretación: Según el estadístico Chi2 , el sexo no es

independiente del status social

La proporción de varones y mujeres difiere según el status social

La proporción de varones es diferente estadísticamente entre los tres estratos socioeconómicos

La distribución según estrato social difiere entre varones y mujeres

Page 17: Bioestadística Inferencias con datos categóricos

La prueba Chi2:

Page 18: Bioestadística Inferencias con datos categóricos

Pregunta de Interés:

La distribución entre sexos difiere entre las cuatro regiones

El sexo es independiente de la región (?)

Page 19: Bioestadística Inferencias con datos categóricos

Hipótesis Planteadas:

Hipótesis nula (Ho):

%VaronesLima = %VaronesCosta = %VaronesSierra = %VaronesSelva

Hipótesis alternativa (Ha):

La proporción de varones difiere al menos entre dos de las regiones

Page 20: Bioestadística Inferencias con datos categóricos

Cálculos:

Eje a escoger

Valores esperados

Grados de libertad

Page 21: Bioestadística Inferencias con datos categóricos

Interpretación:

El sexo es independiente de la región geográfica

La proporción de varones no cambia entre las cuatro regiones geográficas

Page 22: Bioestadística Inferencias con datos categóricos

Ejemplo 3:

La proporción de varones y mujeres en la encuesta es 50%

Page 23: Bioestadística Inferencias con datos categóricos

Prueba exacta de Fisher:

Válida para tablas 2x2 y para N x M

Usa permutaciones y se basa en las probabilidades marginales observadas

No requiere un mínimo valor esperado por celda

Page 24: Bioestadística Inferencias con datos categóricos

Prueba exacta de Fisher:

Page 25: Bioestadística Inferencias con datos categóricos

Concordancia entre dos pruebas:

T E S T A

Sin enfermedad (A+) Con enfermedad (A-)

T

E

S

T

B

Sinenfermedad

(B+)

Conenfermedad

(B-)

A+ y B+

a

A- y B+

b

A+ y B-

c

A- y B-

d

Page 26: Bioestadística Inferencias con datos categóricos

El estadístico Kappa:

Concordancia Observada – Concordancia Aleatoria

Kappa = ------------------------------------------- 1 - Concordancia Aleatoria

Concordancia Observada = (a + d) / (a + b + c + d)

Concordancia Aleatoria = [a / (a + b)] * [a / (a + c)] +

(esperada) [d / (c + d)] * [d / (b + d)]

Page 27: Bioestadística Inferencias con datos categóricos

Calculando a mano:

Observada: 0.0509 + .6765 = 0.7274Aleatoria: (86.3 + 3,120.3)/4850 = 0.6612

Page 28: Bioestadística Inferencias con datos categóricos

Cálculos:

Concordancia Observada – Concordancia Aleatoria

Kappa = ---------------------------------------------- 1 - Concordancia Aleatoria

0.7274 – 0.6612 0.0662

Kappa = ----------------- = -------- = 0.1954 1 – 0.6612 0.3388

Page 29: Bioestadística Inferencias con datos categóricos

Estadístico Kappa:

Page 30: Bioestadística Inferencias con datos categóricos

Que debemos recordar de hoy: El concepto y los supuestos para la aplicación de

la prueba Chi2

Como aplicar la prueba Chi2 para determinar si dos variables categóricas están asociadas entre si

El uso de la prueba Chi2 para determinar la validez de una cierta distribución teórica sobre un conjunto de datos empíricos

La aplicación e interpretación de la prueba Kappa de concordancia