26
Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple Modelo lineal Modelo lineal Relación entre variables Relación entre variables cuantitativas cuantitativas Variable dependiente e independiente Variable dependiente e independiente Coeficiente de correlación Coeficiente de correlación significativo. significativo. Buen” coeficiente de Buen” coeficiente de correlación(r>0,7) correlación(r>0,7) Coeficiente de determinación: Coeficiente de determinación: porcentaje de la varianza que explica porcentaje de la varianza que explica el modelo. el modelo.

Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Embed Size (px)

Citation preview

Page 1: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple

Modelo linealModelo lineal

Relación entre variables cuantitativasRelación entre variables cuantitativas Variable dependiente e independienteVariable dependiente e independiente Coeficiente de correlación significativo.Coeficiente de correlación significativo. ““Buen” coeficiente de correlación(r>0,7)Buen” coeficiente de correlación(r>0,7) Coeficiente de determinación: porcentaje Coeficiente de determinación: porcentaje

de la varianza que explica el modelo.de la varianza que explica el modelo.

Page 2: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

•La IS esta significativamente relacionada con la CV

•Por cada unidad adicional en la escala de IS, la CV aumenta en 0,76 unidades.

•La IS explica el 55% de la varianza de la CV. El ajuste es aceptable, pero hay otros factores determinantes de la CV que no se han considerado.

CV = 0.7813 + 0.7637 IS

Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple

Ejemplo : Calidad de vida y nivel de Ejemplo : Calidad de vida y nivel de integración socialintegración social

Page 3: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

VAR EXPLICATIVA

4003002001000

VA

R R

ES

PU

ES

TA

100

80

60

40

20

0

•Los resultados de la regresión sólo son fiables si el modelo cumple ciertas hipótesis sobre los residuos

•Es preciso realizar una validación del modelo

Validación

Siempre hay una diferencia entre el valor real de la variable respuesta y la estimación a partir de la ecuación de regresión: el residuo

Correlación y Regresión Lineal Simple Correlación y Regresión Lineal Simple

Validación del modeloValidación del modelo

Page 4: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Introducción a las Técnicas Introducción a las Técnicas MultivariantesMultivariantes

Regresión Lineal MúltipleRegresión Lineal Múltiple Regresión LogísticaRegresión Logística Kaplan-Meier y Regresión de CoxKaplan-Meier y Regresión de Cox

Page 5: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Técnicas MultivariantesTécnicas Multivariantes

1. Muchas variables pueden explicar mas: = (multivariante)

3. Variable dependiente:

4. Qué índice explica:

2. BIVARIANTE vs MULTIVARIANTE

RLM RLOG RCOX

Continua Dicotómica Tiempo hasta

B OR HR

5. Qué hago con los que no están:MODELO PREDICTIVO (rentabilidad)

R2 Clasificación -2LL

Page 6: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Variables implicadas:

Cuantitativa

Respuesta

Cuantitativas o dicotómicas

Eje

mp

los

• Tensión arterial

• Concentración sérica

• Tamaño de una lesión

• Porcentaje de absorción

• Calidad de vida

• Satisfacción del paciente

• Nivel de colesterol

• Peso en kgs.

• Edad

• Dosis de un fármaco (mg)

• Nivel de ansiedad

• Sexo

Explicativa (MÚLTIPLES)

Regresión Lineal MúltipleRegresión Lineal Múltiple

VariablesVariables

Page 7: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

¿Cómo se expresa la relación entre las variables?

varresp = a + b1 varexpl_1 + b2 varexpl_2 + ... + bp varexpl_p

ordenada

valor de la var. Resp. para un valor nulo de las var. exp

pendiente 1

aumento de la var. Resp. cuando la var. exp_1 aumenta una unidad

Variables implicadas: una variable respuesta y varias explicativas.

pendiente p

aumento de la var. resp cuando la var. exp_p aumenta una unidad

Regresión Lineal Múltiple Regresión Lineal Múltiple

ModeloModelo

Page 8: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Calidad del modelo:

Para determinar hasta que punto las variables explicativas permiten estimar a la variable respuesta seguimos usando el R2 (COEFICIENTE DE DETERMINACIÓN=VARIANZA EXPLICADA).

Cuanto más cercano a 1 más adecuado es el modelo

Cuanto más cercano a 0 peor resulta el modelo. Es decir, las variables explicativas no se ajustan linealmente a la variable respuesta.

R2 aumenta con muchas VI y en muestras pequeñas R2

ajustado

Un R2 bajo no necesariamente indica que las variables seleccionadas no permiten estimar adecuadamente la

variable respuesta.

Es posible que la relación no sea lineal.

Regresión Lineal Múltiple Regresión Lineal Múltiple

Calidad del modeloCalidad del modelo

Page 9: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Contrastes de hipótesis:

Se puede contrastar si cada pendiente individualmente es significativa o no, es decir, si cada variable explicativa influye realmente sobre la variable respuesta (“t”)

Se puede contrastar si globalmente todas las variables explicativas influyen sobre la variable respuesta (“F”).

Las siguientes paradojas pueden darse,

• Individualmente una variable explicativa puede estar significativamente relacionada con la variable respuesta, pero no ser un predictor significativo en el modelo de regresión lineal múltiple

• Una variable individualmente puede NO estar significativamente relacionada con la variable respuesta, pero en un modelo de regresión lineal múltiple SÍ lo está

Regresión Lineal MúltipleRegresión Lineal Múltiple

ContrastesContrastes

Page 10: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Validación del modelo:

Los residuos del modelo debe seguir cumpliendo ciertas hipótesis básicas:

Media cero

Incorrelación

Normalidad

Para poder interpretar adecuadamente los coeficientes estimados y hacer uso de la recta de

regresión es imprescindible que el modelo sea válido.

Regresión Lineal MúltipleRegresión Lineal Múltiple

ValidaciónValidación

Page 11: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Con los datos correspondientes a 40 sujetos que sufren Alzheimer, intentaremos explicar la Calidad de Vida de este tipo

de pacientes a partir de otras variables

•POSIBLES PREDICTORES:

1. MEMORIA (0-10)

2. CAPACIDAD MOTORA (0-10)

3. INGRESOS ECONÓMICOS

4. INTEGRACIÓN SOCIAL (0-10)

Regresión Lineal Regresión Lineal MúltipleMúltiple Ejemplo: Calidad de Vida en pacientes de Ejemplo: Calidad de Vida en pacientes de

AlzheimerAlzheimer

Page 12: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

• La matriz de correlaciones permite identificar qué variables explicativas están relacionadas con la CALIDAD DE VIDA

• Para medir el efecto de cada variable sobre la CALIDAD DE VIDA se usará una Regresión Lineal Múltiple.

Regresión Lineal MúltipleRegresión Lineal Múltiple

Ejemplo: Descriptiva y Ejemplo: Descriptiva y correlacionescorrelaciones

Page 13: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

• Globalmente, el modelo es estadísticamente significativo, no nulo.

• La MEMORIA y la INTEGRACIÓN SOCIAL son individualmente significativos. No así, la Capacidad Motora ni los Ingresos.

• Los predictores consiguen explicar de forma conjunta el 68.44% de la CALIDAD DE VIDA.

• Siguiente paso: Selección de variables hacia delante, con el objetivo de depurar y reespecificar el modelo.

Regresión Lineal MúltipleRegresión Lineal Múltiple

Ejemplo: Modelo inicialEjemplo: Modelo inicial

Page 14: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

• El modelo va incorporando variables paso a paso

• En el paso 1, la variable INTEGRACIÓN SOCIAL entra en el modelo, porque es la que más explica la CALIDAD DE VIDA.

• En el paso 2, se incorpora la MEMORIA.

• Las restantes variables no aportan capacidad explicativa al modelo, por lo que se quedan fuera.

• En cada paso podemos saber cuánto somos capaces de explicar de la CALIDAD DE VIDA.

Regresión Lineal MúltipleRegresión Lineal Múltiple

Ejemplo: Modelo óptimoEjemplo: Modelo óptimo

Page 15: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

• INTEGRACIÓN SOCIAL: aunque su efecto se ha estimado puntualmente como 0,64, éste puede oscilar entre 0,43 y 0,84.

• MEMORIA: aunque su efecto se ha estimado puntualmente como 0,36, éste puede oscilar entre 0,16 y 0,56.

Regresión Lineal Múltiple Regresión Lineal Múltiple

Ejemplo: Coeficientes definitivos Ejemplo: Coeficientes definitivos e ICe IC

Page 16: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Variables implicadas:

Dicotómica

Respuesta

Cuantitativa o Dicótómica

Eje

mp

los

• Hipertensión (si/no)

• Diabetes (si/no)

• Ictus (si/no)

• Suceso (si/no)

• Colesterol

• Tabaquismo

• Edad

• Zona de residencia (dicotomizada)

Obtener una función logística que permita ‘clasificar’ a los individuos en uno de los dos grupos de la variable repuesta.

ExplicativasModelizar la probabilidad de aparición de una enfermedad o patología, por el nivel de diversos factores o características de los pacientes.

Regresión Logística: Esquema y Regresión Logística: Esquema y objetivosobjetivos

¡¡¡ LA DIFERENCIA !!!

La variable respuesta es dicotómica.

Se modeliza la probabilidad de ocurrencia de la variable respuesta.

Page 17: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Indica que el efecto combinado de varios factores de riesgo sobre el riesgo individual de padecer la enfermedad es mínimo para valores pequeños del factor, para aumentar rápidamente a partir de un determinado umbral.

Posibles preguntas : se pretende analizar si padecer una enfermedad o patología, está influido por uno o más factores (variables independientes).

Ejemplo: Si la aparición de ECV * se encuentra relacionada con los factores: edad, ser fumador, hábitos de vida, alcohol, dieta, etc.

•Se obtiene probabilidad de padecer ECV para un determinado sujeto con unas determinadas características

•Se cuantifica el riesgo (OR) de cada factor

Regresión LogísticaRegresión Logística

Preguntas y objetivosPreguntas y objetivos

*ECV Enfermedad Cardio Vascular

Page 18: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Bivariante Prob (Enf./A) =1+e

1

-(b0 + b1A)

Multivariante Prob (Enf./A1, A2, A3) =1+e

1

-(b0 + b1a1+b2A2+b3A3)

B= A1 A2 A3

Regresión LogísticaRegresión Logística

Forma funcionalForma funcional

Page 19: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Abb

Abb

e

eAEnfP

10

10

1)/(

Abb

AEnfP

AEnfP10)(1

)(ln

Las probabilidades están limitadas entre 0 y 1 y se transforman a escala de valores de B y a esto se le llama transformación logística

NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)

Se encuentra directamente relacionada con el concepto de la razón de Odds de la enfermedad:

AbbP1-

P ln 10

e 1Ab 0b

P1-

P

Regresión LogísticaRegresión Logística

LinealizaciónLinealización

Page 20: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Con el coeficiente b1 del modelo se puede calcular el OR para esa variable exposición y nos indica que al pasar de un subgrupo a otro de dicha variable, la probabilidad de enfermedad se multiplica en OR veces.1)ln(

1

0

10

bOR

ee

eOR b

b

bb

Regresión Logística Regresión Logística

Interpretación de b1Interpretación de b1

Page 21: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Contrastes de hipótesis:

Se trata de obtener una combinación lineal que permita estimar las probabilidades de pertenecer a cada uno de los dos grupos establecidos por los valores de la variable dependiente.

Efectividad del modelo:

Tabla de clasificación 2x2 : da el porcentaje de casos correctamente clasificados sobre la muestra existente.

Cuanto mayor sea el porcentaje de aciertos, más efectivo es el modelo.

Regresión LogísticaRegresión Logística Calidad del modelo y contrastesCalidad del modelo y contrastes

Page 22: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

3322110

3322110

1)/( 321 AbAbAbb

AbAbAbb

e

eAAAEnfP

3322110321

321

)(1

)(ln AbAbAbb

AAAEnfP

AAAEnfP

El modelo múltiple incluye más variables independientes (dicotómicas, ordinales…).

Los OR hacen referencia a cada variable independiente incluida en el modelo pero AJUSTADO por el resto de las mismas.

NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)

Regresión Logística Regresión Logística

Modelo múltipleModelo múltiple

Page 23: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

• La/s explicativa/s influye/n sobre la respuesta.

• Su interpretación se realiza mediante OR=eb.

• Cátegórica: una variable 0/1 nos indica que para la presencia del factor (1), este es el valor que toma B.

Conclusiones

•Estimación

•Contraste de hipótesis: ¿son significativos?

•En concreto, ¿es b1 ó b2 significativamente no nulos?

•Odds Ratio (OR)

•Mayor de 1: factor de riesgo.

•Menor de 1: factor de protección.

B =  b0 + b1A1 + b2A2

Regresión Logística Regresión Logística

Interpretación de ResultadosInterpretación de Resultados

Page 24: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Muestra: 70 pacientes víctimas de accidentes de tráfico con daño cerebral. Se desea saber si variables como el tipo de lesión, la atención, el apoyo familiar, o la edad del sujeto influyen en la rehabilitación total del paciente.

Variable respuesta dicotómica: REHABILITACIÓN (RHB)

0 (NO SE REHABILITA)1 (SE REHABILITA)

• Variables explicativas dicotómicas:APOYO:

0 (SIN APOYO FAMILIAR)1 (CON APOYO FAMILIAR)

LESIÓN:0 (DIFUSA)1 (FOCALIZADA)

ATENCIÓN0 (NO INMEDIATA)1 (INMEDIATA)

• Variable explicativa cuantitativaEDAD

Regresión LogísticaRegresión Logística Ejemplo Ejemplo

Page 25: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Paso 1: Se analizan inicialmente todos los factores

• Modelo significativo

• El modelo muestra variables significativas con respecto a la dependiente y otras que no lo son.

• Repetimos el análisis sólo con las significativas.

Regresión LogísticaRegresión Logística

Ejemplo. Modelo inicial Ejemplo. Modelo inicial completocompleto

• Opciones:

Código de Ocurrencia=1

Incluir término Cte.

Page 26: Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Relación entre variables cuantitativas Variable dependiente

Paso 2: Repetimos el análisis sólo con las significativas.

Interpretación OR: el hecho de presentar lesiones focalizadas (no difusas) produce que la probabilidad de rehabilitación sea 5,87 veces mayor.

Regresión LogísticaRegresión Logística

Ejemplo. Modelo final y Ejemplo. Modelo final y ResultadosResultados

Modelo final:

Prob (RHB/B) =1

1+e- ( 3,95+ 1,77 LESION – 0,15 EDAD)