View
213
Download
0
Category
Preview:
Citation preview
MODELO DE REGRESIÓN LINEAL
Introducción
En ciencias puras y, sobre todo, en ciencias aplicadas, se denomina modelo al resultado del proceso
de generar una representación abstracta, conceptual, gráfica o visual (ver, por ejemplo: mapa
conceptual), física, matemática, de fenómenos, sistemas o procesos a fin de analizar, describir,
explicar, simular - en general, explorar, controlar y predecir- esos fenómenos o procesos. Se
considera que la creación de un modelo es una parte esencial de toda actividad científica.
A pesar que hay poca teoría generalizada acerca del empleo de modelos -la que existe
encontrándose principalmente en la filosofía de la ciencia, teoría general de sistemas y el campo,
relativamente nuevo, de visualización científica - la ciencia moderna ofrece una colección creciente
de métodos, técnicas y teorías acerca de diversos tipos de modelos. En la práctica, diferentes ramas
o disciplinas científicas tienen sus propias ideas y normas acerca de tipos específicos de modelos
(ver, por ejemplo: teoría de modelos). Sin embargo, y en general, todos siguen los Principios del
modelado
El modelado, o modelización, es una técnica cognitiva que consiste en crear una representación
ideal de un objeto real mediante un conjunto de simplificaciones y abstracciones, cuya validez se
pretende constatar. La validación del modelo se lleva a cabo comparando las implicaciones
predichas por el mismo con observaciones.
En otras palabras, se trata crear un modelo ideal que refleje ciertos aspectos de un objeto real, como
al crear una escultura o una pintura.
Un modelo es por tanto una simplificación de la realidad que recoge aquellos aspectos de
relevancia para las intenciones del modelador. Se modela para comprender mejor o explicar mejor
un proceso o unas observaciones.
MODELO DE REGRESIÓN LINEAL
Modelos matemáticos
Un modelo matemático es una descripción, en lenguaje matemático, de un objeto, que existe en
un universo no matemático.
Clasificación de los modelos matemáticos.
Existen dos tipos de modelos matemáticos: determinísticos y estocásticos. Con un modelo
determinístico se pueden controlar los factores que intervienen en el estudio del proceso o
fenómeno y por tanto se pueden predecir con exactitud sus resultados. En un modelo estocástico
no es posible controlar los factores que intervienen en el estudio del fenómeno y en consecuencia
no produce simples resultados únicos. Cada uno de los resultados posibles se genera con una
función de probabilidad que le adjudica una probabilidad a cada uno de éstos, por ejemplo un
modelo para predecir el volumen de ventas de combustible en N estaciones de servicio. Para el caso
determinístico se proporciona un valor único, C, mientras que el modelo estocástico permite la
posibilidad de adjudicar para cada una de las N estaciones de servicio una cierta probabilidad a
cada uno de estos sucesos.
Modelos Estadísticos
Los modelos estadísticos se utilizan en general en el marco de una marcha deductiva. La cuestión
alude a la variabilidad de un fenómeno particular, y se busca comprender los componentes de esta
variabilidad. Si los individuos estadísticos son entidades espaciales, se impone cuestionarse acerca
de una diferenciación espacial. Si los individuos estadísticos son empresas, cabe plantear la cuestión
sobre las diferenciaciones inter empresas, etc. La marcha consiste en elaborar un cierto número de
hipótesis sobre las causas de esta diferenciación y estas hipótesis son luego verificadas o no según
el modelo estadístico. El modelo más clásico es el de regresión múltiple, que se aplica cuando el
conjunto de variables en juego son cuantitativas.
El análisis estadístico de datos comienza cuando se elige el modelo que represente la relación
entre las variables involucrados en la investigación. La formulación de este modelo dependerá
principalmente de:
a) Los objetivos de la investigación,
b) Tipo de variables (cuantitativas o cualitativas), tanto de la respuesta como de las variables
independientes.
Problema de investigación
¿Modelo válido?
Obtención de Datos
Formulación del modelo
Estimación de parámetros
NoSi
Datos nuevos
¿Predice. Válidas?Si
InterpretaciónFin
No
MODELO DE REGRESIÓN LINEAL
c) Tipo de relación entre las variables (lineal o no lineal),
d) Cumplimiento de los supuestos matemáticos que lleva consigo cada uno de los modelos
e) Bagaje de conocimientos que tenga el investigador sobre los diferentes modelos estadísticos.
El algoritmo básico para ajustar modelos estadísticos, el cual es utilizado con ligeras variantes para
diferentes situaciones es el siguiente:
a) Problema de investigación
El ajuste de modelos de regresión puede tener varios objetivos:
i) Evaluar el efecto de un conjunto de variables sobre una variable, llamada variable
respuesta.
ii) Predecir el valor futuro de una variable a partir del conocimiento de otras variables
iii) Estudiar el comportamiento (evolución de una variable) en relación con el comportamiento
de otras variables.
iv) Clasificar sujetos (u objetos) en poblaciones de acuerdo a su patrón de comportamiento.
MODELO DE REGRESIÓN LINEAL
b) Formulación del modelo
El análisis de regresión involucra dos tipos de variables:
i) Una variable dependiente “Y” denominada “variable respuesta” o también “variable
endógenena”,
ii) Una o más variables independientes, X1 , X2 , …, X k denominadas “variables regresoras”,
“variables explicativas”, “factores”, o “variables exógenas”.
Tanto la variable dependiente como las independientes pueden haber sido medidas en escalas
nominal, ordinal, de intervalo ó de razón.
El conjunto de variables independientes se combinan linealmente y dan lugar a una función
denominada predictor lineal:
Esta función es lineal en los parámetros.
Modelo de Regresión Lineal
Aunque fueron utilizados inicialmente en astronomía y física por Laplace y Gauss, el nombre de
“Modelos de regresión” proviene de los trabajos de Galton a finales del siglo XIX. Galton, estudió
la dependencia de la estatura de los hijos (Y ) respecto a la de sus padres ( X ) encontrando lo que
denominó una regresión a la media: Los padres altos tienen, en general, hijos altos, pero en
promedio no tan altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio más
altos que sus padres. Desde entonces, los modelos estadísticos que explican la dependencia de una
variable Y, con respecto a una o más variables cuantitativas X se denominan modelos de regresión.
Cuando el conocimiento de una variable determina totalmente el valor de otra, tenemos el caso
extremo de dependencia, entonces diremos que existe una “relación exacta ó funcional” entre estas
variables. En el caso opuesto, el conocimiento de una de ellas no aporta información sobre el valor
de la otra, diremos entonces que “ambas variables son independientes”. Las relaciones que
observamos entre variables biológicas, sociales, físicas o económicas se caracterizan por que el
valor de una ó más variables permite predecir en mayor o menor grado (probabilidad) el valor de
una variable de respuesta: diremos entonces que, existe una relación estadística ó estocástica entre
MODELO DE REGRESIÓN LINEAL
ellas. Los modelos de regresión estudian la construcción de modelos explicativos para este tipo de
relaciones.
En primer lugar es importante destacar que los modelos de regresión lineal han sido desarrollados
para evaluar la relación lineal entre variables continuas (tanto la respuesta como las variables
independientes).
Supongamos que el conjunto de todos los factores ó causas (X ¿¿1 , …, Xk , X k +1 , …, Xm)¿, que
influyen en la variable respuesta (Y ) , se relacionan de la manera siguiente:
Y=h ( X1 , X2 , …, X k , Xk +1 ,…, Xm , …)
Además supondremos que estos factores ó causas pueden dividirse en dos términos:
Y=h1 ( X1 , X1 ,…, Xk )+h2 ( X k+1 , …, Xm ,… ) (Modelo con error aditivo)
a) El primer término,h1 ( X1 , X1 ,…, X k ), contiene k variables: X1 , X2 , …, X k, conocidas al
observar las respuesta, Y , y que están relacionados con ella a través de la función g (g puede
ser lineal o no lineal). En el caso particular de la regresión lineal esta función es dada por:
y es denominada predictor lineal.
b) El segundo término, h2 ( X k+1 ,…, X m, … ), incluye un conjunto muy grande de factores (que
pueden ser desconocidos por el investigador, no medibles o puramente aleatorios), cada uno de
ellos influirá en la respuesta sólo en una pequeña magnitud y es denominado perturbación o
error aleatorio y generalmente es denotado con el símbolo ε , así:
ε=h2 ( Xk +1 ,…, X m,…)
I. Formulación del modelo
El modelo de regresión lineal está dado por la expresión.
Y=β0+β1 X1+β2 X2+…+ βK X K+ε
MODELO DE REGRESIÓN LINEAL
Donde, Y es la variable dependiente denominada también variable endógena o respuesta,
son las variables independientes (v. explicativas, v. regresoras, factores, v. exógenas,
etc.), β0 , β1 , …, βk son constantes desconocidas y constituyen los parámetros del modelo de
regresión, (la linealidad de estos parámetros determina la linealidad del modelo de regresión), es
el error aleatorio.
El error es una variable aleatoria no observable, por lo que sólo podemos establecer algunos
supuestos que debe cumplir para que el modelo de regresión lineal sea válido.
1. El error tiene esperanza nula (la media de los errores es igual a cero)
E (ε )=0
2. La varianza de los errores es siempre constante (condición de homocedasticidad).
V (ε )=σ2
3. Los errores no están correlacionados
E (ε i ε j )=Cov (εi ε j )=0
Adicionalmente se supones que:
1. Los errores, , se distribuyen de acuerdo a una normal con media cero y varianza 2 , esto
es:
ε N (0 , σ2 )
Las condiciones antes mencionadas implican que el error no contiene información que
ayude a explicar la respuesta.
Las suposiciones establecidas con respecto a los errores del modelo se pueden expresar en términos
de la variable respuesta.
a) La esperanza de la variable respuesta dado que se conocen los valores de las variables
independientes es:
Recordar que la esperanza de es igual a cero y que β0 , β1 , …, βk son constantes desconocidas.
b) La varianza de la variable respuesta dado que se conocen los valores de las variables
independientes es
MODELO DE REGRESIÓN LINEAL
V (Y / X1 , X2 ,…, X k )=σ 2 (constante)
c) Las observaciones de la variable respuesta son independientes, esto es la respuesta obtenida en
un sujeto es independiente de la respuesta de otro individuo cualesquiera.
d) Adicionalmente, podemos suponer que la distribución de la variable respuesta, dado que se
conocen los valores de las variables independientes, es normal con media y varianza dados en
(a) y (b).
Y / X1 , X2 , …, Xk N (β0+β1 X1+…+βk Xk , σ2 )
II. Estimación de parámetros
En el contexto del análisis de regresión se supone que las variables independientes X1 , X2 , …, X k,
son fijadas y por tanto conocidas antes de observar la respuesta, el error aleatorio es inobservable.
En consecuencia, la variable respuesta, Y, es aleatoria pero observable a partir del conocimiento de
las variables independientes y de mantener controlado el error aleatorio. Pero el modelo tiene un
conjunto de constantes (parámetros) desconocidos β0 , β1 ,…,βk , además de 2 que deberán ser
estimados.
Nuestro objetivo ahora, es estimar (o ajustar) el modelo de regresión para eso usamos los datos
observados y estimamos los parámetros del modelo.
Existen diferentes métodos de estimación de parámetros de regresión tales como:
Mínimos cuadrados ordinarios.- Es el método más utilizado para la estimación de parámetros,
su objetivo es encontrar el conjunto de parámetros que haga mínima la distancia euclideana
entre las observaciones y el modelo elegido. Este método no requiere que la distribución de la
variable respuesta (ó el error) sea conocida.
Máxima verosimilitud.- Este método busca maximizar la verosimilitud de que el modelo
elegido haya generado los datos observados. Este método requiere que la distribución de
probabilidad de la variable respuesta sea conocida.
Métodos robustos y resistentes.- Estiman los parámetros utilizando métodos que no requieren
suposiciones muy estrictas para el error (o la variable respuesta). Por ejemplo que no se
verifique la normalidad de los errores y que estos provengan de distribuciones con colas más
pesadas como laplace, normal contaminada, cauchy, etc.
MODELO DE REGRESIÓN LINEAL
Métodos bayesianos.- Utilizan información a priori sobre el comportamiento de la variable
respuesta y estiman los parámetros utilizando esta información. Son métodos poco usados y no
todos los programas computacionales lo incorporan dentro de su menú de opciones.
En este curso utilizaremos los métodos de estimación de mínimos cuadrados y de máxima
verosimilitud.
III. Evaluación del modelo de regresión lineal
Ajustar un modelo a un fenómeno real implica formular un modelo matemático/estadístico que
represente el fenómeno, por lo tanto este modelo es válido siempre que se verifiquen los supuestos
bajo los cuales fueron ajustados
La evaluación del modelo tiene dos partes:
a) Evaluación de la bondad del ajuste .- La evaluación de la bondad del ajuste implica evaluar el
modelo global y cada uno de los parámetros estimados. Como los parámetros están asociados
con variables independientes, al evaluar los primeros estamos evaluando la importancia de las
variables para explicar la respuesta. Se analizarán algunos indicadores y se realizarán pruebas
de hipótesis tales como :
El coeficiente de determinación ( R2 )
El error estándar de estimación ( )
El análisis de varianza
Pruebas t para los parámetros individuales.
b) Evaluación de la adecuación del modelo .- Es necesario verificar si se verifica los supuestos
de:
Homocedasticidad, esto es, varianza constante de los errores (V (ε )=σ 2),
Incorrelación de errores (Cov (εi ε j )) Independencia de las variables regresoras
Distribución normal de los errores (ε N ( 0 , σ2 ))
La verificación de estos supuestos se realizará mediante:
El Análisis de residuos del ajuste
El análisis de influencia.
MODELO DE REGRESIÓN LINEAL
En caso de que el análisis indique que alguno de los supuestos no se verifica este problema deberá
ser resuelto por que de otro modo, el modelo se invalida y puede tener una pobre performance y en
algunos casos puede llevar a conclusiones erradas.
IV. Evaluación de la capacidad predictiva del modelo
Si el modelo resulta válido el siguiente paso será interpretar los resultados.
En caso que el objetivo de construir el modelo sea utilizarlo para predicción es importante evaluar
su capacidad predictiva, esto implica utilizar datos nuevos (que no hayan sido utilizados en el ajuste
del modelo) para ver su desempeño en la realidad. En esta etapa se utilizan como indicadores :
-Los residuos PRESS,
-El coeficiente de correlación PRESS
-El error cuadrático medio de predicción , etc.
Análisis de Regresión Lineal Simple
Sean X e Y dos variables, entre las que se supone que existe una relación de dependencia
unidireccional de X hacia Y. De esta forma los valores de Y vienen determinados, en mayor o
menor medida, por los valores de X:
Variable independiente, regresora o exógena.
Variable dependiente, respuesta o endógena.
: Función de regresión.
Si con y constantes, estamos ante una regresión lineal simple. Si f adopta
una forma diferente, estamos ante un problema de regresión no lineal simple.
Finalmente el modelo de regresión lineal simple está dado por:
MODELO DE REGRESIÓN LINEAL
A los términos y se les conoce con el nombre de parámetros y son términos que serán
estimados utilizando el método de mínimos cuadrados.
Ejemplo 1
Cierta empresa está pensando en expandirse a una determinada región. La directora de planeación
tiene que presentar un análisis de la expansión propuesta. Como parte del análisis debe presentar
información sobre la cantidad mensual que gastan en electricidad las personas en esta región. A la
directora le gustaría también presentar información sobre la relación entre la cantidad mensual
gastada en electricidad y el ingreso. Los datos se encuentran en el archivo Hogar.xls
Bondad de Ajuste
El coeficiente de correlación múltiple y el coeficiente de determinación son indicadores
de la bondad del ajuste del modelo. El nos expresa la proporción de varianza de la variable
dependiente que está explicada por la variable independiente, valores cercanos a la unidad implican
que la mayor parte de la variabilidad de Y está explicada por el modelo de regresión.
El estadístico se debe utilizar con precaución, porque siempre es posible conseguir que
sea grande agregando términos suficientes al modelo. Una alternativa es el , coeficiente que no
está afectado por el incremento de variables independientes.
R2= 0.8925,
El 89,25% de la variabilidad de la cantidad mensual que se gasta en electricidad se encuentra
explicada por el modelo de regresión.
El error típico de la estimación (Root MSE) es la desviación típica de los residuos, es decir, la
desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente
y los pronósticos efectuados con la recta de regresión (Y i), Representa una medida de la parte de
MODELO DE REGRESIÓN LINEAL
variabilidad de la variable dependiente que no es explicada por la recta de regresión. En general,
cuanto mejor es el ajuste, más pequeño es este error típico.
El error típico de la estimación es: 8,23
La tabla de ANOVA nos brinda información acerca de si existe o no relación significativa entre las
variables. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es
cero, lo cual, en el modelo de regresión simple, equivale a contrastar la hipótesis de que la
pendiente de la recta de regresión vale cero. El rechazo de la hipótesis nula implica que existe
relación lineal entre la variable independiente y la variable dependiente.
F= 315,6259 p=0,000 < 0.05
Se rechaza la hipótesis nula y se concluye que existe una relación lineal entre las variables.
Ecuación de regresión.
Prueba de Hipótesis de
No existe relación lineal entre el gasto mensual en electricidad y el ingreso mensual
Existe relación lineal entre el gasto mensual en electricidad y el ingreso mensual
Como p < 0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre
el gasto mensual en electricidad y el ingreso mensual, con un 95% de confianza.
Interpretación de
Por cada unidad en que aumenta el ingreso mensual, el gasto en electricidad aumenta en 0.013338
dólares, con un 95% de confianza.
MODELO DE REGRESIÓN LINEAL
Ejemplo 2
En el archivo Ejemplo2.xls se muestran los datos registrados de las ventas en millones de euros y de
los gastos incurridos en publicidad, también en millones de euros por una empresa industrial que
fabrica sillas para oficina. Realice un análisis de regresión lineal para estos datos.
Ejemplo 3
En un tipo de espécimen metálico de prueba, la resistencia normal está funcionalmente relacionada
con la resistencia de corte. El siguiente es un conjunto de datos experimentales codificados para las
dos variables:
Resistencia ResistenciaNormal de corte26,8 26,525,4 27,328,9 24,223,6 27,127,7 23,623,9 25,924,7 26,328,1 22,526,9 21,727,4 21,422,6 25,825,6 24,9
Ejemplo 4:
Se llevó a cabo un estudio acerca de la cantidad de azúcar refinada mediante cierto proceso a varias
temperaturas diferentes. Los datos se codificaron y se registraron como sigue:
Temperatura Azúcar(x) Transformada1,0 8,11,1 7,81,2 8,5
MODELO DE REGRESIÓN LINEAL
1,3 9,81,4 9,51,5 8,91,6 8,61,7 10,21,8 9,31,9 9,22,0 10,5
Modelo de Regresión Lineal Múltiple
El procedimiento de Regresión Lineal permite utilizar más de una variable independiente, y, por
tanto, permite llevar a cabo análisis de regresión múltiple. En este análisis, la ecuación de regresión
ya no define una recta en el plano, sino un hiperplano en un espacio multidimensional.
El Modelo de Regresión Lineal Múltiple está dado por:
De acuerdo con este modelo o ecuación, la variable dependiente (Y) se interpreta como una
combinación lineal de un conjunto de K variables independientes , cada una de las cuales va
acompañada de un coeficiente que indica el peso relativo de esa variable en la ecuación. La
ecuación incluye además una constante y un componente aleatorio (los residuos: ) que
recoge todo lo que las variables independientes no son capaces de explicar.
La ecuación de regresión mínimo cuadrática se construye estimando los valores de los coeficientes
beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que las diferencias al
cuadrado entre los valores observados (Y) y los pronosticados (Y i )sean mínimas.
y= β0+ β1 x1+ β2 x2+…+ βk xk
Ejemplo:
MODELO DE REGRESIÓN LINEAL
Una empresa vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles
compradores hacen con más frecuencia es: si adquirimos esta casa, ¿cuánto tendremos que pagar
por la calefacción en invierno? Se le pidió al departamento de investigación de la compañía que
elabore algunos lineamientos relacionados con los costos de calefacción para casas unifamiliares.
Se consideró que el costo incluye tres variables: la temperatura media en el exterior, el espesor en
pulgadas del material de aislamiento térmico que se coloca en el desván, y la antigüedad del
calefactor. Para realizar esta investigación, el departamento en cuestión seleccionó una muestra de
20 casas vendidas recientemente. Determinó el costo de la calefacción de cada casa en el mes de
enero, la temperatura exterior en la región, el espesor en pulgadas de material aislante instalado en
el desván, y la antigüedad del calefactor. La información se presenta en el archivo Calefacción.xls
Bondad de Ajuste
R2= 0.8041, R2Adj=0.7674
El 76,74% de la variabilidad del costo de la calefacción se encuentra explicada por el modelo de
regresión.
El error típico de la estimación es: 51,0485
La tabla de ANOVA
F= 21,90 p=0,000 < 0.05
Se rechaza la hipótesis nula y se concluye que al menos una de las variables independientes tiene
una relación lineal con la variable dependiente.
Ecuación de regresión.
Prueba de Hipótesis de
No existe relación lineal entre el costo de la calefacción y la temperatura promedio exterior
Existe relación lineal entre el costo de la calefacción y la temperatura promedio exterior
MODELO DE REGRESIÓN LINEAL
Como p<0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre
el costo de la calefacción y la temperatura promedio exterior, con un 95% de confianza.
Prueba de Hipótesis de
No existe relación lineal entre el costo de la calefacción y el aislante térmico en el desván
Existe relación lineal entre el costo de la calefacción y el aislante térmico en el desván
Como p<0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre
el costo de la calefacción y el aislante térmico en el desván, con un 95% de confianza.
Prueba de Hipótesis de
No existe relación lineal entre el costo de la calefacción y la antigüedad del calefactor
Existe relación lineal entre el costo de la calefacción y la antigüedad del calefactor
Como p>0.05, entonces no rechazamos , y concluimos que no existe una posible relación lineal
entre el costo de la calefacción y la antigüedad del calefactor, con un 95% de confianza.
Como la variable antigüedad del calefactor no aporta al modelo de regresión, entonces se tendrá
que retirar del análisis. Una vez retirada, la ecuación de regresión será:
Costo=490,2859−5,1498∗Temperatura−14,7181∗Aislante
Interpretación de
Por cada °F en que aumentan la temperatura, el costo de la calefacción disminuye en 5,1498
dólares, con un 95% de confianza; manteniendo constante las demás variables.
Interpretación de
MODELO DE REGRESIÓN LINEAL
Por cada pulgada en que aumentan el aislante térmico, el costo de la calefacción disminuye en
14,7181 dólares, con un 95% de confianza; manteniendo constante las demás variables.
Ejemplo 3:
Una muestra aleatoria de 25 enfermeras, seleccionadas de un directorio de enfermeras generales, produjo la siguiente información respecto a la calificación del examen de colocación de cada una de ellas realizado por la dirección estatal de personal (en Estados Unidos) y la calificación final de graduación escolar. Ambas calificaciones se relacionan con el área de afiliación de las enfermeras. Además, se tuvo información de las calificaciones obtenidas por cada enfermera en una prueba de aptitud, realizada al ingresar a la escuela de enfermería. Los datos completos son los siguientes:
Calificación de Calificación Calificación de laaprobación por el
estado final prueba de aptitud(Y ) ( X1) (X2)440 87 92480 87 79535 87 99460 88 91525 88 84480 89 71510 89 78530 89 78545 89 71600 89 76495 90 89545 90 90575 90 73525 91 71575 91 81600 91 84490 92 70510 92 85575 92 71
MODELO DE REGRESIÓN LINEAL
540 93 76595 93 90525 94 94545 94 94600 94 93625 94 73
Coeficientes de Regresión estandarizados
Los coeficientes Beta están basados en las puntuaciones típicas, y por tanto, son directamente
comparables entre sí. Indican la cantidad de cambio, en puntuaciones típicas, que se producirá en la
variable dependiente por cada cambio de una unidad en la correspondiente variable independiente
(manteniendo constante el restote variables independientes).
Estos coeficientes proporcionan una pista muy útil sobre la importancia relativa de cada variable
independiente en la ecuación de regresión. En general, una variable tiene tanto más peso
(importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeficiente de
regresión estandarizado.
En nuestro caso, la variable edad es la más importante.
Análisis de los Residuos
El análisis de los residuos es básico para chequear si se verificar las hipótesis del modelo de
regresión. Estos residuos resultan de ser de suma importancia. Nos informan sobre el grado de
exactitud de los pronósticos: cuanto más pequeño es el error típico de los residuos, mejores son los
pronósticos, o lo que es lo mismo, mejor se ajusta la recta de regresión a la nube de puntos.
Para comprobar si se verifican las hipótesis estructurales en el ajuste de un modelo lineal, el análisis
de residuos juega un papel fundamental.
Tipos de residuos
MODELO DE REGRESIÓN LINEAL
Residuos Ordinarios:
Se denomina así a las diferencias entre los valores observados y los pronosticados.
e i= y i− yi , i=1,2,…,n
Recordemos que el i-ésimo residuo e i es una variable aleatoria que tiene las siguientes propiedades:
E (ei )=0 , Var (e i )=σ ei
2 , i=1 , …, n
Bajo las hipótesis de normalidad se obtiene:
e i N (0 , σe i
2 )
Residuos Estandarizados
De la ecuación anterior, se deduce que σ ei
2 no es constante, lo que hace difícil identificar las
observaciones con residuos grandes. Por ello es usual tipificarlos y se definen los residuos
estandarizados como:
ri=ei
√CM Res, i=1 ,…, n
Los residuos estandarizados tienen media cero y varianza próxima a 1, esto permite distinguir a los
residuos grandes.
Residuos Estudentizados
Si se utiliza el CM Res como la varianza del i-ésimo residual e i, sólo se tendrá una aproximación.
Se puede mejorar el cálculo del residual dividiendo e i entre la desviación estándar exacta del i-
ésimo residual. Se definen los residuos estudentizados como:
t i=ei
√CM Res(1−hij)
Siendo hij el j-ésimo elemento de la matriz sombrero ¿.
Si n es grande, los residuos estandarizados y estudentizados toman valores próximos.
Bajo la hipótesis de normalidad se verifica que t i sigue una distribución t con n-3 grados de
libertad.
Residuos PRESS
MODELO DE REGRESIÓN LINEAL
Los residuales estandarizados y estudentizados son efectivos para detectar valores atípicos.
Si se elimina la i-ésima observación, entonces y i no puede estar influido por esta observación, así
que el residual obtenido probablemente indique la presencia del valor atípico.
Si se elimina l-ésima observación, se ajusta el modelo de regresión con las n-1 observaciones
restantes y se calcula el valor predicho y i correspondiente a la observación omitida.
Evaluación de la adecuación del modelo.-
Homocedasticidad, esto es, varianza constante de los errores (V (ε )=σ 2), La homocedasticidad se verificará a través de una serie de gráficos de los residuos.
De forma general, en el gráfico de residuos ( e i ) frente a las predicciones ( y i )
El gráfico de residuos ( e i ) frente a una variable explicativa ( x ij ), si se
sospecha que la heterocedasticidad es debida a la variable explicativa x j .
Para resolver este problema las alternativas que hay son las siguientes:
Transformar los datos. En muchos casos es suficiente con tomar logaritmos en la
variable respuesta. Por otra parte, el problema puede estar ligado a otros problemas
como falta de normalidad, falta de linealidad que, normalmente, también se
resuelven al hacer la transformación.
Algunos gráficos:
a). Regresión normal:
Los residuos aparecen aleatorios lo que es una buena indicación de que el modelo de
regresión tiene un buen ajuste.
MODELO DE REGRESIÓN LINEAL
b). Relación no lineal:
Se observa un relación entre y y los residuos.
MODELO DE REGRESIÓN LINEAL
c). Se observa un dato atípico
Cuando hay un dato atípico, se observa un residuo muy alto.
MODELO DE REGRESIÓN LINEAL
d). Se observa que la recta se encuentra más cercana a los datos cuando x es más pequeño.
Los residuos son más pequeños cuando es pequeño
e). Se observa el efecto de un dato influyente
MODELO DE REGRESIÓN LINEAL
Se ve el efecto del dato influyente
Colinealidad
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de
forma perfectamente lineal con una o más del resto de variables independientes. Hablamos
de colinealidad parcial o simplemente colinealidad cuando entre las variables
independientes de una ecuación existen correlaciones altas.
La colinealidad es un problema, porque en el caso de colinealidad perfecta, no es posible
estimar los coeficientes de regresión y en el caso de colinealidad parcial, aumenta el tamaño
de los residuos tipificados y esto produce coeficientes de regresión muy inestables.
Al evaluar la existencia o no de colinealidad, la dificultad estriba en determinar cuál es el
grado máximo de relación permisible entre las variables independientes. No existe un
consenso generalizado acerca de esto, pero puede servirnos de guía la presencia de ciertos
indicios que podemos encontrar en los resultados de un análisis de regresión:
El estadístico F que evalúa el ajuste general de la ecuación de regresión es
significativo, pero no lo es ninguno de los coeficientes de regresión parcial.
Los coeficientes de regresión parcial estandarizados (los coeficientes beta) están
inflados tanto en positivo como en negativo.
Existen valores de tolerancia pequeños (próximos a 0,01). La tolerancia de una
variable independiente es la proporción de varianza de esa variable que no está
asociada (no depende) del resto de variables independientes incluidas en la
ecuación. Una variable con una tolerancia de por ejemplo 0,01 es una variable que
MODELO DE REGRESIÓN LINEAL
comparte el 99% de su varianza con el resto de variables independientes, lo cual
significa que se trata de una variable redundante casi por completo.
Los coeficientes de correlación estimados son muy grandes (por encima de 0,90
en valor absoluto)
Si se detecta la presencia de colinealidad en un conjunto de datos, se puede remediar si:
a) Aumentamos el tamaño de la muestra (esta solución puede resultar útil si existen
pocos casos en relación al número de variables)
b) Crear indicadores múltiples combinando variables (promediar variables, aplicando
componentes principales para reducir el número de variables y aplicando el análisis
de regresión sobre estos componentes)
c) Excluir variables redundantes, es decir, excluir variables que correlacionan muy alto
con otras.
d) Utilizar una técnica de estimación sesgada tal como la regresión ridge.
Independencia
El estadístico Durbin Watsn proporciona información sobre el grado de independencia
existente entre los residuos. Se calcula mediante:
DW=∑i=2
n
(e i−e i−1 )2
∑i=1
n
e i2
El estadístico DW oscila entre 0 y 4 y toma el valor 2 cuando los residuos son
independientes. Valores menores que 2 indican autocorrelación positiva y los mayores que
2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando DW
toma valores entre 1,5 y 2,5.
Distribución normal de los errores (ε N ( 0 , σ2 ))
Recommended