MODELO DE REGRESIÓN LINEAL · Web viewTipo de relación entre las variables (lineal o no lineal),...

MODELO DE REGRESIÓN LINEAL

Introducción

En ciencias puras y, sobre todo, en ciencias aplicadas, se denomina modelo al resultado del proceso

de generar una representación abstracta, conceptual, gráfica o visual (ver, por ejemplo: mapa

conceptual), física, matemática, de fenómenos, sistemas o procesos a fin de analizar, describir,

explicar, simular - en general, explorar, controlar y predecir- esos fenómenos o procesos. Se

considera que la creación de un modelo es una parte esencial de toda actividad científica.

A pesar que hay poca teoría generalizada acerca del empleo de modelos -la que existe

encontrándose principalmente en la filosofía de la ciencia, teoría general de sistemas y el campo,

relativamente nuevo, de visualización científica - la ciencia moderna ofrece una colección creciente

de métodos, técnicas y teorías acerca de diversos tipos de modelos. En la práctica, diferentes ramas

o disciplinas científicas tienen sus propias ideas y normas acerca de tipos específicos de modelos

(ver, por ejemplo: teoría de modelos). Sin embargo, y en general, todos siguen los Principios del

modelado

El modelado, o modelización, es una técnica cognitiva que consiste en crear una representación

ideal de un objeto real mediante un conjunto de simplificaciones y abstracciones, cuya validez se

pretende constatar. La validación del modelo se lleva a cabo comparando las implicaciones

predichas por el mismo con observaciones.

En otras palabras, se trata crear un modelo ideal que refleje ciertos aspectos de un objeto real, como

al crear una escultura o una pintura.

Un modelo es por tanto una simplificación de la realidad que recoge aquellos aspectos de

relevancia para las intenciones del modelador. Se modela para comprender mejor o explicar mejor

un proceso o unas observaciones.

Modelos matemáticos

Un modelo matemático es una descripción, en lenguaje matemático, de un objeto, que existe en

un universo no matemático.

Clasificación de los modelos matemáticos.

Existen dos tipos de modelos matemáticos: determinísticos y estocásticos. Con un modelo

determinístico se pueden controlar los factores que intervienen en el estudio del proceso o

fenómeno y por tanto se pueden predecir con exactitud sus resultados. En un modelo estocástico

no es posible controlar los factores que intervienen en el estudio del fenómeno y en consecuencia

no produce simples resultados únicos. Cada uno de los resultados posibles se genera con una

función de probabilidad que le adjudica una probabilidad a cada uno de éstos, por ejemplo un

modelo para predecir el volumen de ventas de combustible en N estaciones de servicio. Para el caso

determinístico se proporciona un valor único, C, mientras que el modelo estocástico permite la

posibilidad de adjudicar para cada una de las N estaciones de servicio una cierta probabilidad a

cada uno de estos sucesos.

Modelos Estadísticos

Los modelos estadísticos se utilizan en general en el marco de una marcha deductiva. La cuestión

alude a la variabilidad de un fenómeno particular, y se busca comprender los componentes de esta

variabilidad. Si los individuos estadísticos son entidades espaciales, se impone cuestionarse acerca

de una diferenciación espacial. Si los individuos estadísticos son empresas, cabe plantear la cuestión

sobre las diferenciaciones inter empresas, etc. La marcha consiste en elaborar un cierto número de

hipótesis sobre las causas de esta diferenciación y estas hipótesis son luego verificadas o no según

el modelo estadístico. El modelo más clásico es el de regresión múltiple, que se aplica cuando el

conjunto de variables en juego son cuantitativas.

El análisis estadístico de datos comienza cuando se elige el modelo que represente la relación

entre las variables involucrados en la investigación. La formulación de este modelo dependerá

principalmente de:

a) Los objetivos de la investigación,

b) Tipo de variables (cuantitativas o cualitativas), tanto de la respuesta como de las variables

independientes.

Problema de investigación

¿Modelo válido?

Obtención de Datos

Formulación del modelo

Estimación de parámetros

Datos nuevos

¿Predice. Válidas?Si

InterpretaciónFin

c) Tipo de relación entre las variables (lineal o no lineal),

d) Cumplimiento de los supuestos matemáticos que lleva consigo cada uno de los modelos

e) Bagaje de conocimientos que tenga el investigador sobre los diferentes modelos estadísticos.

El algoritmo básico para ajustar modelos estadísticos, el cual es utilizado con ligeras variantes para

diferentes situaciones es el siguiente:

a) Problema de investigación

El ajuste de modelos de regresión puede tener varios objetivos:

i) Evaluar el efecto de un conjunto de variables sobre una variable, llamada variable

respuesta.

ii) Predecir el valor futuro de una variable a partir del conocimiento de otras variables

iii) Estudiar el comportamiento (evolución de una variable) en relación con el comportamiento

de otras variables.

iv) Clasificar sujetos (u objetos) en poblaciones de acuerdo a su patrón de comportamiento.

b) Formulación del modelo

El análisis de regresión involucra dos tipos de variables:

i) Una variable dependiente “Y” denominada “variable respuesta” o también “variable

endógenena”,

ii) Una o más variables independientes, X1 , X2 , …, X k denominadas “variables regresoras”,

“variables explicativas”, “factores”, o “variables exógenas”.

Tanto la variable dependiente como las independientes pueden haber sido medidas en escalas

nominal, ordinal, de intervalo ó de razón.

El conjunto de variables independientes se combinan linealmente y dan lugar a una función

denominada predictor lineal:

Esta función es lineal en los parámetros.

Modelo de Regresión Lineal

Aunque fueron utilizados inicialmente en astronomía y física por Laplace y Gauss, el nombre de

“Modelos de regresión” proviene de los trabajos de Galton a finales del siglo XIX. Galton, estudió

la dependencia de la estatura de los hijos (Y ) respecto a la de sus padres ( X ) encontrando lo que

denominó una regresión a la media: Los padres altos tienen, en general, hijos altos, pero en

promedio no tan altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio más

altos que sus padres. Desde entonces, los modelos estadísticos que explican la dependencia de una

variable Y, con respecto a una o más variables cuantitativas X se denominan modelos de regresión.

Cuando el conocimiento de una variable determina totalmente el valor de otra, tenemos el caso

extremo de dependencia, entonces diremos que existe una “relación exacta ó funcional” entre estas

variables. En el caso opuesto, el conocimiento de una de ellas no aporta información sobre el valor

de la otra, diremos entonces que “ambas variables son independientes”. Las relaciones que

observamos entre variables biológicas, sociales, físicas o económicas se caracterizan por que el

valor de una ó más variables permite predecir en mayor o menor grado (probabilidad) el valor de

una variable de respuesta: diremos entonces que, existe una relación estadística ó estocástica entre

ellas. Los modelos de regresión estudian la construcción de modelos explicativos para este tipo de

relaciones.

En primer lugar es importante destacar que los modelos de regresión lineal han sido desarrollados

para evaluar la relación lineal entre variables continuas (tanto la respuesta como las variables

independientes).

Supongamos que el conjunto de todos los factores ó causas (X ¿¿1 , …, Xk , X k +1 , …, Xm)¿, que

influyen en la variable respuesta (Y ) , se relacionan de la manera siguiente:

Y=h ( X1 , X2 , …, X k , Xk +1 ,…, Xm , …)

Además supondremos que estos factores ó causas pueden dividirse en dos términos:

Y=h1 ( X1 , X1 ,…, Xk )+h2 ( X k+1 , …, Xm ,… ) (Modelo con error aditivo)

a) El primer término,h1 ( X1 , X1 ,…, X k ), contiene k variables: X1 , X2 , …, X k, conocidas al

observar las respuesta, Y , y que están relacionados con ella a través de la función g (g puede

ser lineal o no lineal). En el caso particular de la regresión lineal esta función es dada por:

y es denominada predictor lineal.

b) El segundo término, h2 ( X k+1 ,…, X m, … ), incluye un conjunto muy grande de factores (que

pueden ser desconocidos por el investigador, no medibles o puramente aleatorios), cada uno de

ellos influirá en la respuesta sólo en una pequeña magnitud y es denominado perturbación o

error aleatorio y generalmente es denotado con el símbolo ε , así:

ε=h2 ( Xk +1 ,…, X m,…)

I. Formulación del modelo

El modelo de regresión lineal está dado por la expresión.

Y=β0+β1 X1+β2 X2+…+ βK X K+ε

Donde, Y es la variable dependiente denominada también variable endógena o respuesta,

son las variables independientes (v. explicativas, v. regresoras, factores, v. exógenas,

etc.), β0 , β1 , …, βk son constantes desconocidas y constituyen los parámetros del modelo de

regresión, (la linealidad de estos parámetros determina la linealidad del modelo de regresión), es

el error aleatorio.

El error es una variable aleatoria no observable, por lo que sólo podemos establecer algunos

supuestos que debe cumplir para que el modelo de regresión lineal sea válido.

1. El error tiene esperanza nula (la media de los errores es igual a cero)

E (ε )=0

2. La varianza de los errores es siempre constante (condición de homocedasticidad).

V (ε )=σ2

3. Los errores no están correlacionados

E (ε i ε j )=Cov (εi ε j )=0

Adicionalmente se supones que:

1. Los errores, , se distribuyen de acuerdo a una normal con media cero y varianza 2 , esto

ε N (0 , σ2 )

Las condiciones antes mencionadas implican que el error no contiene información que

ayude a explicar la respuesta.

Las suposiciones establecidas con respecto a los errores del modelo se pueden expresar en términos

de la variable respuesta.

a) La esperanza de la variable respuesta dado que se conocen los valores de las variables

independientes es:

Recordar que la esperanza de es igual a cero y que β0 , β1 , …, βk son constantes desconocidas.

b) La varianza de la variable respuesta dado que se conocen los valores de las variables

independientes es

V (Y / X1 , X2 ,…, X k )=σ 2 (constante)

c) Las observaciones de la variable respuesta son independientes, esto es la respuesta obtenida en

un sujeto es independiente de la respuesta de otro individuo cualesquiera.

d) Adicionalmente, podemos suponer que la distribución de la variable respuesta, dado que se

conocen los valores de las variables independientes, es normal con media y varianza dados en

(a) y (b).

Y / X1 , X2 , …, Xk N (β0+β1 X1+…+βk Xk , σ2 )

II. Estimación de parámetros

En el contexto del análisis de regresión se supone que las variables independientes X1 , X2 , …, X k,

son fijadas y por tanto conocidas antes de observar la respuesta, el error aleatorio es inobservable.

En consecuencia, la variable respuesta, Y, es aleatoria pero observable a partir del conocimiento de

las variables independientes y de mantener controlado el error aleatorio. Pero el modelo tiene un

conjunto de constantes (parámetros) desconocidos β0 , β1 ,…,βk , además de 2 que deberán ser

estimados.

Nuestro objetivo ahora, es estimar (o ajustar) el modelo de regresión para eso usamos los datos

observados y estimamos los parámetros del modelo.

Existen diferentes métodos de estimación de parámetros de regresión tales como:

Mínimos cuadrados ordinarios.- Es el método más utilizado para la estimación de parámetros,

su objetivo es encontrar el conjunto de parámetros que haga mínima la distancia euclideana

entre las observaciones y el modelo elegido. Este método no requiere que la distribución de la

variable respuesta (ó el error) sea conocida.

Máxima verosimilitud.- Este método busca maximizar la verosimilitud de que el modelo

elegido haya generado los datos observados. Este método requiere que la distribución de

probabilidad de la variable respuesta sea conocida.

Métodos robustos y resistentes.- Estiman los parámetros utilizando métodos que no requieren

suposiciones muy estrictas para el error (o la variable respuesta). Por ejemplo que no se

verifique la normalidad de los errores y que estos provengan de distribuciones con colas más

pesadas como laplace, normal contaminada, cauchy, etc.

Métodos bayesianos.- Utilizan información a priori sobre el comportamiento de la variable

respuesta y estiman los parámetros utilizando esta información. Son métodos poco usados y no

todos los programas computacionales lo incorporan dentro de su menú de opciones.

En este curso utilizaremos los métodos de estimación de mínimos cuadrados y de máxima

verosimilitud.

III. Evaluación del modelo de regresión lineal

Ajustar un modelo a un fenómeno real implica formular un modelo matemático/estadístico que

represente el fenómeno, por lo tanto este modelo es válido siempre que se verifiquen los supuestos

bajo los cuales fueron ajustados

La evaluación del modelo tiene dos partes:

a) Evaluación de la bondad del ajuste .- La evaluación de la bondad del ajuste implica evaluar el

modelo global y cada uno de los parámetros estimados. Como los parámetros están asociados

con variables independientes, al evaluar los primeros estamos evaluando la importancia de las

variables para explicar la respuesta. Se analizarán algunos indicadores y se realizarán pruebas

de hipótesis tales como :

El coeficiente de determinación ( R2 )

El error estándar de estimación ( )

El análisis de varianza

Pruebas t para los parámetros individuales.

b) Evaluación de la adecuación del modelo .- Es necesario verificar si se verifica los supuestos

Homocedasticidad, esto es, varianza constante de los errores (V (ε )=σ 2),

Incorrelación de errores (Cov (εi ε j )) Independencia de las variables regresoras

Distribución normal de los errores (ε N ( 0 , σ2 ))

La verificación de estos supuestos se realizará mediante:

El Análisis de residuos del ajuste

El análisis de influencia.

En caso de que el análisis indique que alguno de los supuestos no se verifica este problema deberá

ser resuelto por que de otro modo, el modelo se invalida y puede tener una pobre performance y en

algunos casos puede llevar a conclusiones erradas.

IV. Evaluación de la capacidad predictiva del modelo

Si el modelo resulta válido el siguiente paso será interpretar los resultados.

En caso que el objetivo de construir el modelo sea utilizarlo para predicción es importante evaluar

su capacidad predictiva, esto implica utilizar datos nuevos (que no hayan sido utilizados en el ajuste

del modelo) para ver su desempeño en la realidad. En esta etapa se utilizan como indicadores :

-Los residuos PRESS,

-El coeficiente de correlación PRESS

-El error cuadrático medio de predicción , etc.

Análisis de Regresión Lineal Simple

Sean X e Y dos variables, entre las que se supone que existe una relación de dependencia

unidireccional de X hacia Y. De esta forma los valores de Y vienen determinados, en mayor o

menor medida, por los valores de X:

Variable independiente, regresora o exógena.

Variable dependiente, respuesta o endógena.

: Función de regresión.

Si con y constantes, estamos ante una regresión lineal simple. Si f adopta

una forma diferente, estamos ante un problema de regresión no lineal simple.

Finalmente el modelo de regresión lineal simple está dado por:

A los términos y se les conoce con el nombre de parámetros y son términos que serán

estimados utilizando el método de mínimos cuadrados.

Ejemplo 1

Cierta empresa está pensando en expandirse a una determinada región. La directora de planeación

tiene que presentar un análisis de la expansión propuesta. Como parte del análisis debe presentar

información sobre la cantidad mensual que gastan en electricidad las personas en esta región. A la

directora le gustaría también presentar información sobre la relación entre la cantidad mensual

gastada en electricidad y el ingreso. Los datos se encuentran en el archivo Hogar.xls

Bondad de Ajuste

El coeficiente de correlación múltiple y el coeficiente de determinación son indicadores

de la bondad del ajuste del modelo. El nos expresa la proporción de varianza de la variable

dependiente que está explicada por la variable independiente, valores cercanos a la unidad implican

que la mayor parte de la variabilidad de Y está explicada por el modelo de regresión.

El estadístico se debe utilizar con precaución, porque siempre es posible conseguir que

sea grande agregando términos suficientes al modelo. Una alternativa es el , coeficiente que no

está afectado por el incremento de variables independientes.

R2= 0.8925,

El 89,25% de la variabilidad de la cantidad mensual que se gasta en electricidad se encuentra

explicada por el modelo de regresión.

El error típico de la estimación (Root MSE) es la desviación típica de los residuos, es decir, la

desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente

y los pronósticos efectuados con la recta de regresión (Y i), Representa una medida de la parte de

variabilidad de la variable dependiente que no es explicada por la recta de regresión. En general,

cuanto mejor es el ajuste, más pequeño es este error típico.

El error típico de la estimación es: 8,23

La tabla de ANOVA nos brinda información acerca de si existe o no relación significativa entre las

variables. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es

cero, lo cual, en el modelo de regresión simple, equivale a contrastar la hipótesis de que la

pendiente de la recta de regresión vale cero. El rechazo de la hipótesis nula implica que existe

relación lineal entre la variable independiente y la variable dependiente.

F= 315,6259 p=0,000 < 0.05

Se rechaza la hipótesis nula y se concluye que existe una relación lineal entre las variables.

Ecuación de regresión.

Prueba de Hipótesis de

No existe relación lineal entre el gasto mensual en electricidad y el ingreso mensual

Existe relación lineal entre el gasto mensual en electricidad y el ingreso mensual

Como p < 0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre

el gasto mensual en electricidad y el ingreso mensual, con un 95% de confianza.

Interpretación de

Por cada unidad en que aumenta el ingreso mensual, el gasto en electricidad aumenta en 0.013338

dólares, con un 95% de confianza.

Ejemplo 2

En el archivo Ejemplo2.xls se muestran los datos registrados de las ventas en millones de euros y de

los gastos incurridos en publicidad, también en millones de euros por una empresa industrial que

fabrica sillas para oficina. Realice un análisis de regresión lineal para estos datos.

Ejemplo 3

En un tipo de espécimen metálico de prueba, la resistencia normal está funcionalmente relacionada

con la resistencia de corte. El siguiente es un conjunto de datos experimentales codificados para las

dos variables:

Resistencia ResistenciaNormal de corte26,8 26,525,4 27,328,9 24,223,6 27,127,7 23,623,9 25,924,7 26,328,1 22,526,9 21,727,4 21,422,6 25,825,6 24,9

Ejemplo 4:

Se llevó a cabo un estudio acerca de la cantidad de azúcar refinada mediante cierto proceso a varias

temperaturas diferentes. Los datos se codificaron y se registraron como sigue:

Temperatura Azúcar(x) Transformada1,0 8,11,1 7,81,2 8,5

1,3 9,81,4 9,51,5 8,91,6 8,61,7 10,21,8 9,31,9 9,22,0 10,5

Modelo de Regresión Lineal Múltiple

El procedimiento de Regresión Lineal permite utilizar más de una variable independiente, y, por

tanto, permite llevar a cabo análisis de regresión múltiple. En este análisis, la ecuación de regresión

ya no define una recta en el plano, sino un hiperplano en un espacio multidimensional.

El Modelo de Regresión Lineal Múltiple está dado por:

De acuerdo con este modelo o ecuación, la variable dependiente (Y) se interpreta como una

combinación lineal de un conjunto de K variables independientes , cada una de las cuales va

acompañada de un coeficiente que indica el peso relativo de esa variable en la ecuación. La

ecuación incluye además una constante y un componente aleatorio (los residuos: ) que

recoge todo lo que las variables independientes no son capaces de explicar.

La ecuación de regresión mínimo cuadrática se construye estimando los valores de los coeficientes

beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que las diferencias al

cuadrado entre los valores observados (Y) y los pronosticados (Y i )sean mínimas.

y= β0+ β1 x1+ β2 x2+…+ βk xk

Ejemplo:

Una empresa vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles

compradores hacen con más frecuencia es: si adquirimos esta casa, ¿cuánto tendremos que pagar

por la calefacción en invierno? Se le pidió al departamento de investigación de la compañía que

elabore algunos lineamientos relacionados con los costos de calefacción para casas unifamiliares.

Se consideró que el costo incluye tres variables: la temperatura media en el exterior, el espesor en

pulgadas del material de aislamiento térmico que se coloca en el desván, y la antigüedad del

calefactor. Para realizar esta investigación, el departamento en cuestión seleccionó una muestra de

20 casas vendidas recientemente. Determinó el costo de la calefacción de cada casa en el mes de

enero, la temperatura exterior en la región, el espesor en pulgadas de material aislante instalado en

el desván, y la antigüedad del calefactor. La información se presenta en el archivo Calefacción.xls

Bondad de Ajuste

R2= 0.8041, R2Adj=0.7674

El 76,74% de la variabilidad del costo de la calefacción se encuentra explicada por el modelo de

regresión.

El error típico de la estimación es: 51,0485

La tabla de ANOVA

F= 21,90 p=0,000 < 0.05

Se rechaza la hipótesis nula y se concluye que al menos una de las variables independientes tiene

una relación lineal con la variable dependiente.

Ecuación de regresión.

No existe relación lineal entre el costo de la calefacción y la temperatura promedio exterior

Existe relación lineal entre el costo de la calefacción y la temperatura promedio exterior

Como p<0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre

el costo de la calefacción y la temperatura promedio exterior, con un 95% de confianza.

No existe relación lineal entre el costo de la calefacción y el aislante térmico en el desván

Existe relación lineal entre el costo de la calefacción y el aislante térmico en el desván

Como p<0.05, entonces rechazamos , y concluimos que existe una posible relación lineal entre

el costo de la calefacción y el aislante térmico en el desván, con un 95% de confianza.

No existe relación lineal entre el costo de la calefacción y la antigüedad del calefactor

Existe relación lineal entre el costo de la calefacción y la antigüedad del calefactor

Como p>0.05, entonces no rechazamos , y concluimos que no existe una posible relación lineal

entre el costo de la calefacción y la antigüedad del calefactor, con un 95% de confianza.

Como la variable antigüedad del calefactor no aporta al modelo de regresión, entonces se tendrá

que retirar del análisis. Una vez retirada, la ecuación de regresión será:

Costo=490,2859−5,1498∗Temperatura−14,7181∗Aislante

Interpretación de

Por cada °F en que aumentan la temperatura, el costo de la calefacción disminuye en 5,1498

dólares, con un 95% de confianza; manteniendo constante las demás variables.

Interpretación de

Por cada pulgada en que aumentan el aislante térmico, el costo de la calefacción disminuye en

14,7181 dólares, con un 95% de confianza; manteniendo constante las demás variables.

Ejemplo 3:

Una muestra aleatoria de 25 enfermeras, seleccionadas de un directorio de enfermeras generales, produjo la siguiente información respecto a la calificación del examen de colocación de cada una de ellas realizado por la dirección estatal de personal (en Estados Unidos) y la calificación final de graduación escolar. Ambas calificaciones se relacionan con el área de afiliación de las enfermeras. Además, se tuvo información de las calificaciones obtenidas por cada enfermera en una prueba de aptitud, realizada al ingresar a la escuela de enfermería. Los datos completos son los siguientes:

Calificación de Calificación Calificación de laaprobación por el

estado final prueba de aptitud(Y ) ( X1) (X2)440 87 92480 87 79535 87 99460 88 91525 88 84480 89 71510 89 78530 89 78545 89 71600 89 76495 90 89545 90 90575 90 73525 91 71575 91 81600 91 84490 92 70510 92 85575 92 71

540 93 76595 93 90525 94 94545 94 94600 94 93625 94 73

Coeficientes de Regresión estandarizados

Los coeficientes Beta están basados en las puntuaciones típicas, y por tanto, son directamente

comparables entre sí. Indican la cantidad de cambio, en puntuaciones típicas, que se producirá en la

variable dependiente por cada cambio de una unidad en la correspondiente variable independiente

(manteniendo constante el restote variables independientes).

Estos coeficientes proporcionan una pista muy útil sobre la importancia relativa de cada variable

independiente en la ecuación de regresión. En general, una variable tiene tanto más peso

(importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeficiente de

regresión estandarizado.

En nuestro caso, la variable edad es la más importante.

Análisis de los Residuos

El análisis de los residuos es básico para chequear si se verificar las hipótesis del modelo de

regresión. Estos residuos resultan de ser de suma importancia. Nos informan sobre el grado de

exactitud de los pronósticos: cuanto más pequeño es el error típico de los residuos, mejores son los

pronósticos, o lo que es lo mismo, mejor se ajusta la recta de regresión a la nube de puntos.

Para comprobar si se verifican las hipótesis estructurales en el ajuste de un modelo lineal, el análisis

de residuos juega un papel fundamental.

Tipos de residuos

Residuos Ordinarios:

Se denomina así a las diferencias entre los valores observados y los pronosticados.

e i= y i− yi , i=1,2,…,n

Recordemos que el i-ésimo residuo e i es una variable aleatoria que tiene las siguientes propiedades:

E (ei )=0 , Var (e i )=σ ei

2 , i=1 , …, n

Bajo las hipótesis de normalidad se obtiene:

e i N (0 , σe i

Residuos Estandarizados

De la ecuación anterior, se deduce que σ ei

2 no es constante, lo que hace difícil identificar las

observaciones con residuos grandes. Por ello es usual tipificarlos y se definen los residuos

estandarizados como:

√CM Res, i=1 ,…, n

Los residuos estandarizados tienen media cero y varianza próxima a 1, esto permite distinguir a los

residuos grandes.

Residuos Estudentizados

Si se utiliza el CM Res como la varianza del i-ésimo residual e i, sólo se tendrá una aproximación.

Se puede mejorar el cálculo del residual dividiendo e i entre la desviación estándar exacta del i-

ésimo residual. Se definen los residuos estudentizados como:

t i=ei

√CM Res(1−hij)

Siendo hij el j-ésimo elemento de la matriz sombrero ¿.

Si n es grande, los residuos estandarizados y estudentizados toman valores próximos.

Bajo la hipótesis de normalidad se verifica que t i sigue una distribución t con n-3 grados de

libertad.

Residuos PRESS

Los residuales estandarizados y estudentizados son efectivos para detectar valores atípicos.

Si se elimina la i-ésima observación, entonces y i no puede estar influido por esta observación, así

que el residual obtenido probablemente indique la presencia del valor atípico.

Si se elimina l-ésima observación, se ajusta el modelo de regresión con las n-1 observaciones

restantes y se calcula el valor predicho y i correspondiente a la observación omitida.

Evaluación de la adecuación del modelo.-

Homocedasticidad, esto es, varianza constante de los errores (V (ε )=σ 2), La homocedasticidad se verificará a través de una serie de gráficos de los residuos.

De forma general, en el gráfico de residuos ( e i ) frente a las predicciones ( y i )

El gráfico de residuos ( e i ) frente a una variable explicativa ( x ij ), si se

sospecha que la heterocedasticidad es debida a la variable explicativa x j .

Para resolver este problema las alternativas que hay son las siguientes:

Transformar los datos. En muchos casos es suficiente con tomar logaritmos en la

variable respuesta. Por otra parte, el problema puede estar ligado a otros problemas

como falta de normalidad, falta de linealidad que, normalmente, también se

resuelven al hacer la transformación.

Algunos gráficos:

a). Regresión normal:

Los residuos aparecen aleatorios lo que es una buena indicación de que el modelo de

regresión tiene un buen ajuste.

b). Relación no lineal:

Se observa un relación entre y y los residuos.

c). Se observa un dato atípico

Cuando hay un dato atípico, se observa un residuo muy alto.

d). Se observa que la recta se encuentra más cercana a los datos cuando x es más pequeño.

Los residuos son más pequeños cuando es pequeño

e). Se observa el efecto de un dato influyente

Se ve el efecto del dato influyente

Colinealidad

Existe colinealidad perfecta cuando una de las variables independientes se relaciona de

forma perfectamente lineal con una o más del resto de variables independientes. Hablamos

de colinealidad parcial o simplemente colinealidad cuando entre las variables

independientes de una ecuación existen correlaciones altas.

La colinealidad es un problema, porque en el caso de colinealidad perfecta, no es posible

estimar los coeficientes de regresión y en el caso de colinealidad parcial, aumenta el tamaño

de los residuos tipificados y esto produce coeficientes de regresión muy inestables.

Al evaluar la existencia o no de colinealidad, la dificultad estriba en determinar cuál es el

grado máximo de relación permisible entre las variables independientes. No existe un

consenso generalizado acerca de esto, pero puede servirnos de guía la presencia de ciertos

indicios que podemos encontrar en los resultados de un análisis de regresión:

El estadístico F que evalúa el ajuste general de la ecuación de regresión es

significativo, pero no lo es ninguno de los coeficientes de regresión parcial.

Los coeficientes de regresión parcial estandarizados (los coeficientes beta) están

inflados tanto en positivo como en negativo.

Existen valores de tolerancia pequeños (próximos a 0,01). La tolerancia de una

variable independiente es la proporción de varianza de esa variable que no está

asociada (no depende) del resto de variables independientes incluidas en la

ecuación. Una variable con una tolerancia de por ejemplo 0,01 es una variable que

comparte el 99% de su varianza con el resto de variables independientes, lo cual

significa que se trata de una variable redundante casi por completo.

Los coeficientes de correlación estimados son muy grandes (por encima de 0,90

en valor absoluto)

Si se detecta la presencia de colinealidad en un conjunto de datos, se puede remediar si:

a) Aumentamos el tamaño de la muestra (esta solución puede resultar útil si existen

pocos casos en relación al número de variables)

b) Crear indicadores múltiples combinando variables (promediar variables, aplicando

componentes principales para reducir el número de variables y aplicando el análisis

de regresión sobre estos componentes)

c) Excluir variables redundantes, es decir, excluir variables que correlacionan muy alto

con otras.

d) Utilizar una técnica de estimación sesgada tal como la regresión ridge.

Independencia

El estadístico Durbin Watsn proporciona información sobre el grado de independencia

existente entre los residuos. Se calcula mediante:

DW=∑i=2

(e i−e i−1 )2

∑i=1

El estadístico DW oscila entre 0 y 4 y toma el valor 2 cuando los residuos son

independientes. Valores menores que 2 indican autocorrelación positiva y los mayores que

2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando DW

toma valores entre 1,5 y 2,5.

Distribución normal de los errores (ε N ( 0 , σ2 ))

MODELO DE REGRESIÓN LINEAL · Web viewTipo de relación entre las variables (lineal o no lineal),...

Documents

9. REGRESIÓN LINEAL

Regresión Lineal Simple.final2

Regresión No Lineal

Regresión No Lineal

Regresión lineal múltiple

Correlación lineal y Regresión lineal simple

Regresión Lineal Multiple

REGRESIÓN LINEAL SIMPLE

MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

x Regresión Lineal

18. Regresión Lineal

Regresión lineal (Último)

Regresión lineal 41A22

3. Regresión lineal - etsii.upm.es · 3. Regresión lineal Curso 2011-2012 Estadística Regresión Lineal 2 Regresión simple consumo y peso de automóviles

Regresión lineal simple

Regresión lineal y no-lineal

Regresión Lineal Simple y Múltiple Regresión Logísticamatematicas.unex.es/~mvelasco/MUICS/Regresion Lineal Simple... · 2 Regresión Lineal Simple y Correlación Lineal 3 Regresión

REGRESIÓN LINEAL SIMPLE.doc

Regresión Lineal

Clase Regresión Lineal