Upload
jano-aranis
View
6.610
Download
1
Embed Size (px)
Citation preview
Depto. Estadística, Universidad Carlos III 1Ignacio Cascos
Regresión lineal simpleTema 1
Depto. Estadística, Universidad Carlos III 2Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 3Ignacio Cascos
Objetivos Construcción de modelos de regresión Métodos de estimación para dichos modelos Inferencia acerca de los parámetros Aprendizaje de utilización de gráficos para
detectar el tipo de relación entre dos variables Cuantificación del grado de relación lineal
Depto. Estadística, Universidad Carlos III 4Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 5Ignacio Cascos
Introducción Estudio conjunto de dos variables Relación entre las variables Regresión lineal Historia del concepto de regresión lineal
uxy 10
Depto. Estadística, Universidad Carlos III 6Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 7Ignacio Cascos
Ejemplo: Pureza del oxígeno en un proceso de destilación
Depto. Estadística, Universidad Carlos III 8Ignacio Cascos
Ejemplo: Pureza del oxígeno en un proceso de destilación
Depto. Estadística, Universidad Carlos III 9Ignacio Cascos
El modelo de regresión simple n pares de la forma (xi,yi) Objetivo: valores aproximados de Y a partir de X X: variable independiente o explicativa Y: variable dependiente o respuesta (a explicar)
pendiente
intercepto
regresión de escoeficient y
1
0
10
10
iii uxy
Depto. Estadística, Universidad Carlos III 10Ignacio Cascos
El modelo de regresión simple
Depto. Estadística, Universidad Carlos III 11Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 12Ignacio Cascos
Linealidad: datos con aspecto recto
Plot of Y1 vs X1
0 40 80 120 160 200
X1
0
200
400
600
800
Y1
Plot of Y2 vs X2
0 40 80 120 160 200 240
X2
0
100
200
300
400
500
600
Y2
Depto. Estadística, Universidad Carlos III 13Ignacio Cascos
Homogeneidad El valor promedio del error es cero,
0][ iuE
Depto. Estadística, Universidad Carlos III 14Ignacio Cascos
Homocedasticidad:Var[ui]=s2 Varianza de errores constante
Depto. Estadística, Universidad Carlos III 15Ignacio Cascos
Independencia: Observaciones independientes, en particular E[uiuj]= 0
Depto. Estadística, Universidad Carlos III 16Ignacio Cascos
Normalidad: ui~N(0, s2)
Depto. Estadística, Universidad Carlos III 17Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Tansformaciones
Depto. Estadística, Universidad Carlos III 18Ignacio Cascos
Método de Mínimos Cuadrados
Valor observado Dato (y)
Recta de regresiónestimada
Valor observado Dato (y)
Recta de regresiónestimada
Depto. Estadística, Universidad Carlos III 19Ignacio Cascos
Mínimos Cuadrados (Gauss, 1809) Objetivo: Buscar los valores de b0 y b1 que
mejor se ajustan a nuestros datos. Ecuación:
Residuo:
Minimizar:
iiiii xyyye 10ˆˆˆ
n
iie
1
2
ii xy 10ˆˆˆ
Depto. Estadística, Universidad Carlos III 20Ignacio Cascos
Mínimos Cuadrados (Gauss, 1809) Resultado:
xS
Sy
X
YX2,
0ˆ
xxyy ii 1ˆˆ
2,
1ˆ
X
YX
S
S
Depto. Estadística, Universidad Carlos III 21Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
Depto. Estadística, Universidad Carlos III 22Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
xy
xyS
S
SS
yxn
x
xy
xyx
95142874
287419619514169295146810
17710
177106810
20
1021
2
..ˆ
..).(.ˆˆ ..
.ˆ
. .
92.16 1.196
Depto. Estadística, Universidad Carlos III 23Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
xy 95142874 ..ˆ
Depto. Estadística, Universidad Carlos III 24Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
0
Depto. Estadística, Universidad Carlos III 25Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
1
Depto. Estadística, Universidad Carlos III 26Ignacio Cascos
Método de Máxima Verosimilitud Mismo resultado. Estimación de la varianza:
INSESGADO 2
ˆ Residual Varianza
insesgado no EMV ˆ
22
22
n
eS
n
e
iR
i
Depto. Estadística, Universidad Carlos III 27Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
2RS
Depto. Estadística, Universidad Carlos III 28Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 29Ignacio Cascos
Props. de los coeficientes de regresiónNormalidad
iiix
i ywynS
xx21
)( Combinación lineal de normales
),(~ 20 iii xNy
Estimador centrado
121
ix
i yEnS
xxE
)(ˆ
Varianza del estimador
2
22
21
xi
x
i
nSyVar
nS
xxVar
)(ˆ
2
2
11
xnSN
,~ˆ
Depto. Estadística, Universidad Carlos III 30Ignacio Cascos
Props. de los coeficientes de regresiónNormalidad
ii ywxn
xy1
10 ˆˆ Combinación lineal de normales
),(~ 20 iii xNy
Estimador centrado
00
1
ii yEwxn
E ˆ
Varianza del estimador
2
222
0 11
xii
S
x
nyVarwx
nVar
2
22
00 1xS
x
nN
,~ˆ
Depto. Estadística, Universidad Carlos III 31Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 32Ignacio Cascos
Inferencia respecto a los parámetros IC
2
ˆ ˆEn general, si ~ , ( ) un I.C. para :
ˆ ˆ ( )
N Var
z Var
2 20
1
ˆˆ ( / 2, 2) 1 /
ˆˆ ( / 2, 2)
Rx
R
x
St n x S
n
St n
S n
2
1 1 2
2 2
0 0 2
ˆ ~ ,
ˆ ~ , 1
x
x
NnS
xN
n S
2ˆDesconocida RS
Depto. Estadística, Universidad Carlos III 33Ignacio Cascos
Inferencia respecto a los parámetrosContraste de Hipótesis
0 0 1 0
0 2 2
0 1 1 1
1
: 0 : 0
ˆ ˆ 1 /
: 0 : 0
ˆ
ˆ
R x
x
R
H H
nt
S x S
H H
S nt
S
( / 2, 2)t n
Depto. Estadística, Universidad Carlos III 34Ignacio Cascos
Ajuste regresión simple: pureza
oxígeno
0 1ˆ ˆ y
significativos
Depto. Estadística, Universidad Carlos III 35Ignacio Cascos
Descomposición de la variabilidad La variabilidad del modelo satisface: VT =VE+VNE
Contraste de regresión
n
ii
n
iii
n
ii
n
ii
eyy
yy
yy
1
2
1
2
1
2
1
2
)ˆ(Explicada No adVariabilidVNE
)ˆ(Explicada adVariabilidVE
)(Total adVariabilidVT
2,11 ~2VNE
VE entonces 0, Si
nFn
Depto. Estadística, Universidad Carlos III 36Ignacio Cascos
Ajuste regresión simple: pureza
oxígeno
VE
Depto. Estadística, Universidad Carlos III 37Ignacio Cascos
Ajuste regresión simple: pureza
oxígeno
VNE
Depto. Estadística, Universidad Carlos III 38Ignacio Cascos
Coeficiente de determinación
22
2,
21
2
1
2
1
2
2
)ˆ(
)(
)ˆ(
VT
VE
YX
YX
Y
n
ii
n
ii
n
ii
SS
S
nS
yy
yy
yyR
Depto. Estadística, Universidad Carlos III 39Ignacio Cascos
Predicción Dos tipos de predicción: Predecir un valor promedio de y para cierto
valor de x. Predecir futuros valores de la variable
respuesta.La predicción es la misma (a partir de la recta de regresión) pero la precisión de los estimadores es diferente.
Depto. Estadística, Universidad Carlos III 40Ignacio Cascos
Predicción (promedio)
2
202
12
00
010
)(1
)ˆ()()()ˆ(
)(ˆˆ
XnS
xx
n
VarxxyVaryVar
xxyy
2
20
2/,20
)(1ˆˆX
Rn nS
xx
nSty
Intervalo de confianza para la media estimada
Estimación de la media de la distribución condicionada de y para x=x0:
Depto. Estadística, Universidad Carlos III 41Ignacio Cascos
Ajuste regresión simple: pureza
oxígeno
,x y
La anchura del intervaloaumenta cuando aumenta
hx x
Depto. Estadística, Universidad Carlos III 42Ignacio Cascos
Predicción para futuros valores
2
20
2/,20
)(11ˆˆ
XRn nS
xx
nSty
Intervalo de predicción
Depto. Estadística, Universidad Carlos III 43Ignacio Cascos
Ajuste regresión simple: pureza
oxígeno
Depto. Estadística, Universidad Carlos III 44Ignacio Cascos
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis
Depto. Estadística, Universidad Carlos III 45Ignacio Cascos
DiagnosisUna vez ajustado el modelo, hay que comprobar
si se cumplen las hipótesis iniciales. Gráficos de residuos frente a valores
previstos. Si las hipótesis iniciales se satisfacen, este
gráfico no debe tener estructura alguna.
Depto. Estadística, Universidad Carlos III 46Ignacio Cascos
Ajuste regresión simple:Datos pureza oxígeno
Depto. Estadística, Universidad Carlos III 47Ignacio Cascos
Relaciones no lineales
Gráficos de residuos
Depto. Estadística, Universidad Carlos III 48Ignacio Cascos
LinealidadSoluciones a la falta de linealidad: Transformar las variables para intentar
conseguir linealidad. Introducir variable adicionales. Detectar la presencia de datos atípicos o
ausencia de otras variables importantes para explicar la variable respuesta.
Depto. Estadística, Universidad Carlos III 49Ignacio Cascos
Homocedasticidad
.
y
Cuando la varianza de las perturbaciones es muy diferente para unos valores de la variable explicativa que para otros tenemos heterocedasticidad
e
Depto. Estadística, Universidad Carlos III 50Ignacio Cascos
HomocedasticidadSoluciones a la heterocedasticidad: Si la variabilidad de la respuesta aumenta con x según la ecuación Var(y|x) = g(x), dividimos la ecuación de regresión (y) entre g(x).
Transformar la variable respuesta y puede que también x.
Si lo anterior no funciona, cambiar el método de estimación.
Depto. Estadística, Universidad Carlos III 51Ignacio Cascos
NormalidadLa falta de normalidad invalida resultados inferenciales.
Comprobación mediante histogramas o gráficos probabilísticos.
En un gráfico probabilístico comparamos los residuos ordenados con los cuantiles de la distribución Normal estándar.
Si la distribución de los residuos es normal, el gráfico ha de mostrar aproximadamente una recta.
Depto. Estadística, Universidad Carlos III 52Ignacio Cascos
Normalidad
Depto. Estadística, Universidad Carlos III 53Ignacio Cascos
Independencia y Datos influyentesIndependencia Conviene hacer una gráfica de residuos frente
a tiempo (residuos incorrelados).
Datos influyentes Analizar la presencia de datos influyentes.
Los atípicos son datos muy grandes o muy pequeños. Estudiar su posible eliminación.
Depto. Estadística, Universidad Carlos III 54Ignacio Cascos
Transformaciones
Forma funcional que relaciona y con x
Transformación apropiada
Exponencial: y = aexp{bx}Potencia: y = axb
Recíproca: y = a+b/xHiperbólica: y = x/(a+bx)
y’ = lnyy’ = lny , x’ = lnxx’ = 1/xy’ = 1/y , x’ = 1/x