Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Técnicas Multivariadas Avanzadas
Más alla de la linealidad
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2014-2
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Introducción
Introducción
Las relaciones entre variables casi nunca son lineales.
Sin embargo el supuesto de linealidad casi siempre es
su�ciente.
Existen algunas alternativas como la regresión polinomial, las
funciones paso, splines, regresión local y los modelos aditivos
generalizados.
Estos métodos ofrecen gran �exibilidad sin perder la esencia e
interpretabilidad de los modelos lineales.
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Regresión Polinomial
yi = β0 + β1xi + β2x2i + β3x
3i + · · ·+ βdxdi + �i
20 30 40 50 60 70 80
50
100
150
200
250
300
Age
Wage
Degree−4 Polynomial
20 30 40 50 60 70 80
0.0
00.0
50.1
00.1
50.2
0
Age
| | || | ||| | ||| | | ||| | || | | |||
|
|| || ||| | | | || || || | || |
|
|| | | |
|
| || || || | | || | ||| || ||| | | |
|
| || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||
|
|| || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||
|
||| | || | || || | || | ||| || || | || ||| |
|
| | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |
|
| |||| ||| || || || ||| | | ||
|
|| |
|
| || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||
|
| || || || || || |
|
| |||| || || |||| | || || || ||| | || |||| || |
|
| | |||| || || || |
|
|| |||| ||| ||
|
||| || |||| | || || | | |||
|
||| || | || | || | || || ||||| | | ||| |
|
| | || || ||| ||| | || |
|
|| | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |
|
| ||| | || || | | || |
|
| | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |
|
|| ||||| ||| | | || || || || || || || |
|
| || || || | ||| || || | || || |||| |||| |
|
| || || ||| || | | ||| || || | ||| ||| || || |
|
||| || || || || || | | ||| | || ||| || || | |||| || | |
|
|| || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |
|
| || |||| ||| | |||
|
| | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||
|
|| || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |
|
|| ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||
|
| || || ||| | | ||| | |||| | || || ||||
|
| | || | || | || | |||
|
| || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||
|
||| ||| | || || || | | || | || || || || || || | || || | || || |
|
| || ||| || |
| |
| ||| | || || |
|
| |||| ||| | |||| ||
|
| ||| ||| ||| |||| |
|
| || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||
|
| | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||
|
| || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |
|
| || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||
|
|| |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |
|
|| | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||
|
|| || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||
|
|| | |
|
||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |
|
||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||
|
| || | | || | || || | || || || | |||| | | | ||| | | ||
|
| | || ||
|
|| | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||
|
|||| |
|
|| | |||| ||| | || || ||| || ||| | |||| || |
|
|| ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |
|
| || | |||
|
| | || || | ||| || |
|
| | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |
|
|| || |||| | || |||| |
||
| | | ||||| |||
|
|| |||| | |||| || |
|
| | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |
|
| || ||
|
|| || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||
|
|| ||| | |
| |
|| || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||
|
| |||
|
| ||
|
| |
|
|
|
| | | || || |||
|
|||| ||
|
|| || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |
|
| ||| || || || ||| ||| | ||| | || || ||| || || ||| ||
|
| ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||
|
| | ||| || | | | ||
|
| | || | | ||| | || | || | ||| || || ||| | | || |
|
|| ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |
Pr(Wage>
250|A
ge)
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Regresión Polinomial
Se crean nuevas variables: X1 = X , X2 = X2, etc y luego se
estima el modelo de regresión usando MCO.
El interés principal no esta en los coe�cientes sino en los
valores estimados para un valor x0:
f̂ (x0) = β̂0 + β̂1x0 + β̂2x20 + β̂3x
30 + β̂4x
40
Como f̂ (x0) es una función lineal de los β̂l se puede obtener laexpresión para la variancia V (f̂ (x0)).
En la grá�ca anterior se observan las estimaciones puntuales y
los intervalos correspondientes a:
f̂ (x0)± 2SE (f̂ (x0))
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Regresión Polinomial
Para determinar d puede usarse validación cruzada.
Es posible aplicar una ecuación polinomial a la regresión
logística, por ejemplo:
Pr(yi > 250|xi ) =exp{β0 + β1xi + β2x2i + · · ·+ βdxdi }
1+ exp{β0 + β1xi + β2x2i + · · ·+ βdxdi }
Para obtener intervalos de con�anza se calculan los limites en
la escala logit y luego se convierten en probabilidades.
Advertencia: Los modelos polinomiales son malos para
extrapolación.
En R: y~poly(x,degree=3).
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Funciones paso
Se puede cortar la variables en diferentes regiones, por ejemplo:
C1(X ) = I (X < 35) · · · C4(X ) = I (X ≥ 65)
20 30 40 50 60 70 80
50
100
150
200
250
300
Age
Wage
Piecewise Constant
20 30 40 50 60 70 80
0.0
00.0
50.1
00.1
50.2
0
Age
| | || | ||| | ||| | | ||| | || | | |||
|
|| || ||| | | | || || || | || |
|
|| | | |
|
| || || || | | || | ||| || ||| | | |
|
| || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||
|
|| || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||
|
||| | || | || || | || | ||| || || | || ||| |
|
| | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |
|
| |||| ||| || || || ||| | | ||
|
|| |
|
| || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||
|
| || || || || || |
|
| |||| || || |||| | || || || ||| | || |||| || |
|
| | |||| || || || |
|
|| |||| ||| ||
|
||| || |||| | || || | | |||
|
||| || | || | || | || || ||||| | | ||| |
|
| | || || ||| ||| | || |
|
|| | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |
|
| ||| | || || | | || |
|
| | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |
|
|| ||||| ||| | | || || || || || || || |
|
| || || || | ||| || || | || || |||| |||| |
|
| || || ||| || | | ||| || || | ||| ||| || || |
|
||| || || || || || | | ||| | || ||| || || | |||| || | |
|
|| || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |
|
| || |||| ||| | |||
|
| | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||
|
|| || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |
|
|| ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||
|
| || || ||| | | ||| | |||| | || || ||||
|
| | || | || | || | |||
|
| || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||
|
||| ||| | || || || | | || | || || || || || || | || || | || || |
|
| || ||| || |
| |
| ||| | || || |
|
| |||| ||| | |||| ||
|
| ||| ||| ||| |||| |
|
| || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||
|
| | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||
|
| || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |
|
| || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||
|
|| |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |
|
|| | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||
|
|| || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||
|
|| | |
|
||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |
|
||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||
|
| || | | || | || || | || || || | |||| | | | ||| | | ||
|
| | || ||
|
|| | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||
|
|||| |
|
|| | |||| ||| | || || ||| || ||| | |||| || |
|
|| ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |
|
| || | |||
|
| | || || | ||| || |
|
| | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |
|
|| || |||| | || |||| |
||
| | | ||||| |||
|
|| |||| | |||| || |
|
| | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |
|
| || ||
|
|| || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||
|
|| ||| | |
| |
|| || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||
|
| |||
|
| ||
|
| |
|
|
|
| | | || || |||
|
|||| ||
|
|| || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |
|
| ||| || || || ||| ||| | ||| | || || ||| || || ||| ||
|
| ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||
|
| | ||| || | | | ||
|
| | || | | ||| | || | || | ||| || || ||| | | || |
|
|| ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |
Pr(Wage>
250|A
ge)
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Funciones paso
Se requiere de un conjunto de variables dummy para
representar cada grupo.
Se pueden establecer interacciones que son fáciles de
interpretar, por ejemplo:
I (Year < 2005) · Age I (Year ≥ 2005) · Age
considera diferentes funciones lineales en cada grupo.
En R: I(year
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Polinomios por partes
Se pueden usar polinomios diferentes en las regiones de�nidas
por los knots, por ejemplo:
yi =
{β01 + β11xi + β21x
2i + β31x
3i + �i xi < ci
β02 + β12xi + β22x2i + β32x
3i + �i xi ≥ ci
Es necesario agregar restricciones a los polinomios, por
ejemplo para lograr continuidad.
Los splines permiten obtener la mayor cantidad de continuidad.
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Regresión PolinomialFunciones pasoPolinomios por partes
Polinomios por partes
20 30 40 50 60 70
50
100
150
200
250
Age
Wage
Piecewise Cubic
20 30 40 50 60 70
50
100
150
200
250
Age
Wage
Continuous Piecewise Cubic
20 30 40 50 60 70
50
100
150
200
250
Age
Wage
Cubic Spline
20 30 40 50 60 70
50
100
150
200
250
Age
Wage
Linear Spline
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines lineales
Un spline lineal con knots en ξk , k = 1, · · · ,K es unpolinomio lineal por partes que es continuo en cada knot.
Se puede representar este modelo como:
yi = β0 + β1b1(xi ) + β2b2(xi ) + · · ·+ βK+3bK+3(xi ) + �i
donde los bk son funciones base:
b1(xi ) = xi
bk+1(xi ) = (xi − ξk)+ k = 1, · · · ,K + 2
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines lineales
La notación ()+ representa la parte positiva, es decir:
(xi − ξk)+ ={xi − ξk xi > ξk0 xi ≤ ξk
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines cúbicos
Un spline cúbico es un polinomio cúbico por partes que tiene
derivadas continuas de orden dos o más en cada knot ξk parak = 1, · · · ,K .Se puede representar este modelo como:
yi = β0 + β1b1(xi ) + β2b2(xi ) + · · ·+ βK+3bK+3(xi ) + �i
donde los bk son funciones base:
b1(xi ) = xi
b2(xi ) = x2i
b3(xi ) = x3i
bk+3(xi ) = (xi − ξk)3+ k = 1, · · · ,K
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines cúbicos
La notación ()+ representa la parte positiva, ahora:
(xi − ξk)3+ ={(xi − ξk)3 xi > ξk0 xi ≤ ξk
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines cúbicos naturales
Los splines tienen mucha varianza fuera del rango de los
predictores.
Un spline cúbico natural considera 4 restricciones adicionales
para que la función sea lineal en la frontera manteniendo los
mismos grados de libertad de un spline cúbico regular.
Estas restricciones permiten que un spline cúbico natural
generalmente produzca estimaciones más estables en la
frontera.
Se pueden estimar splines en R usando bs(x, ...) parasplines de cualquier grado y ns(x, ...) para splinescúbicos naturales dentro de la librería splines.
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines cúbicos naturales
20 30 40 50 60 70
50
10
01
50
20
02
50
Age
Wa
ge
Natural Cubic Spline
Cubic Spline
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Splines cúbicos naturales
20 30 40 50 60 70 80
50
100
150
200
250
300
Age
Wage
Natural Cubic Spline
20 30 40 50 60 70 80
0.0
00.0
50.1
00.1
50.2
0
Age
| | || | ||| | ||| | | ||| | || | | |||
|
|| || ||| | | | || || || | || |
|
|| | | |
|
| || || || | | || | ||| || ||| | | |
|
| || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||
|
|| || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||
|
||| | || | || || | || | ||| || || | || ||| |
|
| | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |
|
| |||| ||| || || || ||| | | ||
|
|| |
|
| || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||
|
| || || || || || |
|
| |||| || || |||| | || || || ||| | || |||| || |
|
| | |||| || || || |
|
|| |||| ||| ||
|
||| || |||| | || || | | |||
|
||| || | || | || | || || ||||| | | ||| |
|
| | || || ||| ||| | || |
|
|| | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |
|
| ||| | || || | | || |
|
| | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |
|
|| ||||| ||| | | || || || || || || || |
|
| || || || | ||| || || | || || |||| |||| |
|
| || || ||| || | | ||| || || | ||| ||| || || |
|
||| || || || || || | | ||| | || ||| || || | |||| || | |
|
|| || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |
|
| || |||| ||| | |||
|
| | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||
|
|| || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |
|
|| ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||
|
| || || ||| | | ||| | |||| | || || ||||
|
| | || | || | || | |||
|
| || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||
|
||| ||| | || || || | | || | || || || || || || | || || | || || |
|
| || ||| || |
| |
| ||| | || || |
|
| |||| ||| | |||| ||
|
| ||| ||| ||| |||| |
|
| || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||
|
| | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||
|
| || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |
|
| || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||
|
|| |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |
|
|| | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||
|
|| || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||
|
|| | |
|
||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |
|
||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||
|
| || | | || | || || | || || || | |||| | | | ||| | | ||
|
| | || ||
|
|| | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||
|
|||| |
|
|| | |||| ||| | || || ||| || ||| | |||| || |
|
|| ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |
|
| || | |||
|
| | || || | ||| || |
|
| | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |
|
|| || |||| | || |||| |
||
| | | ||||| |||
|
|| |||| | |||| || |
|
| | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |
|
| || ||
|
|| || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||
|
|| ||| | |
| |
|| || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||
|
| |||
|
| ||
|
| |
|
|
|
| | | || || |||
|
|||| ||
|
|| || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |
|
| ||| || || || ||| ||| | ||| | || || ||| || || ||| ||
|
| ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||
|
| | ||| || | | | ||
|
| | || | | ||| | || | || | ||| || || ||| | | || |
|
|| ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |
Pr(Wage>
250|A
ge)
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Ubicación de los knots
Una estrategia es decidir primero el número de knots K yluego usar algunos cuantiles apropiados para los valores
observados de X .
Un spline cúbico con K knots tiene K + 4 parámetros o gradosde libertad.
Un spline natural con K knots tiene K grados de libertad.
En el siguiente grá�co se muestra un polinomio de grado 15 y
un spline cúbico natural con 15 grados de libertad usando
ns(age, df=15) y poly(age, deg=15).
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Ubicación de los knots
20 30 40 50 60 70 80
50
10
01
50
20
02
50
30
0
Age
Wa
ge
Natural Cubic Spline
Polynomial
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Suavización por Splines
Considere el siguiente criterio para estimar una función
suavizada g(x) a partir de una data:
ming∈S
n∑i=1
(yi − g(xi ))2 + λˆ
g �(t)2dt
El primer término es RSS y busca que g(x) se aproxime a ladata en cada xi .
El segundo término es una penalidad por aspereza y controla
que tan rugosa es g(x) y se regula a través de un parámetrode sintonización λ ≥ 0.
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Suavización por Splines
Cuanto menor sea el valor de λ más rugosa sera la función yeventualmente interpola cada yi cuando λ = 0. Conformeλ→∞ la función g(x) se vuelve lineal.La solución al problema anterior es un spline cúbico natural
con knots en cada valor único de xi .
La penalidad por aspereza se controla usando λ.
La suavización por splines evita el problema de selección de los
knots ya que solo debe elegirse λ.
Los detalles del algoritmo son algo complejos para ser descritos
en esta presentación. En R se usa smooth.spline().
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Suavización por Splines
El vector de n valores estimados puede ser escrito como:
ĝλ = Sλy
donde Sλ es una matriz n × n determinada por xi y λ.Los grados de libertad efectivos están dados por:
dfλ =n∑
i=1
{Sλ}ii
En R: smooth.spline(age,df=10).
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Suavización por Splines
Para elegir λ se usa el error por validación cruzada dejandouno afuera:
RSSCV (λ) =n∑
i=1
(yi − ĝ (−i)λ (xi ))2
=n∑
i=1
[yi − ĝλ(xi )1− {Sλ}ii
]2Se uso smooth.spline(age,wage)para obtener elsiguiente grá�co.
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Suavización por Splines
20 30 40 50 60 70 80
05
01
00
20
03
00
Age
Wa
ge
Smoothing Spline
16 Degrees of Freedom
6.8 Degrees of Freedom (LOOCV)
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Regresión local
Usando una función peso de manera local se estima una recta
por cada región de�nida en X usando mínimos cuadradosponderados. En R se usa: loess().
0.0 0.2 0.4 0.6 0.8 1.0
−1.0
−0.5
0.0
0.5
1.0
1.5
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
OOO
O
O
O
O
O
O
O
O
OO
O
O
OO
O
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
O
O
OO
O
O
O
O
O
OO
O
O
O
O
OO
O
O
OO
O
O
O
OO
O
O
O
O
O
O
O
OO
O
O
O
OO
O
O
O
O
OO
O
O
O
O
O
O
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
OOO
O
O
O
O
0.0 0.2 0.4 0.6 0.8 1.0
−1.0
−0.5
0.0
0.5
1.0
1.5
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
OOO
O
O
O
O
O
O
O
O
OO
O
O
OO
O
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
O
O
OO
O
O
O
O
O
OO
O
O
O
O
OO
O
O
OO
O
O
O
OO
O
O
O
O
O
O
O
OO
O
O
O
OO
O
O
O
O
OO
O
O
O
O
O
O
O
O
O
O
O
OO
O
O
OO
O
O
O
O
O
O
OO
O
O
O
O
O
O
O
O
O
O
OO
O
O
O
O
O
OO
O
O
O
O
OO
O
O
OO
O
O
Local Regression
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Regresión local
20 30 40 50 60 70 80
05
01
00
20
03
00
Age
Wa
ge
Local Linear Regression
Span is 0.2 (16.4 Degrees of Freedom)
Span is 0.7 (5.3 Degrees of Freedom)
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Modelos Aditivos GeneralizadosGAMs para clasi�cación
Modelos Aditivos Generalizados
Los GAM permiten mayor �exibilidad al considerar no
linealidad en las variables reteniendo la estructura aditiva de
los modelos lineales:
yi = β0 + f1(xi1) + f2(xi2) + · · ·+ fp(xip) + �i
2003 2005 2007 2009
−3
0−
20
−1
00
10
20
30
20 30 40 50 60 70 80
−5
0−
40
−3
0−
20
−1
00
10
20
−3
0−
20
−1
00
10
20
30
40
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Modelos Aditivos GeneralizadosGAMs para clasi�cación
Modelos Aditivos Generalizados
Se puede estimar un GAM usando por ejemplo splines
naturales:
lm(wage~ns(year.df=5)+ns(age.df=5)+educ).
Los coe�cientes no son de mucho interés en cambio la función
estimada si.
Se puede considerar términos mixtos, lineales o no lineales, y
usar anova() para comparar los modelos resultantes.
Es posible usar suavización por splines o regresión local:
gam(wage~s(year.df=5)+lo(age,span=.5)+educ).
Se pueden incorporar suavizadores bivariados o interacciones
de la forma ns(age,df=5):ns(year,df=5).
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónRegresión Polinomial
SplinesModelos Aditivos Generalizados
Modelos Aditivos GeneralizadosGAMs para clasi�cación
GAMs para clasi�cación
log
(p(X)
1− p(X)
)= β0 + f1(X1) + f2(X2) + · · ·+ fp(Xp) + �i
2003 2005 2007 2009
−4
−2
02
4
20 30 40 50 60 70 80
−8
−6
−4
−2
02
−4
−2
02
4
HS Coll
f 1(year)
f 2(age)
f 3(edu
cation)
year ageeducation
Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas
IntroducciónIntroducción
Regresión PolinomialRegresión PolinomialFunciones pasoPolinomios por partes
SplinesSplines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local
Modelos Aditivos GeneralizadosModelos Aditivos GeneralizadosGAMs para clasificación