Upload
phamhanh
View
247
Download
0
Embed Size (px)
Citation preview
Temas
Modelo de regresión lineal múltiple
Estimaciones de Mínimos Cuadrados Ordinarios (MCO);
estimación puntual y predicción
Error Cuadrático Medio y Error Estándar
Utilidad del modelo: R2, R2 ajustada y la prueba F global
Prueba de significancia de una variable independiente
Intervalos de Confianza para valores esperados y de
predicción
Temas avanzados
Modelo de Regresión Lineal Múltiple
Se emplean más de una variable
independiente.
Relaciona y con x1, x2, ..., xk
Modelo:
kkxxxy xxxyk
22110,...,,| 21
Valor medio de y cuando los valores de las variables
independientes son x1, x2, ..., xk :
Parámetros: β0, β1, β2, ..., βk
Término de error:
kkxxxy xxxyk
22110,...,,| 21
Suposiciones del modelo de regresión lineal:
1. En cualquier combinación dada de valores de x1, x2, ..., xk ,
la media de la población de los valores potenciales de = 0.
2. Varianza constante del error.
3. Normalidad de errores.
4. Independencia de los errores.
5. Ninguna relación entre las variables independientes mismas.
Ejemplo 4.2 (p. 146).
El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación.
Recopila información sobre cinco variables, que según su
criterio, podrían ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresión lineal:
0 1 1́ 2 ´2 3 3 4 ´4 5 ´5i i i i i i iy x x x x x
y= ventas anuales en miles de dólares (sales). x1= número de meses de empleado en la compañía (time). x2= ventas del producto de la compañía y productos de la
competencia en el territorio (mktpoten). x3= gasto en publicidad (adver).
x4 = promedio ponderado de la participación en el mercado de la compañía en el territorio en los últimos cuatro años (mktshare).
x5=cambio en la participación en el mercado de la compañía
en el territorio en los últimos cuatro años (change). = termino de error aleatorio.
Interpretación geométrica del modelo de regresión
Región experimental: combinaciones de los valores
observados de x1, x2, ..., xk
Plano de medias
Los parámetros relacionan la media de la variable dependiente
con las variables independientes en un sentido global.
β0 : ordenada al origen (valor de y cuando x1=x2=…xk=0.
βi : cambio en la variable dependiente asociado con el
incremento de una unidad de la variable xi manteniendo las k-1
variables restantes sin cambio alguno ( i=1,2,...,k-1).
Interpretación de los parámetros de regresión β0, β 1,..., βk
Estimaciones de mínimos cuadrados:
estimación puntual y predicción
Estimación puntual del valor medio y de un valor
individual de la variable dependiente y cuando los
valores de las variables independientes son x01, x02,
..., x0k .
Se predice = 0
Esta ecuación se llama la ecuación de regresión o de
predicción de mínimos cuadrados
kk xbxbxbby 00220110ˆ
Estimadores MCO utilizando algebra matricial
1ˆ ( ' ) 'X X X Y
11 1
12 2
1
1 ...
1 ...
... ... ... ...
1 ...
k
k
n kn
x x
x xX
x x
1
2
...
n
y
yY
y
0
1ˆ...
k
donde donde
Estimadores MCO
Source | SS df MS Number of obs = 25
-------------+------------------------------ F( 5, 19) = 40.91
Model | 37862661 5 7572532.21 Prob > F = 0.0000
Residual | 3516890.29 19 185099.489 R-squared = 0.9150
-------------+------------------------------ Adj R-squared = 0.8926
Total | 41379551.3 24 1724147.97 Root MSE = 430.23
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------
Error Cuadrático Medio y Error Estándar
Una estimación puntual de σ2 es el error cuadrático
medio:
Una estimación puntual de σ es el error estándar:
2ˆSCE
n k
ˆSCE
n k
Utilidad del Modelo: R2, R2 Ajustada y la
Prueba F Global
En el caso del modelo de regresión lineal múltiple,
1. Variación total =
2. Variación explicada =
3. Variación inexplicada =
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación múltiple es
R2 = (variación explicada)/(variación total)
6. El R2 es la proporción de la variación total de los valores observados de la variable dependiente que es explicada por las variables independientes incluidas en el modelo de regresión.
7. Coeficiente de correlación múltiple: R = √R2
2
iY Y
2ˆiY Y
2ˆ
i iY Y
R2 Ajustada
donde
R2 es el coeficiente de determinación múltiple
n es la cantidad de observaciones y
k es la cantidad de coeficientes estimados en el modelo
2 2 1 1
1
k nR R
n n k
Prueba F de significancia global
H0: β0 = β1 = β2 =... = βk = 0
Ha: por lo menos uno de los β0, β1, β2, ..., βk ≠ 0
Estadística F global:
_ exp /( 1)(mod )
_ exp /
Variación licada kF elo
Variación in licada n k
Se puede rechazar H0 y aceptar Ha en el nivel de
significancia α si se mantiene alguna de las condiciones
siguientes:
Estadística F (modelo) > F[α]
donde el punto F[α] se basa en k-1 grados de libertad
para el numerador y n-k para el denominador.
valor p (de F) < α
Prueba de significancia individual
Defina la estadística de una prueba
y asuma que las suposiciones de regresión se
mantienen.
ˆ( )j
j
b
bt
ee
Hipótesis
alternativa
Condición de
punto de
rechazo Valor p
Ha : βj ≠ 0 2 (área bajo la curva t a
la derecha de |t|)
Ha : βj > 0 área bajo la curva t a la
derecha de t
Ha : βj < 0 área bajo la curva t a la
izquierda de t
)1(
2/|| kntt
1 kntt
1 kntt
Intervalo de Confianza para j
Si se cumplen las suposiciones de la regresión,
un intervalo de confianza de 100(1-α)% para el
parámetro de regresión βj es
/ 2ˆ ˆ( )
n k
j jt ee
Intervalos de Confianza para valores esperados y de predicción
Para calcular el valor de distancia en un modelo
de regresión múltiple, se requiere de álgebra de
matrices.
Véase el Apéndice B (p. 621).
' 1
0 0( ' )x X X xValor de distancia
01 02 01 ... kx x xx0= donde
Si se cumplen las suposiciones de la regresión,
un intervalo de confianza de 100(1-α)% para el
valor medio de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es
/ 2ˆ ˆ . .
n ky t v d
Si se cumplen las suposiciones de la regresión,
un intervalo de predicción 100(1-α)% para un
valor individual de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es
/ 2ˆ 1 . .
n ky t s v d
Temas Avanzados
Modelo de regresión cuadrática.
Interacción.
Uso de variables ficticias para modelar variables
independientes cualitativas.
Prueba F parcial: Prueba de la significancia de
una parte de un modelo de regresión
Modelo de regresión cuadrática
El modelo de regresión cuadrática que relaciona y con
x es: 2
210 xxy
μy|x μy|x μy|x
μy|x μy|x μy|x
x x x
x x x
Interacción
Se introduce un término de interacción cuando
se cree que una variable (xi) influye en la
relación entre otra variable (xj) independiente y
la variable dependiente, y.
21322110 xxxxy
Uso de variables ficticias para modelar variables independientes cualitativas
Cuando se quiere incluir una variable cualitativa,
se pueden utilizar variables ficticias (variables
indicadoras, dummies).
Toman el valor de 1 o 0.
Esta variable influye en el intercepto.
Ejemplo 4.15 (p. 183).
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dólares), tanto el número de hogares
alrededor del área de las tiendas, x, (en miles),
así como la ubicación de las tiendas, D, ya sea
que estás se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (nótese que D es
una variable cualitativa).
Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:
0 1 2 3M Dy x D D
donde se define
1 si la tienda está en un centro comercial. DM= 0 en cualquier otra parte.
1 si la tienda se ubica en el centro de la ciudad. DD= 0 en cualquier otra parte.
0 1 2 3 0 1 2 3(1) (0)M Dy x D D x
0 1 2 3 0 1 2 3(0) (0)M Dy x D D x
Se deduce entonces que: 1. Para las tiendas en la calle, el volumen medio de las ventas esta dado por:
0 2 1x
0 1 2 3 0 1 2 3(0) (1)M Dy x D D x
0 3 1x
2. En el caso de las tiendas ubicadas en el centro comercial, el volumen medio de las ventas esta dado por:
3. Las tiendas ubicadas en el centro de la ciudad, el volumen medio de las ventas esta dado por:
0 1x
Source | SS df MS Number of obs = 15
-------------+------------------------------ F( 3, 11) = 275.07
Model | 33268.6975 3 11089.5658 Prob > F = 0.0000
Residual | 443.465035 11 40.3150032 R-squared = 0.9868
-------------+------------------------------ Adj R-squared = 0.9833
Total | 33712.1625 14 2408.01161 Root MSE = 6.3494
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------
DM DDxy 864.6374.2886859.0978.14ˆ
Prueba F parcial: Prueba de la significancia de una parte de un modelo de regresión Permite probar la significancia de un subconjunto
seleccionado de las variables independientes.
Sea, por ejemplo, el modelo
Podría ser de interés saber si las variables x2 y x3 son
relevantes en el modelo.
H0: 2=3=0
Ha: por lo menos una de 2 y 3 0
0 1 1 2 2 3 3y x x x
Se puede pensar en términos de dos modelos
competidores:
Se busca establecer si:
H0: 2=3=0 vs. Ha: por lo menos una de 2 y 3 0
0 1 1 2 2 3 3 cy x x x
0 1 1 Ry x
Modelo
completo
Modelo
reducido
El estadístico de prueba esta dado por
donde k= número de variables independientes del modelo
completo.
g= número de coeficientes del modelo reducido
Rechazar Ho ssi F > F(), o bien,
Valor p(F) <
( ) /
/ ( 1)
R C
C
SCE SCE k gF
SCE n k
Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:
DM DDxy 32110
DM DDxy 864.6374.2886859.0978.14ˆ
Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:
EJERCICIO 4.1 (p. 197)
Paso 1. Obtener los datos del ejercicio en la pagina https://sites.google.com/a/crlstatistics.net/crlstatwiki/main_page/
references-and-data-sets/forecasting-and-time-series---an-applied-approach-bowerman
Paso 2. Dado que están en formato EXCEL, se debe pasar a Stata
abrir Stata
Escribir edit en la ventana de Comandos
En el editor de datos usar “copiar y pegar”
Cerrar el editor de datos
Listo
Paso 3. Realizar el ejercicio
EJERCICIO 4.1 (p. 197)
'Y' 'X1' 'X2'
180 23 5
98.1 11 2
173.1 20 9
136.5 17 3
141 15 8
165.9 21 4
193.5 24 7
127.8 13 6
163.5 19 7
172.5 25 2
Datos del ejercicio
Y= precio de venta de una casa
(en miles de dólares).
X1= dimensiones de la casa (en miles
de pies cuadrados).
X2= calificación (una calificación global del
refinamiento de la casa expresada en una
escala de 1 [peor] a 10 [mejor], que
proporciona la compañía de bienes raíces
100
120
140
160
180
200
10 15 20 25DIMENSIONES
PRECIOS Fitted values
twoway (sc precios dimensiones) (lfit precios dimensiones)
100
120
140
160
180
200
2 4 6 8 10CALIFICACION
PRECIOS Fitted values
twoway (sc precios calificacion) (lfit precios calificacion)
EJERCICIO 4.1 (p. 197)
EJERCICIO 4.1 (p. 197)
reg precios dimensiones calificacion
Source | SS df MS Number of obs = 10
-------------+------------------------------ F( 2, 7) = 350.87
Model | 7373.95174 2 3686.97587 Prob > F = 0.0000
Residual | 73.5573511 7 10.508193 R-squared = 0.9901
-------------+------------------------------ Adj R-squared = 0.9873
Total | 7447.50909 9 827.501011 Root MSE = 3.2416
------------------------------------------------------------------------------
precios | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dimensiones | 5.612806 .2285206 24.56 0.000 5.07244 6.153171
calificacion | 3.834423 .4332008 8.85 0.000 2.810066 4.85878
_cons | 29.34681 4.89144 6.00 0.001 17.78039 40.91323
------------------------------------------------------------------------------
precio\dimensiones=20, calificacion=9= 0 + 1 (20)+ 2 (9)
representa el valor que en promedio asume el precio de ventas cuando las
dimensiones de la cas son de 2000 pies cuadrados y la calificación global
de refinamiento señala que es de 9 (“buena casa”) = 176,112.74 dólares