53
CAPITULO 2: Modelo Clásico del Métodos de Regresión Múltiples Prof.: Juan Carlos Miranda C. Instituto de Estadístico Facultad de Ciencias Económicas y Administrativas Noviembre 2011 CURSO: ESTADÍSTICA EMPRESARIAL II (ESTD-241)

Cap2. modelo regresión multiple-v2-2011

Embed Size (px)

Citation preview

Page 1: Cap2. modelo regresión multiple-v2-2011

CAPITULO 2:

Modelo Clásico del Métodos de Regresión Múltiples

Prof.: Juan Carlos Miranda C.Instituto de Estadístico

Facultad de Ciencias Económicas y Administrativas

Noviembre 2011

CURSO: ESTADÍSTICA EMPRESARIAL II

(ESTD-241)

Page 2: Cap2. modelo regresión multiple-v2-2011

CONTENIDO DEL CAPITULO 2

1. Modelo Regresión Múltiples: enfoque clásico

2. Modelo en notación matricial

3. Estimación por MCO

4. Propiedades de los parámetros del modelo

5. Contraste de hipótesis general

6. Análisis de Varianza ANOVA

Page 3: Cap2. modelo regresión multiple-v2-2011

Especificación del modelo: 1) Forma escalar:

2) forma matricial:

ikikiii exxxy ...22110

Introducción: Modelo de Regresión Lineal Clásico

ni ,.....,1

UXY

);....;;(.var 21 kxxxntesindependiek

Page 4: Cap2. modelo regresión multiple-v2-2011

Notación Matricial Escribimos el modelo en términos

matriciales:

nkknnn

k

k

n u

u

u

xxx

xxx

xxx

y

y

y

......*

....1

.........

...1

...1

...2

1

1

0

21

22212

12111

2

1

UXY

Page 5: Cap2. modelo regresión multiple-v2-2011

Hipótesis Clásicas1) Linealidad en los parámetros

2) ε o Y son variables iid

3) X no aleatoria, conocida.

4) Rango

),0( 2INe ),( 2IXNY

nkXrg 1)(

Page 6: Cap2. modelo regresión multiple-v2-2011

Resumen de la Regresión lineal general

Son necesarias nociones básicas de matrices.

Debemos Repasar (ver bibliografía): ¿Qué es una matriz A n,k ? Operaciones básicas se producto con

matrices Determinante de una matriz Métodos para obtener la matriz inversa para

cualquier orden A k,k

Page 7: Cap2. modelo regresión multiple-v2-2011

Ejemplo I Queremos comprobar si el salario

depende de la educación y la experiencia Nuestro modelo es:

Si nuestros datos fueran:iii uereducwage exp210

w a g e e d u c e x p e r2 5 0 0 0 0 8 53 6 0 0 0 0 1 0 4

. . . . . . . . .4 5 8 0 0 0 1 1 1 3

Page 8: Cap2. modelo regresión multiple-v2-2011

Ejemplo I: en forma matricial Por tanto, Matricialmente escribiríamos:

nu

u

u

..

13111

......

4101

581

458000

........

360000

250000

2

1

2

1

0

YXXX ''ˆ 1

Page 9: Cap2. modelo regresión multiple-v2-2011

Estimación por Mínimos Cuadrados Ordinaria

El objetivo: será obtener una estimación de Método: Mínimos Cuadrados Ordinarios

Función objetivo a minimizar:

Operando:

ˆˆˆˆ ´´´´´´´ XXYXXYYY

)ˆ()ˆ(...,...,'1

12 XYXY

e

e

eeee t

n

ni

2

Page 10: Cap2. modelo regresión multiple-v2-2011

ˆ''ˆ''ˆ2'

ˆ''ˆˆ'''ˆ'

ˆˆˆˆ'

XXYXYY

XXXYYXYY

XYXYXYXYee

YXXX

YXXX

XXYXee

''ˆ

'ˆ'

0ˆ''2''2ˆ'

1

Estimación por Mínimos Cuadrados

1 Condición:

Sistema de ecuaciones normales:

Page 11: Cap2. modelo regresión multiple-v2-2011

ˆ''ˆ''ˆ2'

ˆ''ˆˆ'''ˆ'

ˆˆˆˆ'

XXYXYY

XXXYYXYY

XYXYXYXYee

XXee

''2ˆˆ

2

Estimación por Mínimos Cuadrados

2 Condición:

Por tanto: YXXX ''ˆ 1

Matriz definida positiva

Page 12: Cap2. modelo regresión multiple-v2-2011

Para que X´X sea no singular (y por lo tanto, se pueda obtener la inversa) es importante que se cumplan las dos condiciones siguientes:

1)

2) Que la matriz no contenga dependencias lineales (una variable sea combinación lineal de otras)

kn

Estimación por mínimos cuadrados

Deben existir más datos que parámetros a estimar

Page 13: Cap2. modelo regresión multiple-v2-2011

F.J. Anscombe en 1973. “Graphs in Statistical Analysis”, The American Statistician, 27, pp.17-21)

Ejemplo de Regresión lineal simple con enfoque matricial

Estimar por MCO y termino matricial las cuatro regresiones con término constante que se indican a continuación:

Page 14: Cap2. modelo regresión multiple-v2-2011
Page 15: Cap2. modelo regresión multiple-v2-2011

Representación gráfica

Page 16: Cap2. modelo regresión multiple-v2-2011

Comentarios al modelamiento

1) Modelo (a) la relación entre las variables es más o menos lineal.2) En el modelo (b) la relación entre las variables es claramente no lineal.3) En el modelo (c) todos los puntos de la nube real, exceptuando uno, se ajustan casi perfectamente a una recta que no es la estimada porque hay un valor atípico.4) En el modelo (d) tenemos otro problema diferente en los datos. Los datos de la variable explicativa son todos igual a 8, exceptuando el octavo valor.

Page 17: Cap2. modelo regresión multiple-v2-2011

Propiedad del estimador de

Finitas:1) Lineal en Y y en ε: por ser X no aleatoria

2) Insesgado: por ser X no aleatoria y )ˆ(E 0)( E

3) Óptimo: matriz de varianzas covarianzas es

´))(ˆ))(ˆ(ˆ(ˆˆ EEE 1´21´´´1´ )()()( XXXXXXXXE

Page 18: Cap2. modelo regresión multiple-v2-2011

Propiedad del estimador de

Finitas:3) Eficiente: de mínima varianza entre los insesgados. Alcanza la cota de Cramer Rao.

4) Distribución finita:

))'(,ˆ 12 XXNMCO

Page 19: Cap2. modelo regresión multiple-v2-2011

Propiedad del estimador de

Asintóticas:1) Consistente: Si se cumple que:

0;lim´

PN

XXP nXX

MCOˆ

ˆlimnp

2) Asintóticamente normal:

])[(lim,0()ˆ( 1´

2

N

XXNN N

3) Asintóticamente eficiente: la varianza asintótica alcanza la cota Cramer Rao

Page 20: Cap2. modelo regresión multiple-v2-2011

1

0

111

ˆ

ˆˆ,..,

1

....

1

,...

ˆ

nnn e

e

e

x

x

X

y

y

Y

eXY

¿Qué forma tiene el modelo Regresión Simple (2x2)?

Más concretamente, β estimada tiene los siguientes componentes, para el caso de un modelo simple:

iii

ii

iii

ii

yx

yYX

xx

xnXX ',' 2

1

Page 21: Cap2. modelo regresión multiple-v2-2011

Propiedades de la regresión por MCO

1) La suma de los residuos es igual a cero

2) El plano de regresión pasa por el punto definido por las medias de Y,X

i

ie 0

kk xxy ˆ....ˆˆ110

Page 22: Cap2. modelo regresión multiple-v2-2011

3) Los residuos son ortogonales a las X’s

4) Los residuos son ortogonales a las predicciones (por ser éstas combinación lineal de los regresores)

0' eX

0'ˆ eY

Propiedades de la regresión por MCO

Page 23: Cap2. modelo regresión multiple-v2-2011

Supuestos del modelo

1) Modelo bien especificado Y=X + ε2) E(ε)=03) Regresores fijos

E(X ε)=XE(ε)=04) Independencia y homoscedasticidad

E(εε’)= 2I5) Normalidad

ε ~N(0, 2I)

Page 24: Cap2. modelo regresión multiple-v2-2011

Objetivo: Buscar los valores de ,,…,k que mejor ajustan nuestros datos.

Ecuación:

Residuo:

Minimizar:

ikkiiiii xxyyye ˆˆˆˆ 110

n

iie

1

2

ikkii xxy ˆˆˆˆ 110

Resumen: Mínimos Cuadrados ordinario

Page 25: Cap2. modelo regresión multiple-v2-2011

Hemos calculado:

Tenemos:

Definimos la matriz:

H es idempotente, simétrica y del mismo rango que X, (k+1). Es una matriz de proyección.

YXXX tt 1ˆ

YXXXXXY tt 1ˆˆ

tt XXXXH1

Resumen: Interpretación geométrica

Page 26: Cap2. modelo regresión multiple-v2-2011

H simétrica (obvio) H idempotente

Residuos ortogonales a valores ajustados

Residuos ortogonales a matriz de diseño X

0)( 1 XXXXXXYXHIYXe ttttt

0ˆˆ HYHIYHYHYYHYYYYe ttttt

tttttt XXXXXXXXXXXXHH111

Interpretación geométrica

Page 27: Cap2. modelo regresión multiple-v2-2011

X

1

YX1

Y

e

0

Subespacio vectorial generado por las columnas de X

Interpretación geométrica

Page 28: Cap2. modelo regresión multiple-v2-2011

Varianza

Para estimar 2 utilizamos la varianza residual

Es insesgado como estimador de 2 y además

1ˆ 1

22

kn

eS

n

i iR

212

1

2

~

kn

n

i ie

Page 29: Cap2. modelo regresión multiple-v2-2011

Propiedades de los estimadores

Normalidad. Sabemos Y=X+U, de donde Y~N(X,2I). Como también es normal.

Esperanza.

Varianza.

XXXXYXXXEE tttt 11ˆ

12111ˆ XXXXXYVarXXXYXXXVarVar tttttt

YXXX tt 1ˆ

Page 30: Cap2. modelo regresión multiple-v2-2011

Tenemos

La varianza 2 suele ser desconocida y utilizamos el error estándar estimado

iit

i XXVar12

ijt

ji XXCov12

11ˆ,ˆ

iit

iit XXNXXN

1211

12 ,~ˆ ; ,~ˆ

21

1ˆˆRii

ti SXXS

Propiedades de los estimadores

Page 31: Cap2. modelo regresión multiple-v2-2011

Supuestos de modelo

A partir de los supuestos 1,2,3 demostramos que:

Con el supuesto 4, la varianza se escribe:

)ˆ(E

12 ')ˆ( XXVar

Page 32: Cap2. modelo regresión multiple-v2-2011

La matriz de varianzas y covarianzas La matriz tiene esta forma:

Es simétrica Depende de las observaciones de la

muestra

)ˆvar(...)ˆ,ˆcov(

...)ˆvar(.......

)......ˆ,ˆcov()ˆ(var

)ˆ(

211

klk

iVar

Page 33: Cap2. modelo regresión multiple-v2-2011

Ejemplo II

Un agricultor se pregunta: ¿Cómo afecta la cantidad de fertilizante a

la cosecha de trigo?

Para ayudarle a responder su pregunta estudiamos los datos de su cosecha dado: La cantidad de fertilizante Lluvia

Page 34: Cap2. modelo regresión multiple-v2-2011

Los datos siguientes (verificar los cálculos:

Continuación Ejemplo II

Y

Cosecha de trigo

(Kg./Ha.)

X

Fertilizante

(Kg./Ha.)

Z

Lluvia

(ml.)

40 100 10

50 200 20

50 300 10

70 400 30

65 500 20

65 600 20

80 700 30

Page 35: Cap2. modelo regresión multiple-v2-2011

Estimamos el modelo:Cosecha = 0 + 1*fertilizante + 2*lluvia + i

Dependent Variable: Y

Included observations: 7

Variable Coefficient Std. Error t-Statistic Prob.

C 28.09524 2.491482 11.27652 0.0004

X 0.038095 0.005832 6.531973 0.0028

Z 0.833333 0.154303 5.400617 0.0057

R-squared 0.981366 Mean dependent var 60.00000

Adjusted R-squared 0.972050 S.D. dependent var 13.84437

S.E. of regression 2.314550 Akaike info criterion 4.813835

Continuación Ejemplo II

Page 36: Cap2. modelo regresión multiple-v2-2011

Es importante la interpretación de los coeficientes estimados

0= promedio de cosecha pronosticada si no se utilizan fertilizantes y no llueve.

1 =Si mantenemos el nivel de lluvia constante, un aumento de 1 kg. en fertilizante se relaciona con un aumento de 0.038 kg. en la cosecha, en promedio.

2 = Si tomamos un nivel constante de fertilizante, un aumento de 1 ml. de lluvia proporcionaría un aumento de 0.83 kg. de cosecha.

Continuación Ejemplo II

Page 37: Cap2. modelo regresión multiple-v2-2011

Ejemplo III

Matriz de varianzas y covarianzas de los coeficientes

C X Z

C 6.207483 -0.001701 -0.238095

X -0.001701 3.40E-05 -0.000595

Z -0.238095 -0.000595 0.023810

Page 38: Cap2. modelo regresión multiple-v2-2011

Bondad de ajuste

A partir de Descomponemos de la suma de cuadrados

de desviación de y respecto a su media:

0

'ˆ2'ˆ'ˆ

ˆ''ˆ

ˆ'ˆ

'

SCRSCE

eYYeeYYYY

eYYeYY

YeYYeY

YYYYSCT

iii eyy ˆ

Page 39: Cap2. modelo regresión multiple-v2-2011

Bondad de ajuste

El coeficiente de determinación es:

Si AUMENTAMOS el número de variables explicativas, R2 AUMENTA

¿Dónde está el límite para el número de variables explicativas?

SCT

SCR

SCT

SCER 12

Page 40: Cap2. modelo regresión multiple-v2-2011

R2 ajustado

Creamos una nueva medida: R2 ajustado donde

Hay una penalización por grados de libertad

)1/(

)1/(12

NSCT

kNSCRR

Page 41: Cap2. modelo regresión multiple-v2-2011

Podemos escribirlo en función de R2

Puede ser negativo!

R2 ajustado

22 11

1 Rkn

nR

10 2 R

Page 42: Cap2. modelo regresión multiple-v2-2011

Ejemplo III

3ª B)

160

495

50

4

0,67676768

3,47826087

10,1020408

0,65568731

R2 1ª Estimación

SCR 165

SCT 495

N 50

K 3

R2 0,66666667

R2-AJUSTADO

NUMERADOR 3,5106383

DENOMINADOR 10,10204

R2 AJUST. 0,6524822

2ª A)

115

495

50

4

0,7676767

2,5

10,102040

0,75252525

Page 43: Cap2. modelo regresión multiple-v2-2011

Contraste de hipótesis

Necesitamos:El supuesto de normalidad ~ N(0, 2I)Tomamos

)1(ˆ 2

knee

Page 44: Cap2. modelo regresión multiple-v2-2011

Contraste de hipótesisTipos:

Contrastes con una sola restricción lineal: Contraste de significación Contraste sobre una combinación lineal de

parámetros

Contrastes con más de una restricción lineal: Caso general Contraste de significación conjunta Contraste de cambio estructural

Page 45: Cap2. modelo regresión multiple-v2-2011

Contraste de significación

0ˆ:

0ˆ:

1

0

k

k

H

H•Su forma general sería:

•También podemos contrastar si el parámetro es igual a un valor concreto

•El estadístico de contraste sería:

%)2

),1((ˆˆ

kn

k ttk

Page 46: Cap2. modelo regresión multiple-v2-2011

Ejemplo: Continuación III En el ejemplo acerca de la cosecha de trigo, vimos

que el coeficiente para el efecto del fertilizante sobre la cosecha era 0.038, ¿será estadísticamente 0?

Variable Coefficient Std. Error t-Statistic Prob. X 0.038095 0.005832 6.531973

0.0028

Construimos el estadístico de contraste:

%2

),1(ˆ

01 5319.600583.0

0038.0ˆ

ˆ

1

kn

H t

Page 47: Cap2. modelo regresión multiple-v2-2011

Análisis de la varianza (ANOVA)

Provee información acerca de la variabilidad dentro de la regresión.

Queremos hacer una prueba de la significación de la regresión estimada.

¿Provee la variable explicativa suficiente información sobre la variable estimada?

Page 48: Cap2. modelo regresión multiple-v2-2011

I. ANOVA: Varianza del Modelo de Regresión

Variabilidad total [STC]

2)( yyi

Variabilidad entre grupos o explicada

[SEC]

2)ˆ( yyi

Variabilidad dentro de grupos o residual

[SRC]

2)ˆ( ii yy

Page 49: Cap2. modelo regresión multiple-v2-2011

II. ANOVA: componentes de la varianza

SRC SCE STC

explicada no Var.explicada Var. totalVar.

e)yy()yy(N

1i

2i

2N

1ii

2N

1ii

Habíamos dicho que: 2)ˆ( ii yy

Page 50: Cap2. modelo regresión multiple-v2-2011

II. ANOVA

Dado que las varianzas son desconocidas unos buenos estimadores de la varianza son:

Intra grupos: MSE=SCE/(n-k) Entre grupos: MSR=SCR/(k-1) Es importante observar que la

variabilidad entre grupos no es recogida por el modelo, mientras la entre grupos si.

Page 51: Cap2. modelo regresión multiple-v2-2011

III. ANOVA: Estadístico F

Fuente de variación

Suma de cuadrados

Grados de libertad

Suma de cuadrados medianos

Inter grupos SCE K-1 MSE

Intra grupos SRC N-k MSR

Total STC N-1 MST

Por comodidad se construye una tabla:

Donde: k = nº parámetros estimados (α y β en la regresión

simple) n = nº observaciones

Page 52: Cap2. modelo regresión multiple-v2-2011

Es decir, el ANOVA consiste en contrastar que k variables de k poblaciones normales con varianza desconocida tienen la misma media muestral. Es decir, bajo la hipótesis nula:

0....: 210 koH

Aceptaremos la hipótesis nula si las varianzas son estadísticamente iguales y esto lo contrastaremos con:

,,1* knkFMSE

MSRF

III. ANOVA: Estadístico F

Page 53: Cap2. modelo regresión multiple-v2-2011

TABLA ANOVA (Multifactorial)

Cuadrados Medios

Grados de

libertad

Suma de cuadrados

Fuente de

variación

n-1Total

n-kDebido a los residuos (INTRA)

k-1Debido a la regresión (INTER)

2ynyy

yxyy

2ˆ ynyx 1

ˆ 2

k

ynyxMSR

kn

yxyyMSE