Upload
carlos-tavera
View
14
Download
3
Embed Size (px)
Citation preview
COEFICIENTE DE DETERMINACION ANALISIS DE VARIANZA COEFICIENTE DE DETERMINACION ANALISIS DE VARIANZA PREDICCION P VALUE PREDICCION P VALUE
JARQUE VERA RESET RAMSEYJARQUE VERA RESET RAMSEYCHOWCHOW
RESIDUOS RECURSIVOSRESIDUOS RECURSIVOSCUSUMCUSUM
Mag. Renán Quispe LLanos
2011
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSFacultad de Ciencias EconómicasUnidad de Postgrado
MAESTRIA EN ECONOMIA CON MENCION EN GESTION Y POLITICA PUBLICA
Ejemplo:
Ingreso :X
Consumo :Y
:Donde
XY
Número defamilia
IngresoX
ConsumoY
123456789
100
80100120140160180200220240260
70659095
11011512014015515010
10
3
2
1
2
1
.
.
.
260 1
. .
. .
. .
120 1
100 1
80 1
150
.
.
.
90
65
70
yxxx ')'(ˆ 1
322000 1700
1700 10
x
x
260 1
. .
. .
. .
120 1
100 1
80 1
60.........2 120 100 80
....1.......... 1 1 1')'(
1
21
1
1
1
ix
nyxxx
y x
β
0.0000303 0.005152-
0.005152- 975757.0
10 1700-
1700- 322000
330000
1
205500
1110
150
.
.
.
65
70
80....260
1..........1' yx
2
1
ˆ
ˆ
50909.0
4545.24
205500
1110
0.0000303 0.005152-
0.005152- 0.975757ˆ
xy
y
ESTIMACION DE LA VARIANZA DEL TERMINO DE PERTURBACIONESTIMACION DE LA VARIANZA DEL TERMINO DE PERTURBACION
132100'''
)(
'2
kn
YXYY
kn
ee
132100
150
.
.
.
65
70
50.........1 65 70'
yy
5.131764205500
1110 0.5091 4545.24''
yx
210754,131100,132
2iy
Calculando Varianza
0.0000303 0.005152-
0.005152- 0.9757579375.41 1Var
0356.0ˆ
3969.6ˆ
00127.00000303.09375.41
9209.40975757.09375.41
2
1
22
21
Reemplazando en la fórmula tenemos:
94.419375.418
5.335210
5.131764132100
CONSTRUCCION DE INTERVALOS PARA CONSTRUCCION DE INTERVALOS PARA II
Para un nivel de significación del 5% observando en la tabla “t” de student:
t(n-k)/2= t (10-2)0.05/2 = t8,0.025= 2.306
0.05con 5919.0,4268.02
2/i1 , 2/i1I tˆˆtˆˆe
23060356.05091.0,23060356.05091.02
Otra forma de expresarlo con prob.:
Dado un coeficiente de confianza del 95% en el I.p si se construye cien intervalos repetidos con los límites siguientes 0.4268 y 0.919, en el 95% de ellos estarían verdadero parámetro poblacional.
P(0.42682 0.5919)=1-0.05=0.95
9
Es un indicador de la bondad de ajuste de la línea de regresión que mide la proporción de la variación total en la variable dependiente Y, que “se explica” o “se debe a” la variación de la variable independiente X.
COEFICIENTE DE DETERMINACION (RCOEFICIENTE DE DETERMINACION (R22))
(Xi, Yi)
ii YY Y
YYi
Y
YYi
Yi
Xi
10
Planteada la relación inicial la misma se mantiene cuando se establece relaciones a partir de las sumatorias de sus desviaciones cuadráticas. Por un proceso matemático particular se da:
SCT = SCR + SCE
SCT: Variación total del Yi observado con respecto a la media muestral. La suma total de los cuadrados.
2i
2
ii2
i YYYYYY
22i YnY'YYY
11
1R0 SCT
SCR1
SCT
SCER 22
SCE: Variación de los valores estimados Yi con respecto a su media. Suma de los cuadrados Explicados
SCR: Variación residual o no explicada de los valores de Y con respecto a la línea de regresión. Suma de los cuadrados residuales
Y'X'ˆY'YYY2
ii
22
i YnY'X'ˆYY
22 YnY'X'ˆY'X'ˆY'YYnY'Y
PROPIEDADES :PROPIEDADES :
1. Es una cantidad no negativa
2. Sus límites son
Es decir que R varía entre cero y uno
R2=1 cuando el ajuste es perfecto, es decir los valores observados coinciden perfectamente con la recta estimada
R20 es decir que no hay relación entre la variable dependiente y los variables explicativas.
Este R2 no mide el grado de asociación entre x e y, para lo cual se acude a otro indicador
1R0 2
13
COEFICIENTE DE CORRELACIONCOEFICIENTE DE CORRELACION
Es una medida de asociación lineal entre dos variables
1r0 2 Rr
Poblacional Muestral
1n
yi
1n
xx
yyxx)y,x(Covr
22i
ii
y2
x2
y
PROPIEDADES :PROPIEDADES :
Sus límites son:
Es de naturaleza simétrica, es decir el coeficiente de correlación entre X y Y (rxy) es igual al
coeficiente se correlación entre Y y X (ryx)
Si X, Y son estadísticamente independientes y el coeficiente de correlación es cero, pero si r=0 no implica necesariamente independencia.
Es una medida de asociación lineal, es decir mide la asociación lineal entre dos variables .Negativa(-1) o positiva (1)
1r1-
1 R y0 YY
YY1
YY
YYR 2
2i
2ii
2I
2
I2
1n/YYi
kn/YYi1R
2n
2
n2
COEFICIENTE DE DETERMINACION MULTIPLE COEFICIENTE DE DETERMINACION MULTIPLE CORREGIDOCORREGIDO
En la medida que el numero de variables indepencientes se incrementa, se divide a cada uno de la sumatorias cuadráticas entre sus grados de libertad, obteniendo finalmente un cociente de varianzas.
1-n
Yn-YY'
1ˆ
k-n
Y)(X''ˆ-YY'
ˆˆ .......(2)
ˆ
ˆ1
) ..(1.......... '
''ˆˆ
22
2
2
2
2
22
2
2
2
2
2
n
YY
kn
YYR
YnYY
YnYX
YY
YYR
Iiy
iin
y
n
I
I
Ejemplo:
1n
YYˆ ,
kn
YYˆ
ˆ
ˆ1R
2
Ii2y
2
ii22
y
n2
2
96.0123210
1232101317645
)111(10132100
)111(105.1317642
2
13690110
8890132100
96.013690
9375.411
2
y
Continuando con el ejemplo y remplazando en (1):
En (2):
18
El análisis de varianza tiene por finalidad investigar la explicación conjunta de todas las variables explicativas intervinientes en el modelo, a partir del estudio de los componentes de la variabilidad total.
SCT = SCR + SCE
De donde se construye un estadístico de frecuencia conocido:
ANALISIS DE VARIANZAANALISIS DE VARIANZA
2u
2
2ii
2i
ˆ1k
YnY´X´ˆ
kn
)YY(1k
)YY(
19
Planteamos la siguiente tabla:
F = (valor calculado)knSCR
kSCE
/
1/
20
Planteamiento de Dócima de Hipótesis
H0: 1 = 2; k = 0
H1: 1 0, 2 0; k 0
Bajo el enfoque de la prueba de significancia, se construye la región crítica de la siguiente manera:
R.C. = { F > Fk-1, n-k (tabla de la F)}
21
Del ejemplo del modelo de Ingreso-Consumo, se realiza los respectivos cálculos, para hallar el estadístico F:
kn/SCR1k/SCE
F
3.337YYSCR
7.552,8YYSCE2
ii
2
i
El F calculado, se compara con el de la tabla
87.202)210/(3.337)12/(7.552,8
Fc
Entonces se rechaza la hipótesis nula, es decir que el “Consumo” es Entonces se rechaza la hipótesis nula, es decir que el “Consumo” es explicado por la variable “Ingreso”.explicado por la variable “Ingreso”.
c05.0;8;1 F87.20232.5F
Consultoria Virgen del Carmen S.A.22
ANALISIS DE VARIANZA PARCIALANALISIS DE VARIANZA PARCIAL
Entonces: (que se compara con el de la tabla)
)(/
/
srnSCR
sSCEFC
Consultoria Virgen del Carmen S.A.23
Docima de Hipótesis
H0: r+1 = r+2=......=s = 0
H1: r+1 r+2 ..... r+s 0
Bajo el enfoque de la prueba de significancia, se construye la región crítica de la siguiente manera:
R.C. = { FC > Fs,n-(r+s) (tabla)}
24
Y X1 X2 X3
AñoConsumoPrivado YND
PreciosRelativos
Tasas deInterés
1970197119721973197419751976197719781979198019811982198319841985198619871988
1785184919091987212222102244225420822131223623562376216722092296259328392501
2344240124142669288928072817275527233139333534423461292530123060341938003452
98.498.498.4
100.5104.0104.1103.0101.4101.7100.0
99.7100.2
96.796.494.492.095.597.497.8
3.51.64.9
-3.9-8.3
-11.9-2.3
-13.8-30.0-17.0-14.6
-6.1-6.5
-27.6-21.2-34.7-39.9-41.5-88.4
Ejemplo:Sea los datos sobre consumo privado y sus variables explicativas respectivas.
Consultoria Virgen del Carmen S.A.25
Incorporando las variables precios (PR) y tasa de interés (TI):
C = 1 + 2YND + 3PR + 4IT
C = 175.00 + 0.4966YND + 5.0862PR + 2605IT (6.8825) (0.6418) (6.0295)
t19-4, 0.05/2=2.131La tabla de análisis de varianza será:
C = 1 + 2YND
C = 528.78877 + 0.56 YND
tc (2.84715) (9.16902)
Para el modelo de consumo Ingreso los estimadores son:
R2 = 83.2 , (dato = 4000) F = 84.05
Consultoria Virgen del Carmen S.A.26
Fuente de Variación
Suma de Cuadrados G.L. Media de Cuadrados
Debido a: YND
Debido a:
YND, PR, TI
SCE= 963188.02 SCE=1002196.15
2 – 1
(2– 1)+2
10021915/3
Debido a: PR, TI
Residual del ModII
1002196.15-963188.02 = 39008.13 SCR= 155862.6
2
19 - 4
39008.13 / 2...(A)
155862.6 /15...(B)
Total 94348985 – 933467891 19 - 1
Entonces: (que se compara con el de la tabla)
877.184.10390
06.19504
B
AFC
Consultoria Virgen del Carmen S.A.27
F2,15; 0.05 = 3.68 (tabla)
Dado que: FC = 1.877 < F2,15; 0.05 = 3.68.
Se concluye que la incorporación de las variables precios relativos y la tasa de interés general no mejoran la explicación del modelo estando ya incorporada la variable ingreso disponible.
28
“p value” Es el valor exacto de la probabilidad, obtenida a partir de la información, el cual nos permite rechazar o no la hipótesis nula (dado un nivel de significancia) sin necesidad de recurrir al uso de tablas.
Si el “p value” < α =1% ó 5%, se rechazará la hipótesis nula.
Si el “p value” > α, se aceptará la hipótesis nula.
α = Nivel de significación
29
“p value” Distribución “t”Distribución “t”
Distribución “F”Distribución “F”
0 tc tt
5% de área = α
“p value”
Zona de Aceptación
0 Fc FF
5% de área =α
“p value”Zona de
Aceptación
30
Dependent Variable: YMethod: Least SquaresSample: 1991 1995Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
C 4.000000 4.474930 0.893869 0.4657
X1 2.500000 0.866025 2.886751 0.1020
X2 -1.500000 1.369306 -1.095445 0.3876
R-squared 0.946429 Mean dependent var 4.000000
Adjusted R-squared 0.892857 S.D. dependent var 2.645751
S.E. of regresión 0.866025 Akaike info criterion 2.833904
Sum squared resid 1.500000 Schwarz criterion 2.599567
Log likelihood -4.084760 F-statistic 17.66667
Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571
Por ejemplo, en el modelo Yt = β1 + β2X1t + β3X2t; tenemos las
siguientes salidas:
La probabilidad asociada (p value) tanto para el estadístico t, como La probabilidad asociada (p value) tanto para el estadístico t, como para la prueba F, son superiores a 0.05 para la prueba F, son superiores a 0.05 Se acepta la hipótesis nula de Se acepta la hipótesis nula de significancia individual y significancia conjunta, respectivamentesignificancia individual y significancia conjunta, respectivamente
31
El estadístico Jarque Bera.-El estadístico Jarque Bera.-Determina como se encuentra afectado su valor por la presencia de Determina como se encuentra afectado su valor por la presencia de un mayor apuntamiento (mayor a 3) o menor asimetría (cercano a un mayor apuntamiento (mayor a 3) o menor asimetría (cercano a cero) de las perturbaciones.cero) de las perturbaciones.
A significa asimetría y C apuntamiento o curtosisA significa asimetría y C apuntamiento o curtosis
Hipótesis:HH00: Las perturbaciones tienen una distribución normal: Las perturbaciones tienen una distribución normal
HH11 : Las perturbaciones no tienen una distribución normal : Las perturbaciones no tienen una distribución normal
24
23C62AnJB
3 2
2 3
xE
xEA
4 2
4
xE
xEC
32
El estadístico Jarque Bera.- El estadístico Jarque Bera.- Permite verificar la normalidad de los Permite verificar la normalidad de los residuos. La Ho es que los residuos se distribuyen normalmente.residuos. La Ho es que los residuos se distribuyen normalmente.
La probabilidad asociada al estadístico Jarque-Bera es mayor al 5%, La probabilidad asociada al estadístico Jarque-Bera es mayor al 5%, entonces no se puede rechazar la Ho de normalidad de los residuos.entonces no se puede rechazar la Ho de normalidad de los residuos.
33
Ejemplo (pregunta del examen):
La probabilidad asociada al estadístico Jarque-Bera es mayor al 5%, La probabilidad asociada al estadístico Jarque-Bera es mayor al 5%, entonces no se puede rechazar la Ho de normalidad de los residuos.entonces no se puede rechazar la Ho de normalidad de los residuos.
34
Test de Reset de RamseyTest de Reset de Ramsey
Se realiza en dos etapas:
1º estima en modelo sujeto a análisis en su forma original:
2º se toma la serie estimada por los parámetros de la regresión anterior y se anexan sus potenciales enteras a la misma regresión como parámetros auxiliares
Estadístico de prueba:
H0: El modelo está correctamente especificado
H1: El modelo no está correctamente especificado
nuevo modelo elen parametros de numeronR1
nuevos regresores de /númeroRRF 2
nuevo
2viejo
2nuevo
XXY 33221
ZXu...)YY(XXY 33
2233221
00....YY 3
32
2
... ;)XaXaa(Y ;)XaXaa(Y ;XaXaaY 333221
3233221
233221
35
EjemploEjemplo
En un modelo sobre el fondo “Afuture” (Yt) en función a las tasas
anuales de retorno (Xt), obtenemos el test de Ramsey:
H0: El modelo está correctamente especificado
H1: El modelo no está correctamente especificado
El test de Reset Ramsey indica que añadiendo 2 términos al test “Y2”, “Y3“ el valor del estadístico “F” es 1.16 y la probabilidad asociada al error de rechazar la hipótesis nula cuando es verdadera es de 35.99% mayor al 5%; por lo tanto se acepta que el modelo está correctamente especificado.
Ramsey RESET Test:
F-statistic 1.164495 Probability 0.359856
Log likelihood ratio 3.066156 Probability 0.215870
36
Test de Chow (Contraste de Cambio Estructural)Test de Chow (Contraste de Cambio Estructural)
El modelo restringido (MR) es:
El modelo sin restringir (MSR) es :
El estadístico F:
H0: Ausencia de cambio estructuralH1: Presencia de cambio estructural
SRR: suma residual restringida es la que proviene de la estimación del modelo restringido (MR)SR1 y SR2: suma residual sin restringir es el agregado de las sumas residuales de cada una de las regresiones de las submuestras
T,T,T,,2,1tXy 21t'tt
T,,TtXYT,,2,1tXY
2t2'tt
1t1'tt
k2n,k21
21
C F
k2n
SRSRk
SRSRSRR
F
37
Ejemplo (pregunta del examen):Ejemplo (pregunta del examen):
Probamos la posibilidad que exista un quiebre estructural en el año 1996:
Rechazamos la hipótesis de que no hay cambio estructural al 95% de confiabilidad. Por lo tanto, concluimos que en 1996 se produjo un cambio estructural.
Chow Breakpoint Test: 1996
F-statistic 6.936682 Probability 0.043625
Log likelihood ratio 24.85794 Probability 0.000054
38
Residuos Recursivos (Contraste de Estabilidad)Residuos Recursivos (Contraste de Estabilidad)
Se obtienen a partir de una estimación recursiva de los parámetros del modelo
H0: Los parámetros son estables en el tiempo
H1: Los parámetros no son estables en el tiempo
1r'
1r
1
1r'
1r1r YXXXˆ
r
1
1r'
1r'r
1r'rr
r
XXXX1
ˆXYw
I ,0Nw 2
39
Residuos RecursivosResiduos Recursivos
Esquemáticamente el proceso se pude describir a partir del siguiente gráfico
X1’
X2’
... r-1 rY wr
Xr-1’
Xr’ r 1ˆrY wr+1
...
...
Xn-1’ n-1 nY wn
40
Contraste de Suma Acumulada (Test Cusum)Contraste de Suma Acumulada (Test Cusum)Consiste en la acumulación progresiva de los residuos recursivos que posteriormente se normalizan dividiéndolos entre la estimación insesgada de la desviación típica de la perturbación (S)
r = k+1, k+2, ... , n
Donde:
Debe oscilar entre:
H0: Los parámetros son estables en el tiempo H1: Los parámetros no son estables en el tiempo
S
w
W
r
1kjj
r
knSCR
S
kna3 , n y kna , k
kna3- , n y kna- , k
41
Contraste de Suma Acumulada (Test Cusum)Contraste de Suma Acumulada (Test Cusum)La representación gráfica de este contraste dibujaría los residuos recursivos sobre el gráfico siguiente:
Wr
kna3
kna
kna
kna3
k n r
42
Ejemplo (pregunta del examen):
El estadístico CUSUM se mantiene dentro de las bandas de confianza, con lo cual se puede afirmar que los parámetros son estables a lo largo del período de análisis en un 95% de confianza.
43
Contraste de Suma Acumulada de Cuadrados Contraste de Suma Acumulada de Cuadrados (Test Cusum(Test Cusum22))Utiliza la suma acumulada del cuadrado de los residuos recursivos (numerador) y la Suma de Cuadrados de la totalidad de los Residuos Recursivos (denominador)
r = k+1, k+2, ... , n
El valor esperado del estadístico oscila entre cero y uno; así, E(Sr) = 0 cuando r = k, y, cuando r = n, E(Sr) = 1.
n
1kj
2j
r
1kj
2j
r
w
w
S
44
Contraste de Suma Acumulada de Cuadrados Contraste de Suma Acumulada de Cuadrados (Test Cusum(Test Cusum22))
Sr
E(Sr) + C0
k n rE(Sr)
E(Sr) - C0
45
Ejemplo (pregunta del examen):
El estadístico CUSUM2 se mantiene dentro de las bandas de confianza, se afirma que los parámetros son estables a lo largo del período de análisis en un 95% de confianza.
Consultoria Virgen del Carmen S.A.46
PREDICCIÓN EN EL MODELO LINEAL
Predicción en el Modelo de Regresión Lineal Simple
Predicción en el Modelo de Regresión Lineal Múltiple
Predicción media e individual
Predicción por intervalos
Condiciones de fiabilidad
Error de Predicción y su varianza
Evaluación de la Bondad predictiva del modelo
47
PREDICCIONPREDICCION
Modelo:
Modelo estimado:
A. Predicción Puntual de
'XXˆ...XˆˆY kk221
kk221 X...XY
1nYE
'
1n'
1n'
1n1n X)ˆ(EX)ˆX(E)Y(E
La predicción puntual es la misma para un valor particular como para el valor promedio de la variable
Las desviaciones standart son diferentes:Para el valor promedio es
Para el valor particular es
C)x´x´(Cˆˆ 12ˆC)1nY(E
C)XX(C1 1
1nY
48
B. Intervalo de Confianza de una predicción (α=Nivel de significancia): Para el valor promedio
Para un valor particular
Con “n-k” g.l. y con un nivel de significancia
2,kn)Y(E'
1n1n tˆX[)Y(E1n
2,)ˆ('
11 1
ˆ[)ˆ( knYnn tXYEn
49
Ejemplo:
Sea los datos sobre consumo privado (y) y sus variables explicativas respectivas: X1: Ingreso disponible (YND), X2: precios relativos (PR) y X3: tasas de interés (IT).
El modelo con las variables Y y X1 será:
C = 1 + 2YND C = 528.78877 + 0.56YND tc (2.84715) (9.16902)
00000033.0000987868.0
000987868.0009163208.3)´( 1xx
50
R2 = 83.2 , (YNDt+1 = 4000)
El Intervalo de Confianza para el valor promedio es:
dado: t19-2,0.05/2=2.093
Entonces:
[2784.5 2.093(78.68)] = [261982, 294917]
2784.556393.07887.52840001)4000(ˆˆCCE 211n1n
2/,219CE1n t5.2784)C(E1n
6766.7840001
00000.0000987.0000987.0009163.3400010653.107ˆ
1nCE
Consultoria Virgen del Carmen S.A.51
Error de Predicciónse define como la diferencia entre el valor de la variable a
predecir y la predicción obtenida:
las fuentes del error de predicción son:
a. El error en la estimación del vector β
b. El error en la predicción del vector Xn+1
c. El error estocástico inherente al modelo,
ˆXXYY 1n1n1n1n1n1n
1n
52
El coeficiente de Theil (U).-El coeficiente de Theil (U).-
Fórmula de cálculo:
n
1t
2t
n
1t
2
t
n
1t
2
tt
Yn1
Yn1
YYn1
U
Donde: Valor estimado de Yt Yt : Valor observado de Yt
:Yt
53
-2
0
2
4
6
8
10
12
1991 1992 1993 1994 1995 1996
YF ± 2 S.E.
Forecast: YFActual: YSample: 1991 1996Include observations: 5
Root Mean Squared Error 0.547723Mean Absolute Error 0.400000Mean Abs. Percent Error 17.91667Theil Inequality Coefficient 0.059132 Bias Proportion 0.000000 Variance Proportion 0.013764 Covariance Proportion 0.986236
En este caso el coeficiente de TheilEn este caso el coeficiente de Theil es 0.059, es pequeño, por lo tanto el es 0.059, es pequeño, por lo tanto el modelo es bueno para predecir.modelo es bueno para predecir.
El coeficiente de Theil (U).- El coeficiente de Theil (U).- Mide la calidad del modelo para predecir. Oscila Mide la calidad del modelo para predecir. Oscila entre 0 y 1. Si U = 0, existe un ajuste perfecto y el modelo es bueno para entre 0 y 1. Si U = 0, existe un ajuste perfecto y el modelo es bueno para predecir. Si U = 1, el modelo es muy malo para predecir.predecir. Si U = 1, el modelo es muy malo para predecir.
54
Ejemplo (pregunta del examen):
En este caso el coeficiente de TheilEn este caso el coeficiente de Theil es 0.0118, es pequeño, por lo tanto es 0.0118, es pequeño, por lo tanto el modelo es bueno para predecir.el modelo es bueno para predecir.