Upload
angela-carrasco-reynoso
View
115
Download
0
Embed Size (px)
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
En seguida se considera el coeficiente de determinación múltiple. El coeficiente de
determinación se define como el porcentaje de la variación en la variable
dependiente explicada o contabilizada, por la variable independiente.
En el caso de la regresión múltiple se amplía esta definición
Coeficiente de determinación múltiple porcentaje de variación en la variable
dependiente, y, aplicada por el conjunto de variables independientes
X1,X2,X3….Xk
Las características de coeficiente de determinación múltiple son:
1. Se representa con una letra R mayúscula al cuadrado. En otras palabras,
se escribe como R”2” debido a que se comporta como el cuadrado de un
coeficiente de correlación.
2. Puede variar del 0 a 1. Un valor cercano a 0 indica poca asociación entre el
conjunto de variables independientes y la variable dependiente. Un valor
cercano 1 significa una asociación fuerte
3. No puede adoptar valores negativos. Ningún número que se eleve al
cuadrado o se eleve a la segunda potencia puede ser negativo
4. Es fácil de interpretar. Como R”2” es un valor entre 0 y 1 es fácil de
interpretar, comparar y comprender.
El coeficiente de determinación se calcula a partir de la información determinada
en la tabla ANOA. Se observa en la columna de suma de cuadrados, la cual se
identifica como SS en la salida en pantalla de MINITAB, y se utiliza la suma de
cuadrados de regresión, SSR, luego se divide entre la suma de cuadrados total,
SS total.
COEFICIENTE DE DETERNINACION MULTIPLE R”2”= SSR
SS TOTAL = 14.3
COEFICIENTE AJUSTADO DE DETERMINACION
El número de variables en una ecuación de regresión múltiple aumenta el
coeficiente de determinación. Cada nueva variable independiente hace que la
predicciones sean más precisas, lo que a su vez reduce SSE y aumenta SSR. De
aquí R”2” aumenta solo debido al número total de variables independientes y no
por que la variable independiente agregada sea un buen anticipador de la variable
dependiente. De hecho, si el número de variables, k, y el tamaño muestra ,n, son
iguales el coeficiente de determinación es 1.0. en la práctica esta situación es
poco frecuente y también seria éticamente cuestionable.
COEFICIENTE AJUSTADO DE DETERNINACION
SSE
n- (k+1) R”2” = 1- (14.4)
SS TOTAL
n - 1
El error y la suma de cuadrados se dividen entre sus grados de libertad. Observe
en especial que los grados de libertad para la suma de los cuadrados del error
incluyen k, el número de variables independientes. Para el ejemplo del costo de
calefacción, el coeficiente ajustado de determinación es:
41695
20- (3+1) 2606 R”2” = 1- = 1 = 1 0.23 = 0.77
212916 11206.0
20 - 1
Si se compara R”2” (0.80) ajustada (0.77), la diferencia en este caso es pequeña.
Si se repitiera el proceso de muestreo muchas veces se podría diseñar una
distribución de muestreo de estos coeficientes de regresión. La columna “Standard
Erro estima la variabilidad de estos coeficientes de regresión. La distribución de
muestreo de coeficientes/estándar error” sigue la distribución t con n-(k+ 1)grados
de libertad de aquí se pueden aprobar las variables independientes
individualmente para determinar si los coeficientes de regresión netos difieren de
cero. La razón t calculada es -5.934 para la temperatura y -3.119 para el
aislamiento. Los dos valores t se encuentran en la región de recazo a las
izquierda de -2.120. de esta manera se concluye que los coeficientes de regresión
para las variables temperatura y aislamiento no son cero. La t calculada para la
antigüedad del calentador es 1.524, por lo que no es un factor de predicción
significativo del costo de calefacción. Se puede omitir del análisis. Se pueden
probar coeficientes de regresión individuales con la distribución t. la fórmula es:
PRUEBA DE LOS COEFICIENTES DE REGRESION INDIVIDUALES
T= bi-0
Sb
El coeficiente bi se refiere de los coeficientes de regresión, y sbi a la desviación
estándar de esa distribución del coeficiente de regresión. Se incluye 0 en la
ecuación debido a que la hipótesis nula es bi= 0.
Para ilustrar esta formulada, consulte la prueba del coeficiente de regresión para
la variable independiente, temperatura. Sea b1 el coeficiente de regresión. A partir
de la salida en pantalla de la página 525, este valor es -4.583. sbi es la desviación
estándar del coeficiente de regresión para la variable independiente, temperatura.
De nuevo, de la salida en pantalla de la página 525, su valor es o.772. Al sustituir
estos valores en la formula.
t= bi-0 = -4.583-0 = -5.936
sbi 0.772
EVALUACIÓN DE LAS SUPOSICIONES DE LA REGRESIÓN MÚLTIPLE
En la sección anterior se describiera métodos para evaluar de manera estadística
la ecuación de regresión múltiple. Los resultados de la prueba permitieron saber si
al menos uno de los coeficientes no era igual a cero y se describió un proceso de
evaluación de cada coeficiente de regresión. También se analiza el proceso de
toma de decisiones para incluir y excluir variables independientes en la ecuación
de regresión múltiple.
Es importante saber que la validez de las pruebas estadísticas global e individual
parte de varias suposiciones. Es decir, si las suposiciones no son válidas, los
resultados pueden estar sesgados o ser confusos. Sin embargo, se debe
mencionar que en la práctica no siempre es posible un apego estricto a las
suposiciones siguientes. Por fortuna, las técnicas estadísticas analizadas en este
capítulo parecen funcionar muy bien aunque se viole una o más de las
suposiciones, incluso si los valores en la ecuación de regresión múltiple tienen
cierta “desviación”, los estimados mediante una ecuación de regresión múltiple
estarán más cerca que cualquiera que se pudiera hacer de manera. En general,
los procedimientos estadísticos son los que bastante robusto para superar las
violaciones de algunas suposiciones.
1. EXISTE UNA RELACION LINEAL.
Es decir, existe una relación directa entre la variable dependiente y el
conjunto de variables independientes.
2. LA VARIACION EN LOS RESIDUOS ES LA MISMA TANTO PARA
VALORES GRANDES COMO PEQUEÑOS DE ý.
En otras palabras, (y-ý) no están relacionadas ya sea que y sea grandes o
pequeña.
3. LOS RESIDUOS SIGUEN LA DISTRIBUCI DE PROBABILIDADES
NORMAL
Recuerde que el residuo es la diferencia entre el valor actual de Y y el valor
estimado Ý. Por tanto el termino (Y-Ý) se calcula para cada observación
en el conjunto d datos. Estos residuos deberán seguir de manera
aproximada una distribución de probabilidad normal. Además, la media de
los residuos deberá ser 0.
4. LAS VARIABLES INDEPENDIENTES NO DEBERAN ESTAR
CORRELACIONADAS
Es decir conviene seleccionar un conjunto de variables independientemente
que no estén correlacionadas entre sí.
5. LOS RESIDUOS SON INDEPENDIENTES
Esto significa que las observaciones sucesivas de la variable dependiente
no están correlacionadas. Esta suposición con frecuencia se viola cuando
se comprende el tiempo con las observaciones muestreadas.
En esta sección se presenta un análisis breve de cada una de las estas
suposiciones. Además, se proporcionan métodos para validar estas
suposiciones, y se señalan las consecuencias si estas suposiciones no se
cumplen. Para quienes estén interesados en un análisis adicional, una
referencia excelente es kutner, nachtscheim y neter, applied linear
regression models, 4ª, ed. Mcgraw-hill, 2004
RELACION LINEAL.
Primero se verá la suposición d linealidad. La idea es que la relación entre
el conjunto de variables independientes y la variable dependiente es lineal.
Si se considera dos variables independientes, se visualiza esta suposición.
Las dos variables independientes y las variables dependientes formarían
un espacio tridimensional. Así, la ecuación de regresión formaría un plano,
como se muestra en la página 513. Esta suposición se evalúa con
diagramas de dispersión y grafica de residuos.
USO DE LOS DIAGRAMAS DE PUNTOS
La evaluación de una ecuación de regresión múltiple siempre deberá incluir
un diagrama de dispersión en el que se trace la variable dependiente contra
cada variable independiente. Estas graficas ayudan a visualizar las
relaciones y proporcionan una información inicial respecto de la dirección
(positiva o negativa), la linealidad y la fuerza de la relación. Como ejemplo
se analizan a continuación los diagramas de dispersión para el caso del
costo de calefacción. Las gráficas sugieren una relación muy fuerte,
negativa y lineal entre el costo de la calefacción y la temperatura, y una
relación negativa entre el costo de calefacción y el aislamiento
USO DE GRAFICAS DE RESIDUOS
Recuerde que un residuo (Y- Ý) se calcula mediante la ecuación de
regresión múltiple para cada observación en un conjunto de datos. En el
capítulo 13 se firmó que la mejor recta de regresión pasada por el centro de
los datos.
Diagrama de dispersión de costo vs temperatura
LA VARIACION EN LOS RESIDUOS ES IGUAL PARA LOS VALORS
GRANDES Y PUQUEÑOS DE Ý
Este requisito indica que la variación respecto de los valores anticipados es
constante sin importar si los valores sean grandes o pequeño. Para citar un
ejemplo especifico que viole la suposición. Suponga que la utiliza variable
independiente individual, antigüedad para explicar la variación en el ingreso. Se
sospecha que conforme aumenta la antigüedad tal vez a más variación respecto
de la recta de regresión. Es decir, es probable que haya más variación en el
ingreso para una persona de 50 años de edad. El requisito para una variación
constante respecto de la recta de regresión se denomina homoscedasticidad.
DISTRIBUCION DE LOS RESIDUOS
Para tener la seguridad de que las inferencias en las pruebas de hipótesis global e
individual son válidas, se evalúa la distribución de los residuos . En un caso ideal,
los residuos deberán seguir una distribución de probabilidad normal.
Continuación se muestra en histograma de MINITAB de los residuos a la izquierda
para el ejm del costo de calefacción de una casa. Aunque es difícil demostrar que
los residuos siguen una distribución normal solo con 20 observaciones, parece
que la suposición de normalidad de razonable.
MINITAB y exel ofrecen otra grafica que ayuda a evaluar la suposición de residuos
con una distribución normal. Esta grafica se denomina grafica de probabilidad
normal, y se encuentra a la derecha de histograma. Sin entrar en detalles, la
gráfica de probabilidad normal confirma la suposición de residuos normalmente
distribuidos si los puntos trazados están muy cerca de la recta trazada desde la
izquierda inferior hasta la derecha superior de la gráfica.
HISTOGRAMA DE RESIDUOS
Histograma de los residuos normal de los residuos
Grafica de probabilidad
MULTICOLINEALIDAD
La multicolinealidad existe cuando las variables independientes están
correlacionadas. Las variables independientes correlacionadas dificultan las
indiferencias acerca de los coeficientes de regresión individúeles y sus efectos
individúeles sobre las variables dependientes. En la práctica es casi imposible
seleccionar variables que carezcan por completo de alguna relación. En otras
palabras, es casi imposible crear un conjunto de variables independientes que no
estén correlacionadas hasta cierto punto. Sin embargo la compresión general del
punto de multicolinealidad es importante.
Primero se debe destacar que la multicolineadad no afecta la capacidad de una
ecuación de regresión de múltiple para predecir la variabilidad dependiente. No
obstante cuando se tenga interés en evaluar la relación entre cada variable
independiente y las variables dependientes, la multicolinealidad puede presentar
resultados inesperados.
Una segunda razón para evitar variables independientes correlacionadas es que
pueden generar resultados erróneos en las pruebas de hipótesis para las
variables independientes individuales. Estos se deben a la inestabilidad del error
estándar de estimación. Varias pistas que indican problemas con la
multicolinealidad incluyen los siguientes:
1. Una variable independiente conocida como anticipador importante resulta
con un con coeficiente de regresión que no es significativo
2. Un coeficiente de regresión que debiera tener un signo positivo resulta
negativo, o lo contrario.
3. Cuando se agrega o elimina una variable independiente, hay u cambio
gástrico en los valores de los coeficientes de regresión restantes.
En nuestra evaluación de una ecuación de regresión múltiple, una aproximación
para reducir los efectos de la multicolinealidad es seleccionar con cuidado las
variables independientes incluidas en las ecuaciones de regresión. Una regla
general es que, si la correlación entre dos variables independieres se encueran
entre -0.70 y 0.70, es probable que nno haya problema al emplear las dos
variables independientes. Una prueba mas precisa es utilizar el factor de inflación
de la varianza el cual por lo general se escribe VIF. El valor de vif se determina
como sigue
FACTOR DE INFLA CION DE LA VARIANZA
VIF= 1
1-R2J
El termino R2 se refieren al coeficiente de determinación, donde la variable
independiente seleccionada sirve como una variable dependiente, y las variables
independieres restantes, como variables independientes. Un VIF mayor que 10 se
considera insatisfactorio, e indica que la variable independiente se deberá eliminar
del análisis.
Primero empeñe el sistema MINITAB para determinar a matriz de correlación
para la variable dependiente y las cuatro variables independientes una parte
de esa salida es la siguiente:
Costo temperatura Aislamiento
Temperatura -0.812
Aislamiento -0.257 -0.103
antigüedad 0.537 -0.486 0.064
Contenido de la celda: correlación de pearson
Ninguna de las correlaciones entre las variables independientes sobrepasa -
0.70 ni 0.70 por tanto, no se sospecha problemas con multicolinealidad. La
correlación mayor entre las variables independientes es -0.486 entre antigüedad
y temperatura. Para confirmar esta conclusión calcule el VIF de cada una de
las variables independientes. Primero considere la variable independiente,
temperatura emplee MINITAB para determinar el coeficiente de determinación
múltiple con la temperatura como variable dependiente múltiple con la
temperatura como variable dependiente y la cantidad de aislamiento y
antigüedad del calentador como variables independientes. Las relevantes en
pantalla de MINITAB es la siguiente.
ANALISIS DE RGRESION: TEMPERATURA VS AISLAMIENTO,
ANTIGÜEDAD
La ecuación de regresión es:
Temp = 58.0 – 0.51 aislamiento – 2.51 antigüedad
Factor de
predicción coef Se coef T P VIF
constante 57.99 12.35 4.70 0.000
Aislamiento -0.509 1.488 -0.34 0.737 1.0
Antigüedad -2.509 1.103 -2.27 0.036 1.0
S =16.0.311 R al cuadrado = 24.1 % R cuadrado ( agust) = 15.2 %
ANALISIS DE LA VARIANZA
Fuente GL SS MS F P
Regresión 2 1390.3 695.1 2.70 0.096
Error residual 17 4368.9 257.0
total 19 5759.2
El coeficiente de determinación es 0.241 por tanto, al sustituir este valor en la
formula VIF
VIF= 1
1−R2= 11−0.241
=1.32
El valor de VIF de 1.32 es menor que el límite superior de 10 esto indica que
la variable independiente, temperatura no está muy correlacionada con las
demás variables independientes
Una vez más, para determinar el VIF del aislamiento se desarrollaría una
ecuación de regresión con el aislamiento como variable dependiente y la
temperatura y antigüedad del calentador como variables independientes para
que la ecuación establezca el coeficiente de determinación. Este será el valor
para R22 este valor se sustituirá en la ecuación y se despejaría para el Vif.
OBSERVACIONES INDEPENDIENTES
La quinta suposición respecto del análisis de regresión y correlación es que
los residuos sucesivos deberán ser independientes esto significa que hay
un patrón para los residuos no están muy correlacionados y no hay
corridas largas de residuos positivos o negativos sucesivos están
correlacionadas a esta condición se le conoce como autocorrelacion
La autocorelacion se presenta con frecuencia cuando los datos se colectan
durante un periodo por ejemplo se desea presidir de las ventas anuales de
ages software, inc ., con base en el tiempo y la cantidad gastada en
publicidad la variable dependiente son las ventas anuales y las variables
independientes son el tiempo y la cantidad gastada en publicidad es
probable que para un periodo los puntos actuales estén arriba del plano de
regresión (recuerd que hay dos variables independientes ) y después para
otro periodo los puntos estén debajo del plano de regresión en la gráfica
siguiente se muestran los residuos graficados en el eje vertical y los
valores ajustados y en horizontal observa la corrida de residuos arriba de
la media de los residuos seguida por una corriente debajo de la media
este diagrama de dispersión indica una posible auto correlación.
Existe una prueba para la auto correlacion
denominada durbin – Watson
VARIABLES INDEPENDIENTES CUALITATIVAS
En el ejemplo anterior respecto del costo de calefacción las dos variables
independientes temperatura exterm¡na y aislamiento fueron cuantitativas es
decir de naturaleza numérica con frecuencia en el análisis se desea ampliar
variables en escala nominal como género, si la casa tiene alberca , o si el
equipo fue local o visitante. Estas variables se de dominan variables
cualitativas debido a que describen una cualidad particular como masculino
o femenino para utilizar una variable cualitativa en el análisis de regresión
se emplea un esquema de variables ficticias en las cual una de las dos
condiciones posibles se codifica con un 0 o un 1.
Por ejemplo, se tiene interés en estimar el salario de un ejecutivo con
base en los años de su experiencia laboral y si él o ella se graduó o no
Valores ajustados
RESIDUOS
VARIABLE FICTICIA: variable en la que solo existe dos resultados posibles. Para el análisis uno de los resultados se codifica con 1 y el otro con 0
de la universidad “graduación de la universidad” solo puede adoptar una de
dos condiciones : si o no por tanto se considera una variable cualitativa.
Suponga que el ejemplo de salsberry reaty se agrega la variable
independiente “garaje” para casa sin garaje , se utiliza 0 ; para las que si
tienen y se emplea 1 a las variables garaje se le designara x4 los datos
de la tabla 14.2 se ingresan en el sistema MINITAB
Tabla costo de calefacción de las casas temperatura aislamiento y garaje
de una muestra en 20 casas.
Costo
Y
Temperatur
a
x1
Aislamiento
x2
Garaje
x4
250 35 3 0
360 29 4 1
165 36 7 0
43 60 6 0
92 65 5 0
200 30 5 0
355 10 6 1
290 7 10 1
230 21 9 0
120 55 2 0
73 54 12 0
205 48 5 1
400 20 5 1
320 39 4 1
72 60 8 0
272 20 5 1
94 58 7 0
190 40 8 1
235 27 9 0
139 30 7 0
UNIVERSIDAD TECNOLOGICA DEL PERU
TEMA: REGISTRO LINEAL MULTIPLE
DOCENTE:
Verónica Loaiza Quilla
CURSO:
“Estadística II”
CICLO: IV
PRESENTADO POR:
Betsy Ascuña ChicañaEscarle Ocmin Aguilar Patricia Roxana Narváez Maricely
AREQUIPA - PERU
2012