22
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE En seguida se considera el coeficiente de determinación múltiple. El coeficiente de determinación se define como el porcentaje de la variación en la variable dependiente explicada o contabilizada, por la variable independiente. En el caso de la regresión múltiple se amplía esta definición Coeficiente de determinación múltiple porcentaje de variación en la variable dependiente, y, aplicada por el conjunto de variables independientes X1,X2,X3….Xk Las características de coeficiente de determinación múltiple son: 1. Se representa con una letra R mayúscula al cuadrado. En otras palabras, se escribe como R”2” debido a que se comporta como el cuadrado de un coeficiente de correlación. 2. Puede variar del 0 a 1. Un valor cercano a 0 indica poca asociación entre el conjunto de variables independientes y la variable dependiente. Un valor cercano 1 significa una asociación fuerte

COEFICIENTE ESTADISTICA

Embed Size (px)

Citation preview

Page 1: COEFICIENTE ESTADISTICA

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

En seguida se considera el coeficiente de determinación múltiple. El coeficiente de

determinación se define como el porcentaje de la variación en la variable

dependiente explicada o contabilizada, por la variable independiente.

En el caso de la regresión múltiple se amplía esta definición

Coeficiente de determinación múltiple porcentaje de variación en la variable

dependiente, y, aplicada por el conjunto de variables independientes

X1,X2,X3….Xk

Las características de coeficiente de determinación múltiple son:

1. Se representa con una letra R mayúscula al cuadrado. En otras palabras,

se escribe como R”2” debido a que se comporta como el cuadrado de un

coeficiente de correlación.

2. Puede variar del 0 a 1. Un valor cercano a 0 indica poca asociación entre el

conjunto de variables independientes y la variable dependiente. Un valor

cercano 1 significa una asociación fuerte

3. No puede adoptar valores negativos. Ningún número que se eleve al

cuadrado o se eleve a la segunda potencia puede ser negativo

4. Es fácil de interpretar. Como R”2” es un valor entre 0 y 1 es fácil de

interpretar, comparar y comprender.

El coeficiente de determinación se calcula a partir de la información determinada

en la tabla ANOA. Se observa en la columna de suma de cuadrados, la cual se

identifica como SS en la salida en pantalla de MINITAB, y se utiliza la suma de

cuadrados de regresión, SSR, luego se divide entre la suma de cuadrados total,

SS total.

Page 2: COEFICIENTE ESTADISTICA

COEFICIENTE DE DETERNINACION MULTIPLE R”2”= SSR

SS TOTAL = 14.3

COEFICIENTE AJUSTADO DE DETERMINACION

El número de variables en una ecuación de regresión múltiple aumenta el

coeficiente de determinación. Cada nueva variable independiente hace que la

predicciones sean más precisas, lo que a su vez reduce SSE y aumenta SSR. De

aquí R”2” aumenta solo debido al número total de variables independientes y no

por que la variable independiente agregada sea un buen anticipador de la variable

dependiente. De hecho, si el número de variables, k, y el tamaño muestra ,n, son

iguales el coeficiente de determinación es 1.0. en la práctica esta situación es

poco frecuente y también seria éticamente cuestionable.

COEFICIENTE AJUSTADO DE DETERNINACION

SSE

n- (k+1) R”2” = 1- (14.4)

SS TOTAL

n - 1

El error y la suma de cuadrados se dividen entre sus grados de libertad. Observe

en especial que los grados de libertad para la suma de los cuadrados del error

incluyen k, el número de variables independientes. Para el ejemplo del costo de

calefacción, el coeficiente ajustado de determinación es:

Page 3: COEFICIENTE ESTADISTICA

41695

20- (3+1) 2606 R”2” = 1- = 1 = 1 0.23 = 0.77

212916 11206.0

20 - 1

Si se compara R”2” (0.80) ajustada (0.77), la diferencia en este caso es pequeña.

Si se repitiera el proceso de muestreo muchas veces se podría diseñar una

distribución de muestreo de estos coeficientes de regresión. La columna “Standard

Erro estima la variabilidad de estos coeficientes de regresión. La distribución de

muestreo de coeficientes/estándar error” sigue la distribución t con n-(k+ 1)grados

de libertad de aquí se pueden aprobar las variables independientes

individualmente para determinar si los coeficientes de regresión netos difieren de

cero. La razón t calculada es -5.934 para la temperatura y -3.119 para el

aislamiento. Los dos valores t se encuentran en la región de recazo a las

izquierda de -2.120. de esta manera se concluye que los coeficientes de regresión

para las variables temperatura y aislamiento no son cero. La t calculada para la

antigüedad del calentador es 1.524, por lo que no es un factor de predicción

significativo del costo de calefacción. Se puede omitir del análisis. Se pueden

probar coeficientes de regresión individuales con la distribución t. la fórmula es:

PRUEBA DE LOS COEFICIENTES DE REGRESION INDIVIDUALES

T= bi-0

Sb

El coeficiente bi se refiere de los coeficientes de regresión, y sbi a la desviación

estándar de esa distribución del coeficiente de regresión. Se incluye 0 en la

ecuación debido a que la hipótesis nula es bi= 0.

Page 4: COEFICIENTE ESTADISTICA

Para ilustrar esta formulada, consulte la prueba del coeficiente de regresión para

la variable independiente, temperatura. Sea b1 el coeficiente de regresión. A partir

de la salida en pantalla de la página 525, este valor es -4.583. sbi es la desviación

estándar del coeficiente de regresión para la variable independiente, temperatura.

De nuevo, de la salida en pantalla de la página 525, su valor es o.772. Al sustituir

estos valores en la formula.

t= bi-0 = -4.583-0 = -5.936

sbi 0.772

EVALUACIÓN DE LAS SUPOSICIONES DE LA REGRESIÓN MÚLTIPLE

En la sección anterior se describiera métodos para evaluar de manera estadística

la ecuación de regresión múltiple. Los resultados de la prueba permitieron saber si

al menos uno de los coeficientes no era igual a cero y se describió un proceso de

evaluación de cada coeficiente de regresión. También se analiza el proceso de

toma de decisiones para incluir y excluir variables independientes en la ecuación

de regresión múltiple.

Es importante saber que la validez de las pruebas estadísticas global e individual

parte de varias suposiciones. Es decir, si las suposiciones no son válidas, los

resultados pueden estar sesgados o ser confusos. Sin embargo, se debe

mencionar que en la práctica no siempre es posible un apego estricto a las

suposiciones siguientes. Por fortuna, las técnicas estadísticas analizadas en este

capítulo parecen funcionar muy bien aunque se viole una o más de las

suposiciones, incluso si los valores en la ecuación de regresión múltiple tienen

cierta “desviación”, los estimados mediante una ecuación de regresión múltiple

estarán más cerca que cualquiera que se pudiera hacer de manera. En general,

los procedimientos estadísticos son los que bastante robusto para superar las

violaciones de algunas suposiciones.

Page 5: COEFICIENTE ESTADISTICA

1. EXISTE UNA RELACION LINEAL.

Es decir, existe una relación directa entre la variable dependiente y el

conjunto de variables independientes.

2. LA VARIACION EN LOS RESIDUOS ES LA MISMA TANTO PARA

VALORES GRANDES COMO PEQUEÑOS DE ý.

En otras palabras, (y-ý) no están relacionadas ya sea que y sea grandes o

pequeña.

3. LOS RESIDUOS SIGUEN LA DISTRIBUCI DE PROBABILIDADES

NORMAL

Recuerde que el residuo es la diferencia entre el valor actual de Y y el valor

estimado Ý. Por tanto el termino (Y-Ý) se calcula para cada observación

en el conjunto d datos. Estos residuos deberán seguir de manera

aproximada una distribución de probabilidad normal. Además, la media de

los residuos deberá ser 0.

4. LAS VARIABLES INDEPENDIENTES NO DEBERAN ESTAR

CORRELACIONADAS

Es decir conviene seleccionar un conjunto de variables independientemente

que no estén correlacionadas entre sí.

5. LOS RESIDUOS SON INDEPENDIENTES

Esto significa que las observaciones sucesivas de la variable dependiente

no están correlacionadas. Esta suposición con frecuencia se viola cuando

se comprende el tiempo con las observaciones muestreadas.

En esta sección se presenta un análisis breve de cada una de las estas

suposiciones. Además, se proporcionan métodos para validar estas

Page 6: COEFICIENTE ESTADISTICA

suposiciones, y se señalan las consecuencias si estas suposiciones no se

cumplen. Para quienes estén interesados en un análisis adicional, una

referencia excelente es kutner, nachtscheim y neter, applied linear

regression models, 4ª, ed. Mcgraw-hill, 2004

RELACION LINEAL.

Primero se verá la suposición d linealidad. La idea es que la relación entre

el conjunto de variables independientes y la variable dependiente es lineal.

Si se considera dos variables independientes, se visualiza esta suposición.

Las dos variables independientes y las variables dependientes formarían

un espacio tridimensional. Así, la ecuación de regresión formaría un plano,

como se muestra en la página 513. Esta suposición se evalúa con

diagramas de dispersión y grafica de residuos.

USO DE LOS DIAGRAMAS DE PUNTOS

La evaluación de una ecuación de regresión múltiple siempre deberá incluir

un diagrama de dispersión en el que se trace la variable dependiente contra

cada variable independiente. Estas graficas ayudan a visualizar las

relaciones y proporcionan una información inicial respecto de la dirección

(positiva o negativa), la linealidad y la fuerza de la relación. Como ejemplo

se analizan a continuación los diagramas de dispersión para el caso del

costo de calefacción. Las gráficas sugieren una relación muy fuerte,

negativa y lineal entre el costo de la calefacción y la temperatura, y una

relación negativa entre el costo de calefacción y el aislamiento

USO DE GRAFICAS DE RESIDUOS

Recuerde que un residuo (Y- Ý) se calcula mediante la ecuación de

regresión múltiple para cada observación en un conjunto de datos. En el

capítulo 13 se firmó que la mejor recta de regresión pasada por el centro de

los datos.

Page 7: COEFICIENTE ESTADISTICA

Diagrama de dispersión de costo vs temperatura

LA VARIACION EN LOS RESIDUOS ES IGUAL PARA LOS VALORS

GRANDES Y PUQUEÑOS DE Ý

Este requisito indica que la variación respecto de los valores anticipados es

constante sin importar si los valores sean grandes o pequeño. Para citar un

ejemplo especifico que viole la suposición. Suponga que la utiliza variable

independiente individual, antigüedad para explicar la variación en el ingreso. Se

sospecha que conforme aumenta la antigüedad tal vez a más variación respecto

de la recta de regresión. Es decir, es probable que haya más variación en el

ingreso para una persona de 50 años de edad. El requisito para una variación

constante respecto de la recta de regresión se denomina homoscedasticidad.

DISTRIBUCION DE LOS RESIDUOS

Para tener la seguridad de que las inferencias en las pruebas de hipótesis global e

individual son válidas, se evalúa la distribución de los residuos . En un caso ideal,

los residuos deberán seguir una distribución de probabilidad normal.

Continuación se muestra en histograma de MINITAB de los residuos a la izquierda

para el ejm del costo de calefacción de una casa. Aunque es difícil demostrar que

los residuos siguen una distribución normal solo con 20 observaciones, parece

que la suposición de normalidad de razonable.

Page 8: COEFICIENTE ESTADISTICA

MINITAB y exel ofrecen otra grafica que ayuda a evaluar la suposición de residuos

con una distribución normal. Esta grafica se denomina grafica de probabilidad

normal, y se encuentra a la derecha de histograma. Sin entrar en detalles, la

gráfica de probabilidad normal confirma la suposición de residuos normalmente

distribuidos si los puntos trazados están muy cerca de la recta trazada desde la

izquierda inferior hasta la derecha superior de la gráfica.

HISTOGRAMA DE RESIDUOS

Histograma de los residuos normal de los residuos

Grafica de probabilidad

Page 9: COEFICIENTE ESTADISTICA

MULTICOLINEALIDAD

La multicolinealidad existe cuando las variables independientes están

correlacionadas. Las variables independientes correlacionadas dificultan las

indiferencias acerca de los coeficientes de regresión individúeles y sus efectos

individúeles sobre las variables dependientes. En la práctica es casi imposible

seleccionar variables que carezcan por completo de alguna relación. En otras

palabras, es casi imposible crear un conjunto de variables independientes que no

estén correlacionadas hasta cierto punto. Sin embargo la compresión general del

punto de multicolinealidad es importante.

Primero se debe destacar que la multicolineadad no afecta la capacidad de una

ecuación de regresión de múltiple para predecir la variabilidad dependiente. No

obstante cuando se tenga interés en evaluar la relación entre cada variable

independiente y las variables dependientes, la multicolinealidad puede presentar

resultados inesperados.

Una segunda razón para evitar variables independientes correlacionadas es que

pueden generar resultados erróneos en las pruebas de hipótesis para las

variables independientes individuales. Estos se deben a la inestabilidad del error

estándar de estimación. Varias pistas que indican problemas con la

multicolinealidad incluyen los siguientes:

1. Una variable independiente conocida como anticipador importante resulta

con un con coeficiente de regresión que no es significativo

2. Un coeficiente de regresión que debiera tener un signo positivo resulta

negativo, o lo contrario.

3. Cuando se agrega o elimina una variable independiente, hay u cambio

gástrico en los valores de los coeficientes de regresión restantes.

En nuestra evaluación de una ecuación de regresión múltiple, una aproximación

para reducir los efectos de la multicolinealidad es seleccionar con cuidado las

variables independientes incluidas en las ecuaciones de regresión. Una regla

general es que, si la correlación entre dos variables independieres se encueran

entre -0.70 y 0.70, es probable que nno haya problema al emplear las dos

Page 10: COEFICIENTE ESTADISTICA

variables independientes. Una prueba mas precisa es utilizar el factor de inflación

de la varianza el cual por lo general se escribe VIF. El valor de vif se determina

como sigue

FACTOR DE INFLA CION DE LA VARIANZA

VIF= 1

1-R2J

El termino R2 se refieren al coeficiente de determinación, donde la variable

independiente seleccionada sirve como una variable dependiente, y las variables

independieres restantes, como variables independientes. Un VIF mayor que 10 se

considera insatisfactorio, e indica que la variable independiente se deberá eliminar

del análisis.

Primero empeñe el sistema MINITAB para determinar a matriz de correlación

para la variable dependiente y las cuatro variables independientes una parte

de esa salida es la siguiente:

Costo temperatura Aislamiento

Temperatura -0.812

Aislamiento -0.257 -0.103

antigüedad 0.537 -0.486 0.064

Contenido de la celda: correlación de pearson

Ninguna de las correlaciones entre las variables independientes sobrepasa -

0.70 ni 0.70 por tanto, no se sospecha problemas con multicolinealidad. La

correlación mayor entre las variables independientes es -0.486 entre antigüedad

y temperatura. Para confirmar esta conclusión calcule el VIF de cada una de

las variables independientes. Primero considere la variable independiente,

temperatura emplee MINITAB para determinar el coeficiente de determinación

Page 11: COEFICIENTE ESTADISTICA

múltiple con la temperatura como variable dependiente múltiple con la

temperatura como variable dependiente y la cantidad de aislamiento y

antigüedad del calentador como variables independientes. Las relevantes en

pantalla de MINITAB es la siguiente.

ANALISIS DE RGRESION: TEMPERATURA VS AISLAMIENTO,

ANTIGÜEDAD

La ecuación de regresión es:

Temp = 58.0 – 0.51 aislamiento – 2.51 antigüedad

Factor de

predicción coef Se coef T P VIF

constante 57.99 12.35 4.70 0.000

Aislamiento -0.509 1.488 -0.34 0.737 1.0

Antigüedad -2.509 1.103 -2.27 0.036 1.0

S =16.0.311 R al cuadrado = 24.1 % R cuadrado ( agust) = 15.2 %

ANALISIS DE LA VARIANZA

Fuente GL SS MS F P

Regresión 2 1390.3 695.1 2.70 0.096

Error residual 17 4368.9 257.0

total 19 5759.2

El coeficiente de determinación es 0.241 por tanto, al sustituir este valor en la

formula VIF

VIF= 1

1−R2= 11−0.241

=1.32

Page 12: COEFICIENTE ESTADISTICA

El valor de VIF de 1.32 es menor que el límite superior de 10 esto indica que

la variable independiente, temperatura no está muy correlacionada con las

demás variables independientes

Una vez más, para determinar el VIF del aislamiento se desarrollaría una

ecuación de regresión con el aislamiento como variable dependiente y la

temperatura y antigüedad del calentador como variables independientes para

que la ecuación establezca el coeficiente de determinación. Este será el valor

para R22 este valor se sustituirá en la ecuación y se despejaría para el Vif.

OBSERVACIONES INDEPENDIENTES

La quinta suposición respecto del análisis de regresión y correlación es que

los residuos sucesivos deberán ser independientes esto significa que hay

un patrón para los residuos no están muy correlacionados y no hay

corridas largas de residuos positivos o negativos sucesivos están

correlacionadas a esta condición se le conoce como autocorrelacion

La autocorelacion se presenta con frecuencia cuando los datos se colectan

durante un periodo por ejemplo se desea presidir de las ventas anuales de

ages software, inc ., con base en el tiempo y la cantidad gastada en

publicidad la variable dependiente son las ventas anuales y las variables

independientes son el tiempo y la cantidad gastada en publicidad es

probable que para un periodo los puntos actuales estén arriba del plano de

regresión (recuerd que hay dos variables independientes ) y después para

otro periodo los puntos estén debajo del plano de regresión en la gráfica

siguiente se muestran los residuos graficados en el eje vertical y los

valores ajustados y en horizontal observa la corrida de residuos arriba de

la media de los residuos seguida por una corriente debajo de la media

este diagrama de dispersión indica una posible auto correlación.

Page 13: COEFICIENTE ESTADISTICA

Existe una prueba para la auto correlacion

denominada durbin – Watson

VARIABLES INDEPENDIENTES CUALITATIVAS

En el ejemplo anterior respecto del costo de calefacción las dos variables

independientes temperatura exterm¡na y aislamiento fueron cuantitativas es

decir de naturaleza numérica con frecuencia en el análisis se desea ampliar

variables en escala nominal como género, si la casa tiene alberca , o si el

equipo fue local o visitante. Estas variables se de dominan variables

cualitativas debido a que describen una cualidad particular como masculino

o femenino para utilizar una variable cualitativa en el análisis de regresión

se emplea un esquema de variables ficticias en las cual una de las dos

condiciones posibles se codifica con un 0 o un 1.

Por ejemplo, se tiene interés en estimar el salario de un ejecutivo con

base en los años de su experiencia laboral y si él o ella se graduó o no

Valores ajustados

RESIDUOS

VARIABLE FICTICIA: variable en la que solo existe dos resultados posibles. Para el análisis uno de los resultados se codifica con 1 y el otro con 0

Page 14: COEFICIENTE ESTADISTICA

de la universidad “graduación de la universidad” solo puede adoptar una de

dos condiciones : si o no por tanto se considera una variable cualitativa.

Suponga que el ejemplo de salsberry reaty se agrega la variable

independiente “garaje” para casa sin garaje , se utiliza 0 ; para las que si

tienen y se emplea 1 a las variables garaje se le designara x4 los datos

de la tabla 14.2 se ingresan en el sistema MINITAB

Tabla costo de calefacción de las casas temperatura aislamiento y garaje

de una muestra en 20 casas.

Costo

Y

Temperatur

a

x1

Aislamiento

x2

Garaje

x4

250 35 3 0

360 29 4 1

165 36 7 0

43 60 6 0

92 65 5 0

200 30 5 0

355 10 6 1

290 7 10 1

230 21 9 0

120 55 2 0

73 54 12 0

205 48 5 1

400 20 5 1

320 39 4 1

72 60 8 0

272 20 5 1

94 58 7 0

Page 15: COEFICIENTE ESTADISTICA

190 40 8 1

235 27 9 0

139 30 7 0

UNIVERSIDAD TECNOLOGICA DEL PERU

TEMA: REGISTRO LINEAL MULTIPLE

DOCENTE:

Verónica Loaiza Quilla

CURSO:

“Estadística II”

CICLO: IV

PRESENTADO POR:

Betsy Ascuña ChicañaEscarle Ocmin Aguilar Patricia Roxana Narváez Maricely

Page 16: COEFICIENTE ESTADISTICA

AREQUIPA - PERU

2012