correlación y Regresión Simple

Embed Size (px)

DESCRIPTION

trabajo de estadística

Citation preview

  • *Regresin lineal y correlacinObjetivos: Al terminar este captulo podr:

    Trazar un diagrama de dispersin.

    Entender e interpretar los trminos variable dependiente y variable independiente.

    Calcular y explicar el coeficiente de correlacin, y el coeficiente de determinacin, as como el error estndar de estimacin.

    Realizar una prueba de hiptesis para establecer si el coeficiente de correlacin de la poblacin es cero.

  • *Determinar la lnea (o recta) de regresin de mnimos cuadrados.

    Elaborar e interpretar intervalos de confianza e intervalos de prediccin para la variable dependiente.

    Establecer e interpretar una tabla de ANOVA. (Continuacin)

  • *Anlisis de correlacinEl anlisis de correlacin es un grupo de tcnicas estadsticas usadas para medir la fuerza de la asociacin entre dos variables.Un diagrama de dispersin es una grfica que representa la relacin entre dos variables.La variable dependiente es la variable que se desea explicar o predecir, tambin se le llama variable de respuesta o regresando.La variable independiente proporciona las bases para el clculo, tambin se le llama variable explicativa o regresor.

  • *El coeficiente de correlacin, r El coeficiente de correlacin (r) es una medida de la intensidad de la relacin lineal entre dos variables.Requiere datos de nivel de razn.Puede tomar cualquier valor de -1.00 a 1.00.Los valores de -1.00 o 1.00 indican la correlacin perfecta y fuerte.Los valores cerca de 0.0 indican la correlacin dbil.Los valores negativos indican una relacin inversa y los valores positivos indican una relacin directa.

  • *Correlacin negativa perfecta10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X Y

  • *Correlacin positiva perfecta10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X Y

  • *Correlacin cero10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Y X

  • *Correlacin positiva fuerte Y X10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

  • *Frmula para rCalculamos el coeficiente de correlacin de las frmulas siguientes.

  • *Coeficiente de determinacinEl coeficiente de determinacin (r2) es la proporcin de la variacin total en la variable dependiente (y) que se explica por la variacin en la variable independiente (x).Es el cuadrado del coeficiente de correlacin.Su rango es de 0 a 1.No da ninguna informacin sobre la direccin de la relacin entre las variables.

  • *Ejemplo 1Juan Escobedo, presidente de la sociedad de alumnos de la Universidad de Toledo, se ocupa de estudiar el costo de los libros de texto. l cree que hay una relacin entre el nmero de pginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente en venta en la librera. Dibuje un diagrama de dispersin. Compruebe el coeficiente de correlacin.

  • * Libro Pginas Precio ($)Intr. a la Historia50084lgebra70075Intr.a la Psicologa80099Intr. a la Sociologa60072Mercadotecnia40069Intr. a la Biologa50081Fund. de Jazz60063Intr.a la Enfermera80093

    Ejemplo 1 (Continuacin)

  • *Ejemplo 1 (Continuacin)

  • *Libro Pginas Precio ($) X Y XY X2Y2Intr. a la Historia500 84 42,000 250,000 7,056lgebra700 75 52,500 490,000 5,625Intr. a la Psicologa800 99 79,200 640,000 9,801Intr. a la Sociologa600 72 43,200 360,000 5,184Mercadotecnia400 69 27,600 160,000 4,761Intr. a la Biologa500 81 40,500 250,000 6,561Fund. de Jazz600 63 37,800 360,000 3,969Intr. a la Enfermera800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606

    Ejemplo 1 (Continuacin)

  • *Ejemplo 1 (Continuacin)

  • *La correlacin entre el nmero de pginas y el precio de venta del libro es 0.614. Esto indica una asociacin moderada entre las variables. Pruebe la hiptesis de que no hay correlacin en la poblacin. Utilice un nivel de la significancia del .02.Paso 1: H0: La correlacin en la poblacin es cero. H1: La correlacin en la poblacin no es cero.Paso 2: H0 es rechazada si t>3.143 o si t
  • *Paso 3: Para encontrar el valor del estadstico de prueba, utilizamos:

    Paso 4: H0 no se rechaza. No podemos rechazar la hiptesis de que no hay correlacin en la poblacin. La cantidad de asociacin puede ser debido al azar.

    Ejemplo 1 (Continuacin)

  • *Anlisis de regresinEn anlisis de regresin utilizamos la variable independiente (X) para estimar la variable dependiente (Y).La relacin entre las variables es lineal.Ambas variables deben ser por lo menos escala del intervalo.El criterio de mnimos cuadrados se utiliza para determinar la ecuacin. Este es el trmino (Y Y')2

  • *Anlisis de regresinLa ecuacin de regresin es: Y' = a + bX, donde:Y' es el valor pronosticado de la variable Y para un valor seleccionado de X. a es la ordenada de la interseccin con el eje Y cuando X = 0. Es el valor estimado de Y cuando X=0b es la pendiente de la recta, o el cambio promedio en Y' para cada cambio de una unidad en X.el principio de mnimos cuadrados se utiliza para obtener a y b.

  • Ejemplo ecuacin de la rectaY= a + bXY= 5 + 2X*

  • *Anlisis de regresinEl principio de mnimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son:

  • *Desarrolle una ecuacin de regresin para la informacin dada en el Ejemplo 1 que se puede utilizar para estimar el precio de venta basado en el nmero de pginas.

    Ejemplo 2 (Continuacin)

  • *La ecuacin de regresin es: Y' = 48.0 + .05143XLa ecuacin cruza al eje Y en $48. Un libro sin las pginas costara $48.La pendiente de la lnea es .05143. El costo de cada pgina adicional es de cinco cntimos.El signo del valor de b y el signo del valor de r sern siempre iguales.

    Ejemplo 2 (Continuacin)

  • *Podemos utilizar la ecuacin de regresin para estimar valores de Y.El precio de venta estimado de un libro de 800 pginas es $89.14, encontrado por

    Ejemplo 2 (Continuacin)

  • *El error estndar de estimacinEl error estndar de estimacin mide la dispersin de los valores observados alrededor de la lnea de regresin.Las frmulas que se utilizan para comprobar el error estndar son:

  • *Encuentre el error estndar de estimacin para el problema que implica el nmero de pginas en un libro y el precio de venta.

    Ejemplo 3

  • *Suposiciones subyacentes en el anlisis de regresin linealPara cada valor de X, hay un grupo de valores de Y, y estos valores de Y se distribuyen normalmente.Las medias de estas distribuciones normales de valores Y, caen todas en la recta de regresin.Las desviaciones estndar de estas distribuciones normales son iguales.Los valores de Y son estadsticamente independendientes. Esto significa que en la seleccin de una muestra, los valores de Y elegidos para un valor particular de X no dependen de los valores de Y de ningn otro valor de X.

  • *Intervalo de confianzaEl intervalo de confianza para el valor medio de Y para un valor dado de X est dado por:

  • *Intervalo de prediccinEl intervalo de prediccin para un valor individual de Y para un valor dado de X se da por:

  • *Resumir los resultados:El precio de venta estimado para un libro con 800 pginas es $89.14.El error estndar de estimacin es $10.41.El intervalo de confianza de 95% para todos los libros con 800 pginas es $89.14+-$15.31. Esto significa que los lmites estn entre $73.83 y $104.45.El intervalo de prediccin de 95% para un libro particular con 800 pginas es $89.14+-$29.72. Esto significa que los lmites estn entre $59.42 y $118.86.Estos resultados aparecen en la siguiente salida de MINITAB.Ejemplo 3 (Continuacin)

  • *Regression Analysis: Price versus Pages

    The regression equation isPrice = 48.0 + 0.0514 Pages

    Predictor Coef SE Coef T PConstant 48.00 16.94 2.83 0.030Pages 0.05143 0.02700 1.90 0.105

    S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3%

    Analysis of Variance

    Source DF SS MS F PRegression 1 393.4 393.4 3.63 0.105Residual Error 6 650.6 108.4Total 7 1044.0

    Predicted Values for New Observations

    New Obs Fit SE Fit 95.0% CI 95.0% PI1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88)

    Ejemplo 3 (Continuacin)