16
Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA Relaciones entre dos variables cuantitativas A menudo nos va a interesar describir la relación o asociación entre dos variables. Como siempre la metodología va a depender del tipo de variable que queremos describir. Acá vamos a estudiar cómo describir la relación entre dos variables cuantitativas. Describiendo relaciones entre dos variables cuantitativas. Para mostrar graficamente la relación entre dos variables cuantitativas usaremos un gráfico llamado de dispersión o de XY. Gráfico de Dispersión de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadística en la UTAL Prueba 1 7 6 5 4 3 2 1 Examen 7 6 5 4 3 2 1 ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5 Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5 Ejemplo a) Encuentre el estudiante número 19 en el gráfico. b) Suponga que otro estudiante tuvo un 5,0 en la primera prueba y un 5,5 en la prueba final acumulativa o Examen. Agregue este punto en el gráfico. Estudiante 16

CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Embed Size (px)

Citation preview

Page 1: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 1 de 16

CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

Relaciones entre dos variables cuantitativas A menudo nos va a interesar describir la relación o asociación entre dos variables. Como siempre la metodología va a depender del tipo de variable que queremos describir. Acá vamos a estudiar cómo describir la relación entre dos variables cuantitativas. Describiendo relaciones entre dos variables cuantitativas. Para mostrar graficamente la relación entre dos variables cuantitativas usaremos un gráfico llamado de dispersión o de XY.

Gráfico de Dispersión de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadística en la UTAL

Prueba 1

7654321

Exa

me

n

7

6

5

4

3

2

1

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5 Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5

� Ejemplo

a) Encuentre el estudiante número 19 en el gráfico. b) Suponga que otro estudiante tuvo un 5,0 en la primera prueba y un 5,5 en la prueba final

acumulativa o Examen. Agregue este punto en el gráfico.

Estudiante 16

Page 2: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 2 de 16

Al igual que cuando estudiamos los histogramas, tallos y hojas y otros gráficos, ahora nos va interesar describir la forma del gráfico. Específicamente en este caso particular de gráficos de dispersión, nos va a interesar la dirección, forma y grado de asociación entre dos variables cuantitativas. Por dirección, diremos que dos variables están asociadas positivamente cuando a mayor valor de una variable el valor de la otra variable también aumenta, como se muestra en la figura A. Dos variables estarán negativamente asociadas cuando a mayor valor de una variable el valor de la otra variable disminuye, como se muestra en la figura B. La forma de una asociación puede ser además lineal, curva, cuadrática, estacional o cíclica, o quizás no tenga una forma definida. En la figura A podemos decir que la relación es lineal. En cambio en las figuras B y D parece no lineal. Por último la figura C muestra que no hay asociación. Por el grado de asociación entendemos cuán cerca están los datos de una forma dada. Por ejemplo, en la figura B se ve que existe un alto grado de asociación no lineal entre los datos. En este punto debemos tener cuidado, porque cambios de escala pueden cambiar la figura y nos pueden llevar a conclusiones erróneas. Más adelante discutiremos sobre una medida de asociación llamada el coeficiente de correlación. Por último, al mirar un gráfico de dispersión nos van a interesar puntos que aparecen lejos o desviados del patrón general del gráfico. En la figura A, el punto (21, 39) está lejos del resto de los puntos, sin embargo parece seguir el patrón general del gráfico. Como resumen de las figuras tenemos lo siguiente: Figura A: muestra un grado de asociación intermedio, positivo y lineal. Figura B: muestra un grado de asociación fuerte, negativo y no lineal o curvo. Figura C: muestra que no hay asociación entre las variables. Figura D: muestra un grado de asociación muy fuerte y no lineal o cuadrático.

Figure A: Positive Association

X

30

40

50

60

70

80

90

100

10 20 30 40 50

Figure C: No Linear Association

X

30

40

50

60

70

80

90

100

10 20 30 40 50

Figure B: Negative Association

X

30

40

50

60

70

80

90

100

10 20 30 40 50

Figure D: No Linear Association

X

30

40

50

60

70

80

90

100

10 20 30 40 50

� Ejemplo Interprete el gráfico de las notas anterior.

Page 3: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 3 de 16

Correlación: ¿Cuán fuerte es la relación lineal? Definición: El coeficiente de correlación muestral r mide el grado de asociación lineal entre dos variables cuantitativas. Describe la dirección de la asociación lineal e indica cuán cerca están los puntos a una línea recta en el diagrama de dispersión.

Nota: El coeficiente de correlación muestral ρ=r es un estimador puntual de la correlación poblacional ρ (parámetro). Características:

1. Rango: El coeficiente de correlación muestral está entre -1 y 1 )11( +≤≤− r .

2. Signo: El signo de coeficiente de correlación indica la dirección de la asociación. La dirección será negativa si el r está en el intervalo [-1 , 0). La dirección será positiva si el r está en el intervalo (0 , +1].

3. Magnitud: La magnitud del coeficiente de correlación indica el grado de la relación lineal. Si los datos están linealmente asociados r = +1 o r = −1 indican una relación lineal perfecta. Si r = 0 entonces no existe relación lineal.

4. Medida de asociación: La correlación sólo mide el grado de asociación lineal. 5. Unidad: La correlación se calcula usando las dos variables cuantitativas estandarizadas. Por

lo que r no tiene unidad y tampoco cambia si cambiamos la unidad de medida de X o Y. La correlación entre X e Y es la misma que la correlación entre Y y X.

y

x

x x

x

x

xx

x

x x

xx

x

xx

y

x

x x

x

x

xx

x

x

x

x

x

x

x

x

y

x

x

x

xx x

x

x

x

8,0≈r 2,0−≈r 0=r

Page 4: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 4 de 16

� Ejemplo Asigne un posible valor de r para cada gráfico:

x

y

x

y

x

y

x

y

Graph A: ___________ Graph B: ___________

Graph C: ___________ Graph D: ___________

r = 0 r = +1 r = -1 r = 0,6 r = -0,2 r = -0,8 r = 0,1

¿Cómo se calcula el coeficiente de correlación r?:

−−

=YX s

yy

s

xx

nr

)1(1

� Ejemplo Correlación entre Test 1 y Test 2:

Test 1 Test 2 8 9 10 13 12 14 14 15 16 19

8 10 12 14 16

Test 1

8

10

12

14

16

18

20

Test 2

Page 5: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 5 de 16

Test de hipótesis para la correlación Supuestos: Se tienen dos variables cuantitativas x e y, ambas provienen de una población Normal, supuesto que no es relevante si el tamaño de la muestra n es grande. Hipótesis:

0:

0:

1

0

=

ρ

ρ

H

H

Se fija el nivel de significancia αααα SPSS arroja el valor-p del test (Sig. bilateral).

Analizar > Correlaciones > Bivariadas.

Correlaciones

1 .965**

.008

5 5

.965** 1

.008

5 5

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Test 1

Test 2

Test 1 Test 2

La correlación es significativa al nivel 0,01

(bilateral).

**.

� Ejemplo La Tabla adjunta presenta 4 bases de datos preparadas por el estadístico Frank Ascombe*

x 10 8 13 9 11 14 6 4 12 7 5 y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 x 10 8 13 9 11 14 6 4 12 7 5 y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 x 10 8 13 9 11 14 6 4 12 7 5 y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 x4 8 8 8 8 8 8 8 8 8 8 19 y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.5

En la salida de SPSS adjunta, encuentre los coeficientes de correlación para los pares de variables preparadas por Ascombe. ¿Cuáles son sus conclusiones?

* Anscombe, F. (1973) "Graphs in statistical analysis", The American Statistician, 27: 17-21.

Page 6: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 6 de 16

Correlaciones

1 .816** .816** .816** -.400 .003

. .002 .002 .002 .223 .993

11 11 11 11 11 11

.816** 1 .750** .469 -.297 .065

.002 . .008 .146 .375 .849

11 11 11 11 11 11

.816** .750** 1 .588 -.451 -.014

.002 .008 . .057 .164 .966

11 11 11 11 11 11

.816** .469 .588 1 -.289 .023

.002 .146 .057 . .389 .947

11 11 11 11 11 11

-.400 -.297 -.451 -.289 1 .817**

.223 .375 .164 .389 . .002

11 11 11 11 11 11

.003 .065 -.014 .023 .817** 1

.993 .849 .966 .947 .002 .

11 11 11 11 11 11

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

X

Y1

Y2

Y3

X4

Y4

X Y1 Y2 Y3 X4 Y4

La correlación es significativa al nivel 0,01 (bilateral).**.

Ahora revise los gráficos de dispersión. ¿Mantiene sus conclusiones anteriores?

X

161412108642

Y1

11

10

9

8

7

6

5

4

X

161412108642

Y2

10

9

8

7

6

5

4

3

X

161412108642

Y3

14

12

10

8

6

4

X4

20181614121086

Y4

14

12

10

8

6

4

Page 7: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 7 de 16

Regresión Lineal Simple Como ya hemos visto muchos estudios son diseñados para investigar la asociación entre dos o más variables. Muchas veces intentamos relacionar una variable explicativa con una variable respuesta. Los datos que se usan para estudiar la relación entre dos variables se llaman datos bivariados. Datos bivariados se obtienen cuando medimos ambas variables en el mismo individuo. Suponga que está interesado en estudiar la relación entre las notas de la primera prueba y las notas finales. Entonces las notas en la primera prueba corresponderían a la variable explicativa o independiente X y las notas finales sería la variable respuesta o dependiente Y. Estas dos variables son de tipo cuantitativo.Si el gráfico de dispersión nos muestra una asociación lineal entre dos variables de interés, entonces buscaremos una línea recta que describa la relación, la llamaremos recta de regresión. Un poco de historia El nombre de regresión deriva de los estudios de herencia de Francis Galton, quien en 1886* publica la ley de la "regresión universal". En sus estudios Galton encontró que había una relación directa entre la estatura de padres e hijos. Sin embargo, el promedio de estatura de hijos de padres muy altos era inferior al de sus padres y, el de hijos de padres muy bajos, era superior al de los padres, regresando a una media poblacional. De ahí viene el nombre de regresión.

� Ejemplo

Se seleccionó a 7 alumnas de la carrera de Psicología del año 2003 que nos dieron sus datos de estatura (en cms) y de peso (en kilos).

Estatura 155 157 159 162 165 168 169 Peso 48 48 51 55 53 55 57

* Galton, F. (1886) "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (http://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf)

Page 8: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 8 de 16

154 156 158 160 162 164 166 168 170

estatura

48

50

52

54

56

58

peso

Ajustando una recta a los datos: Si queremos describir los datos con una recta tenemos que buscar la "mejor", porque no será posible que la recta pase por todos los puntos. Ajustar una recta significa buscar la recta que pase lo más cerca posible de todos los puntos. Ecuación de la recta: Suponga que Y es la variable respuesta (eje vertical) y X es la variable explicativa (eje horizontal). Una línea recta relaciona a Y con X a través de la ecuación: bXaY += . En la ecuación, “b” es la pendiente, cuanto cambia Y cuando X aumenta en una unidad. La pendiente puede tener signo positivo, negativo o valor cero. El número “a” es el intercepto, el valor de Y cuando X se iguala a cero.

Si queremos relacionar al peso con la estatura entonces la línea recta será: estaturapeso ×+= ba .

La recta de regresión que resume el peso con la estatura es: estatura603,0276,45peso ×+−= .

Y

a

a b

b

a

2 3 1

b = 0

b = 0

b negativo b positivo

2 3 1

Page 9: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 9 de 16

154 156 158 160 162 164 166 168 170

estatura

48

50

52

54

56

58

peso

La figura muestra que la línea ajusta más o menos bien a los datos. La pendiente 603,0b = nos dice que el peso de este grupo aumenta en 0,603 kilos por cada centímetro que aumente de estatura. La pendiente “b” es la tasa de cambio en la respuesta Y cuando X cambia. La pendiente de la recta de regresión es una descripción numérica importante de la relación entre dos variables. El intercepto es 276,45a −= , que sería el peso si la estatura fuera cero. En este caso, el cero de estatura no tiene sentido, así es que tomaremos al intercepto sólo como parte de la ecuación. Regresión de mínimos cuadrados∗∗∗∗ Necesitamos una forma objetiva de obtener una recta y que esta pase por la mayoría de los puntos.

Definición:

La recta de regresión de mínimos cuadrados, dada por bXaY +=ˆ , es la recta que hace mínima la suma de los cuadrados de las desviaciones verticales de los datos a la recta, donde

( )( )( )∑

∑−

−−=

2xx

yyxxb

i

ii y xbya −=

Una forma fácil de calcular la pendiente es: X

Y

s

srb = donde ys es la desviación estándar de las

respuestas y xs es la desviación estándar de la variable explicativa.

∗ El método de mínimos cuadrados fue publicado por el matemático francés Adrien Legendre (1752-1833) en 1805. Este método es una de las herramientas estadísticas más usadas.

Page 10: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 10 de 16

� Ejemplo Test 1 vs Test 2.

8 10 12 14 16

Test 1

8

10

12

14

16

18

20

Test 2

Podemos usar los cálculos de la correlación para calcular la pendiente:

1,116227766,3605551275,3

96476,0 =×==x

y

s

srb y 8,0121,114 =×−=−= xbya

Con estos valores podemos construir la recta de regresión de mínimos cuadrados:

XY 1,18,0ˆ += .

Interpretación de los coeficientes de regresión: Pendiente: b = 1,1 ==> cada punto adicional en el test 1, significa un aumento de 1,1 puntos en el test 2 en promedio. Intercepto: a = 0,8 ==> Si asignamos el valor cero puntos al test 1, el test 2 tendría un valor de 0,8 puntos. Si usamos la recta de regresión, podemos predecir que un estudiante que tiene 15 puntos en el

test 1 tendrá 3,17)15(1,18,0ˆ =+=Y puntos en el test 2.

Definición: Un residuo es la diferencia entre la respuesta observada, Y, y la respuesta que predice la recta de regresión, Y . Cada par de observaciones ( )ii YX , , es decir, cada punto en el gráfico de

dispersión, genera un residuo:

residuo = estimadoobservado YY −

El i-ésimo residuo = ( )iiiii bxaYYYe +−=−= ˆ

Test 1 Test 2 8 9 10 13 12 14 14 15 16 19

Page 11: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 11 de 16

Predicción: Podemos usar la recta de regresión para predicción substituyendo el valor de X en la ecuación y

calculando el valor Y resultante. En el ejemplo de las estaturas:

XY 603,0276,45ˆ +−= . La exactitud de las predicciones de la recta de regresión depende de que tan dispersos estén las observaciones alrededor de la recta (ajuste). Extrapolación: Extrapolación es el uso de la recta de regresión para predecir fuera del rango de valores de la variable explicativa X. Este tipo de predicciones son a menudo poco precisas. Por ejemplo los datos de peso y estatura fueron tomados de un grupo de alumnas de Psicología del año 2003 que tenían entre 18 y 23 años. ¿Cuánto debe haber pesado una persona si al nacer midió 45 centímetros? "No deje que los cálculos invadan su sentido común". (Moore, 1989). Tarea: Calcular los residuos de la regresión, ¿Cuánto vale la suma de los residuos? Los residuos muestran cuán lejos están los datos de la línea de regresión ajustada, examinar los residuos nos ayuda a saber qué tan bien describe la recta a los datos. Los residuos que se generan a partir del método de mínimos cuadrados tienen una propiedad básica: el promedio de los residuos es siempre cero.

� Ejemplo Volvamos al ejercicio con las estaturas y pesos de 7 alumnas. La recta de regresión la podemos calcular usando el SPSS con la salida:

En SPSS Analizar > Regresión > Lineal Coeficientes(a)

Modelo

Coeficientes no

estandarizados

Coeficientes

estandarizados t Sig.

B Error típ. Beta

1 (Constante) -45.276 18.496 -2.448 .058

estatura .603 .114 .921 5.285 .003

a Variable dependiente: peso

También podemos hacer un gráfico con los residuos versus la variable explicativa. El gráfico de los residuos magnifica las desviaciones de los datos a la recta, lo que ayuda a detectar problemas con el ajuste. Si la recta de regresión se ajusta bien a los datos no deberíamos detectar ningún patrón en los residuos.

Page 12: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 12 de 16

La figura A adjunta muestra un gráfico de residuos típico, generalmente se dibuja una línea horizontal en el cero. La figura B en cambio muestra que la relación entre X e Y es no lineal, por lo tanto una línea recta no es buena descripción de la asociación. La figura C muestra residuos en forma de embudo, donde la variación de Y alrededor de X aumenta cuando X aumenta. Figura A:

Figura B:

Figura C:

� Ejemplo Los estudiantes de una clase de Física están estudiando la caída libre para determinar la relación entre la distancia desde que un objeto cae y el tiempo que demora en caer. Se muestra el gráfico de dispersión de los datos obtenidos, y el gráfico de residuos. Basado en estos gráficos, ¿Le parece apropiado un modelo de regresión lineal?

Page 13: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 13 de 16

Puntos influyentes y extremos Un punto extremo es una observación que está lejos de la línea recta, lo que produce un residuo grande, positivo o negativo. Un punto es influyente si al sacarlo produce un cambio notorio en la recta de regresión. Considere el siguiente conjunto de datos I y su gráfico de dispersión correspondiente.

X Y

1 1 1 2 2 1.5 2.5 2.5 3 3 3.5 3 4 3.5 4 4 4.5 4 5 5 5 6 5.5 6 2 6 654321

x

6

5

4

3

2

1

y

Punto A

Coeficientesa

.958 .847 1.131 .282

.815 .234 .724 3.482 .005

(Constante)

x

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: ya.

Coeficientesa

.036 .415 .087 .932

1.002 .112 .943 8.973 .000

(Constante)

x

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: ya.

Page 14: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 14 de 16

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6

X

Y

Recta con A

Y = 0,958+0,815X

Recta sin A

Y = 0,036+1,002X

Punto A

El punto A produce un residuo grande, parece ser un punto extremo. Sin embargo, no es influyente, ya que al sacarlo la recta de regresión no cambia mucho.

Considere ahora el siguiente conjunto de datos II y su gráfico de dispersión:

X Y

1 3 1.5 2 2 3 2 4 2.5 1 2.5 2 3 1 3 2 3 3 3.5 2 4 1 7 7

7654321

x

7

6

5

4

3

2

1

y

Punto B

Page 15: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 15 de 16

Coeficientesa

.886 .955 .928 .375

.582 .292 .533 1.991 .074

(Constante)

x

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: ya.

Coeficientesa

3.694 .845 4.373 .002

-.594 .315 -.532 -1.885 .092

(Constante)

x

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: ya.

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8

X

Y

Recta con B

Y=0,886+0,882X

Punto B

Recta sin B

Y=3,694-0,594X

Punto B no produce un residuo grande.

Page 16: CAP 4 DESCRIPTIVA BIVARIADA continuas - …ftp.utalca.cl/profesores/gicaza/Apuntes PDF/Apuntes Cap 4 Resumir... · Página 1 de 16 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Página 16 de 16

Sin embargo, el punto B es muy influyente ya que la sacarlo del análisis la línea recta cambia totalmente. El Punto B es influyente, pero no extremo. Notas: a) La asociación entre una variable explicativa X y una variable respuesta Y, aunque sea muy fuerte, no es por sí sola evidencia de que los cambios en X causan cambios en Y. b) Un coeficiente de correlación es el resumen de la relación presente en un gráfico de dispersión. Conviene, pues, asegurarse mirando este gráfico que el coeficiente es un buen resumen del mismo. Tratar de interpretar un coeficiente de correlación sin haber visto previamente el gráfico de las variables puede ser muy peligroso (Peña, Romo, p.129). c) Como hemos visto el coeficiente de correlación es un resumen del gráfico de dispersión entre dos variables. La recta de regresión es otra manera de resumir esta información, y su parámetro fundamental, la pendiente, está relacionado con el coeficiente

de correlación por la ecuación: X

Y

s

srb = . La diferencia entre regresión y correlación es que

en el cálculo de la correlación ambas variables se tratan simétricamente, mientras que en la regresión, no. En regresión se trata de prever la variable respuesta en función de los valores de la variable explicativa. En consecuencia, si cambiamos el papel de las variables cambiará también la ecuación de regresión, porque la recta se adaptará a las unidades de la variable que se desea predecir (Peña, Romo, p.142).