82
Capítulo V Análisis de regresión y correlación [11] Introducción En la investigación estadística es muy frecuente encontrar va- riables que están relacionadas o asociadas entre sí de alguna ma- nera, como se estudió en el capítulo anterior. Existen muchas variables, en especial cuantitativas, que se relacionan en algún grado de otras, entonces es posible que una de las variables pueda expresarse matemáticamente en función de la otra. Por ejemplo, el peso de las personas está relacionada con la estatura; el tiempo de servicio de trabajo activo tiene rela- ción con la edad, un trabajador que ha acumulado por ejemplo 30 años de servicio tendrá mayor edad que otro con sólo 14 años de servicios; el ingreso o salario está relacionado frecuen- temente con el nivel educativo; el ahorro familiar tiene rela- ción con los ingresos; la demanda de un producto dependerá de los precios, etc. Estadísticamente interesa analizar la relación entre dos o más variables, siempre que se tenga un indicio que entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo importante es medir y expresar funcionalmente esta relación mediante una función o modelo matemático. En el enfoque del análisis de regresión se trata de predecir o explicar el comportamiento de una variable Y a la que se deno- mina dependiente o variable respuesta, en función de otras va- riables k X X ,..., 1 denominadas independientes o variable regre-

Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

  • Upload
    phamtu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 3

Capítulo VAnálisis de regresión y correlación

[11]

Introducción

En la investigación estadística es muy frecuente encontrar va-riables que están relacionadas o asociadas entre sí de alguna ma-nera, como se estudió en el capítulo anterior.

Existen muchas variables, en especial cuantitativas, que serelacionan en algún grado de otras, entonces es posible que unade las variables pueda expresarse matemáticamente en funciónde la otra. Por ejemplo, el peso de las personas está relacionadacon la estatura; el tiempo de servicio de trabajo activo tiene rela-ción con la edad, un trabajador que ha acumulado por ejemplo30 años de servicio tendrá mayor edad que otro con sólo 14años de servicios; el ingreso o salario está relacionado frecuen-temente con el nivel educativo; el ahorro familiar tiene rela-ción con los ingresos; la demanda de un producto dependeráde los precios, etc.

Estadísticamente interesa analizar la relación entre dos omás variables, siempre que se tenga un indicio que entre ellasexiste por lo menos cierto grado de dependencia o asociación. Loimportante es medir y expresar funcionalmente esta relaciónmediante una función o modelo matemático.

En el enfoque del análisis de regresión se trata de predecir oexplicar el comportamiento de una variable Y a la que se deno-mina dependiente o variable respuesta, en función de otras va-riables kXX ,...,1 denominadas independientes o variable regre-

Page 2: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 4

soras; así como investigar si ellas están asociadas o correlaciona-das entre si.

Análisis de regresión lineal simple

En muchos estudios se necesita identificar y cuantificar algunarelación funcional entre una variable Y denominada dependien-te y otra variable X denominada independiente. Esto se puedeplantear así: ( )XfY = .

Es importante identificar cuál es la variable dependiente ycuál es la variable independiente. Esto depende de la lógica y delo que el investigador intente medir. Así, si el Decano de una Fa-cultad desea analizar la relación entre las notas de los estudian-tes y el tiempo que los estudiantes dedican al estudio, es lógicoasumir que las notas dependen del tiempo dedicado al estudio.Por tanto, "notas" es la variable dependiente y "tiempo" es la va-riable independiente.

A la variable dependiente también se le denomina variablerespuesta y a la variable independiente también se le denominaexplicativa o regresora.

Diagrama de dispersión

En el diagrama de dispersión se representan los pares de obser-vaciones en el plano y es habitual colocar la variable indepen-diente en el eje horizontal. A continuación se presenta algunostipos de diagramas de dispersión

a) Relación lineal Positiva o Directa b) Relación lineal Negativa oInversa

Y

X

. . .. .. . . .. . .

Y

X

. . .

. . .

. . .

Page 3: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 5

Como se puede ver en el gráfico (a), los valores de Y se incre-mentan linealmente conforme X crece. Por ejemplo, al aumentarla partida presupuestal asignada por el gobierno a un colegio,aumenta la posibilidad de atender una mayor demanda escolar,gráfico (a).

Es diferente en el gráfico (b), porque cuando los valores de Xcrecen, los valores de Y decrecen linealmente. Así por ejemplo,cuando aumenta el número de horas semanales que los estudian-tes dedican al estudio, disminuye el número de horas semanalesque dedican a las distracciones.

En el gráfico (c) no hay ninguna relación entre X e Y; mien-tras que el gráfico (d) muestra una relación curvilínea negativaentre X e Y. Tomemos como ejemplo, la relación entre el valor dereventa de un edificio escolar y sus años de uso; en el primer año,el valor de reventa puede sufrir un fuerte descenso en su preciooriginal, luego, el valor de reventa disminuye con mucha menosrapidez en los años siguientes.

Los gráficos propuestos son algunos tipos de gráficos que sepodrían utilizar para representar la relación entre dos variables;sin embargo, los diagramas de dispersión no son suficientes paradeterminar la relación entre ellas. Es necesario que utilicemosprocedimientos estadísticos para determinar la relación funcio-nal más apropiada para un conjunto de datos ( )ii yx , a los que seles denomina pares de observaciones.

Este tipo de gráfico se utiliza para la predicción. Es decir, apartir de la relación entre dos variables, conocer en qué medida

Y

X

Y

Xc) No hay Relación lineal d) Relación No Lineal

entre X e Y

. . .. . . . . . . . . .

. . . . . . . . . .

. . .

. .

. . .

.. .

. . . . . . .

Page 4: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 6

se mantiene el aumento o crecimiento de una variable a partir delaumento de otra variable o viceversa.

Ajuste de una función de regresión:método de mínimos cuadrados

Ajustar una función de regresión significa buscar o definir la fun-ción que exprese con mayor precisión la relación entre las varia-bles X e Y. Gráficamente será aquella función que mejor se ade-cue a la nube de puntos ( )ii yx , . En este sentido, es recomendablecomo primer paso construir el "diagrama o nube de puntos", lue-go analizar su forma y decidir el tipo de función matemática parala ecuación de regresión usando el método de mínimos cuadra-dos ordinarios.

Sólo son necesarios dos puntos para dibujar la línea rectaque representa esta relación lineal. La ecuación de una recta puedeexpresarse como L: abxy i += , en donde a es el intercepto yb es la pendiente de la recta. Esta recta queda determinada me-diante la estimación de los parámetros a y b . Un procedimientomatemático utilizado para estimar estos valores se denomina elmétodo de mínimos cuadrados ordinarios (MCO). El método deMCO producirá una recta, Y , que se extiende por el centro deldiagrama de dispersión. Los valores de Y representan a los va-lores estimados de la variable dependiente o respuesta. La dife-rencia entre los valores observados de Y, iy ,sus respectivos va-lores estimados de Y , iy , es el error. Debido a que algunos erro-res son negativos o algunos positivos, el MCO producirá una rectatal que la suma de esos errores sea cero, es decir, ( )∑ − ii yy ˆ = 0.

Obtenemos la estimación de a y b por el método MCO de

tal manera que el valor de ( )2

1

ˆ∑=

−=n

iii yySSE sea mínimo, donde:

Y: es la variable dependiente o respuesta,b : es la pendiente de la línea, llamada también coeficiente de

regresión para predecir la variable Ya : es la constante.

Page 5: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 7

Se demuestra que los valores a y b que hacen mínimo SSE,satisfacen el denominado sistema de ecuaciones normales:

∑ ∑= =

+=n

i

n

iii xbany

1 1

∑ ∑∑= ==

+=n

i

n

ii

n

iiii xbxayx

1 11

De ese sistema se deducen los siguientes valores para lasconstantes a y b :

2

11

2

111 1

2

−=

∑∑

∑∑∑ ∑

==

=== =n

ii

n

ii

n

iii

n

ii

n

i

n

iii

xxn

yxxxya

,2

11

2

111

−=

∑∑

∑∑∑

==

===n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnb

abxy ii +=ˆ se denomina la recta de regresión de mínimoscuadrados o recta de regresión ajustada por el método de míni-mos cuadrados. La línea de regresión (o recta de predicción) es lalínea recta que mejor representa la tendencia de los puntos en undiagrama de dispersión.

La recta de regresión nos permite, basándonos en los datosmuestrales, estimar el valor iy de una variable Y - y denotar con

iy - correspondiente a un valor dado ix para una variable X ; essuficiente reemplazar el valor de ix en la línea de regresión y en-contraremos el correspondiente valor estimado para iy .

La ecuación general de la recta de regresión estimada por elmétodo de mínimos cuadrados es la siguiente: bXaY +=ˆ .

Page 6: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 8

Ejemplo 5.1

Con los datos de la Tabla Nº 5.1, se hace el diagrama de disper-sión y se utiliza el método de mínimos cuadrados para encontrarel coeficiente de regresión lineal. ¿Cuál será el rendimiento eneducación superior (Y) para un estudiante con nota promedio 12de rendimiento en secundaria (X)?.

Solución

Usando los comando del SPSS hacemos el diagrama de disper-sión presentado en la Figura Nº 5.1.

a) Creamos la base de datos con las dos variables y selecciona-mos los comandos siguientes.

b) GRAPHS/INTERATIVE/SCATTER/colocar en el eje X lavariable NOTAS DE SECUNDARIA y en el eje Y la variableRENDIMIENTO EN EDUCACIÓN SUPERIOR/ FIT/ en FITLINE escoger TOTAL/ACEPTAR.

Tabla 5.1: Rendimiento académico en secundaria yen educación superior de un grupo de alumnos

ESTUDIANTES Notas en secundaria Rendimiento enix educación superior

iy

1 16 152 13 113 15 174 12 145 11 116 16 147 13 158 10 12

Page 7: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 1 9

c) Se realizan los cálculos necesarios para estimar a y b :

Figura Nº 5.1: Diagrama de dispersión de rendimiento ensecundaria y rendimiento en superior de un grupo de alumnos

Ren

dim

ient

o en

sec

unda

ria

ix iy 2ix ii yx

16 15 256 24013 11 169 14315 17 225 25512 14 144 16811 11 121 12116 14 256 22413 15 169 19510 12 100 120

106 109 1440 1466

( ) 51.510614408

14661061440109228

1

8

1

2

8

1

8

1

8

1

8

1

2

=−×

×−×=

−=

∑∑

∑∑∑ ∑

==

=== =

ii

ii

iii

ii

i iii

xxn

yxxxya ,

( ) 61.010614408

1091061466822

11

2

111 =−×

×−×=

−=

∑∑

∑∑∑

==

===n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnb ,

Rendimiento en superior

Page 8: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 0

y luego la recta de regresión estimada por el método de míni-mos cuadrados, de Y sobre X es la siguiente:

XY 61.051.5ˆ +=

Si un estudiante obtiene un rendimiento de 12 en secunda-ria, entonces su rendimiento esperado en educación secundariase obtiene reemplazando el valor dado para X ( =12) en la rectadefinida, es decir:

.83.1232.751.51261.051.5ˆ =+=×+=Y

Entonces, podemos estimar que un estudiante que obtuvoun rendimiento en secundaria de 12, obtendrá aproximadamen-te 12.83 en educación superior.

Ejemplo 5.2

Se trata de un estudio sobre el rendimiento escolar. Se desea ajus-tar la recta de regresión entre los años de escolaridad de la ma-dre (X) y las calificaciones de sus hijos en una prueba de mate-máticas. Los datos son los siguientes:

Estudiantes Años de escolaridad de Calificaciones de los hijosla madre en una prueba de

( ix ) Matemática( iy )

1 8 12

2 5 8

3 3 8

4 6 10

5 7 10

Page 9: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 1

Se observa que existe una relación directa y positiva entrelos años de escolaridad de la madre y las calificaciones en unaPrueba de matemática de los hijos.

b) En el siguiente cuadro se presentan los cálculos auxiliarespara encontrar los coeficientes de la ecuación de regresión.

Solución

a) El diagrama de dispersión nos indica que existe una buenarelación entre las variables.

Años de escolaridad de la madre y calificaciones de los hijosen una prueba de matemática

Estudiantes ix iy ii yx 2ix 2

iy

1 8 12 96 64 1442 5 8 40 25 643 3 8 24 9 644 6 10 60 36 1005 7 10 70 49 100

Totales 29 48 290 183 472

Cal

ifica

cion

es e

n m

atem

átic

a

Años de escolaridad de la madre

Page 10: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 2

=

−=

∑∑

∑∑∑ ∑

==

=== =28

1

8

1

2

8

1

8

1

8

1

8

1

2

ii

ii

iii

ii

i iii

xxn

yxxxya 2)29()183(5

)290(29()183)(48(−− =5.05

=

−=

∑∑

∑∑∑

==

===2

11

2

111n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnb 2)29()183(5

)48)(29()290)(5(−−

= 0.78.

La ecuación de regresión que va a servir para predecir eldesempeño de los hijos en función de los años de escolaridad dela madre es la siguiente: XY 78.005.5ˆ += .

Ejemplo 5.3

Resolveremos el ejemplo 5.2 con el auxilio del SPSS.

Solución

Presentamos la solución con el auxilio del SPSS, pero previamentese tiene que crear la base de datos.a) Para hacer el diagrama de dispersión se ejecutan los siguien-

tes comandos:GRAPHS/INTERATIVE/SCATTER/colocar en el X la varia-ble AÑOS DE ESCOLARIDAD y en el eje Y la variable REN-DIMIENTO/ FIT/ en FIT LINE escoger TOTAL/ACEPTAR.

b) Para encontrar la ecuación de la recta de regresión, los co-mandos son los siguientes:ANALYZE / REGRESSION/LINEAR/ en DEPENDENT es-coger CALIFICACIONES y en INDEPENDENT escogerAÑOS DE ESCOLARIDAD/ STATISTICS/ activar ESTIMA-TES y MODEL FIT/OK.

Page 11: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 3

La recta de regresión lineal simple ajustada por el método demínimos cuadrados es:

Y = 5.054 + 0.784 X ,

El output del SPSS muestra lo siguiente.

y = 5.05 + 0.78 * XR-Square = 0.81

Y

X

LinearRegression

a b

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 5.054 1.318 3.834 .031Años de escolaridadde la madre .784 .218 .901 3.597 .037

a. Dependent variable: Calificaciones en una prueba de matemática

Page 12: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 4

donde, manteniendo constante la variable años de escolaridadde la madre aun podemos estimar la calificación promedio de loshijos en la prueba de matemática, en 5.054 puntos. Un incrementoen los años de escolaridad de la madre de un año, por ejemplo, esacompañado por un incremento en la calificación de sus hijos en laprueba de matemática en 0.784 puntos.

Pruebas de hipótesis

La ecuación de regresión lineal simple indica que el valor medioo esperado de y es una función lineal de X : ( ) bXayE += . Si elvalor de b no es igual a cero, llegamos a la conclusión de que lasdos variables se relacionan. Así, para probar si hay alguna rela-ción importante debemos efectuar una prueba de hipótesis paradeterminar si el valor de b no es igual a cero. Existen dos prue-bas que se usan con más frecuencia. En ambas se requiere unaestimación de σ2.

Prueba t

La prueba t se utiliza para probar la significancia de los paráme-tros en el modelo de regresión lineal simple.

Usaremos los datos de la muestra para obtener las siguien-tes hipótesis acerca del parámetro b :

Paso 1:

Se plantea como hipótesis nula que el coeficiente b es igual a ceroy la hipótesis alternativa niega dicho enunciado.

0H : 0=b1H : 0≠b

Paso 2: La estadística de prueba

bS

btˆ

ˆ= tiene distribución ( )1−nt

Page 13: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 5

donde:

b : estimador del parámetro b .

( )∑ −=

XX

SSi

b es la desviación estándar de b .

Con los datos de la muestra se encuentra el valor de la esta-dística de prueba, ct .

Paso 3:

Para un nivel de significancia α, ( )[ ]2

11α−=<− teóricon ttP . En la ta-

bla - t-Student se obtiene teóricot .

Paso 4:

Rechazamos 0H si 2/αttc −< o 2/αttc > .Con el valor p - valor: Rechazamos 0H si el valor p - valor <

α, donde 2/αt se basa en una distribución t con 2−n grados delibertad.

Si se Rechaza 0H la conclusión será que 0≠b y que hay unarelación estadísticamente significativa entre las dos variables. Sinembargo, si no se puede rechazar 0H , no tendremos la evidenciasuficiente para decir que existe una relación significativa.

Resumen de las hipótesis, estadística de prueba y regla dedecisión:

Hipótesis Estadística de prueba Regla de decisiónRechazar la hipótesis nula, si:

0H : 0=b

bSbt

ˆ

ˆ= )1( α−> ttc

1H : 0>b

0H : 0=b

bSbt

ˆ

ˆ= )1( α−−< ttc

1H : 0<b

0H : 0=b

bSbt

ˆ

ˆ= 2/αttc −< o 2/αttc >

1H : 0≠b

Page 14: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 6

Ejemplo 5.4

Utilizando la información del ejemplo 5.3 realizaremos la prue-bas de hipótesis acerca del parámetro b .

Solución

Paso 1: En la hipótesis nula se postula que el grado de escolari-dad de la madre no explica el comportamiento de las calificacio-nes de los estudiantes:

0H : 0=b1H : 0≠b

Paso 2: El valor de la estadística de prueba se calcula con losresultados del SPSS,

El valor de la estadística de prueba es:

596.3218,0784,0ˆ

ˆ

===b

c Sbt

a b

bS ˆ aS ˆ

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 5.054 1.31 8 3.834 .031ESCOLARI .784 .21 8 .901 3.597 .037

a. Dependent variable: CALIFICA

Page 15: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 7

Paso 3: Para = α = 0,05, ( )[ ] 975.05 =< teóricottP . En la tabla t con 5grados de libertad se encuentra el valor de ct = 3.596.

Paso 4: Como 16.3596.3 975,0 =>= ttc , rechazamos 0H y conclui-mos que es significativo en el modelo, considerando un nivel designificación de 0.05.

Análisis de correlación lineal

Tipos de correlación lineal

a) Correlación positiva b) Correlación negativa

Y

X

Y

X

. .

. . .

. . ... .. . . .. . .

Y

c) Correlación nula

. . . . . . . . . . . . . . . . . . . . . . . . .

Correlación positiva o directa

Se dice que la correlación entre dos variables X e Y es positiva odirecta, cuando al aumentar la medida de una de las variables,la otra variable también aumenta, esto se puede observar en elgráfico (a).

Page 16: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 8

Ejemplo 5.5

En la Tabla Nº 5.3 nos muestra las puntuaciones en Literatura(X), y las puntuaciones en Lenguaje (Y ) de un grupo de alumnosde un Centro Educativo. Haremos el diagrama de dispersión deestas dos variables.

Tabla Nº 5.3: Puntuaciones en Literatura vsPuntuaciones en Lenguaje de un grupo de alumnos

Nº SUJETO ix iy

1 5 122 8 203 12 304 16 305 16 426 24 407 8 50

Solución

Diseñando el diagrama de dispersión para las variables en estu-dio tenemos:

Figura Nº 5.2Puntuaciones en Literatura y Lenguaje de un grupo de alumnos

Punt

uaci

ones

en

Lite

ratu

ra

Puntuaciones en Lenguaje

Page 17: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 2 9

Como se puede observar, cuando aumenta el valor de la varia-ble X también aumenta el valor de la variable Y, de esto se concluyeque existe correlación positiva o directa entre las puntuaciones enLiteratura y puntuaciones en Lenguaje.

Correlación negativa o inversa

Se dice que la correlación entre dos variables X e Y es inversa onegativa, cuando al aumentar la medida de una de las variables,los valores de la otra disminuye, esto se puede observar en el grá-fico (b).

Ejemplo 5.6

La Tabla Nº 5.4, nos muestra las puntuaciones en Literatura (X)y las puntuaciones en Matemática (Y) de un grupo de alumnosde un determinado Centro Educativo. Haremos el diagrama dedispersión.

Tabla Nº 5.4: Puntuaciones en Literatura vs Puntuaciones enMatemática de un grupo de alumnos

alumnos ix iy

1 10 30

2 30 15

3 38 37

4 40 25

5 60 35

6 65 05

7 80 20

8 90 10

Page 18: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 0

Solución

Realizamos el diagrama de dispersión de las puntuaciones enmatemática y literatura; el output del SPSS nos muestra la si-guiente figura.

Figura Nº 5.3Puntuaciones en Literatura y Matemática de un grupo de alumnos

Punt

uaci

ones

en

Lite

ratu

ra

Puntuaciones en Matemática

Como se puede apreciar, frente al aumento de las puntuacionesen literatura (X ) disminuye las puntuaciones en matemática (Y ),entonces la correlación entre X e Y es negativa o inversa.

Correlación nula

La correlación es nula, cuando las variables no están correlacio-nadas entre sí, esto lo podemos observar en el gráfico (c).

Ejemplo 5.7

En la Tabla Nº 5.5 la variable X corresponde a las puntuacionesen Deporte y la variable Y corresponde a las puntuaciones enMatemática de un grupo de alumnos.

Page 19: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 1

Solución

Realizando el diagrama de dispersión para las variables X e Ytenemos:

Tabla Nº 5.5:Puntuaciones en deporte vs. puntuaciones en

matemática de un grupo de alumnos

Nº sujeto ix iy

1 02 202 04 153 04 354 08 055 08 406 14 057 14 158 14 409 18 2010 18 35

Figura Nº 5.4:Puntuaciones en Deporte en Matemática de un grupo de alumnos

Punt

uaci

ones

en

Dep

orte

Puntuaciones en Matemática

Como se puede apreciar no existe una relación lineal entre laspuntuaciones en deporte (X ) y las puntuaciones en matemática (Y).

Page 20: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 2

Coeficiente de correlación de Pearson (r)

Obtención del coeficiente

El objetivo del análisis de correlación de Pearson es medir la in-tensidad de la asociación observada entre dos variables cuanti-tativas. También, representa la magnitud de la relación linealentre dos variables.

Promedio de los valores estandarizados

Algunas preguntas que puede responderse con el coeficiente decorrelación de Pearson son las siguientes:

¿Los estudiantes que leen más rápido que otros, tienden tam-bién a tener mejor rendimiento en el curso de matemáticas?.

¿Se relaciona directamente el tiempo de servicios en la do-cencia de los profesores con el salario promedio que reciben?.

¿Los alumnos que tienen altos coeficientes de inteligenciatienden a tener notas altas en los cursos de lenguaje y literatura?.

El coeficiente de correlación de Pearson se utiliza en el aná-lisis de información cuantitativa cuando se desea medir la aso-ciación lineal entre dos variables cuantitativas.

Sus valores varían entre +1 y -1. El valor de +1, indica unarelación lineal directa y perfecta; el valor -1, una relación linealinversa y perfecta. El valor 0, indica ausencia de relación lineal.

Para obtener este coeficiente hay una gran variedad de ex-presiones matemáticas que son equivalentes destacando las si-guientes:

a ) Para puntuaciones directas

Sean { nxx ,....,1 } e { nyy ,...,1 } conjunto de pares de observacio-nes de las variables X e Y. A continuación, en forma general sepresentan los cálculos auxiliares que facilitan la obtención delcoeficiente de correlación de Pearson y que posteriormente se ilus-tarará con ejemplos.

Page 21: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 3

Luego, la fórmula para calcular el coeficiente de correlaciónde Pearson es la siguiente:

( )( )

( )[ ] ( )[ ]∑ ∑∑ ∑

∑∑∑−−

−=

2222iiii

iiii

yynxxn

yxyxnr

b) Para puntuaciones Z (puntuaciones típicas)

Si los valores observados de la muestra previamente han sido

tipificados según las siguientes fórmulas: xi

ixi s

xxz −= y

yi

iyi s

yyz −= donde

=x ∑=

n

iix

1

, =y ∑=

n

iiy

1

, ( )

11

2

−=

∑=

n

xxs

n

ii

xi,

( )1

1

2

−=

∑=

n

yys

n

ii

yi

el coeficiente de correlación de Pearson toma la siguien-te forma:

1

1

−=

∑=

n

zzr

n

iyixi

Individuos ix iy 2ix 2

iy ii yx

1 1x 1y 21x 2

1y 1x 1y2 2x 2y 2

2x 22y 2x 2y

3 3x 3y 23x 2

3y 3x 3y... ... ... ... ... ...

n nx ny 2nx 2

ny nx ny

Totales ∑=

n

iix

1∑

=

n

iiy

1∑

=

n

iix

1

2 ∑=

n

iiy

1

2 ∑=

n

iii yx

1

Page 22: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 4

luego, mediante una prueba de hipótesis, comprobar si es ma-yor de lo que podría esperarse solamente por casualidad.

Propiedades

El valor de r va de -1 a +1, de donde se deduce que:a) Si r > 0, existe correlación directa positiva,b) Si r < 0, existe correlación inversa negativa,c) Si r = +1, existe una correlación perfecta positiva,d) Si r = -1, existe una correlación perfecta negativa,e) Si r = 0, no existe correlación o los datos están incorrelacio-

nados.

Para los valores intermedios entre 0 y 1, se deduce por ejem-plo que si:a) 20,00 <≤ r , la correlación es muy baja,b) 40,020,0 <≤ r , existe una correlación baja,c) 70,040,0 <≤ r , existe una buena correlación positiva,d) 00,170,0 <≤ r , existe muy buena correlación positiva,e) 00,1=r , existe una perfecta correlación positiva,f) 70.00.1 −<≤− r , existe muy buena correlación inversa,g) 00,1−=r , existe una perfecta correlación inversa.

Prueba de hipótesis para el coeficientes de correlación dePearson

Luego de obtener el coeficiente de correlación de Pearson, el in-vestigador puede plantearse preguntas como la siguiente: ¿ Esestadísticamente significativa la relación entre el coeficiente deinteligencia de un estudiante y su rendimiento académico?.

A continuación se presentan los pasos a seguir para realizarpruebas de hipótesis relativas al coeficiente de correlación dePearson.

Paso 1: Postular la hipótesis de investigación como la hipótesisalternativa, juntamente con otra hipótesis que la niega y a la quese denomina hipótesis nula.

Page 23: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 5

En la hipótesis nula se postula que no existe asociación entrelas variables, y en la hipótesis alternativa: se postula que existeasociación entre las variables. La representación es la siguiente:

0 :0:

1

0

≠=

ρρ

HH

donde ρ es el coeficiente de correlación poblacional entrelas dos variables.

Paso 2: Se sabe que la siguiente estadística está en función delcoeficiente de correlación muestral y bajo la hipótesis nula tienedistribución t-Student con )2( −n grados de libertad.

21 2

−−

=

nr

rt )2(~ −nt ,

por lo que se usa como la estadística de prueba para con-trastar la hipótesis nula frente a la hipótesis alternativa. Denote-mos con ct el valor de la estadística de prueba.

Paso 3: Como la hipótesis alternativa es de la forma " ≠ ", la prue-ba de hipótesis que se está planteando es bilateral y la región crí-tica será el intervalo (-∞,- teóricot )U( teóricot , ∞) y donde " teóricot " es laabcisa de la distribución t-Student con )2( −n de libertad, demanera que ( ) 21)2(

α−=<− teóricon ttP .Así por ejemplo, si se elige el nivel de significación α = 0.05 y

el tamaño de muestra es 23, se cumple ( ) 975.0)21( =< teóricottP .Luego, en la tabla t-Student se encuentra que el valor de teóricot es2.08, por lo que la región de rechazo de la hipótesis nula es elintervalo (-∞,-2.08)U(2.08, ∞).

Paso 4: Decisión: Rechazar la hipótesis nula de que no existerelación entre las variables cuando ct cae en la región de rechazode la hipótesis nula.

Page 24: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 6

Ejemplo 5.8

En la siguiente tabla se tiene la información para una muestraaleatoria de 12 estudiantes que estudiaron el primer año de se-cundaria en el colegio Cabrera Tapia el año 2000. El primer díade clases a todos ellos se les aplicó una prueba para obtener suscoeficientes de inteligencia (X) en la escala Stanford-Binet y altérmino del año se les aplicó una prueba de 35 items para eva-luar su rendimiento en Matemáticas. α = 0.05.

Dicha tabla se acompaña con los cálculos necesarios paraobtener el coeficiente de correlación de Pearson.

Solución

X: puntajes obtenidos en la prueba Stanford- BinetY: rendimiento en matemáticas

Tabla Nº 5.7 Rendimiento de los estudiantes en matemáticas y puntajesobtenidos en la prueba Stanford- Binet

Estudiante CI Puntaje

ix iy 2ix 2

iy ii yx

1 120 17 14400 289 20402 112 15 12544 225 16803 110 15 12100 225 16504 120 19 14400 361 22805 103 12 10609 144 12366 126 20 15876 400 25207 113 15 12769 225 16958 114 17 12996 289 19389 106 14 11236 196 148410 108 14 11664 196 151211 128 19 16384 361 243212 109 14 11881 196 1526

Totales 1369 191 156859 3107 21993

Page 25: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 7

Obtenemos el coeficiente de correlación de Pearson r

( )( ) ( )( ) 953,0191)3107(121369)156859(12

)191(1369)21993(1222

=−−

−=r

En la muestra se observa muy buena correlación directa ypositiva entre coeficiente de inteligencia y el rendimiento acadé-mico en el curso de matemáticas.

¿Es estadísticamente diferente de cero el valor encontrado?.Responderemos la pregunta con la metodología de pruebas dehipótesis.

Solución

Paso 1: No existe asociación entre el coeficiente de inteligenciay el rendimiento académico es la hipótesis nula, y la hipótesisalternativa niega esa afirmación.

0 :0:

1

0

≠=

ρρ

HH

Paso 2: Para el coeficiente de correlación muestral r = 0.953 ytamaño de muestra 12, el valor de la estadística de prueba es:

10953.01

953.02−

=ct = 9.93

Paso 3: Para encontrar la región crítica, se tiene en cuenta que α= 0.05, n = 12 y ( ) 975.0)10( =< teóricottP . Por tanto, en la tabla t-Student se encuentra el valor de teóricot = 2.228. La región de re-chazo de la hipótesis nula es el intervalo (-∞,-2.228)U(2.228, ∞).

Paso 4: Como el valor de ct = 9.93 cae en la región de rechazo dela hipótesis nula, la decisión es rechazar la hipótesis de que noexiste asociación entre el rendimiento académico y los coeficien-tes de inteligencia, para un nivel de significación 0.05.

Page 26: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 8

Ejemplo 5.9

Obtendremos el valor del coeficiente de correlación para los da-tos ejemplo 5.7 usando la fórmula de variables estandarizadas.Previamente los valores de la variable serán estandarizados.a) La estandarización de las variables se realiza con el auxilio

del SPSS, para lo que, previamente, con los datos del ejem-plo 5, se crea la base de DATOS9-pearson. Los comandos sonlos siguientes:Abrir la base de DATOS9-pearson y ejecutar los comandos/ANALYZE/DESCRIPTIVE STATISTICS/DESCRIPTIVE/se-leccionar las variables COEFICIENTE DE INTELIGENCIAy RENDIMIENTO ACADÉMICO/activar SAVE STANDAR-DIZED VALUES AS VARIABLES/OK.En el editor del SPSS junto a los valores de las variables X e Yse han creado dos columnas con los valores de las variablesoriginales estandarizadas, xiz yiz .

ix iy xiz yiz

120 17 0.7531 0.4392112 15 -0.2651 -0.3716110 15 -0.5197 -0.3716120 19 0.7532 1.2501103 12 -1.4107 -1.5879126 20 1.5168 1.6555113 15 -0.1379 -0.3716114 17 -0.0106 0.4392106 14 -1.0289 0.7771108 14 -0.7743 -0.7771128 19 1.7714 1.2501109 14 -0.6470 -0.7771

b) Para calcular el coeficiente de correlación, ejecutar los siguien-tes comandos del SPSS:ANALYZE/CORRELATE/BIVARIATE/ seleccionamos lasvariables originales y las variables estandarizadas/activarPEARSON/ OK.

Page 27: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 3 9

El valor del coeficiente de correlación entre las variables estan-darizadas coinciden con el ya encontrado manualmente en el ejem-plo anterior con los valores originales y con el también muestra eloutput del SPSS para las variables originales coeficiente de inteli-gencia y rendimiento.

En lo que corresponde a pruebas de hipótesis, los pasos yresultados son similares a los del ejemplo anterior.

Ejemplo 5.10

Se trata de un estudio sobre el rendimiento escolar. Se desea sa-ber si existe correlación entre los años de escolaridad de la ma-dre y las calificaciones de sus hijos en una prueba de matemáti-cas. Los datos son los siguientes.

En el output del SPSS se lee:

rendimiento Zscore:rendimiento

( yiz )

coeficiente deinteligencia Pearson Correlation .953 .953Zscore: coeficientede inteligencia ( yiz ) Pearson Correlation .953 .953

1

1

−=

∑=

n

zzr

n

iyixi

= 0.953.

Tabla Nº 5.6 Años de escolaridad de la madre ycalificaciones en una prueba de matemáticas

Estudiantes Años de escolaridad Calificaciones de los hijos ende la madre ( X ) una prueba de Matemática ( Y )

1 8 122 5 83 3 84 6 105 7 10

Page 28: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 0

Reemplazando los valores obtenidos en la ecuación de r parapuntuaciones directas obtenemos:

( ) ( )( )( ) ( )[ ][ ]( ) ( )

9,05674

58

84725291835

4829290522

==−−

−=x

r

El valor de +0,9 significa una alta correlación positiva, esdecir, el nivel de escolaridad de la madre está asociado lineal-mente al rendimiento académico de sus hijos en matemática.

Ejemplo 5.11

En la Tabla Nº 5.8 se tiene información de una muestra aleatoriade 15 alumnos del Centro Educativo "Teresa Gonzales de Fan-ning". La encuesta fue aplicada a 150 estudiantes en Abril de 1998.Se desea obtener el coeficiente de correlación entre las variablespuntajes obtenidos en aritmética y lenguaje.

En el siguiente cuadro se presentan los cálculos auxiliares:

Estudiantes ix iy ii yx 2ix 2

iy

1 8 12 96 64 144

2 5 8 40 25 64

3 3 8 24 9 64

4 6 10 60 36 100

5 7 10 70 49 100

n = 5 29 48 290 183 472

Page 29: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 1

Se ilustra los cálculos auxiliares del coeficiente de correla-ción de Pearson con los valores observados de las variables notasen aritmética (X ) y notas en lenguaje (Y ).

Tabla Nº 5.8: Rendimiento y Edades de una muestra de estudiantes delColegio Teresa Gonzales de Fanning, 1998

Estud. Aritmética Lenguaje Edad Rendimiento Promedio

1 15 16 14 132 14 15 14 143 13 12 15 144 12 12 16 145 11 10 16 126 13 15 17 157 15 15 17 158 15 16 16 149 16 17 15 1410 12 15 15 1411 11 12 16 912 8 9 17 1113 10 11 17 1314 15 14 18 1515 13 15 15 13

Estudiantes ix iy 2ix ii yx 2

iy

1 15 16 225 240 2562 14 15 196 210 2253 13 12 169 156 1444 12 12 144 144 1445 11 10 121 110 1006 13 15 169 195 2257 15 15 225 225 2258 15 16 225 240 2569 16 17 256 272 28910 12 15 144 180 225

Totales 193 204 2553 2691 2856

∑ ∑ ∑ ∑∑ ===== 2856 2691x 2553 204 193 2i

2iiiii yyxyx

Page 30: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 2

Luego reemplazando en la fórmula, el coeficiente de correla-ción entre las notas de aritmética y lenguaje vale:

( ) ( )( ) ( ) ( ) ( )

878,0204285615 193255315

20419326911522

=−−

−=r

Se observa una correlación alta y positiva entre los puntajesobtenidos en los cursos de aritmética y lenguaje.

¿Es estadísticamente significativo el coeficiente de correla-ción encontrado?. Responderemos con la metodología de prue-bas de hipótesis.

Paso 1: En la hipótesis nula postulamos que no existe asociaciónentre las notas de matemáticas y lenguaje y la hipótesis alterna-tiva niega esa afirmación.

0 :0:

1

0

≠=

ρρ

HH

Paso 2: Para el coeficiente de correlación muestral r = 0.878 ytamaño de muestra 15, el valor de la estadística de prueba es:

13878.01

878.02−

=ct = 6.61

Paso 3: Para encontrar la región crítica, se tiene en cuenta queα = 0.05, 15 y ( ) 975.0)13( =< teóricottP . Por tanto, en la tabla t-Stu-dent se encuentra el valor de teóricot = 2.16. La región de rechazode la hipótesis nula es el intervalo (-∞,-2.16)U(2.16, ∞).

Paso 4: Como el valor de ct = 6.61 cae en la región de rechazo dela hipótesis nula, la decisión es rechazar la hipótesis de que noexiste asociación entre las notas de matemáticas y lenguaje, a unnivel de significación 0.05.

Page 31: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 3

Ejemplo 5.12

Para una muestra aleatoria de 7 docentes universitarios de laFacultad de Derecho de una universidad prestigiosa se disponede la siguiente información con respecto a sus sueldos y el tiem-po de servicio en la docencia. Obtendremos la relación entre esasvariables y veremos si la correlación encontrada es estadística-mente significativa.

Solución

X: Años de servicio de los docentes Y: Sueldos de los docentes

a) Obtenemos el coeficiente de correlación con la fórmula origi-nal, para lo cual realizamos los siguientes cálculos auxiliares:

profesor Años de sueldos 2iix 2

iiy ii yxservicio ix iy

1 16 1182 256 1397124 189122 14 1341 196 1798281 187743 14 1561 196 2436721 218544 23 1437 529 2064969 330515 9 1415 81 2002225 127356 19 1462 361 2137444 277787 19 1288 361 1658944 24472

Totales ∑=

n

iix

1 = ∑

=

n

iiy

1 = ∑

=

n

iix

1

2= ∑

=

n

iiy

1

2= ∑

=

n

iii yx

1=

114 9686 1980 13495708 157576

( )( )

( )[ ] ( )[ ]∑ ∑∑ ∑

∑∑∑−−

−=

2222iiii

iiii

yynxxn

yxyxnr =

= [ ][ ]22 9686)13495708(7114)1980(7)9686)(114()157576(7−−

= -0.05

Page 32: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 4

El valor obtenido nos indica una correlación nula entre lasvariables involucradas. Es decir, para la muestra analizada lasvariables años de servicio y sueldos no están correlacionadas.

Ejemplo 5.13

Usando la base DATOS11-educación se ajusta la recta de re-gresión entre las variables rendimiento promedio y rendi-miento en el curso de álgebra, usando el método de mínimos cua-drados. Se obtienen el coeficiente de correlación y el diagramade dispersión.

Solución

Para el diagrama de dispersión, ajuste de la recta, el gráfico de larecta de regresión ajustada por el método de mínimos cuadra-dos, y el coeficiente de correlación, ejecutamos los siguientes co-mandos:

a) Abrir el archivo de DATOS11-educación.GRAPHS/INTERATIVE/SCATTER/colocar en el X la varia-ble ALGEBRA y en el eje Y la variable RENDIMIENTO PRO-MEDIO/ FIT/ en FIT LINE escoger TOTAL / ACEPTAR.

b) Para encontrar la ecuación de la recta de regresión, los co-mandos son los siguientes:ANALYZE / REGRESSION/LINEAR/ en DEPENDENT es-coger RENDIMIENTO PROMEDIO y en INDEPENDENT es-coger ÁLGEBRA/ STATISTICS/ activar ESTIMATES y MO-DEL FIT/OK.

c) ANALYZE / CORRELATE /BIVARIATE/ seleccionamos lasvariables originales y las variables estandarizadas/activarPEARSON/ OK.El output del SPSS nos muestra lo siguiente:

Page 33: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 5

Observamos que las notas de álgebra y las calificaciones pro-medio de profesores que participaron en el programa de capaci-tación, tienen una relación directa y positiva.

b) El coeficiente de correlación de Pearson:

a) El diagrama de dispersión y el gráfico de la recta de regresiónajustada por el método de mínimos cuadrados.

Notas de álgebra y calificación promedio deprofesores de educación secundaria

Not

as p

rom

edio

Notas álgebra

r = 0,925 Coeficiente de correlación lineal

Model Summary

Adjusted Std. Error ofModel R R Square R Square the Estimate

1 .925ª .855 .852 .52

a. Predictors: (Constant), NOTAS de ÁLGEBRA

Se tiene una correlación alta y positiva entre las notas de álge-bra y las calificaciones promedio que alcanzaron los profesores queparticiparon en el programa de capacitación.

Page 34: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 6

c) Los coeficientes de la recta de regresión son:

y la recta de regresión ajustada por el método de mínimos cua-drados es:

Y = 3.853 + 0.708X,

donde, manteniendo constante la variable notas de álgebraaún podemos estimar la calificación promedio en 3.853 puntos.Un incremento en la notas de álgebra de un punto, por ejemplo,es acompañado por un incremento en la calificación promediode los profesores de educación secundaria en 0.708 puntos.

Regresión lineal múltiple

Introducción

En un modelo de regresión lineal múltiple, la variable dependien-te o respuesta (Y ) es una función de dos o más variables inde-pendientes o regresoras. Un modelo de regresión con k variablesindependientes o regresoras se puede expresar así:

( )kXXXXfY ,...,,, 321=

a b

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 3.853 .477 8.071 .000NOTAS DE ÁLGEBRA .708 .043 .925 16.299 .000

a. Dependent variable: NOTAS PROMEDIO

Page 35: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 7

Explicaremos el análisis de regresión lineal múltiple con losdatos de la siguiente tabla, en la que se muestra los coeficientesde inteligencia (IQ), los promedios de calificaciones y el tiempoque 12 estudiantes dedican al estudio. Se desea predecir el pro-medio de las calificaciones de estos estudiantes en función de suscoeficientes de inteligencia y de los tiempos que dedican al estu-dio. Se puede observar que se tiene dos variables, coeficiente deinteligencia y tiempo dedicado al estudio, para explicar el com-portamiento de las calificaciones promedio de los estudiantes.

Para el problema descrito se postula la forma general del mo-delo de regresión lineal múltiple:

eXXY +++= 22110 βββ

donde:

Y: variable aleatoria denominada variable dependiente,0β , 1β , 2β : parámetros del modelo de regresión lineal múltiple,

1X , 2X : variables independientes, e: error aleatorio, mide el desajuste entre la realidad y

el modelo,

Esta ecuación es muy similar a la utilizada en la regresión li-neal simple, excepto que agregamos otra variable independiente.

Para estimar los parámetros 0β , 1β , 2β se toma una muestrade los valores ( iy , ix1 , ix2 ) ni ,...,1= , y para cada individuo setiene el siguiente sistema de ecuaciones, iiii exxy +++= 22110 βββ ,donde iy es el i-ésimo valor de la variable Y, ix1 , ix2 , los i-ési-mos valores de las variables independientes 1X , 2X , por lo que

iiii xxye 22110 βββ −−−= . Luego, se usa el método de mínimoscuadrados, es decir se buscan los valores de 0β , 1β , 2β que ha-gan mínima la suma de cuadrados de los errores, es decir, queminimicen ∑ 2

ie .La solución conduce a un sistema de ecuaciones denomina-

das ecuaciones normales, a partir de las cuales, utilizando con-

Page 36: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 8

ceptos de álgebra matricial se encuentran los estimadores de losparámetros 0β , 1β , 2β tema que escapa de los objetivos del cur-so y que no será abordado aquí.

Los problemas de regresión múltiple serán resueltos con elsoporte del SPSS, puesto que en la mayoría de las investigacio-nes el número de observaciones y el número de variables es gran-de, lo que dificulta el trabajo manual.

Así, 2110ˆˆˆˆ βββ ++= XY es las ecuación de la recta de regre-

sión múltiple ajustada por el método de mínimos cuadrados.

Ejemplo 5.14

Para una muestra de 12 estudiantes se tiene la información ad-junta en la siguiente tabla. Vamos a ajustar la recta de regresiónmúltiple usando el método de mínimos cuadrados.

Promedio de calificaciones,coeficiente intelectual y tiempo dedicado al estudio

Estudiante IQ Tiempo de Promedio deNúmero ( )1X estudio ( )2X calificaciones ( )Y

1 110 8 1.02 112 10 1.63 118 6 1.24 119 13 2.15 122 14 2.66 125 6 1.87 127 13 2.68 130 12 2.09 132 13 3.210 134 11 2.611 136 12 3.012 138 18 3.6

Solución

Postulamos el modelo eXXY +++= 22110 βββ , para estudiar larelación entre las variables.

Page 37: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 4 9

donde: 1X : Coeficiente intelectual (IQ).

2X : Tiempo de estudio.Y: Promedio de calificacionese : error

0β , 1β , 2β : parámetros a estimar.

Usamos las opciones del SPSS Activar el SPSS y crear los datos en un archivo de nombre:

COEFICIENTE. En VARIABLE VIEW definir las siguientes variables: IQ,

TIEMPO y CALIFICA y en DATA VIEW colocar los datos de latabla. Ejecutar ANALYZE/ REGRESSION/LINEAR/ ingresar enDEPENDENT la variable CALIFICA y en INDEPENDENT las va-riables IQ TIEMPO/OK.

El output del SPSS es el siguiente:

Las estimaciones de los parámetros son:

249.5ˆ0 −=β =1β 0.049 =2β 0.118

1β 0β

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001IQ ,049 .010 .570 4.717 .001TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

Page 38: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 0

donde:

1X : Coeficiente intelectual (IQ).

2X : Tiempo dedicado al estudio.

A partir de los resultados anteriores se encuentra la ecua-ción de la recta de regresión múltiple ajustada por el método demínimos cuadrados:

21 118.0049.0249.5ˆ XXY ++−= ,

donde, manteniendo constante la variable tiempo de estu-dio, un incremento en el coeficiente intelectual (IQ) de un punto,por ejemplo, es acompañado por un incremento en el promediode calificaciones de 0.049 puntos. En forma similar, mantenien-do constante la variable coeficiente intelectual, un incrementode 1 hora en el tiempo de estudio, es acompañado por un incre-mento en el promedio de calificaciones de 0.118 puntos.

Coeficiente de determinación

El coeficiente de determinación, 2R , multiplicado por 100, indi-ca el porcentaje de la variación de la variable dependiente que esexplicado por las variables independientes del modelo.

Se puede demostrar que la suma de cuadrados del total,

( )∑ − yyi , se puede dividir en dos componentes: la suma de

cuadrados debido a la regresión, ( )2ˆ∑ − yyi , y la suma de cua-

drados debido al error ( )2ˆ∑ − ii yy . Es decir: SCESCRSCT += ,donde:

SCT: suma de cuadrados del total.SCR: suma de cuadrados debido a la regresión.SCE: suma de cuadrados debido al error.

Page 39: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 1

El término coeficiente de determinación múltiple mide labondad de ajuste para la ecuación de regresión múltiple. Este co-eficiente se calcula como sigue:

SCTSCRR =2

En nuestro ejemplo, la variable dependiente es el promediode calificaciones de un alumno y las variables independientesson el coeficiente de inteligencia y el tiempo dedicado al estudio.El valor del coeficiente de determinación es 0.91, valor que signi-fica que, el 91% de las variaciones observadas en la calificaciónpromedio de los alumnos son explicables por las variaciones delcoeficiente de inteligencia y del tiempo dedicado al estudio.

El valor 0.09 = 1 - 0.91, llamado coeficiente de alienación,indica que el 9% de las variaciones observadas en la calificaciónpromedio de los alumnos no son explicables por el modelo (eneste caso por las variaciones en el IQ y tiempo de estudio).

Pruebas de hipótesis

Las pruebas de hipótesis con respecto a los parámetros de la ecua-ción de regresión múltiple se basan en las estadísticas t de Stu-dent y F de Snedecor.

La prueba F se usa para determinar si hay una relación sig-nificativa entre la variable dependiente y el conjunto de todaslas variables independientes. En estas condiciones se denominaprueba de significación global.

La prueba t de Student se aplica para determinar si cadauna de las variables independientes son significativas. Se haceuna prueba de hipótesis por separado para cada variable inde-pendiente en el modelo a cada una de esas pruebas de hipótesisse denomina prueba de significación individual.

A continuación explicaremos la prueba F y la prueba t, yaplicaremos para cada una el ejemplo sobre el coeficiente inteli-gencia de estudiantes.

Page 40: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 2

Prueba F

Antes de describir los pasos de la prueba F necesitamos conocerel concepto de cuadrado medio. Considerando que el modelo deregresión múltiple tiene k variables independientes. El cuadra-do medio (CMR, CME) es una suma de cuadrados dividida entresus grados de libertad correspondiente. En el caso de la regresiónmúltiple, la suma de cuadrados del total tiene n - 1 grados delibertad, la suma de cuadrados de regresión (SCR) tiene k gra-dos de libertad y la suma de cuadrados del error tiene n - k - 1grados de libertad.

kSCRCMR = 1

2

−−==

knSCESCME

El cuadrado medio del error es un estimador insesgado de σ2.

Prueba F para la significancia global

Si el modelo general es:

eXXXY kk +++++= ββββ ...22110 , entonces::0H 0...21 ==== kβββ:1H Al menos uno de los parámetros no es igual a cero

Estadística de prueba

CMECMRF =

Regla de decisión

Con el estadístico de prueba: Rechazar Ho si cF > αF .Con el valor p - value: Rechazar Ho si el valor p - value < α.donde αF es la abcisa de la distribución F con k grados de

libertad en el numerador y n - k - 1 grados de libertad en eldenominador.

Page 41: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 3

Tabla de análisis de Varianza (ANOVA)

La tabla de análisis de varianza, proporciona la descomposiciónde la suma de cuadrados de la regresión, los grados de libertadasociados a cada suma de cuadrados, los cuadrados medios y losresultados de la prueba F para el modelo de regresión múltiple.

El valor del estadístico de la prueba F aparece en la últimacolumna y se puede comparar con αF con k grados de libertad enel numerador y (n - k - 1) en el denominador (valor obtenido dela tabla F-Snedecor) cuando la hipótesis nula es:

kH βββ === ...: 210 para el modelo eXXXY kk +++++= ββββ ...22110 .

Ejemplo 5.15

Usando la información del ejemplo 5.14 vamos a hacer la pruebade hipótesis referente a los dos parámetros poblacionales delmodelo eXXY +++= 22110 βββ .

Solución

Paso 1:

Las hipótesis se formula como sigue:

0: 210 == ββH :1H al menos uno de los parámetros es igual a cero.

Tabla ANOVA Regresión múltiple con k variables independientes

Fuente Suma de Grados de Cuadradocuadrados libertad Medio

Regresión SCR kk

SCRCMR =CMECMRF =

Error SCE n - k - 11−−

=kn

SCECME

Total SCT n - 1

Page 42: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 4

Paso 2:

El valor de la estadística de prueba,, lo vamos a obtener utilizan-do los comandos del SPSS:

Crear el archivo: COEFICIENTEDefinir las variables en VARIABLE VIEW, por ejemplo, IQ,TIEMPO y CALIFICA.Ejecutar:ANALYZE/ REGRESSION/LINEAR/ Seleccionar/ ingresaren DEPENDENT CALIFICA yen INDEPENDENT las variables IQ TIEMPO/OK.

El output del SPSS muestra lo siguiente:

Estadística de prueba

37.450704.0194.3 ===

CMECMRFc

Paso 3:

Para α = 0.05, k = 2; n - k - 1 = 9, ( )[ ] 05.09,2 => teóricoFFP en latabla - Snedecor se encuentra el valor de 26.4=teóricoF . La regiónde rechazo de la hipótesis nula es el intervalo (4.26; ∞).

ANOVAb

Model Sum of df Mean F Sig.squares Square

1 Regression 6.389 2 3.194 45.353 .000aResidual .634 9 7.043E-02Total 7.022 11

a. Predictors: (Constant), TIEMPO, IQb. Dependent Variable: CALIFICA

CMR FCME

Page 43: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 5

Paso 4:

Como 26.437.45 =>= teóricoc FF entonces rechazamos 0H y con-cluimos que al menos uno de los parámetros es diferente de cero.

Prueba t

Si la prueba F ha mostrado que la relación entre la variable de-pendiente y los regresores es estadísticamente significativo, sepuede hacer una prueba t para determinar la significancia decada uno de los parámetros individuales.

Así para cualquier parámetro iβ se plantea lo siguiente:

Paso 1:

Para cualquier parámetro iβ

0H : 0=iβ

1H : 0≠iβ

Paso 2:

La distribución de la estadística de prueba es:

is

t i

β

βˆ

ˆ= ~ ( )1−nt

Paso 3:

Para el nivel de significación α, ( )[ ]2

11α−=<− teóricon ttP , en la ta-

bla ( )1−nt se obtiene el valor teórico de t, teóricot . La región de re-chazo es el intervalo ( )( )teóricot−∞− , U ( )( )∞,teóricot .

Paso 4:

Si teóricot cae en la región de rechazo, entonces se rechaza la hipó-tesis nula.

Page 44: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 6

Si retomamos el ejemplo anterior y queremos saber si es estadísti-camente significativo plantearemos las siguientes hipótesis.

0H : 0=iβ

1H : 0≠iβ

Paso 2:

Usando comandos del SPSS obtenemos la siguiente tabla:

donde 049,01 =β 010.0ˆ =βs y el valor de la estadística de prue-

ba es:

9.4010.0049.0ˆ

1

1 ===β

βs

tc.

El valor de la t de Student con 9 grados de libertad y025.02/05.02/ ==α es, 69.29755.0 =t .

Paso 3:

En la tabla el valor de la de Student con 9 grados de libertad y025.02/05.02/ ==α es, 69.29755.0 =t . Para α = 0,05 se encuentra

que 69,2975,0 == ttteórico .

2β 1β 2βS

1βS

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001IQ ,049 .010 .570 4.717 .001TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

Page 45: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 7

de donde el valor de la estadística de prueba es:

21.4028.0118.0ˆ

2

2 ===β

βs

tc

y nuevamente se rechaza la hipótesis nula ( )01 =β , porque21.4=ct > 2.69, con un nivel de significación de 0.05.

Pruebas no paramétricas

En los temas estudiados a lo largo de este libro hemos podidonotar el importante lugar que le corresponde a la distribución

Paso 4:

Como 69.29.4 975.0 =>= ttc rechazamos la hipótesis nula a unnivel de significación de 0.05 y concluimos que la variable Coefi-ciente Intelectual (IQ) explica el comportamiento de las califica-ciones de los estudiantes.

Trabajando con la misma metodología para el parámetro 2β ,se encuentra la siguiente tabla.

2β 1β 2βS

1βS

Coefficientsa

Unstandardized StandardizedCoefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001IQ ,049 .010 .570 4.717 .001TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

Page 46: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 8

normal en la teoría estadística. Sin embargo, con frecuencia en mu-chas situaciones no se conoce si la distribución desde la cual se haseleccionado la muestra es tal que sea aplicable el teorema del lími-te central o si la aproximación a la distribución normal es lo sufi-cientemente adecuada como para que los intervalos de confianzaresultantes y las pruebas de hipótesis basadas en la teoría normaltengan validez. En tales situaciones se necesita de métodos estadís-ticos cuya aplicación sea independiente de la forma de la densidad.Estos métodos se denominan métodos no paramétricos.

Los métodos no paramétricos que se desarrollarán en esta sec-ción se aplican a familias muy extensas de distribuciones en vezde familias caracterizadas por una forma funcional particular.

La estructura de la mayoría de los métodos no pramétricosdescansa en las estadísticas de orden. Las estadísticas de ordenrepresentadas por: X(1), X(2),…,X(n) son la consecuencia de haberordenado la muestra aleatoria original X1, X2, …,Xn en forma as-cendente. Es decir:

X(1), es la más pequeña en magnitud de todas las X'sX(2), es la segunda más pequeña en magnitud de todas las X's...X(n), es la más grande en magnitud de todas las X's

Se trabajará bajo el supuesto de que la muestra aleatoria pro-viene de una distribución continua. Esto implica que la probabi-lidad que dos observaciones muestrales sean iguales es cero. Esdecir, con probabilidad una las observaciones maestrales seránordenadas desde la más pequeña a la más grande sin tener eneste ordenamiento dos valores iguales. En la práctica, frecuente-mente observamos en la muestra dos o más valores iguales de-nominados empates (ties); para lo cual dependiendo de la prue-ba se utilizará un factor de corrección por empates.

Posición y dispersión

Page 47: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 5 9

La mediana poblacional M, se estima mediante la medianamuestral m. Para la obtención de la mediana como es conocidoprimero deben organizarse los datos en forma ascendente, la me-diana será el valor central si el número de datos es impar y serála semisuma de los valores centrales si se cuenta con un númeropar de datos. Es decir,

=+

+==

+

+

knsixx

knsixm

kk

k

2 2

12

)1()(

)1(

La mediana muestral no es un estimador insesgado de la me-diana poblacional, pero este sesgo tiende a cero al aumentar eltamaño de la muestra. Como medida de dispersión se empleaentre otras el rango intercuartil, la diferencia entre el cuartil 3 yel cuartil 1: 13 QQR −=

Ejemplo 5.16

En el caso paramétrico hemos utilizado la media y la desviaciónestándar poblacionales como medidas de posición y dispersiónrespectivamente, pero los métodos no paramétricos utilizan comomedida de posición a la mediana M, que es el punto que divi-de en dos partes iguales el área limitada por la función de densi-dad f(x), tal como se grafica a continuación.

En una distribución continua 21)()( =≤=≥ MXPMXP .

f(x)

M

50%del

área

50%del

área

Page 48: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 0

Se cuenta con los siguientes valores: === 3,98.02,62.01 xxx ;53.05,81.04,31.0 == xx los cuales corresponden a n = 5 valores

observados de 5 ensayos independientes de un experimento. Sedeterminará la mediana muestral.

• En primer lugar se ordenan en forma ascendente las obser-vaciones:

98.0)5(81.0)4(62.0)3(53.0)2(31.0)1( =<=<=<=<= xxxxx

• Como se cuenta con un número impar de observaciones lamediana muestral es 62.0)3( =x .

En esta sección estudiaremos los siguientes métodos no pa-ramétricos:• Para una población: Prueba de Wilcoxon.• Para dos poblaciones independientes: Prueba de Man-

nWhitney• Para tres o más muestras independientes: Prueba de Krus-

kall Wallis• Prueba de bondad del ajuste: Prueba de Kolmogorov

Prueba de Wilcoxon

En algunas investigaciones se requiere probar una hipótesis nulacon respecto a la media poblacional, pero la distribución bajo es-tudio no es la distribución normal. En tal situación un procedi-miento estadístico adecuado es la prueba de Wilcoxon, la cualutiliza las magnitudes de las diferencias entre las mediciones yel valor de la mediana poblacional propuesta en la hipótesis nula.

Supuestos

La prueba de Wilcoxon se basa en los siguientes supuestos.1. La muestra X1,X2,..,Xn es una muestra aleatoria2. La variable en estudio es continua

Page 49: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 1

3. La población se distribuye simétricamente4. La escala de medición es al menos de intervalo

Hipótesis

Se plantea a continuación la hipótesis nula con su respectiva hi-pótesis alternativa

01

00

::.

MMHMMHI

≠=

01

00

::.

MMHMMHII

<≥

01

00

::.

MMHMMHIII

>≤

En cada uno de los casos con un nivel de significación α.

Procedimiento para la obtención de la estadística deprueba

Cuando se utiliza la prueba de Wilcoxon se realizan los siguien-tes cálculos.

1. Se obtienen las diferencias Di = Xi -M0 , i = 1,2,…,n.Si algún Xi es igual a M0 , éste es eliminado y como conse-cuencia el tamaño de la muestra disminuye.

2. Se ordenan las diferencias Di en forma ascendente sin consi-derar el signo de la diferencia. Es decir, se ordenan las dife-rencias en valor absoluto, |Di|. Si dos o más de los |Di| soniguales, se obtiene el promedio de los rangos que ocupan lasdiferencias empatadas y este valor es asignado a cada unade las observaciones empatadas.

3. Se retoma el signo de la diferencia Di y es asignado al rangorespectivo.

4. Se obtienen y T + y T -, que representan a la suma de rangoscon signo positivo y negativo respectivamente.

La suma total de los rangos es: 2

)1( +nn , entonces−+ −+= TnnT

2)1(

Estadística de prueba

Page 50: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 2

Dependiendo de la hipótesis alternativa planteada se consideracomo estadística de prueba a { }−+= TTT ,min , +T o −T .

Si la hipótesis nula H0 es verdadera, es decir, si la medianapoblacional, M, es igual a la mediana hipotética, M0, y se cum-plen los supuestos, la probabilidad de observar una diferencia Dipositiva es igual a la probabilidad de observar una diferencia ne-gativa. Entonces al repetir el muestreo, el valor esperado de T+ esigual al valor esperado de. En una muestra específica no sucedeque T + sea exactamente igual a T -. Sin embargo, cuando H0 esverdadera no esperamos una gran diferencia entre ambos valo-res. Esto trae como consecuencia que un valor suficientementepequeño de T + o T - causa el rechazo de H0.

Valores críticos

En la Tabla G del Apéndice se encuentran los valores críticos dde la estadística de prueba de Wilcoxon para muestras de tama-ño 4 hasta 20 y distintos niveles de significación.

Región crítica

La región crítica depende de la hipótesis alternativa planteada.En la siguiente tabla se resume los tres casos de la prueba de

hipótesis respecto de la mediana de una población.

Ejemplo 5.17Hipótesis Estadística de Prueba Regla de decisión

Rechazar, 00 : MMH = si

01

00

::.

MMHMMHI

≠=

{ }−+= TTT ,min dT ≤

01

00

::.

MMHMMHII

<≥

+T dT ≤+

01

00

::.

MMHMMHIII

>≤

−T dT ≤−

En cada caso con un nivel de significación α.

Page 51: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 3

Solución.

Paso 1: Se plantean las hipótesis

Se trata de un problema de inferencia estadística acerca de lamediana poblacional M : "calificación media de la destreza ma-nual de una población de estudiantes discapacitados"

Hipótesis nula: La calificación media es M = 45, donde M0 = 45puntos. Es decir,

45:0 =MH

Hipótesis alternativa: La calificación media es diferente de 45puntos. Es decir,

45:1 ≠MH

Paso 2:

En base a la muestra aleatoria se realizan los cálculos para obte-ner la estadística de prueba.

n = 25

Un psicólogo está interesado en tener evidencia suficiente para con-cluir que las calificaciones de destreza manual promedio en estu-diantes discapacitados es diferente de 45 puntos. Para llevar a cabosu estudio selecciona una muestra aleatoria de 25 estudiantes dis-capacitados y registra sus calificaciones de destreza manual. Lainformación que obtiene es la siguiente:

¿Los datos son concordantes con la propuesta del psicólogo?.Utilice α = 0.05.

33 53 22 40 24 56 36 28 38 42 35 52 52

36 47 41 32 20 42 34 53 37 35 47 42

Page 52: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 4

Obs xi Di rango sig ran Obs xi Di rango sig ran(|Di|) (|Di|) (|Di|) (|Di|)

1 33 -12 20 -20 14 36 -9 14,5 14,52 53 8 12 12 15 47 2 1,5 1,53 22 -23 24 -24 16 41 -4 6 -64 40 -5 7 -7 17 32 -13 21 -215 24 -21 23 -23 18 20 -25 25 -256 56 11 18,5 18,5 19 42 -3 4 -47 36 -9 14,5 14,5 20 34 -11 18,5 18,58 28 -17 22 -22 21 53 8 12 129 38 -7 9 -9 22 37 -8 12 -1210 42 -3 4 -4 23 35 -10 16,5 16,511 35 -10 16,5 16,5 24 47 2 1,5 1,512 52 7 9 9 25 42 -3 4 -413 52 7 9 9

Suma total de rangos: 3252

)26(252

)1( ==+nn

Suma de rangos positivos: 5.63=+T ,

Suma de rangos negativos: 5.261=−T

Estadística de prueba:

{ } { } 5.635.261,5.63, === −+ mínTTmínT .

Paso 3. Obtención de la región crítica

En la tabla G del Apéndice, el valor de d = 101. La región críticaestá conformada por dT ≤ y para nuestro ejemplo la región crí-tica es: 101<T .

Paso 4. Decisión

Page 53: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 5

El valor de 5.63=T , se encuentra en la región de rechazo. Esdecir, dT =<= 1015.63 , lo cual implica el rechazo de la hipó-tesis nula. Es decir, en base a las observaciones muestrales, el psi-cólogo encuentra un soporte a su afirmación de que el puntajemedio de las calificaciones de la destreza manual de la pobla-ción de estudiantes discapacitados bajo estudio, es diferente de45 puntos.

Análisis por computadora usando el SPSS

Debe señalarse que el SPSS no tiene el análisis para probar lamediana poblacional en base a una muestra. Cuenta con el aná-lisis para muestras relacionadas. Adaptaremos este procedimien-to a nuestro caso procediendo de la siguiente forma:

1. Utilizar el artificio de crear una variable que ha sido deno-minada Median, la cual contiene el valor de la mediana pro-puesta bajo la hipótesis nula.

2. Crear la variable Destrez, la cual contiene las 25 medicionesde destreza manual de cada uno de los estudiantes.

3. Proceder a ejecutar los siguientes comandos: Analyze/Nonparametric Test/ 2 Related Simples / Seleccionar las va-riables Median y Destrez/ Test Tipe activar Wilcoxon/ clickOK. A continuación mostramos el editor y el output.

EDITOR OUTPUT

Región de rechazo

101 T

Page 54: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 6

Prueba de MANN-WHITNEY

Cuando el supuesto de que cada una de las poblaciones en estu-dio se distribuyen normalmente no se cumple, las pruebas de hi-pótesis para contrastar que las medias poblacionales son igualesno pueden ejecutarse. Como alternativa se cuenta con un méto-do no paramétrico, la prueba de Mann-Whitney, que es una prue-ba apropiada para contrastar la hipótesis de que las medianasde dos poblaciones independientes son iguales, y donde la formafuncional de estas poblaciones no está especificada. Este métodose basa en datos generados por dos muestras aleatorias indepen-dientes, seleccionadas de cada una de las poblaciones de interés.Estas muestras son independientes en dos aspectos. Uno de elloses que existe independencia entre muestras y el otro aspecto es que

Wilcoxon Signed Ranks Test

Ranks

N Mean Sum ofRank Ranks

destrez - Negative 18(a) 14.53 261.50mediana Ranks

Positive 7(b) 9.07 63.50RanksTies 0(c)Total 25

a destrez < medianab destrez > medianac destrez = mediana

Test Statistics(b)

destrez -mediana

Z -2.666(a)Asymp. Sig. (2-tailed) .008

a Based on positive ranks.b Wilcoxon Signed Ranks Test

En Test Statistics el p-value = 0.008 < 0.05, entonces se rechaza H0.

Page 55: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 7

dentro de cada muestra las observaciones que la conforman tam-bién son independientes.

Esta prueba fue propuesta por Mann y Whitney (1947), ade-más se tiene referencia que Wilcoxon (1945), propuso un proce-dimiento semejante. Es por ello que también es conocida como laprueba de Wilcoxon-Mann-Whitney.

Supuestos

• Las muestras aleatorias, X11, …., X1n1 y X21, …., X2n2, utiliza-das para el análisis son seleccionadas independientementede sus respectivas poblaciones.

• La variable de interés es continua.• La escala de medición observada es al menos ordinal.• Las dos poblaciones en estudio difieren sólo con respecto a

su posición.

Hipótesis

Se plantea a continuación la hipótesis nula con su respectiva hi-pótesis alternativa

211

210

::.

MMHMMHI

≠=

211

210

::.

MMHMMHII

<≥

211

210

::.

MMHMMHIII

>≤

Donde 21 MyM representan las medianas de la población1 y población 2 respectivamente. En cada uno de los casos laspruebas se realizan con un nivel de significación α.

Procedimiento para la obtención de la estadística deprueba

Para calcular la estadística de prueba se procede de la siguienteforma.1. Se combinan las dos muestras (de tamaños n1 y n2 ).2. Las n1 + n2 observaciones son organizadas en forma ascen-

Page 56: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 8

dente (desde la más pequeña a la más grande).3. Se asignan los rangos a cada una de las n1 + n2 observaciones

teniendo en cuenta a que muestra pertenecen. Si dos o másobservaciones son iguales (empatan) se obtiene el promediode los rangos que ocupan dichas observaciones en el orde-namiento y este promedio es asignado a cada una de las ob-servaciones empatadas.

4. Obtener la suma de los rangos asignados a la muestra 1:

∑=

= 1

1)1(

n

i iXRS .

Estadística de Prueba

La estadística de prueba es, 2

)11(1 +−=

nnST

donde:

n1, es número de observaciones de la muestra 1, yS, es la suma de los rangos asignados a la muestra 1 (después dehaber combinado las muestras).

Valores críticos

En la tabla H del Apéndice se encuentran los valores críticos wppara de la estadística de prueba T, para tamaños n1 = 2,3,...,20 yn2 = 2,3,...,20; y distintos valores de p = 0.001, 0.005, 0.01, 0.025,0.05 y 0.10 (nivel de significación nominal).

Región crítica

La regla de decisión está en función a la hipótesis alternativaplanteada.

En la siguiente tabla se resume los tres casos de la prueba dehipótesis relacionada a la comparación de las medianas de dospoblaciones independientes.

Page 57: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 6 9

donde: 2

212

1 αα wnnw −=−

, equivalentemente αα wnnw −=− 211 .

Gráficamente:

I.

211

210

::

MMHMMH

≠=

II.

211

210

::

MMHMMH

<≥

III.

211

210

::

MMHMMH

>≤

Hipótesis Estadística de Prueba Regla de decisiónRechazar, 210 : MMH = si

I.

211

210

::

MMHMMH

≠=

2)1( 11 +−= nnST 212 αα −>< wTowT

II.

211

210

::

MMHMMH

<≥

2)1( 11 +−= nnST αwT <

III.

211

210

::

MMHMMH

>≤

2)1( 11 +−= nnST α−> 1wT

Page 58: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 0

¿En base a esta información se puede concluir que el puntajemedio obtenido por la Facultad de Administración es diferenteque el obtenido por la Facultad de Derecho, con respecto a la ca-lidad de atención al momento de realizar el proceso de rectifica-ción de matrícula?.

Solución.

Las poblaciones en estudio son:Población 1: alumnos de la Facultad de AdministraciónPoblación 2: alumnos de la Facultad de DerechoVariable de interés: Puntaje asignado a la calidad de atención almomento de realizar el proceso de rectificación de matrícula.

Paso 1: Se plantean las hipótesis

Hipótesis nula: El puntaje medio obtenido por la Facultad deAdministración es igual que el obtenido por la Facultad de Dere-cho, con respecto a la calidad de atención al momento de reali-zar el proceso de rectificación de matrícula. Es decir, 100 : MMH =

Hipótesis alternativa: 101 : MMH ≠

Ejemplo 5.18

Quince estudiantes de la Facultad de Administración y 15 estu-diantes de la Facultad de Derecho, evaluaron sobre una base de100 puntos la calidad de la atención recibida al momento de rea-lizar el proceso de rectificación de matrícula en su respectivafacultad. Los resultados se presentan a continuación.

Fac.Admin. 99 85 73 98 83 88 99 80 74 91 80 94 94 98 80

Fac. Derch. 78 74 69 79 57 78 79 68 59 91 89 55 60 55 79

Page 59: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 1

Paso 2: En base a las muestras aleatorias se realizan los cálculospara obtener la estadística de prueba.

Muestras rango rangocombinada Administrac. Derecho

55 1,555 1,557 359 460 568 669 773 8  74 9,5  74 9,578 11,578 11,579 1479 1479 1480 17  80 17  80 17  83 19  85 20  88 21  89 2291 23,5  91 23,594 25,5  94 25,5  98 27,5  98 27,5  99 29,5  99 29,5  

Suma de 148rangos: S

En este caso como ambos tamaños de muestra son iguales seconsiderará como S, la suma de los rangos correspondientes a lamuestra de la población de la Facultad de Derecho.

Page 60: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 2

Paso 4. Decisión

Se decide rechazar la hipótesis nula debido a que el valor de T =28 < 65 =

2αw . Se puede concluir que las facultades de Adminis-

tración y de Derecho tienen diferentes puntajes medios, conrespecto a la calidad de atención al momento de realizar el pro-ceso de rectificación de matrícula.

Análisis por computadora usando el SPSS

1. Para este ejemplo se definen las variables:puntaje que contiene los puntajes de las dos muestras y,facultad que funciona como una etiqueta, 1: Facultad deAdministración y 2: Facultad de Derecho

Estadística de prueba:

282

)115(15148 =+−=T

Paso 3. Obtención de la región crítica

En la tabla H con 05.0 15 ,15 21 === αynn se encuentra el va-

lor de 652

=αw y el valor de 16065)15(152

1=−=

−αw .

La región crítica está conformada por: 160 65 >< ToT

Page 61: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 3

2. Proceder a ejecutar los siguientes comandos: Analyze/Nonparametric Test/Two-Independent-Samples Test/test type Mnn-Whitney U, llevar la variable puntaje atest variable list y la variable facultad a grouping va-riable/ mediante define groups se indican los grupos/click OK..

Page 62: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 4

OUTPUT

Prueba de Kruskall-Wallis

La prueba de Kruskall-Wallis es utilizada para detectar diferen-cias en las medidas de posición de tres o más poblaciones basán-dose en muestras aleatorias independientes. Esta prueba comootras pruebas no paramétricas tiene la característica de utilizarlos rangos de las observaciones que conforman las muestras.

Se supone que se tiene k poblaciones continuas)(),...,(),( 21 xFxFxF k de las cuales se seleccionan muestras aleato-

rias independientes, donde la i-ésima muestra es de tamaño

kini ,...,2,1, = y existe un total de ∑=

=k

iinn

1

observaciones en total.

NPar TestsMann-Whitney Test

Ranks

FACULTAD N Mean Rani Sum of RanksPUNTAJE 1. Administración 15 21,13 317,00

2: erecho 15 9,87 148,00Total 30

Test StatisticsPUNTAJE

Mann-Whitney U 28,000Wilcoxon W 148,000Z -3,511Asymp. Sig. (2-tailed) ,000Exact Sig. 2*(1-tailed Sig.) ,000

a Not corrected for ties.b Grouping Variable: FACULTAD

La hipótesis nula es rechazada. Exact Sig < 0.05.

Page 63: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 5

Supuestos

1. Los datos disponibles para el análisis consisten de k muestrasindependientes de tamaños knnn ,...,, 21 respectivamente.

2. Las observaciones son independientes dentro de cada mues-tra y entre muestras.

3. La variable de interés es continua.4. La escala de medición es al menos ordinal.5. Las poblaciones desde las cuales se han seleccionado las

muestras son idénticas excepto para una diferencia en posi-ción en al menos una de ellas.

Hipótesis

La hipótesis nula asociada al problema de k muestras es la queplantea que las k muestras han sido seleccionadas de poblacio-nes idénticas: ( ) ( ) ( ) xxFxFxFH k ∀=== ,...: 210 y la hipótesis alter-nativa 1H : Al menos una de las )(xFi es diferente.

Con un nivel de significación α.

Procedimiento para la obtención de la estadística deprueba

1. Se combinan las ∑=

=k

iinn

1observaciones de las muestras,

ordenándolas en forma ascendente.2. Se asigna el correspondiente rango a cada una de las obser-

vaciones ordenadas. Si existen observaciones empatadas, sesustituyen los rangos de las observaciones empatadas por elpromedio de los rangos de estas.

3. Se calcula iR , que representa a la suma de los rangos de las

in observaciones que conforman la i-ésima muestra.4. Se obtiene la estadística de prueba en base a los cálculos rea-

lizados anteriormente.

Page 64: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 6

Estadística de prueba:

donde: k = número de muestras.

in = número de observaciones de la i-ésima muestra.n = número total de observaciones en las k muestras com-binadas.

iR = suma de los rangos de la i-ésima muestra.

Equivalentemente la estadística, puede expresarse como:

∑=

+−+

=k

i i

i nnR

nnH

1

2

)1(3)1(

12

la cual tiene distribución ji cuadrado con k-1 grados de li-bertad. Es decir,

)1(~ −kH χ

Si existen observaciones empatadas el estadístico H, es co-rregido sustituyendo los rangos de las observaciones empatadaspor su rango promedio y considerando además el siguiente fac-

tor de corrección: nn

ttf j

jj

c −

−−=

∑3

3 )(1 . Así la estadística H corre-

gida es: c

c fHH =

Valores críticos

En la Tabla C de Apéndice se encuentran los cuantiles de la dis-tribución ji cuadrado.

Se rechaza la hipótesis nula para aquellos valores de

)1( −> kH χ .

Ejemplo 5.19

En base a las calificaciones obtenidas por cuatro grupos de aspi-rantes a Jefe de Práctica para el curso de Matemática, un investi-

Page 65: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 7

Solución

Paso 1. Planteamiento de las hipótesis

Hipótesis nula: La cuatro poblaciones tiene calificaciones me-dias idénticas. Es decir, )()()()(: 43210 xFxFxFxFH ===

Hipótesis alternativa: La calificación media de al menos unade las poblaciones es diferente.

Con un nivel de significación α = 0.05

Paso 2. En base a las observaciones de las cuatro muestras secalcula el valor de la estadística de prueba.

gador está interesado en conocer si existe diferencia en las califica-ciones medias de las poblaciones en estudio. Las calificaciones sonlas siguientes:

Grupo 1 Grupo 2 Grupo 3 Grupo 4

85 75 59 9492 69 78 8983 83 67 8079 81 62 8881 72 8369 79 76

90

GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4

Calificación Rango Calificación Rango Calificación Rango Calificación Rango

85 18 75 7 59 1 94 2392 22 69 4,5 78 9 89 2083 16 83 16 67 3 80 1279 10,5 81 13,5 62 2 88 1981 13,5 72 6 83 1669 4,5 79 10,5 76 8

90 21

61 =n =1R 84,5 72 =n =2R 78,5 63 =n =3R 39 44 =n =4R 74

Page 66: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 8

Estadística de prueba:

)123(3)24(23

12 4

1

2

+−= ∑=i i

i

nRH

( ) ( ) ( ) ( ) 3.82796.872

474

639

75.78

65.84

)24(2312 4

1

2222

≅=−

+++= ∑

=iH

Paso 3. Obtención de la región crítica

En la Tabla C del Apéndice para 81.7)3(05.0 =χ . La región críticaestá conformada por:

81.7>H

Paso 4. Decisión

El valor de la estadística es 3.8=H , este valor se encuentra enla región de rechazo puesto que )3(81.73.8 05.0χ=>=H . Por lotanto la hipótesis nula es rechazada y puede concluirse que lascuatro poblaciones son diferentes.

Análisis por computadora usando SPSS

1. Para este ejemplo se definen las variables:califica que contiene las calificaciones de las cuatromuestras,grupo que funciona como una etiqueta, 1: grupo 1, 2: grupo2, 3: grupo 3, 4: grupo 4

2. Proceder a ejecutar los siguientes comandos: Analyze/Nonparametric/ k Independent Sample/ llevar la varia-ble califica a Test Variable List y la variable grupo agrouping variable/ mediante define groups se indican losgrupos/ OK.

Page 67: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 7 9

Page 68: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 0

Kruskal-Wallis Test

Ranks

GRUPO N MeanRank

CALIFICA 1 6 14,082 7 11,213 6 6,504 4 18,50Total 23

Test Statisticsa,b

CALIFICA

Chi-Square 8,308df 3Asymp. Sig. ,040

a. Kruskal Wallis Testb. Grouping Variable: GRUPO

Prueba de bondad de ajuste: Preuba de Kolmogorov-Smirnov

A través de la prueba de Kolmogorov-Smirnov se puede conocerque tan adecuado es el ajuste de la distribución de los datos deuna muestra a una distribución teórica. La prueba debe su nom-bre a los matemáticos rusos: A. Kolmogorov y N.V. Smirnov,quienes presentaron dos pruebas parecidas en la década de 1930.En su procedimiento la prueba utiliza la función de distribuciónteórica y la función de distribución empírica. La función de dis-tribución empírica será expresada en términos de las estadísti-cas de orden )()2()1( ,..,, nXXX , de una muestra aleatoria de tama-

Se rechaza la hipótesis nula Asymp Sig < α.

OUTPUT

Page 69: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 1

ño n, nXXX ,..,, 21 . Cuando no existen observaciones iguales, lafunción de distribución empírica está definida por,

−=≤≤

<

= +

xx

nkxxxnk

xx

xS

n

kkn

)(

)1()(

)1(

,1

1,...,2,1, ,

,0

)(

En este caso la función de distribución empírica )(xSn tieneun salto de magnitud

n1 , que ocurre en cada observación. Si exis-

ten kn observaciones iguales a kx , ocurre un salto de magnitud

nnk en kx .

Supuesto

La muestra aleatoria nXXX ,..,, 21 , tamaño n proviene de unapoblación con función de distribución desconocida )(xF .

Hipótesis

Se establece que )(0 xF es la función de distribución hipotética.Hipótesis nula: xxFxFH ∀= )()(: 00

Hipótesis alternativa )()(: 01 xFxFH ≠ para algún x.

Procedimiento para la obtención de la estadística deprueba

1. En base a las observaciones muestrales se obtiene la funciónde distribución empírica )(xSn ∀ x.

2. En base a las observaciones muestrales se obtiene la funciónde distribución propuesta bajo la hipótesis nula )(0 xF ∀ x.

3. Se calcula la estadística de prueba )()( 0 xFxSSupD nx

n −=∞<<∞−

.

Page 70: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 2

Región crítica

Se rechaza la hipótesis nula si el valor de la estadística nD excedeal cuantil α−1d presentado en la Tabla I del Apéndice. Es decir, serechaza 0H a un nivel de significación α si α−> 1dDn .

Si la muestra ha sido seleccionada desde la distribución hi-potética, la discrepancia entre )(xSn y )(0 xF no debería ser de-masiado grande.

Ejemplo 5.20

Se tiene interés en conocer si la presión sanguínea de los estu-diantes del último año de la Escuela de Educación Física, sigueuna distribución normal. La información siguiente correspondea 20 estudiantes de la Escuela de Educación Física y que cursanel último año de estudios.

Solución

En este caso la función de distribución )(0 xF , planteada en lahipótesis nula es la distribución normal y la variable en estudioes X : presión sanguínea.

Paso 1. Planteamiento de las hipótesis

Hipótesis nula: La presión sanguínea sigue una distribuciónnormal

Hipótesis alternativa: La presión sanguínea no está distribui-da normalmente. α = 0.05

162 177 151 167130 154 179 146147 157 141 157153 157 134 143141 137 151 161

Considere α = 0.05

Page 71: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 3

Paso 2. Cálculo de la estadística de prueba

Se organizarán las observaciones muestrales en forma ascenden-te, es decir se obtienen las estadísticas de orden y se calculan

)( )( 020 xFyxS .

x Frecuencia13

)152( −= xz )(0 xF )(20 xS )()( 020 xFxSD −=

130 1 -1,6923 0,0453 0,0500 0,0047

134 1 -1,3846 0,0831 0,1000 0,0169

137 1 -1,1538 0,1243 0,1500 0,0257

141 2 -0,8462 0,1987 0,2500 0,0513

143 1 -0,6923 0,2444 0,3000 0,0556

146 1 -0,4615 0,3222 0,3500 0,0278

147 1 -0,3846 0,3503 0,4000 0,0497

151 2 -0,0769 0,4693 0,5000 0,0307

153 1 0,0769 0,5307 0,5500 0,0193

154 1 0,1538 0,5611 0,6000 0,0389

157 3 0,3846 0,6497 0,7500 D = 0,1003

161 1 0,6923 0,7556 0,8000 0,0444

162 1 0,7692 0,7791 0,8500 0,0709

167 1 1,1538 0,8757 0,9000 0,0243

177 1 1,9231 0,9728 0,9500 0,0228

179 1 2,0769 0,9811 1,0000 0,0189

El valor calculado de la estadística de prueba es 1003.0=D .

Región crítica

En la Tabla I, el valor del cuantil es 294.095.0 =d . Así la región críti-ca es la siguiente: 294.095.0 => dD . La decisión en este caso es la deno rechazar la hipótesis nula, puesto que 95.0294.01003.0 dD =<= .

Page 72: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 4

No se puede concluir que la población no se distribuya nor-malmente.

Análisis por computadora usando el SPSS

1. Exploratoriamente puede visualizarse el comportamiento delos datos y se observa que estos están muy próximos a la lí-nea que representa a la distribución normal.

En el Editor de datos se crea la variable medida y se ejecuta lossiguientes comandos: Analyse/Nonparametric/1-Sample K-S/In-gresar a Test Variable List la variable medida y activar Test Distri-bution la distribución normal/click OK

Normal P-P Plot of MEDIDA

Expe

cted

Cm

Pro

b

Observed Cum Prob

Page 73: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 5

OUTPUT

No se rechaza la hipótesis nula porque Asymp. Sig>α = 0.05.

NPar Tests

One-Sample Kolmogorov-Smirnov Test

MEDIDA

N 20Normal Parameters a.b Mean 152,2500

Std. Deviation 13,0943Most Extreme Absolute ,108Differences Positive ,108

Negative -,071Kolmogorov-Smirnov Z ,485Asymp. Sig. (2-tailed) ,973

a. Test distribution is Normal.b. Calculated from data.

Page 74: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 6

Ejerccios

En los siguientes casos identifique la variable dependiente e in-dependiente (s).

a) El presupuesto familiar destinado a la educación de los hijosy los ingresos familiares.

b) El volumen de ventas de una empresa y la inversión en pro-paganda.

c) El número de hijos por familia y el nivel educativo de lospadres.

d) El analfabetismo, lugar de residencia y la expansión del ser-vicio educativo.

e) La edad y el tiempo efectivo de servicio de los docentes afi-liados al SUTEP.

Se realiza un estudio con 16 atletas de alto rendimiento, ochode potencia y ocho de resistencia; se les mide la extensión isomé-trica de la rodilla (X1) (en kilogramos fuerza) y el porcentaje dela contracción muscular (X2). Se obtienen los siguientes datos; X2es la variable dependiente (Y ).

Atletas de Potencia Atletas de resistencia1X 2X 1X 2X

196 56 161 98.4183 28.8 142 70.8295 57.2 122.5 35.4203 46 123 74.5195 35.5 176 79.5289 58.6 156 62.1198 41.4 126 74.3206.9 21.6 95 67.7

a) Cree las bases de datos con los nombres ATLETA1 Y ATLE-TA2.

b) Haga el diagrama de dispersión.

Page 75: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 7

Realice el análisis de regresión y correlación lineal.

Un profesor de estadística realiza un estudio para investi-gar la relación que existe entre el rendimiento de sus estudiantesen los exámenes y su ansiedad. Elige a diez estudiantes para elexperimento y antes de asistir al examen final, los 10 estudiantesrespondieron un cuestionario de ansiedad. A continuación se tienelas calificaciones de la prueba final y los puntajes obtenidos en elcuestionario de ansiedad.

c) Usar comandos del SPSS y obtener el coeficiente de correlaciónlineal e interprete.

d) Suponiendo que sea posible, realice el análisis de regresiónlineal simple e interprete los coeficientes.

e) Usando las correspondientes fórmulas, compruebe los valo-res encontrados.

A 10 candidatos a ingresar en un programa de doctorado enpsicología, se les aplica en la Facultad de Psicología una pruebade personalidad (X) y un examen general de conocimientos (Y).Obtuvieron las siguientes puntuaciones:

Candidato A B C D E F G H I J

X 2.96 2.46 3.36 3.40 2.43 2.12 2.85 3.12 3.20 2.75Y 529 506 591 610 474 509 550 600 575 540

Ansiedad 28 41 35 39 31 42 50 46 45 37Examen Final 82 58 63 89 92 64 55 70 51 72

a. Elabore el diagrama de dispersión. Utilice la ansiedad como lavariable X.

b. Describa la relación que muestra el diagrama de dispersión.c. Suponga que la relación es lineal y calcule el valor de la r de

Pearson.

Page 76: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 8

d. Determine la línea de regresión por mínimos cuadrados parapredecir la calificación del examen final dado el nivel de an-siedad.

e. Si un estudiante tiene un nivel de ansiedad de 38, ¿qué valorpodría predecirse para su calificación en el examen final?.

Se realiza un estudio con 10 estudiantes de postgrado enEducación. X1 es el número de problemas resueltos correctamen-te por un estudiante; X2 son las puntuaciones obtenidas al apli-carles una prueba psicológica que mide autoestima de un estu-diante y; Y es el número de problemas que cada estudiante; espe-ra resolver correctamente en el examen final. Con los datos quese presentan a continuación realice el análisis de regresión linealsimple múltiple usando comandos del SPSS.

En la siguiente tabla se tienen las puntuaciones obtenidas por21 estudiantes en tres pruebas psicológicas (X1, X2, X3).

a. Obtenga la base de datos usando comandos del SPSS.b. Realice un análisis de regresión lineal de: Y con X1.

Estudiante Número problemas Puntuación en Número de problemasresueltos en clase autoestima que espera resolver

en el examen final

1 14 5 142 8 15 53 9 19 84 13 33 115 10 39 156 11 38 147 14 74 188 15 74 199 11 11 710 16 78 17

Page 77: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 8 9

Se aplicó a un grupo de 18 adolescentes sordomudos la prue-ba de inteligencia de Wechsler para adultos (Wais) y cuatro sub-test del DAT. Las puntuaciones de ambas aplicaciones son lassiguientes:

Y X1 X2 X3

48 22 38 1548 19 38 1547 20 37 2046 20 37 1746 17 35 1943 21 34 1542 21 34 1442 19 33 2041 17 33 1340 15 32 1539 15 32 1232 11 25 1531 17 25 930 16 23 929 15 22 1329 15 21 928 16 20 1127 16 18 1127 13 17 1027 12 15 826 12 15 8

c. Realice un análisis de regresión lineal de: Y con X2.d. Realice un análisis de regresión lineal de: Y con X3.e. Realice un análisis de regresión múltiple.

Puntuación de actitud ante la agresión

Page 78: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 9 0

a. Obtenga la base de datos usando comandos del SPSS.b. Realice un análisis de regresión lineal de Y con cada uno de

los cuatro subtest del DAT:c. Realice un análisis de regresión lineal múltiple.

Adolescentes Wais Razonamiento Razonamiento Relaciones Velocidad ymecánico abstracto espaciales exactitud

Y X1 X2 X3

1 48 22 38 15 25

2 48 19 38 15 40

3 47 20 37 20 21

4 46 20 37 17 20

5 46 17 35 19 18

6 43 21 34 15 17

7 42 21 34 14 31

8 42 19 33 20 35

9 41 17 33 13 35

10 40 15 32 15 27

11 39 15 32 12 17

12 32 11 25 15 28

13 31 17 25 9 29

14 30 16 23 9 37

15 29 15 22 13 29

16 29 15 21 9 39

17 28 16 20 11 28

18 27 16 18 11 38

Page 79: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 9 1

a) Haga el diagrama de dispersión.b) Obtenga la recta de regresión Y de sobre X.c) Si un estudiante obtuvo 14,7 en la primera prueba. ¿Cuánto

se espera que obtenga en la segunda prueba?.

Borrós y Fincias (1973) con el propósito de examinar cuál esla influencia que los métodos de enseñanza, basados en el traba-jo libre y creativo del alumno ejercen sobre su rendimiento esco-lar, llevaron a cabo una investigación con 122 niños y niñas, enlos que evaluaron los siguientes aspectos:

Creatividad: CREAT.Coeficiente intelectual: C.I.Capacidad de orden: ORDENRendimiento escolar: RENDIM.

5.8 Se conocen las edades (X) y la presión sanguínea (Y) de 12mujeres. Si

∑ ∑∑∑∑ ===== .89894,238822,34416,1684,628 22iiiiii yxyxyx

a) Encuentre la recta de regresión de Y sobre X.b) Si una mujer tiene 49 años ¿Cuál sería su presión san-guínea?c) Si una mujer tiene 72 años, ¿Cuál es la presión sanguínea

esperada?

5.9 La siguiente tabla muestra las calificaciones obtenidas por10 estudiantes en dos pruebas de Estadística:

X: PrimeraPrueba 12 10 16 16 14 12 20 8 18 14

Y: SegundaPrueba 16 14 14 20 10 16 20 12 16 12

Page 80: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 9 2

a) Use comandos del SPSS para crear el archivo de datos.b) ¿Existe relación entre inteligencia y creatividad?c) Sobre la base de los datos obtenidos en esta experiencia po-

demos afirmar que a mayor creatividad corresponde una me-nor capacidad de orden?

CASO ORDEN C.I. RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT.

1 8 114 0,85 8,00 31 4 109 0,84 4,502 6 103 0,87 4,00 32 7 113 0,88 7,503 5 97 0,90 8,00 33 7 123 0,86 6,004 3 94 0,80 2,00 34 10 106 0,91 8,005 4 88 0,70 9,00 35 7 110 0,74 6,006 6 76 0,70 4,00 36 6 95 0,62 5,507 7 116 1,00 10,00 37 9 125 0,92 7,008 4 86 0,73 5,50 38 6 100 0,62 2,009 4 97 0,99 3,00 39 7 112 0,72 2,0010 3 91 0,75 8,00 40 3 53 0,14 5,0011 6,5 123 1,50 3,50 41 3,5 77 0,21 1,5012 5 63 0,73 1,00 42 7 100 0,65 3,5013 3 92 0,90 6,00 43 8 105 0,78 5,0014 5 86 0,82 8,00 44 5 89 0,48 0,0015 5,5 84 0,81 5,00 45 6 105 0,91 4,5016 4,5 63 0,62 5,00 46 4 92 0,97 6,0017 4 88 0,77 7,00 47 3 98 0,62 2,0018 10 128 0,99 7,00 48 3 91 0,84 4,0019 7 102 0,78 6,00 49 6 90 0,63 0,0020 8 115 0,98 7,00 50 6 98 0,89 6,5021 6 93 0,74 6,00 51 6 113 1,05 6,0022 10 130 0,94 7,00 52 4 92 0,84 3,0023 7 90 0,76 4,00 53 8 98 0,74 5,0024 5 90 0,81 5,00 54 7 86 0,58 0,5025 9 102 0,92 8,00 55 5 88 0,82 2,0026 7 102 0,85 7,00 56 5 88 0,92 1,5027 7 99 0,91 6,00 57 5 102 0,75 3,0028 6 100 0,73 6,00 58 5 101 0,88 6,5029 6 88 0,64 5,00 59 6 76 0,81 4,0030 4 74 0,45 3,00 60 4 94 0,65 0,00

Page 81: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 9 3

d) Sobre la base de los datos obtenidos en esta experiencia pode-mos afirmar que existe relación lineal entre rendimiento esco-lar y creatividad?.

e) ¿Cuál es la recta que mejor permite predecir la variable ren-dimiento escolar en función de la variable creatividad? In-terprete.

f) ¿Manteniendo constante la capacidad intelectual de losalumnos, la creatividad está relacionada con el rendimientoescolar?.

g) En base a los datos obtenidos en esta experiencia podemosafirmar que ¿existe relación lineal entre el rendimiento es-colar y la inteligencia?.

h) ¿Cuál es la ecuación de la recta que permite predecir el ren-dimiento escolar en función de la variable inteligencia? In-terprete.

Con los datos de ejercicio 3.8, realice la prueba de Mann-Whitney.

Con los datos de la variable EXAMEN FINAL del ejercicio5.4, responda lo siguiente:

a) ¿Los datos se distribuyen normalmente?b) ¿Puede concluir que la mediana poblacional es diferente

de 68?

Con los datos de la variable PUNTUACIÓN DE AUTOESTI-MA del ejercicio 5.5, responda lo siguiente:

a) ¿Los datos se distribuyen normalmente?c) ¿Puede concluir que la mediana poblacional es diferente

de 50?

En tres regiones de un país se investiga el grado de pro-pensión al ahorro de sus habitantes. Para verificar si la dis-posición al ahorro es similar en dichas regiones se obtiene una

Page 82: Capítulo V Análisis de regresión y correlaciónsisbib.unmsm.edu.pe/bibvirtualdata/libros/Matematicas/inferencia/... · diente en el eje horizontal. ... determinar la relación

2 9 4

muestra ciudades de cada una de ellas. Obteniéndose la siguien-te información.

Muestra de Muestra de Muestra deRegión 1 Región 2 Región 3

0.251 0.140 0.1120.326 0.204 0.3060.146 0.318 0.2410.093 0.1090.172

Se puede concluir que el grado de propensión al ahorro es lamisma en las tres regiones. Use un nivel de significación α = 0.05.