Upload
kai69
View
502
Download
4
Embed Size (px)
DESCRIPTION
apuntes de spss
Citation preview
7
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 4. REPASO DESCRIPTIVA En el fichero Alumnos.sav aparece información sobre el gasto en material de estudiantes de primer curso durante dos meses consecutivos, así como la rama de la carrera que estudian y diversos datos personales. Realiza el estudio descriptivo de los datos que se pide a continuación:
1.- Variable Carrera. Moda = Ciencias Experimentales
-Tabla de frecuencias
Carrera
Frecuencia
Porcentaje
Porcentaje
válido
Válidos Ciencias Sociales 11 15,7 16,2
Humanidades 8 11,4 11,8
Ciencias de la Salud 20 28,6 29,4
Ciencias Experimentales 22 31,4 32,4
Enseñanzas Técnicas 7 10,0 10,3
Total 68 97,1 100,0
Perdidos Sistema 2 2,9
Total 70 100,0
-Realiza el gráfico de sectores de porcentajes (sin datos perdidos, donde aparezcan los porcentajes fuera de los
sectores y desgajando el sector de Ciencias Experimentales)
2.- Realiza un gráfico de barras de porcentajes de la variable Carrera separada por hombres y mujeres.
8
3.- Realizar un estudio exploratorio y descriptivo de las variables cuantitativas.
Estadísticos
Estatura
Peso
Gasto en Septiembre
Gasto en Octubre
N Válidos 68 68 70 70
Perdidos 2 2 0 0
Media 1,6974 65,21 87,17 90,31
Mediana 1,7000 65,00 82,00 85,00
Moda 1,72 62 82 87
Desviación típica 0,06945 8,608 20,848 19,867
Asimetría
Muestra����
0,332
simétrica
0,008
simétrica
3,181
Asimétrica positiva
2,056
Asimétrica positiva
Curtosis
Muestra����
0,052
mesocúrtica
-0,257
mesocúrtica
13,362
leptocúrtica
4,169
leptocúrtica
Percentil 25 1,6425 61,00 75,00 80,00
Percentil 75 1,7400 72,00 92,00 92,25
El 25% de los alumnos tiene un peso superior a 72 kilos El 75% de los alumnos gastó en septiembre menos de 92 € El 50% de los alumnos tiene una estatura inferior a 1.70
Buscar los correspondientes intervalos de confianza del 95% para la asimetría y la curtosis, decidiendo la forma de la
distribución de los datos de la población de la cual procede la muestra.
Los Intervalos se construyen (-2 error, 2 error) , siendo el error correspondiente a la asimetría y curtosis
respectivamente
INTERVALO ASIMETRIA CURTOSIS Estatura (-0.582, 0.582 ) (-1.148, 1.148)
Peso (-0.582, 0.582 ) (-1.148, 1.148)
Gasto en Septiembre (-0.574, 0.574) (-1.132, 1.132)
Gasto en Octubre (-0.574, 0.574) (-1.132, 1.132)
El coeficiente de asimetría de Estatura: 0.332 pertenece al intervalo (-0.582, 0.582 ) la población de la que proceden
los datos de la variable es simétrica.
El coeficiente de asimetría de Peso: 0.008 pertenece al intervalo (-0.582, 0.582 ) la población de la que proceden los
datos es simétrica.
El coeficiente de asimetría de Gasto en Septiembre: 3.181 no pertenece al intervalo (-0.574, 0.574) la población de la
que proceden los datos es asimétrica positiva o por la derecha.
El coeficiente de asimetría de Gasto en Octubre: 2.056 no pertenece al intervalo (-0.574, 0.574) la población de la que
proceden los datos es asimétrica positiva o por la derecha.
El coeficiente de curtosis de Estatura: 0.052 pertenece al intervalo (-1.148, 1.148) la población de la que proceden los
datos es mesocurtica.
El coeficiente de curtosis de Peso: -0.257 pertenece al intervalo (-1.148, 1.148) la población de la que proceden los
datos es mesocurtica.
El coeficiente de curtosis de Gasto en Septiembre: 13.362 no pertenece al intervalo (-1.132, 1.132) la población de la
que proceden los datos es leptocurtica.
El coeficiente de curtosis de Gasto en Octubre: 4.169 no pertenece al intervalo (-1.132, 1.132) la población de la que
proceden los datos es leptocurtica.
9
4.- Realizar el histograma de cada una de las variables cuantitativas con 10 intervalos.
5.- Obtener los descriptivos siguientes para la variable Gastos en Septiembre para las distintas ramas de carrera.
Gastos en Septiembre Media Mediana Moda Desviación típ. Varianza
Ciencias Sociales 77 76 72a 8.967 80.4
Humanidades 83 81.5 80 6.437 41.429
Ciencias de la Salud 86.8 82.5 70 14.820 219.642
Ciencias Experimentales 95.73 88.50 90a 31.549 995.351
Enseñanzas Técnicas 84 86 70a 11.299 127.667
a. Existen varias modas, en la tabla se muestra la menor, el resto son (se pueden ver en las correspondientes tablas de
frecuencias):
Para Ciencias Sociales son valores modales 72, 76 y 82.
Para Ciencias Experimentales son valores modales 90, 93, 100 y 150.
Para Enseñanzas Técnicas son moda 70 y 91.
10
6.- Realiza un diagrama de cajas o box-plot de la variable Gastos en Septiembre separada para las diferentes ramas
de carrera. Comenta lo que se observa en el gráfico.
El gasto en septiembre para las carreras de ciencias experimentales tiene un valor mediano superior al resto de las
carreras y presenta datos extremos (correspondientes a alumnos con un gasto de 150 y 200 €). La variabilidad del
gasto en las ramas de ciencias sociales y humanidades es menor que en el resto de las ramas. También se puede
apreciar en los diagramas la asimetría en alguna de las ramas.
7.- Realiza el estudio de las variables peso y estatura separándolo para hombres y mujeres.
Peso-Hombres Peso-Mujeres Estatura-Hombres Estatura-Mujeres N Válidos 40 28 40 28
Media 70,30 57,93 1,7265 1,6557
Mediana 70,00 60,00 1,7200 1,6500
Moda 73 50 1,72 1,60 y 1,65
Desviación típica 6,268 5,811 0,06720 0,04887
Asimetría
Muestra���� 0,444
Simétrica
-0,351
Simétrica
0,030
Simétrica
0,194
Simétrica
Curtosis
Muestra����
-0,166
Mesocúrtica -1,576
Platicúrtica 0,569
Mesocúrtica -0,776
Platicúrtica El 25% de los hombres tiene un peso superior a 75 kilos El 25% de las mujeres tiene una estatura inferior a 1.62 El 75% de los hombres tiene una estatura inferior a 1.78 El 50% de las mujeres tiene un peso superior a 60 kilos
11
Buscar los correspondientes intervalos de confianza del 95% para la asimetría y la curtosis, decidiendo la forma de la
distribución de los datos de la población de la cual procede la muestra.
INTERVALO ASIMETRIA CURTOSIS Peso – Hombres
Población����
(-0.748, 0.748)
Simétrica
(-1.466, 1.466)
Mesocúrtica
Peso – Mujeres
Población����
(-0.882, 0.882)
Simétrica
(-1.716, 1.716)
Mesocúrtica
Estatura – Hombres
Población����
(-0.748, 0.748)
Simétrica
(-1.466, 1.466)
Mesocúrtica
Estatura – Mujeres
Población����
(-0.882, 0.882)
Simétrica
(-1.716, 1.716)
Mesocúrtica
8.- Box-Plot de dichas variables (Peso y Estatura) separándolas por hombres y mujeres. Compara el Box-plot que
resulta sin dicha separación.
Box-Plot de Estatura:
La variable estatura toma valores inferiores en el grupo de las mujeres donde la distribución parece más simétrica que
en el grupo de los hombres, en este grupo hay un dato atípico, un hombre con una estatura de 1,57.
Si se realiza el estudio de ambos grupos juntos, el dato atípico anterior desaparece (al ser un valor cercano al grupo de
las mujeres) y aparece un nuevo dato atípico que es un hombre que mide 1,90. Se observa simetría en el gráfico.
Box-Plot de Peso:
La variable Peso toma valores inferiores en el grupo de las mujeres, donde se aprecia asimetría y mayor dispersión
entre el primer y el tercer cuartil.
9
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 5. INTERVALOS DE CONFIANZA Y CONTRASTES DE MEDIAS
Usando los datos de la práctica 4 realiza los intervalos y contrastes de medias que se indican
1.- Determinar los intervalos de confianza para la media poblacional de la estatura y el peso con una
confianza del 90%, 95% y 99%.
Intervalo de confianza
para la media poblacional
Estatura Peso
Al 90% ( 1,6833 - 1,7114 ) ( 63,46 - 66,95 )
Al 95% ( 1,6805 - 1,7142 ) ( 63,12 - 67,29 )
Al 99% ( 1,6750 - 1,7197 ) ( 62,44 - 67,97 )
¿Cuál es la estatura media en la muestra? 1,6974
¿Cuál es el peso medio en la muestra? 65,21
Con una confianza del 95% ¿se puede decir que la estatura media es de 1.70? Si, 1,70 ∈IC95%
Con una confianza del 99% ¿se puede decir que el peso medio es de 61 kg? No, 61∉ IC99%
Con una confianza del 90% ¿se puede afirmar que el peso medio es de 65 kg? Si, 65∈IC90%
¿Qué le sucede a los intervalos al aumentar el nivel de confianza? Al aumentar la confianza el intervalo
aumenta de longitud.
2.- Realiza los intervalos de confianza correspondientes separados para hombres y mujeres.
Intervalo de confianza
para la media poblacional
Estatura-Hombres Estatura-Mujeres
Al 90% ( 1,7086 - 1,7444 ) ( 1,6400 - 1,6714 )
Al 95% ( 1,7050 - 1,7480 ) ( 1,6368 - 1,6747 )
Al 99% ( 1,6977 - 1,7553 ) ( 1,6301 - 1,6813 )
¿Cuál es la estatura media de los hombres de la muestra? 1,7265
¿Cuál es la estatura media de las mujeres de la muestra? 1,6557
Con una confianza del 95% ¿se puede decir que la estatura media en los hombres de la población es superior
a la estatura media de las mujeres de la población? Si, porque el intervalo de confianza que contiene a la
media de los hombres es superior al intervalo de confianza que contiene a la media de las mujeres, y al no
tener intersección no hay valores comunes.
Con una confianza del 99% ¿se puede decir que la estatura media en los hombres es de 1.68?
No, 1.68∉ IC99%
Con una confianza del 90% ¿se puede afirmar que la estatura media en las mujeres es de 1.68?
No, 1.68∉ IC90%
Intervalo de confianza
para la media poblacional
Peso-Hombres Peso-Mujeres
Al 90% ( 68,63 - 71,97 ) ( 56,06 - 59,80 )
Al 95% ( 68,30 - 72,30 ) ( 55,68 - 60,18 )
Al 99% ( 67,62 - 72,98 ) ( 54,89 - 60,97 )
10
¿Cuál es el peso medio de los hombres de la muestra? 70,30
¿Cuál es el peso medio de las mujeres de la muestra? 57,93
Con una confianza del 95% ¿se puede decir que el peso medio en los hombres de la población es inferior al
peso medio de las mujeres en la población? No es superior.
Con una confianza del 99% ¿se puede decir que el peso medio en los hombres es de 65 kg? No, 65∉ IC99%
Con una confianza del 90% ¿se puede afirmar que el peso medio en las mujeres es de 65 kg? No, 65∉ IC90%
3.- Con un nivel de significación del 5% decidir si puede considerarse que la estatura media es 1,75.
¿Qué hipótesis estamos contrastando? H0: µestatura=1,75 frente a H1: µestatura≠1,75
¿Cuál es el valor del estadístico de contraste T? -6,251
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos que la estatura media es de 1,75? No, Sig=0< α=0.05 rechazamos H0 la estatura media no es
1.75
Si no lo aceptamos, ¿es mayor o menor que 1,75?
IC µ-1,75= (-0,0695, -0,0358), por lo que µ-1,75<0, es decir µ<1,75 la media es menor que 1,75.
Repite el ejercicio cambiando el valor de contraste por 1,70 y 1,60. Comenta las diferencias que observas.
H0: µ=1.70 frente a H1: µ≠1.70
T= - 0.314
Sig=0,754 > α=0.05 aceptamos H0
IC µ-1,70= (-0.0195, 0.0142),
0∈IC, µ-1.70=0
H0: µ=1.60 frente a H1: µ≠1.60
T= 11.560
Sig=0< α=0.05 rechazamos H0
IC µ-1,60= (0.0805, 0.1142),
µ-1,60>0 por lo que µ>1.60
4.- Con un nivel de significación del 5% decidir mediante una prueba paramétrica si puede considerarse que
el gasto medio en septiembre es de 70 €.
¿Qué hipótesis estamos contrastando? H0: µgastoS=70 frente a H1: µgastoS≠70
¿Cuál es el valor del estadístico de contraste T? 6.891
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos que el gasto medio en septiembre es de 70€? No, Sig=0< α=0.05 rechazamos H0
Si no lo aceptamos, ¿es mayor o menor que 70? IC µgastoS- 70= (12.20, 22.14), por lo que µgastoS-70>0, es
decir µgastoS>70 la media es mayor que 70.
5.- Con un nivel de significación del 5% decidir mediante una prueba paramétrica si puede considerarse que
el gasto medio en octubre es de 89 €.
¿Qué hipótesis estamos contrastando? H0: µgastoO=89 frente a H1: µgastoO≠89
¿Cuál es el valor del estadístico de contraste T? 0.553
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.582
¿Aceptamos que el gasto medio en octubre es de 89€? Si, Sig=0.582 > α=0.05 aceptamos H0
Si no lo aceptamos, ¿es mayor o menor que 89? Es igual, 0 pertenece al intervalo ( -3.42, 6.05)
11
6.-Contrastar la hipótesis de que la estatura media en hombres y mujeres es la misma, mediante un test
paramétrico, con un nivel de significación del 1 %:
¿Qué hipótesis estamos contrastando? H0: µEh= µEm frente H1: µEh≠ µEm
¿Aceptamos la igualdad de las varianzas? H0: σ2
Eh= σ2
Em frente H1: σ2
Eh≠σ2
Em
Sig=0.307> α=0.01 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? 4.758
¿Con cuántos grados de libertad? 66
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos la igualdad de las medias? No, Sig=0< α=0.01 rechazamos H0 las medias no son iguales
Si las medias no son iguales ¿qué grupo tiene una estatura media mayor? IC µEh- µEm = (0.04108, 0.10049)
µEh- µEm >0, por lo que µEh>µEm los hombres tienen una estatura media mayor que las mujeres.
7.-Contrastar la hipótesis de que el gasto medio en septiembre es el mismo en las carreras de Ciencias
Sociales y en las de Ciencias Experimentales, con un nivel de significación del 5 %:
¿Qué hipótesis estamos contrastando? H0: µgastoSCS= µgastoSCE frente H1: µgastoSCS ≠ µgastoSCE
¿Aceptamos la igualdad de las varianzas? H0: σ2
gastoSCS= σ2
gastoSCE frente H1: σ2
gastoSCS≠σ2
gastoSCE
Sig=0.065> α=0.05 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? – 1.917
¿Con cuántos grados de libertad? 31
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.065
¿Aceptamos la igualdad de las medias? Si, Sig=0.065> α=0.05 aceptamos H0
Si las medias no son iguales ¿qué grupo tiene un gasto mayor? Son iguales, 0 pertenece al intervalo
8.- Contrastar la hipótesis de que el peso medio en la población es el mismo para las personas con estatura
menor que 1,65 que para las que tienen estatura mayor que 1,65, mediante un test paramétrico, con un nivel
de significación del 5 %:
¿Qué hipótesis estamos contrastando? H0: µpesoest≥1.65= µpesto, est<1.65 frente H1: µpesoest≥1.65 ≠ µpesto, est<1.65
¿Aceptamos la igualdad de las varianzas?
H0: σ2 pesoest≥1.65= σ
2 pesto, est<1.65 frente H0: σ
2pesoest≥1.65≠σ
2 pesto, est<1.65
Sig=0.786> α=0.05 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? 2.514
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.014
¿Aceptamos la igualdad de las medias? No, Sig=0.014< α=0.05 rechazamos H0
Si las medias no son iguales, ¿qué grupo tiene un peso medio mayor? IC= (1.168, 10.212)
Por lo que µpesoest≥1.65- µpesto, est<1.65 >0, es decir µpesoest≥1.65 > µpesto, est<1.65 el peso medio de la población es
mayor en las personas con estatura superior a 1.65
12
9.-Con un nivel de significación del 5% decidir mediante una prueba paramétrica si el gasto medio en
septiembre es el mismo que el gasto medio en octubre.
¿Qué hipótesis estamos contrastando? H0: µgastoS-gastoO=0 frente H1: µgastoS-gastoO=0
¿Cuál es el valor del estadístico de contraste T? -0.999
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.321
¿Aceptamos que el gasto medio es el mismo en los dos meses? Si, Sig=0.321 > α=0.05 aceptamos H0
Si el gasto no es el mismo, ¿cuándo tienen mayor gasto en septiembre o en octubre? Es el mismo
IC=(-9.421, 3.136) el valor cero pertenece al intervalo.
¿Están las variables relacionadas linealmente? No, H0: correlación=0, Sig=0.175> α=0.05 aceptamos H0,
Si la correlación es nula no están relacionadas linealmente.
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 6. CONTRASTES DE HIPÓTESIS
En el fichero de datos Practica_6_Datos.sav aparecen parte de los resultados de la encuesta que una empresa de marketing ha realizado de cara a lanzar al mercado un nuevo producto. Suponer un nivel de significación del 5% para todos los contrastes 1.- Comprobar si los datos de las variables numéricas proceden de poblaciones Normales
¿Qué hipótesis contrastamos? H0: Variable i ≡ Normal (µ, σ)
¿Qué variables pertenecen a una población Normal? ¿Porqué?
Edad ≡ Normal (µ=42,878; σ=11,569) porque Sig.=0,256 >α= 0,05 acepto H0.
Ingresos ≡ Normal (µ=1473,946; σ=548,351) porque Sig.=0,161 >α= 0,05 acepto H0.
Gasto de enero en alimentación≡ Normal (µ=471,822; σ=97,235) porque Sig.=0,276 >α= 0,05 acepto H0.
Gasto de ocio en enero≡ Normal (µ=159,876; σ=44,191) porque Sig.=0,377 >α= 0,05 acepto H0.
Gasto de marzo en alimentación≡ Normal (µ=478,081; σ=120,33) porque Sig.=0,491 >α= 0,05 acepto H0.
Gasto de ocio en marzo≡ Normal (µ=125,041; σ=42,081) porque Sig.=0,155 >α= 0,05 acepto H0.
La variable número de hijos no es Normal.
2. -Se cree que el gasto medio en alimentación cambia de enero a marzo, realiza el contraste para verificarlo:
¿Qué hipótesis contrastamos? H0: µalimentaciónE=µalimentaciónM frente H1: µalimentaciónE≠µalimentaciónM
¿Cuál es el valor del estadístico de contraste T? – 0,528
¿Con cuantos grados de libertad? 73
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0,599
¿Si es cierta dicha creencia, en que mes tienen más gastos en alimentación? ¿Por qué?
Acepto H0 porque Sig=0.599>α= 0,05, por lo tanto el gasto medio en alimentación no cambia de enero a
marzo.
¿Están las variables relacionadas linealmente? Si, el coeficiente de correlación es 0.579, y se realiza el
contraste H0:ρ=0, como la Sig=0<α= 0,05 rechazo la hipótesis nula.
3.- Decidir si puede considerarse el ingreso medio en las mujeres mayor que 2500.
¿Qué hipótesis estamos contrastando? H0: µ INGRESOmujeres=2500 frente a H1: µ INGRESOmujeres≠2500
¿Cuál es el valor del estadístico de contraste T? -17,363
¿Cuál es el valor de la significación muestral? 0
¿Cuál es la conclusión sobre el ingreso medio en las mujeres?
Como la Sig=0<α= 0,05 rechazo la hipótesis nula, es decir, el ingreso medio no es igual a 2500, para ver si
es mayor o menor nos fijamos en el intervalo de confianza para la diferencia: ICµ-2500=(-1270,81; -
1006,63), por lo que µ-2500<0, es decir, µ<2500, el ingreso medio en las mujeres es menor de 2500.
4. -Hacer un estudio para saber si los ingresos medios son distintos para los residentes en la zona sur y los de
la zona oeste
¿Qué hipótesis contrastamos? H0: µ INGRESOSsur=µ INGRESOSoeste frente H1: µ INGRESOSsur≠µ INGRESOSoeste
¿Qué hipótesis previas necesitamos contrastar y qué decidimos en este contraste previo?
H0: σ2
INGRESOSsur=σ2
INGRESOSoeste frente H1: σ2
INGRESOSsur≠σ2
INGRESOSoeste. El valor del estadístico F=9,458, el
valor de la Sig.=0,004<α= 0,05 rechazo la hipótesis nula, por lo que las varianzas de ambos grupos son
distintas.
¿Cuál es el valor del estadístico de contraste T? -1,930
¿Cuál es el valor de la significación muestral? 0,063
¿Son distintos los ingresos según se resida en la zona sur u oeste? ¿Por qué?
El valor de la significación es 0,063>α= 0,05 acepto la hipótesis nula, por lo que los ingresos son iguales
para los residentes de la zona sur u oeste.
En caso de que dichos ingresos sean distintos, ¿Dónde es mayor?
5.- Realizar un estudio para saber si el gasto medio en alimentación en el mes de enero es distinto para los
mayores de 40 años y para los menores de 40.
¿Qué hipótesis contrastamos? H0: µ GastoAe≥40=µ GastoAe<40
frente H1: µ GastoAe≥40 ≠µ GastoAe<40
¿Qué hipótesis previas necesitamos contrastar y qué decidimos en este contraste previo?
H0: σ2
GastoAe≥40=σ2
GastoAe<40
frente H1: σ2GastoAe≥40 ≠σ
2 GastoAe<40
El valor de la Sig.=0,002<α= 0,05 rechazo la hipótesis nula, por lo que las varianzas de ambos grupos son
distintas.
¿Cuál es el valor del estadístico de contraste T? 7,768
¿Cuál es el valor de la significación muestral? 0
¿Son distintos los gastos medios de alimentación en ambos grupos? ¿Por qué?
El valor de la Sig.=0<α= 0,05 rechazo la hipótesis nula, por lo que el gasto medio en alimentación en el mes
de enero es distinto en ambos grupos.
En caso de que dichos gastos medios sean distintos, ¿En qué grupo es mayor?
Según el intervalo de confianza para la diferencia de medias, ICµ GastoAe≥40-µ GastoAe<40 =(95,719; 162, 479),
se tiene que µ GastoAe≥40-µ GastoAe<40 >0, por lo que µ GastoAe≥40>µ GastoAe<40, el gasto medio en alimentación en
el mes de enero es superior para los mayores de 40 años.
6. Se cree que el gasto medio en ocio no cambia de enero a marzo, realiza el contraste para verificarlo:
¿Qué hipótesis contrastamos? H0: µE=µM frente H1: µE≠µM
¿Cuál es el valor del estadístico de contraste T? 4,773
¿Con cuantos grados de libertad? 73
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Es cierto que el gasto medio en ocio no cambia de enero a marzo? ¿Por qué?
El valor de la Sig.=0<α= 0,05, se rechaza la hipótesis nula, por lo que el gasto medio en ocio cambia de
enero a marzo.
En caso de que el gasto medio en ocio sea distinto, ¿Dónde es mayor?
El intervalo de confianza de la diferencia de medias es IC µE-µM=(20,290; 49,381), por lo que µE-µM>0, es
decir µE>µM, el gasto medio en ocio es superior en el mes de enero.
¿Están las variables relacionadas linealmente? No, el coeficiente de correlación es -0,059, y se realiza el
contraste H0:ρ=0, como la Sig=0,620>α= 0,05 acepto la hipótesis nula.
7.- Comprobar si el gasto medio en alimentación en enero es superior a 500 €:
¿Qué hipótesis contrastamos? H0: µ =500 frente a H1: µ≠500
¿Cuál es el valor del estadístico de contraste? - 2,493
¿Con cuántos grados de libertad? 73
¿Cuál es el valor de la significación muestral? 0,015
¿Es superior a 500€? ¿Por qué?
El valor de la significación Sig.=0,015<α= 0,05 por lo que se rechaza la hipótesis nula. El intervalo para la
diferencia IC µ -500=(-50,71; -5,65). Por tanto, µ -500<0, el valor del gasto medio es inferior a 500.
8.- ¿Se puede considerar que el ingreso medio en los hombres mayores de 35 es mayor que 1500?
¿Cuál es el ingreso medio de dicho grupo? 1847,23
¿Qué hipótesis contrastamos? H0: µ H>35=1500 frente a H1: µ H>35≠1500
¿Cuál es el valor del estadístico de contraste? 2,708
¿Con cuántos grados de libertad? 21
¿Cuál es el valor de la significación muestral? 0,013
¿Cuál es la conclusión sobre el ingreso medio en los hombres mayores de 35? ¿Por qué?
El valor de la significación Sig.=0,013<α= 0,05 por lo que se rechaza la hipótesis nula. El intervalo para la
diferencia IC µH>35-1500 =(80,54; 613,92). Por tanto, µH>35-1500 >0, el valor del ingreso medio en los
hombre mayores de 35 es superior a 1500.
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 7. REGRESIÓN LINEAL
Con los datos de la práctica 6, se quiere hacer un estudio para determinar si es posible conocer los gastos familiares en ocio y alimentación. Para ello se plantea un ajuste lineal simple conocidos los ingresos familiares. Determinar si es posible dicho ajuste. 1.- Realiza los gráficos de dispersión de las variables relativas a los gastos frente a los ingresos, ¿qué pareja de variables podría tener un ajuste lineal?
El coeficiente de determinación es R2=0,642, por lo que se explica el 64,2% de la variabilidad de los gastos de enero en alimentación.
El coeficiente de determinación es R2=0,784, por lo que se explica el 78,4% de la variabilidad de los gastos de ocio en enero.
El coeficiente de determinación es R2=0,414, por lo que se explica el 41,4% de la variabilidad de los gastos de marzo en alimentación. Por lo que el ajuste lineal no es bueno.
El coeficiente de determinación es R2=0,042, por lo que se explica el 4,2% de la variabilidad de los gastos de ocio en marzo. Por lo que el ajuste lineal no es bueno.
Según lo visto en los gráficos de dispersión, la que mejor ajuste lineal presenta es gasto de ocio en enero, con un ajuste del 78,4%.
2.- Comprueba lo visto en el gráfico de dispersión con el coeficiente de correlación de las variables ¿Cuáles están correladas? ¿Por qué? La variable Ingresos mensuales está correlada linealmente con Gastos de enero en alimentación r=0,801 La variable Ingresos mensuales está correlada linealmente con Gastos de ocio en enero r=0,885 La variable Ingresos mensuales está correlada linealmente con Gastos de marzo en alimentación r=0,644 En todos los casos la significación es 0<α=0.05 por lo que se rechaza H0: correlación=0. La variable Gastos de ocio en marzo no esta relacionada linealmente con los Ingresos. Según lo anterior se hará el estudio con la más relacionada linealmente que es gastos de ocio en enero. 3.-¿Cuál es la variable independiente y la dependiente del ajuste lineal? La independiente son los ingresos=X y la dependiente es Y=Gastos de ocio en enero 4.- Realiza el ajuste de regresión lineal simple Y=a+bX, contestando las siguientes preguntas: ¿Tiene sentido la regresión? Si ¿Por qué? H0: No existe regresión Según la tabla ANOVA, Sig=0<α=0.05 por lo que se rechaza que no tiene sentido el modelo de regresión. ¿Cómo se escribe la recta de regresión? ¿Por qué? Y= 54,730+0,071X H0: Coeficiente=0, Sig=0<α=0.05 por lo que se rechaza la hipótesis nula. ¿Cuál es el intervalo de confianza para los coeficientes del modelo poblacional? Y=a+bX a∈(40,889 ; 68,571) b∈(0,063 ; 0,080) ¿Es bueno el modelo dado por la recta de regresión anterior? ¿Por qué? R cuadrado=0,784 coeficiente de determinación, indica el porcentaje de variabilidad de la variable Y explicado por el modelo En la tabla también aparecen r=0,885 es el coeficiente de correlación lineal entre las variables, y R cuadrado corregida= 0,781 es el coeficiente de determinación corregido por el tamaño muestral. ¿Cuáles son los valores máximos y mínimos para los valores predichos y errores? (Ver sobre la tabla)
Estadísticos sobre los residuosa
Mínimo Máximo Media
Desviación
típica N
Valor pronosticado 108,23 243,56 159,88 39,117 74
Residual -75,062 72,986 ,000 20,559 74
Valor pronosticado tip. -1,320 2,139 ,000 1,000 74
Residuo típ. -3,626 3,526 ,000 ,993 74
a. Variable dependiente: Gastos de ocio en enero
¿Cuál es la media de los errores? 0 ¿Y la cuasidesviación típica? 20,559
5.- Para el modelo obtenido estudiar si los errores (guardar los residuos no tipificados) son: Normales. NO ¿Por qué? H0: Residuos Normales, en la prueba de Kolmogorov-Smirnov la Sig. =0,008<α=0.05 por lo que se rechaza la hipótesis nula. Aleatorios. SI ¿Por qué? H0:Residuos Aleatorios, en la prueba de Rachas la Sig=0,995> α=0.05 acepto H0. (OJO: la prueba de rachas puede dar otro resultado si los datos en el fichero están descolocados)
Independientes. NO ¿Por qué? El valor del estadístico de Durbin-Watson= 1,359 como no es próximo a 2, entre (1.5, 2,5) los residuos no son independientes. 6.- Usando el ajuste de regresión:
¿Qué gasto en ocio en enero tendrá un sujeto con unos ingresos de 1650€?
Y= 54,730+0,071X, Y=54,730+0,071(1650)=171,88€
¿Qué gasto en ocio en enero tendría el encuestado número 28 según el modelo? 243,55770 ¿Con qué error? -13,55770
(Estos valores aparecen en el fichero de datos, al guardar los valores pronosticados y los residuos no tipificados.)
7.- Según los estudios más recientes se sabe que el gasto en ocio en el mes de enero depende no solo de los ingresos, sino que también de la edad, el número de hijos y el gasto en alimentación. Realiza un estudio de regresión lineal múltiple Y=a+b1X1+b2X2+b3X3+b4X4 para determinar el ajuste más apropiado. Comparar los resultados de los métodos Introducir y Pasos sucesivos del SPSS, contesta a las siguientes preguntas con el modelo final elegido: Por el método Introducir el SPSS introduce en el modelo todas las variables independientes (aunque pueden sobrar)
Variables introducidas/eliminadasb
Modelo Variables introducidas Variables eliminadas Método
dimension0
1 Gastos de enero en alimentacion, Numero de hijos, Ingresos mensuales, Edada . Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Gastos de ocio en enero
Resumen del modelob
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
dimension0
1 ,935a ,874 ,867 16,113 1,733
a. Variables predictoras: (Constante), Gastos de enero en alimentacion, Numero de hijos, Ingresos mensuales, Edad
b. Variable dependiente: Gastos de ocio en enero
La bondad del ajuste es del 87,4%
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 124643,806 4 31160,951 120,018 ,000a
Residual 17914,864 69 259,636 1
Total 142558,670 73
a. Variables predictoras: (Constante), Gastos de enero en alimentacion, Numero de hijos, Ingresos mensuales, Edad
b. Variable dependiente: Gastos de ocio en enero
En la tabla ANOVA como la Sig.=0< α=0.05 se rechaza H0: No tiene sentido el modelo de regresión.
Coeficientesa
Coeficientes no
estandarizados
Coeficientes
tipificados
Intervalo de confianza de 95,0%
para B
Modelo
B Error típ. Beta t Sig. Límite inferior Límite superior
(Constante) 29,423 10,652 2,762 ,007 8,173 50,674
Ingresos mensuales ,038 ,007 ,474 5,747 ,000 ,025 ,051
Edad 2,186 ,335 ,572 6,535 ,000 1,519 2,854
Numero de hijos -1,481 2,191 -,029 -,676 ,501 -5,853 2,891
Gastos de enero en
alimentacion
-,037 ,037 -,082 -
1,013
,315 -,111 ,036
a. Variable dependiente: Gastos de ocio en enero
En la tabla de Coeficientes el modelo propuesto sería
Gastos de ocio en enero=29,423+,038 Ingresos mensuales+2,186 Edad-1,481 Numero de hijos-,037 Gastos de enero en alimentación
Pero la Sig> α=0.05 para las variables Número de hijos y Gastos de enero en alimentación, es decir se acepta H0:
coeficiente=0, por lo que sobran estas variables del modelo. Pueden sobrar las dos o sólo una (si existe relación
entre ellas). Habría que volver a realizar el ajuste eliminándolas de una en una y luego las dos a la vez, por el
método introducir. En vez de hacerlo de esta manera, se puede hacer directamente por el método de Pasos
Sucesivos.
Por el método de Pasos Sucesivos
Variables introducidas/eliminadasa
Modelo Variables
introducidas
Variables
eliminadas Método
1 Edad . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). dimension0
2 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Variable dependiente: Gastos de ocio en enero
Por el método de pasos sucesivos, primero se introduce la variable Edad y luego la variable Ingresos. En todas las tablas aparecen los resultados para los dos modelos, siendo mejor el último.
¿Tiene sentido la regresión? SI ¿Por qué?
H0: No existe regresión Según la tabla ANOVA, Sig=0<α=0.05 por lo que se rechaza que no tiene sentido el modelo de regresión.
ANOVAc
Modelo Suma de
cuadrados gl Media cuadrática F Sig.
Regresión 115598,778 1 115598,778 308,722 ,000a
Residual 26959,892 72 374,443 1
Total 142558,670 73
Regresión 124250,220 2 62125,110 240,921 ,000b
Residual 18308,450 71 257,865 2
Total 142558,670 73
a. Variables predictoras: (Constante), Edad
b. Variables predictoras: (Constante), Edad, Ingresos mensuales
c. Variable dependiente: Gastos de ocio en enero
¿Cómo se escribe la recta de regresión? ¿Por qué?
Coeficientesa
Coeficientes no
estandarizados
Coeficientes
tipificados
Intervalo de confianza de 95,0% para
B
Modelo
B Error típ. Beta t Sig. Límite inferior Límite superior
(Constante) 12,384 8,691 1,425 ,158 -4,941 29,708 1
Edad 3,440 ,196 ,900 17,570 ,000 3,050 3,830
(Constante) 20,029 7,332 2,732 ,008 5,410 34,648
Edad 2,036 ,292 ,533 6,976 ,000 1,454 2,618
2
Ingresos
mensuales
,036 ,006 ,442 5,792 ,000 ,023 ,048
a. Variable dependiente: Gastos de ocio en enero
La recta de regresión es, Gastos de ocio en enero= a+b1Edad+b2Ingresos.
Gastos de ocio en enero= 20,029+2,036 Edad+0,036 Ingresos.
¿Cuál es el intervalo de confianza para los coeficientes del modelo poblacional?
a ∈ (5,410 ; 34,648)
b1∈ (1,454 ; 2,618)
b2 ∈ (0,023 ; 0 ,048 )
¿Es bueno el modelo dado por la recta de regresión anterior? Si ¿Por qué?
Resumen del modeloc
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
1 ,900a ,811 ,808 19,351
dimension0
2 ,934b ,872 ,868 16,058 1,760
a. Variables predictoras: (Constante), Edad
b. Variables predictoras: (Constante), Edad, Ingresos mensuales
c. Variable dependiente: Gastos de ocio en enero
El modelo de regresión explica el 87,2% de la variabilidad de la variable dependiente.
¿Cuáles son los valores máximos y mínimos para los valores predichos y errores? (Ver la tabla)
Estadísticos sobre los residuosa
Mínimo Máximo Media
Desviación
típica N
Valor pronosticado 93,34 237,43 159,88 41,256 74
Residual -59,636 36,934 ,000 15,837 74
Valor pronosticado tip. -1,613 1,880 ,000 1,000 74
Residuo típ. -3,714 2,300 ,000 ,986 74
a. Variable dependiente: Gastos de ocio en enero
¿Cuál es la media de los errores? 0 ¿Y la cuasidesviación típica? 15,837
Para el modelo obtenido estudiar si los errores (guardar los residuos no tipificados) son: Normales. Si ¿Por qué? H0: Residuos Normales, en la prueba de Kolmogorov-Smirnov la Sig. =0,501>α=0.05 por lo que se acepta la hipótesis nula.
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized Residual
N 74
Media ,0000000 Parámetros normalesa,b
Desviación
típica
15,83668775
Absoluta ,096
Positiva ,088
Diferencias más
extremas
Negativa -,096
Z de Kolmogorov-Smirnov ,827
Sig. asintót. (bilateral) ,501
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Aleatorios Si ¿Por qué? H0: Residuos aleatorios, en la prueba de rachas la Sig. =0,482>α=0.05 por lo que se acepta la hipótesis nula.
Prueba de rachas
Unstandardized Residual
Valor de pruebaa -1,85019
Casos < Valor de prueba 37
Casos >= Valor de prueba 37
Casos en total 74
Número de rachas 35
Z -,702
Sig. asintót. (bilateral) ,482
a. Mediana
(OJO: la prueba de rachas puede dar otro resultado si los datos en el fichero están descolocados)
Independientes Si ¿Por qué? El estadístico de Durbin-Watson =1,760 ∈(1,5 ; 2,5)
Durbin-Watson
1,760
Usando el ajuste de regresión:
¿Qué gasto en ocio en enero tendrá un sujeto de 40 años, con unos ingresos de 1650€?
Gastos de ocio en enero= 20,029+2,036 Edad+0,036 Ingresos=20,029+2,036(40)+0,036(1650)=160,869
¿Qué gasto en ocio en enero tendría el encuestado número 28 según el modelo? 228,41908 ¿Con qué error? 1,58092 (Estos valores aparecen en el fichero de datos, al guardar los valores pronosticados y los residuos no tipificados.)
1
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 8. REGRESIÓN LINEAL Y NO LINEAL
Con los datos de la Práctica 6, se quiere hacer un estudio para determinar si es posible conocer los gastos familiares en ocio y alimentación. 1.- Según estudios recientes se puede predecir el gasto en alimentación en el mes de enero (AE) a partir de los ingresos (I) y del gasto en ocio en el mes de enero (OE), mediante un modelo de la forma: AE=a+b1I+b2OE+b3OE2. Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir
Variables introducidas/eliminadasb
Modelo Variables introducidas Variables eliminadas Método
dimension0
1 OE2, Ingresos mensuales, Gastos de ocio en eneroa . Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Gastos de enero en alimentación
a) ¿Existe regresión? Si ¿Por qué? La Sig de la tabla ANOVA=0<α=0.05 se rechaza H0: No existe regresión
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 458404,198 3 152801,399 46,148 ,000a
Residual 231780,582 70 3311,151 1
Total 690184,780 73
a. Variables predictoras: (Constante), OE2, Ingresos mensuales, Gastos de ocio en enero
b. Variable dependiente: Gastos de enero en alimentacion
b) ¿Cómo se escribe el modelo de regresión? AE=a+b1I+b2OE+b3OE2.
AE=139,415+0,095 I+1,763 OE-0,003 OE2. Sobran variables.
Coeficientesa
Coeficientes no estandarizados
Coeficientes
tipificados
Modelo
B Error típ. Beta t Sig.
(Constante) 139,415 93,448 1,492 ,140
Ingresos mensuales ,095 ,026 ,535 3,585 ,001
Gastos de ocio en enero 1,763 1,191 ,801 1,479 ,144
1
OE2 -,003 ,003 -,508 -,986 ,327
a. Variable dependiente: Gastos de enero en alimentacion
c) ¿Se puede considerar nulo algún coeficiente? Si ¿Por qué? La constante, el coeficiente de gasto de ocio en enero y gasto de ocio en enero al cuadrado. La sig> α=0.05 se acepta H0: coeficiente=0. Puede que no todos los coeficientes sean nulos, para comprobarlo se vuelve a realizar el estudio por Pasos Sucesivos.
2
Si la respuesta al apartado c) es afirmativa, rehacer el modelo (pasos sucesivos). Si es negativa continuar con el mismo modelo.
Variables introducidas/eliminadasa
Modelo Variables
introducidas
Variables
eliminadas Método
dimension0
1 Ingresos
mensuales
. Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Variable dependiente: Gastos de enero en alimentacion
d) ¿Cuál es el modelo resultante? AE=262,471 +0,142 I
Coeficientesa
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 262,471 19,659 13,351 ,000 1
Ingresos
mensuales
,142 ,013 ,801 11,353 ,000
a. Variable dependiente: Gastos de enero en alimentacion
Según la significación de la tabla no sobra ningún coeficiente. La Sig.=0< α=0.05 se rechaza H0: coeficiente=0. e) ¿Es bueno dicho modelo? No es muy bueno ¿Por qué?
Resumen del modelob
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
dimension0
1 ,801a ,642 ,637 58,614 1,916
a. Variables predictoras: (Constante), Ingresos mensuales
b. Variable dependiente: Gastos de enero en alimentacion
El modelo sólo explica el 64,2% de la variabilidad de la variable Y: gasto de enero en alimentación.
f) Los residuos: ¿Son normales? No ¿Por qué? La Sig=0,001<α=0.05 se rechaza H0: Normal.
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized Residual
N 74
Media ,0000000 Parámetros normalesa,b
Desviación típica 58,21131445
Absoluta ,222
Positiva ,145
Diferencias más
extremas
Negativa -,222
Z de Kolmogorov-Smirnov 1,907
Sig. asintót. (bilateral) ,001
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
3
¿Son aleatorios? Si ¿Por qué? Sig=0,062>α=0.05 se acepta H0: Aleatorio
Prueba de rachas
Unstandardized Residual
Valor de pruebaa -,12886
Casos < Valor de prueba 36
Casos >= Valor de prueba 38
Casos en total 74
Número de rachas 30
Z -1,868
Sig. asintót. (bilateral) ,062
a. Mediana
(OJO: la prueba de rachas puede dar distintos resultados si el fichero de datos esta desordenado)
¿Son independientes? Si ¿Por qué? El coeficiente de Durbin-Watson=1,916∈(1,5 ; 2,5)
Durbin-Watson
1,916
Este valor aparece en la tabla Resumen del Modelo si previamente se ha seleccionado
g) ¿Cuál es el gasto en alimentación para el ultimo encuestado? 450 ¿Cuál se ha pronosticado? 461,31887 ¿Con qué error? -11,31887 (Estos valores aparecen en el fichero de datos al guardar los valores pronosticados y los residuos no
tipificados)
Comparar los resultados que se obtienen si separamos el estudio anterior en función del nivel de estudios. Segmentamos el fichero de datos por el nivel de estudios. Se hace el estudio directamente por Pasos Sucesivos: Para el grupo de encuestados que tienen estudios Primarios
Variables introducidas/eliminadasa,b
Modelo Variables introducidas Variables eliminadas Método
dimension0
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Nivel de estudios = Primarios
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
ANOVAb,c
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresió
n
3162,694 1 3162,694 105,795 ,000a
Residual 358,734 12 29,895
1
Total 3521,429 13
a. Variables predictoras: (Constante), Ingresos mensuales
b. Nivel de estudios = Primarios
c. Variable dependiente: Gastos de enero en alimentacion
4
Como se aprecia sólo aparece en el modelo la variable ingresos mensuales con una bondad de ajuste del 89.8%, el ajuste es bueno en los que tienen estudios primarios.
b. Variable dependiente: Gastos de enero en alimentación
Resumen del modelob,c
Modelo
R
R
cuadrado
R cuadrado
corregida
Error típ. de la
estimación Durbin-Watson
dimension0
1 ,948a ,898 ,890 5,468 2,681
a. Variables predictoras: (Constante), Ingresos mensuales
b. Nivel de estudios = Primarios
c. Variable dependiente: Gastos de enero en alimentación
El modelo se escribe AE = 207,923 + 0,189 I y no sobra ninguno de los coeficientes (La Sig.=0< α=0.05 se rechaza H0: coeficiente=0.).
Coeficientesa,b
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 207,923 15,479 13,432 ,000 1
Ingresos mensuales ,189 ,018 ,948 10,286 ,000
a. Nivel de estudios = Primarios
b. Variable dependiente: Gastos de enero en alimentacion
Los residuos son normales. La sig=0,189 > α=0.05, aceptamos H0:Normal
Prueba de Kolmogorov-Smirnov para una muestrac
Unstandardized
Residual
N 14
Media ,0000000 Parámetros normalesa,b
Desviación típica 5,25308941
Absoluta ,290
Positiva ,164
Diferencias más extremas
Negativa -,290
Z de Kolmogorov-Smirnov 1,086
Sig. asintót. (bilateral) ,189
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
c. Nivel de estudios = Primarios
Los residuos no son independientes. Durbin-Watson=2,681∉(1,5 ; 2,5)
Durbin-Watson
2,681
5
Los residuos son aleatorios. La sig=1 > α=0.05, aceptamos H0:Aleatorios
Prueba de rachasb
Unstandardized Residual
Valor de pruebaa ,61428
Casos < Valor de prueba 5
Casos >= Valor de prueba 9
Casos en total 14
Número de rachas 7
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
b. Nivel de estudios = Primarios
Para el grupo de encuestados que tienen estudios Secundarios
Variables introducidas/eliminadasa,b
Modelo Variables
introducidas
Variables
eliminadas Método
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
2 OE2 . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). dimension0
3 Gastos de ocio en
enero
. Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Nivel de estudios = Secundarios
b. Variable dependiente: Gastos de enero en alimentacion
En el modelo final aparecen los ingresos mensuales, los gastos de ocio en enero y los gastos de ocio en enero al
cuadrado, el ajuste no es tan bueno, sólo se explica el 65.2% de la variabilidad de los gastos de enero en
alimentación.
Resumen del modelod,e
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
1 ,474a ,225 ,201 42,780
2 ,684b ,468 ,434 36,011
dimension0
3 ,808c ,652 ,618 29,589 2,446
a. Variables predictoras: (Constante), Ingresos mensuales
b. Variables predictoras: (Constante), Ingresos mensuales, OE2
c. Variables predictoras: (Constante), Ingresos mensuales, OE2, Gastos de ocio en enero
d. Nivel de estudios = Secundarios
e. Variable dependiente: Gastos de enero en alimentación
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
6
ANOVAd,e
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 16991,620 1 16991,620 9,284 ,005a
Residual 58564,645 32 1830,145 1
Total 75556,265 33
Regresión 35356,223 2 17678,111 13,632 ,000b
Residual 40200,042 31 1296,776 2
Total 75556,265 33
Regresión 49290,459 3 16430,153 18,766 ,000c
Residual 26265,806 30 875,527 3
Total 75556,265 33
a. Variables predictoras: (Constante), Ingresos mensuales
b. Variables predictoras: (Constante), Ingresos mensuales, OE2
c. Variables predictoras: (Constante), Ingresos mensuales, OE2, Gastos de ocio en enero
d. Nivel de estudios = Secundarios
e. Variable dependiente: Gastos de enero en alimentacion
Coeficientesa,b
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 240,993 64,371 3,744 ,001 1
Ingresos mensuales ,153 ,050 ,474 3,047 ,005
(Constante) 198,179 55,366 3,579 ,001
Ingresos mensuales ,289 ,056 ,892 5,195 ,000
2
OE2 -,006 ,002 -,647 -3,763 ,001
(Constante) -1705,337 479,308 -3,558 ,001
Ingresos mensuales ,166 ,055 ,513 3,017 ,005
OE2 -,091 ,021 -9,925 -4,260 ,000
3
Gastos de ocio en
enero
26,689 6,690 9,538 3,989 ,000
a. Nivel de estudios = Secundarios
b. Variable dependiente: Gastos de enero en alimentacion
El modelo se escribe AE= -1705,337+0,166 I – 0,091OE2 + 26,689 OE y no sobra ningún coeficiente ya que la Sig=0< α=0.05 se rechaza H0: coeficiente=0.
7
Los errores son normales. La sig=0,787 > α=0.05, aceptamos H0:Normales
Prueba de Kolmogorov-Smirnov para una muestrac
Unstandardized Residual
N 34
Media ,0000000 Parámetros normalesa,b
Desviación
típica
28,21229354
Absoluta ,112
Positiva ,077
Diferencias más
extremas
Negativa -,112
Z de Kolmogorov-Smirnov ,653
Sig. asintót. (bilateral) ,787
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
c. Nivel de estudios = Secundarios
Los residuos son aleatorios. La sig=0,540 > α=0.05, aceptamos H0:Aleatorios
Prueba de rachasb
Unstandardized Residual
Valor de pruebaa 1,64502
Casos < Valor de prueba 15
Casos >= Valor de prueba 19
Casos en total 34
Número de rachas 20
Z ,613
Sig. asintót. (bilateral) ,540
a. Mediana
b. Nivel de estudios = Secundarios
Los residuos son independientes. Durbin-Watson=2,446∈(1,5 ; 2,5)
Durbin-Watson
2,446
Para el grupo de encuestados que tienen estudios Universitarios nos aparece la siguiente advertencia
Advertencia
No se han introducido variables en la ecuación para la división Nivel de estudios=Universitarios.
Es decir que no se realiza el ajuste mediante el modelo de regresión por pasos sucesivos. Si lo hacemos por el
método introducir (a la fuerza), observamos que no tiene sentido hacer un ajuste de regresión.
8
El modelo de regresión no tiene sentido. La Sig=0,652>α=0.05 se acepta H0: No existe modelo de regresión
ANOVAb,c
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 9214,445 3 3071,482 ,552 ,652a
Residual 122335,312 22 5560,696 1
Total 131549,756 25
a. Variables predictoras: (Constante), OE2, Ingresos mensuales, Gastos de ocio en enero
b. Nivel de estudios = Universitarios
c. Variable dependiente: Gastos de enero en alimentacion
Resumen del modelob,c
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
dimension0
1 ,265a ,070 -,057 74,570 1,988
a. Variables predictoras: (Constante), OE2, Ingresos mensuales, Gastos de ocio en enero
b. Nivel de estudios = Universitarios
c. Variable dependiente: Gastos de enero en alimentacion
El ajuste es muy malo, el modelo sólo explica el 7% de la variabilidad de la variable.
Coeficientesa,b
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 561,714 1070,829 ,525 ,605
Ingresos mensuales ,023 ,040 ,133 ,563 ,579
Gastos de ocio en
enero
-,755 10,404 -,309 -,073 ,943
1
OE2 ,003 ,025 ,481 ,113 ,911
a. Nivel de estudios = Universitarios
b. Variable dependiente: Gastos de enero en alimentacion
Sobran todos los coeficientes del modelo, la Sig> α=0.05 se acepta H0: Coeficiente =0
2. Se lleva a cabo un estudio para los hombres para predecir el gasto en alimentación en marzo (AM) a partir de los ingresos (I) y del gasto en ocio en el mes de marzo (OM), mediante un modelo de la forma: AM=a+b1I+b2OM+b3OM3. Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir
Variables introducidas/eliminadasb,c
Modelo Variables introducidas Variables eliminadas Método
dimension0
1 OM3, Ingresos mensuales, Gastos de ocio en marzoa . Introducir
a. Todas las variables solicitadas introducidas.
b. Sexo = Hombre
c. Variable dependiente: Gastos de marzo en alimentacion
9
a) ¿Existe regresión? Si ¿Por qué? El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
ANOVAb,c
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 369505,791 3 123168,597 122,545 ,000a
Residual 24122,066 24 1005,086 1
Total 393627,857 27
a. Variables predictoras: (Constante), OM3, Ingresos mensuales, Gastos de ocio en marzo
b. Sexo = Hombre
c. Variable dependiente: Gastos de marzo en alimentacion
b) ¿Cómo se escribe el modelo de regresión?AM=a+b1I+b2OM+b3OM3 AM=228,684 + 0,166 I – 0,155 OM – 3,90E-6OM3. Pero sobran variables.
Coeficientesa,b
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 228,684 45,171 5,063 ,000
Ingresos mensuales ,166 ,012 ,897 13,772 ,000
Gastos de ocio en marzo -,155 ,390 -,064 -,398 ,694
1
OM3 -3,901E-6 ,000 -,083 -,569 ,575
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
c) ¿Se puede considerar nulo algún coeficiente? Si ¿Por qué? Los coeficientes de gastos de ocio en marzo y de ocio en marzo al cubo, porque su sig>α=0.05 se acepta H0:Coeficiente=0. Como son variables relacionadas, puede que no sobren las dos. Se realiza el estudio por pasos sucesivos. Si la respuesta al apartado c) es afirmativa, rehacer el modelo (pasos sucesivos). Si es negativa continuar con el mismo modelo.
Variables introducidas/eliminadasa,b
Modelo Variables introducidas Variables eliminadas Método
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). dimension0
2 OM3 . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
d) ¿Cuál es el modelo resultante? AM= 212,584 + 0,169 I -6,441E -6 OM3. No sobra ningún coeficiente ya que la Sig=0< α=0.05 se rechaza H0: coeficiente=0.
10
Coeficientesa,b
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 183,453 18,059 10,158 ,000 1
Ingresos
mensuales
,178 ,010 ,960 17,489 ,000
(Constante) 212,594 19,821 10,726 ,000
Ingresos
mensuales
,169 ,010 ,912 17,189 ,000
2
OM3 -6,441E-6 ,000 -,138 -2,598 ,015
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
e) ¿Es bueno dicho modelo? Si ¿Por qué? El modelo explica el 0,938% de la variabilidad de la variable gasto de marzo en alimentación.
Resumen del modeloc,d
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
1 ,960a ,922 ,919 34,440
dimension0
2 ,969b ,938 ,933 31,165 2,628
a. Variables predictoras: (Constante), Ingresos mensuales
b. Variables predictoras: (Constante), Ingresos mensuales, OM3
c. Sexo = Hombre
d. Variable dependiente: Gastos de marzo en alimentacion
f) Los residuos: ¿Son normales? Si ¿Por qué? La Sig=0,303> α=0.05 se acepta H0: Normales
Prueba de Kolmogorov-Smirnov para una muestrac
Unstandardized
Residual
N 28
Media ,0000000 Parámetros normalesa,b
Desviación típica 29,98845948
Absoluta ,183
Positiva ,183
Diferencias más extremas
Negativa -,103
Z de Kolmogorov-Smirnov ,970
Sig. asintót. (bilateral) ,303
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
c. Sexo = Hombre
11
¿Son aleatorios? Si ¿Por qué? la Sig=0,847> α=0.05 se acepta H0: Aleatorios
Prueba de rachas
Unstandardized Residual
Valor de pruebaa -,73178
Casos < Valor de prueba 14
Casos >= Valor de prueba 14
Casos en total 28
Número de rachas 16
Z ,193
Sig. asintót. (bilateral) ,847
a. Mediana
¿Son independientes?No ¿Por qué? Durbin-Watson=2,628∉(1,5 ; 2,5)
Durbin-Watson
2,628
g) ¿Cuál es el gasto en alimentación del sujeto 15? 598 ¿Cuál se ha pronosticado? 632,82176 ¿Con qué error? -34,82176 3. Se lleva a cabo un estudio para los hombres para predecir el gasto de alimentación en marzo (AM) a partir del gasto de alimentación en el mes de enero (AE), el gasto en ocio en enero (OE) y el gasto en ocio en marzo (OM) mediante un modelo de la forma: AM=a+b1AE+b2OE+b3OM. Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir a) ¿Existe regresión? SI ¿Por qué? El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 363000,372 3 121000,124 94,817 ,000a
Residual 30627,485 24 1276,145 1
Total 393627,857 27
a. Variables predictoras: (Constante), Gastos de ocio en marzo, Gastos de ocio en enero, Gastos de enero en alimentacion
b. Variable dependiente: Gastos de marzo en alimentacion
b) ¿Cómo se escribe el modelo de regresión? AM=206,430 + 0,176 AE + 1,744 OE – 0,983 OM. Sobra una variable.
12
Coeficientesa
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 206,430 45,764 4,511 ,000
Gastos de enero en
alimentacion
,176 ,091 ,157 1,938 ,064
Gastos de ocio en enero 1,744 ,193 ,662 9,051 ,000
1
Gastos de ocio en marzo -,983 ,156 -,407 -6,283 ,000
a. Variable dependiente: Gastos de marzo en alimentacion
c) ¿Se puede considerar nulo algún coeficiente? Si ¿Por qué?
El coeficiente de gastos de enero en alimentación es nulo. La Sig=0,064> α=0.05 se acepta H0: Coeficiente=0 Si la respuesta al apartado c) es afirmativa, rehacer el modelo (pasos sucesivos). Si es negativa continuar con el mismo modelo.
d) ¿Cuál es el modelo resultante? AM=266,519 + 1,970 OE – 1,117 OM. No sobra ningúna variable, La Sig=0
< α=0.05 se rechaza H0: Coeficiente=0
Coeficientesa
Coeficientes no estandarizados Coeficientes tipificados Modelo
B Error típ. Beta t Sig.
(Constante) 100,881 49,544 2,036 ,052 1
Gastos de ocio en enero 2,212 ,281 ,839 7,874 ,000
(Constante) 266,519 35,469 7,514 ,000
Gastos de ocio en enero 1,970 ,161 ,748 12,215 ,000
2
Gastos de ocio en marzo -1,117 ,148 -,462 -7,556 ,000
a. Variable dependiente: Gastos de marzo en alimentacion
e) ¿Es bueno dicho modelo? Si ¿Por qué? El ajuste de regresión explica el 91% de la variabilidad de la variable gastos de marzo en alimentación.
Resumen del modeloc
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
1 ,839a ,705 ,693 66,882
dimension0
2 ,954b ,910 ,903 37,641 2,194
a. Variables predictoras: (Constante), Gastos de ocio en enero
b. Variables predictoras: (Constante), Gastos de ocio en enero, Gastos de ocio en marzo
c. Variable dependiente: Gastos de marzo en alimentacion
f) Los residuos: ¿Son normales? Si ¿Por qué? La Sig=0,964> α=0.05 se acepta H0: Normales
13
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 28
Media ,0000000 Parámetros normalesa,b
Desviación típica 36,22013968
Absoluta ,094
Positiva ,094
Diferencias más extremas
Negativa -,062
Z de Kolmogorov-Smirnov ,499
Sig. asintót. (bilateral) ,964
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
¿Son aleatorios? Si ¿Por qué? Sig=0,083> α=0.05 se acepta H0: Aleatorios
Prueba de rachas
Unstandardized Residual
Valor de pruebaa -5,54679
Casos < Valor de prueba 14
Casos >= Valor de prueba 14
Casos en total 28
Número de rachas 20
Z 1,733
Sig. asintót. (bilateral) ,083
a. Mediana
¿Son independientes?Si ¿Por qué? Durbin-Watson=2,194∈(1,5 ; 2,5)
Durbin-Watson
2,194
g) ¿Cuál es el gasto en alimentación en marzo del sujeto 20? 390 ¿Cuál se ha pronosticado? 377,99063 ¿Con qué error? 12,00937
ESTADÍSTICA 1º Grado en Ingeniería Informática Práctica final
Usando los datos de la Práctica 6, contestar las siguientes cuestiones. Usar el nivel de significación αααα=0.05 para todos los contrastes. 1. Realizar un análisis descriptivo con las siguientes variables del fichero. a) Completar la tabla:
Variable
Media
Moda
Max
Percentil 65
Tercer cuartil
Curtosis
Intervalo de Confianza de la media al 99%
Hijos 1,27 1 4 1 2 0,519 ( 1,00 ; 1,54)
AlimentacionMarzo 478,08 481 720 500 562 - 0,048 ( 441,08 ; 515,08 )
OcioMarzo 125,04 120 240 140 140 0,832 ( 112,10 ; 137,98)
b) ¿Qué porcentaje de encuestados son solteros? 23%
c) ¿Qué porcentaje tienen estudios universitarios? 35,1%
d) ¿Qué porcentaje dan una valoración mala del producto? 18,9%
e) ¿Qué porcentaje reside en la zona Sur? 20,3%
f) El 80% de los encuestados tienen unos ingresos inferiores a 1780
g) El 30 % de los encuestados tienen un gasto en ocio en enero superior a 180
h) Para la variable Hijos ¿los datos de la muestra son simétricos? ¿Por qué?
El coeficiente de asimetría es 0,615>0 la muestra es asimétrica positiva
¿Y los de la población? ¿Por qué?
El error de asimetría es 0,279, el intervalo de simetría al 95% es (-0,558 ; 0,558), como el coeficiente de
asimetría no pertenece al intervalo 0,615>0,558 la población de la que proceden los datos es asimétrica
positiva o por la derecha.
2.- Dibuja y comenta el Box-plot de la variable Ingresos mensuales separada por la valoración que
hacen del producto.
Como se observa en el gráfico a mayor ingreso mensual mejor valoración dan del producto. En el grupo de
valoración mala los ingresos son simétricos con poca dispersión, en contraste con el grupo de valoración
excelente donde se observa la asimetría negativa de los datos y la dispersión de los mismos.
3. Se hace un estudio para saber si los ingresos medios son distintos para los que tiene estudios primarios y los que poseen estudios universitarios ¿Qué hipótesis contrastamos? H0: µI.primarios=µ I.universitarios frente a H1: µ I.primarios ≠µ I.universitarios
¿Qué hipótesis previas necesitamos contrastar y qué decidimos en este contraste previo?
H0: σ2
I.primarios=σ2
I.universitarios frente H1: σ2
I.primarios≠σ2
I.universitarios.
Como Sig=0<α= 0,05 rechazo la hipótesis nula, las varianzas son distintas
¿Cuál es el valor del estadístico de contraste T? -14,380
¿Cuál es el valor de la significación muestral? 0
¿Son distintos los ingresos según los estudios? Si ¿Por qué?
Como la Sig=0<α= 0,05 rechazo la hipótesis nula, los ingresos medios no son los mismos para los que tiene
estudios primarios y los que tienen estudios universitarios.
En caso de que dichos ingresos sean distintos, ¿Quiénes tienen ingresos mayores?
Según el intervalo de confianza de la diferencia: ICµ I.primarios-µ I.universitarios=(-1417,526 ; -1064,221), por lo
que µ I.primarios-µ I.universitarios<0, es decir, µ I.primarios< µ I.universitarios, los encuestados con estudios universitarios
tienen ingresos medios superiores.
4. Se cree que el gasto medio en alimentación para los que poseen estudios universitarios no cambia de enero a marzo: ¿Qué hipótesis contrastamos? H0: µAEnero.U=µAMarzo.U frente a H1: µ µAEnero.U ≠µAMarzo.U
¿Cuál es el valor del estadístico de contraste T? 0,189
¿Cuál es el valor de la significación muestral? 0,851
¿Cuál es la conclusión? Como Sig= 0,851> α= 0,05 acepto H0, es decir el gasto medio en alimentación para
los que poseen estudios universitarios no cambia de enero a marzo.
¿Si no es cierta dicha creencia, en que mes tienen más gastos en alimentación? ¿Por qué?
¿Están relacionadas las variables linealmente? No, el coeficiente de correlación es 0,061, la Sig=0,767>α=
0,05 por lo que acepto H0: correlación =0, es decir las variables no están relacionadas linealmente.
5. ¿Se puede considerar que el gasto medio en alimentación en enero de los solteros es mayor que 1300? ¿Cuál es el ingreso medio de dicho grupo? 492,06
¿Qué hipótesis contrastamos? H0: µAEnero.Solteros=1300
¿Cuál es el valor del estadístico de contraste? -26,234
¿Cuál es el valor de la significación muestral? 0
Conclusión ¿Por qué?
Como la Sig=0<α= 0,05 rechazo la hipótesis nula, el gasto medio en alimentación en enero de los solteros no
es igual a 1300. Según el intervalo de confianza de la diferencia IC µAEnero.Solteros-1300=(-873,23 ; -724,65),
µAEnero.Solteros-1300<0; es decir, µAEnero.Solteros<1300, el gasto medio en alimentación en enero de los solteros
es inferior a 1300.
6. Se lleva a cabo un estudio por separado para hombres y mujeres para predecir el gasto de Alimentación en Enero (AE) a partir del número de Hijos (H), la Edad (E) y los Ingresos (I) mediante un modelo de la forma: AE=a+b1H+b2E+b3I (primero por el método introducir). Comenta las diferencias que observas. Grupo Hombres:
¿Existe regresión? Si ¿Por qué? La Sig=0 en la tabla ANOVA, Sig=0<α= 0,05 rechazo la hipótesis
nula H0: No existe regresión.
¿Cómo se escribe el modelo de regresión? Por el método introducir se añaden todas las variables en el
modelo, los coeficientes de la tabla son: AE=90,977+ 9,586E – 0,045I+14,896H
¿Se puede considerar nulo algún coeficiente? Si ¿Por qué? La Sig de la tabla de coeficientes es
mayor que α, para la constante, los ingresos y el número de hijos, por lo que se acepta la hipótesis nula
H0:coeficiente=0 . Hay que tener en cuenta que puede que no sobren todos los coeficientes a la vez, para
comprobarlo se repite la regresión por el método de pasos sucesivos.
Si la respuesta al apartado anterior es afirmativa, rehacer el modelo (Método pasos sucesivos). Si es negativa continuar con el mismo modelo. ¿Cuál es el modelo resultante? AE= 135,150+7,655 E
¿Es bueno dicho modelo? ¿Por qué?
R cuadrado = 0,663, por lo que el modelo explica el 66.3% de la variabilidad de la variable. (El ajuste podría
ser mejor)
Los residuos:
¿Son normales? Si ¿Por qué? La Sig=0,512 en la prueba de Kolmogorov-Smirnov al ser
mayor que α, acepto H0: Residuos normales
¿Son aleatorios? Si ¿Por qué? La Sig=0,847 en la prueba de rachas al ser mayor que α,
acepto H0: Residuos aleatorios
¿Son independientes? Si ¿Por qué? El valor del estadístico de Durbin-Watson=2,308∼2
¿Cuál es el gasto real en alimentación en enero del sujeto 28? 520 €
¿Cuál se ha pronosticado con el modelo? 563,83059 ¿Con qué error? -43,83059
Grupo Mujeres:
¿Existe regresión? Si ¿Por qué? La Sig=0 en la tabla ANOVA, Sig=0<α= 0,05 rechazo la hipótesis
nula H0: No existe regresión.
¿Cómo se escribe el modelo de regresión? AE= 178,348+ 1,480 E+ 0,166 I+2,505 H
¿Se puede considerar nulo algún coeficiente? Si ¿Por qué?
El coeficiente de la variable número de hijos tiene en la tabla de los coeficientes la Sig=0,614>α= 0,05 por lo
que se acepta la hipótesis nula H0: coeficiente=0 .
Si la respuesta al apartado anterior es afirmativa, rehacer el modelo (Método pasos sucesivos). Si es negativa continuar con el mismo modelo. ¿Cuál es el modelo resultante? AE=182,496 + 0,164 I+ 1,507 E
¿Es bueno dicho modelo? Si ¿Por qué?
R cuadrado=0,923 el modelo de regresión explica el 92,3% de la variabilidad de la variable gasto de
alimentación en enero.
Los residuos:
¿Son normales? No ¿Por qué? La Sig=0,03 en la prueba de Kolmogorov-Smirnov al ser
menor que α, se rechaza H0: Residuos normales
¿Son aleatorios? No ¿Por qué? La Sig=0,025 en la prueba de rachas al ser menor que α, se
rechaza H0: Residuos aleatorios
¿Son independientes? Si ¿Por qué? El valor del estadístico de Durbin-Watson=1,933∼2
¿Cuál es el gasto real en alimentación en enero del sujeto 29? 360 €
¿Cuál se ha pronosticado con el modelo? 377,50319 € ¿Con qué error? -17,50319
El ajuste que se realiza para el grupo de las mujeres a través del modelo AE=182,496 + 0,164 I+ 1,507 E es
mejor que el que se hace para el grupo de los hombres AE= 135,150+7,655 E, el porcentaje de variabilidad
explicado es mayor. Por el contrario los supuestos de normalidad y aleatoriedad no se verifican para los
errores del grupo de las mujeres.