31
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CIENCIAS QUÍMICAS Ingeniería Química Materia: Estadística Aplicada Profesor: Dra. Margarita Loredo Cancino “Análisis estadístico de la cantidad de horas que duerme una muestra de personas con distintas edades” Equipo: Alanís Silva, Ángel Eduardo 1543650

Ejemplo de un Análisis Estadístico completo a un caso

Embed Size (px)

DESCRIPTION

Ejemplo de cómo se llevó a cabo un análisis estadístico acerca de la cantidad de horas que una muestra de personas con distintas edades duerme. Sirve como ejemplo para guiarse en cómo realizar un análisis estadístico de una muestra de datos.

Citation preview

Ingeniera Qumica

Materia: Estadstica Aplicada

Profesor: Dra. Margarita Loredo Cancino

Anlisis estadstico de la cantidad de horas que duerme una muestra de personas con distintas edades

Equipo: Alans Silva, ngel Eduardo1543650Cisneros Valdez, Edna Lorena1568237Villanueva Snchez, Daniela1568662

Grupo: 001

Ciudad Universitaria

26 de Noviembre de 2014Introduccin

El estudio presentado en este trabajo muestra una comparacin entre las edades de las personas y las horas de sueo que tienen al da. Para realizar este estudio se recabaron datos a travs de encuestas a personas entre 1 y 84 aos de edad.

Con el fin de mantener una buena salud fsica y mental se recomienda dormir al menos 8 horas diarias. Sin embargo las horas necesarias de sueo varan de acuerdo a la edad de las personas, para un nio pequeo a partir de los 3 aos se recomienda dormir al menos 11 horas, durante la edad escolar que consta entre los 6 y 12 aos se recomienda dormir 10 horas, para adolescentes y hasta los 40 aos se recomiendan 8 horas, despus de los 40 el mnimo es de 7 horas. Los adultos mayores tienden a tener un sueo dividido por lo que se recomienda dormir 6 horas nocturnas y 2 horas diurnas. Para efectos de este trabajo se recopilaron solamente horas de sueo nocturnas.

Debido a la ajetreada vida que se lleva en la actualidad es muy comn que la gente no respete su horario de sueo y tienda a dormir menos de lo que se recomienda para mantener una vida saludable. Este tema no se debe ser tomado a la ligera ya que la falta de sueo puede llevar a problemas de salud ms graves como lo es el estrs, ansiedad, cambios de humor, etc. El presente estudio tiene como objetivo evaluar mediante herramientas estadsticas si las personas cumplen con las respectivas horas de sueo de acuerdo a su edad., adems de disear un modelo que permita predecir las horas que duerme una persona conociendo su edad. Se espera que las horas de sueo estn relacionadas linealmente con la edad, ya que conforme una persona se hace mayor disminuye la cantidad de horas que debera dormir de acuerdo a las recomendaciones.

1. Metodologa

Los datos utilizados en el estudio se obtuvieron mediante encuestas que consistan de dos preguntas: Edad? y Horas que duerme al da (entre semana)?. Se tom una muestra de 103 personas que iban desde 1 ao hasta los 84 aos con el fin de abarcar un amplio rango de edades y enriquecer el estudio. Dado que el estudio tena como nico fin comparar la edad con el sueo, no fue necesario un grupo de encuestados con caractersticas especficas.Formato de la encuestaEdadHoras que duerme al da (entre semana)

Una vez obtenidos los datos se calcul la media, mediana y moda de la muestra as como la varianza muestral y consiguientemente su desviacin estndar. Enseguida se muestran las formulas y/o mtodo utilizados.Media muestral:

Moda: Observacin que se presenta con mayor frecuencia en la muestra.Mediana: Punto donde la muestra se divide en dos partes iguales.

Dado que la media de horas de sueo recomendada es 8 horas se realiz una prueba de hiptesis comparando la media obtenida y la recomendada, utilizando el estadstico T con un 95% de confianza.Enseguida se muestran las formulas y/o mtodo utilizados.

(1.1)

Se calcul una regresin lineal y una cuadrtica con el fin de que alguna se ajustara a los datos obtenidos y ser capaces de modelar una ecuacin que relacione las horas de sueo con la edad de las personas. Enseguida se construyeron las tablas de ANOVA.

Formulas utilizadas:Modelo de regresin lineal mltiple (1.2) (1.3) (1.4) (1.5)

Tambin se calcul un intervalo de confianza bilateral para nuestra muestra, para la regresin as como para la prediccin de nuevas observaciones, utilizando nuevamente un 95% de confianza y la prueba estadstica T.I.C para la muestra (1.6)

I.C para la respuesta promedio (1.7) (1.8)

I.C para la prediccin de nuevas observaciones (1.9)

Para comprobar si todos los coeficientes de regresin son significativos y en caso de no serlos, ser capaces de descartarlos se utiliz el siguiente mtodo: (1.10) (1.11) 2. Conjunto de datosSe llevaron a cabo encuestas a distintas personas de diversas edades, para saber cuntas horas aproximadamente dorman al da, y se obtuvieron los siguientes datos:

-Edad: AosUNIVERSIDAD AUTNOMA DE NUEVO LENFACULTAD DE CIENCIAS QUMICAS

-NHS: Nmero de horas de sueo

nEdad NHS

118

239

378.5

478

597.5

698.5

71010

81010

9107

10108

11108

12127.5

13127.5

14126

151212

16128

171210

18137

19138

20139

21147

22156

23156

24157

25179

Tabla 2.1. Conjunto de datos experimentales estudiados

nEdad NHS

26175.5

27175

28177.5

29176.5

30187

31187

32196

33195

34195

35195.5

36194.5

37195

38194

39195

40198

41205

42206

43204

44206

45205

46215

47226

48236

49246

50267

51268

nEdad NHS

52286.5

53287

54287

55297

56326

57336

58336

59348

60347

61387.5

62386

63395

64398

65398

66397.5

67408

68408

69417

70426

71448

72448

73447

74448

75458

76466

77466.5

nEdadNHS

78467

79467

80475

814710

82487

83495

84506

85507

86517

87516

88516

89515

90527

91538

92576

93578

94586

95608

96668

97737

98748

99758

100778

101807

102808

103848

Anlisis Exploratorio de los Datos Experimentales Estudiados

Distribucin de frecuencias de los datos

Rango: 84-1 = 83Rango para el intervalo de clase: 90-0 = 90Intervalo de clase: 103 = 10.1489 10

Intervalo de ClaseConteoFrecuenciaFrecuencia RelativaFrecuencia Relativa Acumulada

0 x < 10IIII I60.0582524270.058252427

10 x < 20IIII IIII IIII IIII IIII IIII IIII340.3300970870.388349515

20 x < 30IIII IIII IIII150.1456310680.533980583

30 x < 40IIII IIII I110.1067961170.640776699

40 x < 50IIII IIII II170.1650485440.805825243

50 x < 60IIII IIII I110.1067961170.912621359

60 x < 70II20.0194174760.932038835

70 x < 80IIII40.0388349510.970873786

80 x < 90III30.0291262141

Tabla 2.2. Distribucin de Frecuencias Histogramas

Figura 2.1. Histograma de Frecuencia

Figura 2.2. Histograma de Frecuencia Relativa Acumulada

Medidas de localizacin

Medidas de localizacin

Media Muestral6.980582524

Mediana7

Moda8

Tabla 2.3. Medidas de localizacin

Medidas de variabilidad

Medidas de Variabilidad

Rango83

Varianza Muestral1.984913383

Desviacin Estndar Muestral1.408869541

Tabla 2.4. Medidas de localizacin

Figura 2.3. Dispersin de los datos, incluyendo media, moda y mediana.

Datos atpicos

Los datos atpicos, por definicin, son observaciones cuyos valores son muy diferentes a las otras observaciones del mismo grupo de datos. Los datos atpicos pueden ser ocasionados por:

a) Errores de procedimiento.

b) Acontecimientos extraordinarios.

c) Valores extremos.

d) Causas no conocidas.

En este caso, en nuestra grfica las observaciones diferentes a las normalmente obtenidas, basndonos en la grfica de dispersin de los datos, son 4 horas, 10 horas y 12 horas.

Prueba de hiptesis para la media; 95% confianzaH0: = 8H1: < 8Estadstico t, A=.95, G.L= 102 Ecuacin 1.1

Se rechaza H0

Intervalo de confianza para la media; 95% confianzaDe acuerdo a la ecuacin 1.12

3. Modelo de regresinEn esta seccin primeramente se definir nuestra variable dependiente (y), al igual que nuestra variable independiente (x), el nmero de horas dormidas en un da y la edad del individuo respectivamente.Luego decidimos empezar por el modelo de regresin ms simple (modelo de regresin lineal), para analizar la exactitud con la que predice nuestra variable de respuesta (lo cual se explicar ms ampliamente en secciones posteriores), usando la siguiente ecuacin: (1.5)Dnde:11

13

17

17

19

19

110

110

110

110

110

112

112

112

174

175

177

180

180

184

8

9

8.5

8

7.5

8.5

10

10

7

8

8

7.5

7.5

6

8

8

8

7

8

8

X= y=

Modelo de regresin lineal

Para posteriormente obtener nuestros parmetros de regresin lineal.

Y as obtenemos una nueva ecuacin, con la cual es posible predecir la respuesta de nuestro conjunto de datos8

9

8.5

8

7.5

8.5

10

10

7

8

8

7.5

7.5

6

8

8

8

7

8

8

(3.1)

De la misma manera obtuvimos los parmetros de regresin para un modelo de segundo orden, mediante la ecuacin (3.1), donde nuestras matrices x y y son:

111

139

1749

1749

1981

1981

110100

110100

110100

110100

110100

112144

112144

112144

1745476

1755625

1775929

1806400

1806400

1847056

X=

Y=

Modelo de Regresin polinomial: cuadrtica

Los parmetros de nuestra regresin cuadrtica fueron los siguientes: Con dichos parmetros se nota un mejor ajuste en la estimacin la variable de respuesta, mediante la ecuacin: (3.2)4. Anlisis de resultados Anlisis Exploratorio de los DatosTras los resultados de las encuestas realizadas, obtuvimos un rango entre 84-1 aos. De este rango, se calcul un intervalo de clase aproximadamente de 10, por lo tanto, nuestro rango termina siendo entre 90-0 aos. A partir de esto, se obtiene que el intervalo 0 x < 20 es donde se encuentran los datos con una mayor frecuencia, en este caso, 34 datos. En medidas de localizacin, se obtiene que la cantidad de horas promedio de sueo en la muestra, es de 6.9806 horas. La mediana de los datos, es 7 horas, y la moda, es de 8 horas. Esto indica que la mayora de las personas en la muestra duermen aproximadamente 8 horas diarias. En medidas de variabilidad, se obtiene una varianza muestral de 1.9849 y una desviacin estndar muestral de 1.4089.

Grfica de dispersin de los datos y puntos atpicosEn la grfica de dispersin de datos, podemos notar la presencia de ciertos puntos atpicos en ella, en este caso, de las personas que diariamente duermen 4, 10 y 12 horas, ya que son los que se encuentran mas alejados de la media. Estos datos en nuestro modelo pueden haberse dado debido a algn acontecimiento extraordinario, valores extremos o causas no conocidas. Es posible que dichos datos atpicos aparezcan en la grfica debido a que esas personas de la muestra que duermen, por ejemplo, 4 horas, tienen un trabajo muy demandante el cual les permite dormir slo esa cantidad de horas, o en la escuela en que estudian sus deberes les consumen tiempo que debera estar destinado a dormir, o sufren de alguna enfermedad, etc. Al contrario de las personas que duermen 10 y 12 horas, se puede deber a que no se encuentren trabajando ni estudiando, o que su trabajo o escuela no les demande tanto tiempo. Estos datos no fueron descartados para nuestros clculos, ya que se nos peda en este proyecto utilizar absolutamente todos los datos obtenidos del experimento realizado. Prueba de Hiptesis de la MuestraAl ser rechazada nuestra hiptesis nula se acepta la hiptesis alternativa H1: < 8Por lo que se entiende que la media de horas de sueo est por debajo de la media recomendada.A pesar de que la media no puede considerarse igual a 8 como se comprob anteriormente, se descubri que la moda de la muestra si corresponde a este valor, lo cual indica que muchas personas si cumplen con sus 8 horas de sueo diarias.

Intervalo de confianza para la media

De acuerdo a un 95% de confianza tenemos que las horas de sueo de una persona pueden variar entre lo valores anteriores y todava considerarse dentro de la media.

Modelo de regresin linealEn la Figura 4.1 es posible observar que precisamente el modelo de regresin lineal no presenta un buen ajuste a nuestra respuesta esperada, debido a que la grfica no sigue una tendencia lineal.Figura 4.1. Modelo de regresin lineal, donde se observa un mal ajuste a la lnea recta

Con el fin de comprobar si nuestro modelo de regresin es adecuado se realiza el anlisis estadstico de ANOVA (Tabla 4.1) para la regresin lineal, en la que se utilizaron las pruebas de hiptesis siguientes:

VariacinSuma de cuadradosGrados de libertadCuadrado medioF0

Regresin1

Errorn-2

Totaln-1

Tabla 4.1. Tabla ANOVA para la regresin lineal, con sus respectivas ecuaciones

En donde H0 se rechaza si F0 > F, 1, n-2, si esto ocurre quiere decir que nuestra regresin es adecuada.Completando la tabla 4.1 ANOVA con los datos de la suma de cuadrados, los grados de libertad, el cuadrado medio y F0, obtenemos:

VariacinSuma de cuadradosGrados de libertadCuadrado medioF0

Regresin0.00019209710.0001920973.86471E-07

Error50202.45981101497.0540575

Total50202.46102

Tabla 4.2. Tabla ANOVA para la regresin lineal

En donde F, 1, n-2 = F0.05, 1, 101=3.93519Entonces F0.05, 1, 101 > F0, por lo tanto no se puede rechazar nuestra hiptesis nula H0, lo que significa que la regresin no es significativa y dicho modelo de regresin no es adecuado. Lo escrito con anterioridad se puede respaldar mediante el clculo del coeficiente de determinacin (R2), dicho coeficiente determina la calidad del modelo para replicar los resultados, y la proporcin de variacin de los resultados que puede explicarse por el modelo de regresin. El coeficiente de determinacin (R2) se calcula mediante la siguiente ecuacin: (4.1)Con lo que obtenemos un valor de R2=3.826*10-9. Para que nuestros datos estn descritos por nuestro modelo de regresin R2 debe ser lo ms cercano a 1, lo que significa que nuestro modelo no se acopla de buena manera a los datos, que es una manera de corroborar lo que se poda observar a simple vista mediante la grfica y que se evalu con el ANOVA.

Regresin polinomial: cuadrtica

En cuanto a nuestro modelo de regresin cuadrtica, en la Figura 4.2 se muestra su ecuacin, as como la lnea de tendencia, donde vemos que en comparacin con la regresin lineal se presenta un mejor ajuste, sin embargo no es posible afirmar a simple vista que representa el comportamiento de nuestros datos.

Figura 4.2. Modelo de regresin cuadrtica, en el que podemos observar un mejor ajuste en comparacin con el modelo anterior

Para este caso se tiene nuevamente nuestra hiptesis nula y la alternativa para ver la adecuacin de este nuevo modelo a nuestro conjunto de datos VariacinSuma de cuadradosGrados de libertadCuadrado medioF0

Regresink

Errorn-p

Totaln-1

Tabla 4.3. Tabla ANOVA para la regresin cuadrtica, con sus respectivas ecuaciones

(4.2) (4.3)

En donde H0 se rechaza si F0 > F, k, n-p, si esto se cumple se rechaza la hiptesis nula y por lo tanto nuestra regresin es significativa Completando la Tabla 4.3 con los datos de la suma de cuadrados, los grados de libertad, el cuadrado medio y F0, obtenemos la siguiente tabla, con los datos correspondientes para nuestra regresin cuadrtica

VariacinSuma de cuadradosGrados de libertadCuadrado medioF0

Regresin20.73499352210.367496765.70501028

Error181.72617151001.817261715

Total202.461165102

Tabla 4.4. Tabla ANOVA de resultados para la regresin cuadrtica

En donde F, k, n-p = F0.05, 2, 100= 3.0873Entonces F0.05, 2, 100 < F0, esto quiere decir que se rechaza la hiptesis nula H0, la regresin cuadrtica es significativa, por lo tanto se puede decir que estadsticamente dicho modelo de regresin predice de manera adecuada al menos una variable de la respuesta, en este caso se refiere a que el valor cuadrtico es significativo.Al calcular el coeficiente de determinacin R2 para este modelo con la ecuacin (4.1) obtenemos R2=0.1024 que indica claramente que el modelo no se ajusta de manera correcta a los datos.Con los datos obtenidos anteriormente se ve de manera clara que ninguno de los dos modelos de regresin describen satisfactoriamente el comportamiento de nuestros datos. Haciendo una comparacin entre los valores de R2 obtenemos que el modelo cuadrtico es el que muestra una mejor aproximacin.R2= 0.1024 > 3.826*10-9

Anlisis Residual

Realizando un anlisis residual contra los valores predichos encontrados en nuestras regresiones, se obtienen los siguientes grficos:

Figura 4.3. Grfico de residuales contra valores de y predichos: modelo de regresin lineal.

En la figura 4.3, podemos notar cierta tendencia de cono en nuestra dispersin de datos, primero de forma ascendente y posteriormente de forma descendente, lo que nos indica que no es posible comprobar el supuesto de varianza en nuestros datos. Para nuestro modelo de regresin cuadrtica, se obtiene el siguiente grfico:Figura 4.4. Grfico de residuales contra valores de y predichos: modelo de regresin cuadrtica.

Analizando la figura 4.4, podemos notar que no existe tendencia alguna entre los datos, por lo tanto se comprueba el supuesto de varianza en esta regresin.

Pruebas de coeficientes individuales de regresinSe requiere hacer una prueba T a la variable lineal para conocer si se elimina dicha variable o no, y de esta forma, obtener un modelo ms simple. Nuevamente se utilizaron las pruebas de hiptesis: (1.11)Donde la hiptesis nula H0 se rechaza si T0, j < -T/2, n-p, y esto significa que el regresor xj puede eliminarse del modelo.Para j=1: T0, 1=- -3.1100181 y T0.025, 100=-1.98397T0, 1>T0.025, 100, lo que quiere decir que la hiptesis nula se rechaza y la variable x del modelo de regresin cuadrtico no se puede eliminar debido a que afecta significativamente la respuesta.

Intervalo de confianza para la respuesta promedio; 95% confianzaEs necesario mencionar que dado que ambas regresiones resultaron no significativas para el caso de estudio, los intervalos de confianza mostrados a continuacin no tienen el propsito de describir la muestra, sino que cumplen una funcin ilustrativa en la que se muestra un ejemplo de una regin de aceptacin de la media.Utilizando el modelo cuadrtico, que a pesar de no ser adecuado, present el mejor ajuste a los datos.Con la ecuacin (1.7) se grafic el intervalo de confianza bilateral para la media de horas que duerme una persona.

Figura 4.5. Intervalo de confianza bilateral para la respuesta promedio de la regresin cuadrtica

Intervalo de confianza para la prediccin de nuevas observaciones; 95% confianzaUtilizando nuevamente el modelo cuadrtico.Con la ecuacin (1.9) se grafic el intervalo de confianza que se tiene para la prediccin de futuras observaciones

Figura 4.6. Intervalo de confianza bilateral para la prediccin de observaciones utilizando la regresin cuadrtica

Se puede observar que el intervalo de confianza de la prediccin de nuevas observaciones maneja un rango ms amplio , esto para poder aceptar valores que an no se conocen.

ConclusionesMediante un estudio realizado, tomando como muestra n= 103 individuos que variaban en edad entre 1 y 84 aos de edad, y con un nivel de significancia de = 0.05, es posible concluir que el modelo de regresin lineal no representa nuestra variable de respuesta, esto se respalda mediante pruebas grficas, tabla del ANOVA y el valor del coeficiente de determinacin R2 (Figura 4.1, Tabla 4.2, Ecuacin 4.1, respectivamente). En cuanto al modelo de regresin cuadrtica, podemos decir que no representa por completo nuestra variable de respuesta, pero s presenta un mejor ajuste que el modelo lineal, y exactamente eso es lo que representa la tabla del ANOVA y el valor del coeficiente de determinacin R2 (Tabla 4.4), ya que dicho anlisis arroj como resultado que al menos una de las variables de regresin era significativa. Este resultado se refiere a que al menos el valor cuadrtico del modelo es significativo para la tendencia de nuestros datos, sin embargo esto no quiere decir que lo describa por completo sino que mas bien el comportamiento de nuestros datos en algn momento tiene una tendencia cuadrtica. Al calcular el coeficiente R2 se obtuvo un valor muy pequeo, que como ya se haba mencionado comprueba que el modelo no es adecuado. Debido a que no se saba si el termino lineal del modelo obtenido era significativo tambin decidimos efectuar la prueba T para la variable X y de este modo adecuar de una mejor manera y hacer ms sencillo nuestro modelo. Result que no se puede eliminar el trmino X del modelo debido a que dicha variable afecta de manera significativa la respuesta.Se encontr que ninguna de las regresiones calculadas en el presente documento se ajusta de manera adecuada a nuestros datos, por lo cual es posible concluir que las personas no tienen como hbito dormir las horas que les corresponden realmente. Con el fin de llegar al modelo que se ajuste adecuadamente, se puede proponer otro modelo de regresin.A pesar de no llegar a modelar una ecuacin que describa las horas de sueo variando la edad, se puede decir que se cumpli con los otros objetivos del trabajo propuestos, ya que mediante la prueba de hiptesis de medias, se logr establecer que la gente tiende a dormir menos de 8 horas al da, es decir, que no cumplen con dormir las 8 horas diarias recomendadas, y que no hay una dependencia clara entre la edad y las horas de sueo, ms que en la regin que va de nios hasta los 20 aos de edad donde se puede observar una ligera tendencia lineal negativa. Debido a que no se recabaron datos uniformemente, es decir se recabaron muchos datos de edades semejantes mientras que de otras edades muy pocos, se presentaron algunos huecos entre los datos. Es posible que debido a esta falta de informacin los modelos no se ajusten de manera adecuada. Adems de esto, se encontr ciertos datos atpicos en la grfica de dispersin, los cuales tuvieron que ser tomados en cuenta para nuestros clculos ya que as era requerido para este proyecto. Estos tambin pudieron influir en que el modelo no se ajustara de manera adecuada. Es recomendable recabar datos variados y, en nuestro caso, de manera equitativa, adems de tratar de eliminar los datos atpicos que se puedan encontrar, y as, obtener un buen ajuste al modelo que se desee encontrar.

Evidencia fsica de la obtencin de los pares de datos X y Y mediante encuestas.