21
Seminario 6 Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Seminario 6

Embed Size (px)

Citation preview

Seminario 6

Seminario 6

Anlisis exploratorio de datos Tablas de frecuencias, resmenes numricos y grficos.

EJERCICIO 1

Selecciona dos variables cualitativas-factor del fichero activossalud.RData, descrbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relacin a la distribucin de las mismas.

En primer lugar importamos los datos sobre los que vamos a trabajar, en este caso se trata de un documento en formato R:

Seleccionamos dos variables cualitativas: proteccionpreservativo y marchaatras

123Este procedimiento lo aplicamos a otra variable cualitativa como es marchaatras.

Ahora ya tenemos ambas tablas que podemos comparar.

Distribucin de frecuencias de proteccionpreservativo

Distribucin de frecuencias de marchaatrasFrecuencias absolutasPorcentajes

En el caso de proteccionpreservativo han contestado 255 de 291, y en marchaatras 208 de 291.Ms de 61% de los encuestados usan el preservativo siempre y el 31,7% alguna vez.En el caso de la marcha atrs el 50% asegura que nunca la ha usado, y un 41,83 % la ha usado alguna vez.Es ms frecuente el uso de preservativo que la marcha atrs como mtodo de anticoncepcin en la mayora de las ocasiones. Pero hay un alto porcentaje de adolescentes que han empleado la marcha atrs alguna vez.

Se puede observar que las campaas destinadas a la concienciacin y uso dl preservativo estn surgiendo efecto sobre la poblacin.Aunque el 50% de los jvenes no hayan usado jams la marcha atrs, hay un alto porcentaje que la ha usado alguna vez. Quizs habra que reforzar las campaas de prevencin dirigidas a estas poblaciones.

EJERCICIO 2

Selecciona dos variables numricas del fichero activossalud.RData, y mediante resmenes numricos describe e interpreta la distribucin de las mismas.

En este caso vamos a estudiar variables cuantitativas, por tanto podemos hallar las medidas de dispersin y posicin. Seleccionamos dos variables cuantitativas: altura y horapracticadeportiva.

1234

Realizamos el mismo proceso para la variable altura

horapracticadeporte

A partir del resumen numrico podemos concluir que:-La media de horas de deporte que se practica es de 2,48 horas a la semana.-La desviacin tpica es de 3.13-El primer cuartil es cero, es decir, el 25% de la muestra dedica menos de una hora a la prctica de ejercicio a la semana.-El segundo cuartil es 2, por lo tanto: el 50% de la muestra dedica 2 horas o menos a la prctica de deporte a la semana.-Y el tercer cuartil nos muestra que el 75% de las personas de la muestra emplean 4 horas o menos a la prctica de deportes.-Podemos establecer que los datos se distribuyen entre los extremos 0 horas y 16 horas.-NA: hace referencia al nmero de personas que no han contestado la pregunta.

alturaA partir del resumen numrico podemos concluir que: -La media de altura es de 1.67 m. -La desviacin tpica es de 0.08 -El primer cuartil es 1,6, es decir, el 25% de la muestra mide menos de 1,6 m. o menos. -El segundo cuartil es 1,65, por lo tanto: el 50% de la muestra mide 1,65 o menos. -Y el tercer cuartil nos muestra que el 75% de las personas de la muestra miden 1,72 o menos. -Podemos establecer que los dos extremos (la persona que menos mide y la que ms): 1,46m y 2m. -NA: hace referencia al nmero de personas que no han contestado la pregunta.

EJERCICIO 3:

Debes realizar al menos un grfico de cada tipo con variables adecuadamente seleccionadas del fichero activossalud.RData, describe e interpreta la distribucin los mismos.

Grficos de sectores:Para variables cualitativas, mejor si son dicotmica.

Es una representacin visual que nos muestra el nmero de personas que s trabajan (Azul) y no trabajan (rosa) en una superficie. Interpretamos que hay un mayor nmero de personas que no tienen trabajo de los que ha realizado la encuesta.

Grficos de barras:Para variables cualitativas cuando tienen ms de dos categoras.

Los datos se concentran en las categoras alguna vez (ms de 80 personas) y nunca (ms de cien personas.

Histograma de frecuencias:

Para variables numricas

El peso medio de las personas de la muestra est entre 50 y 70 Kg.

Diagrama de cajas (Box-plot)Para variables numricas

El valor mximo es de 10, el mnimo es cero.El 50% de los individuos de la muestra se concentran en torno a cero y cuatro.La mediana se sita en dos ms o menos.El 75% de la muestra practica 4 horas o menos.

MedianaPuntaje ms altoPercentil 75Percentil 25Puntaje ms bajo