21
INFORME ESTADÍSTICA BIVARIADA ESTADÍSTICA Y TICs Usuario MARÍA JOSÉ CRESPILLO CARO

INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

INFORME ESTADÍSTICA BIVARIADA

ESTADÍSTICA Y TICs

UsuarioMARÍA JOSÉ CRESPILLO CARO

Page 2: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

ÍNDICE

1. INTRODUCCIÓN

2. OBJETIVO

- General

- Específico

3. METODOLOGÍA

3.1. POBLACIÓN DE ESTUDIO. MUESTA

3.2. VARIABLES A ANALIZAR

3.3. ANÁLISIS DE DATOS

4. RESULTADOS

5. CONCLUSIÓN

Page 3: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

1.INTRODUCCIÓN

La estadística bivariada aborda el estudio de sucesos en los que intervienen dos

variables simultáneamente. Por una parte, se utiliza para ver procedimientos y técnicas y

responder a la cuestión de si los valores en una variable cuantitativa están

sistemáticamente relacionados con los de otra variable cuantitativa o cualitativa. Esto

nos permitirá descubrir y evaluar casos de variación conjunta de las variables o patrones

de co-variación. Por otra parte, se usa para deducir características de las variables que se

forman como una combinación lineal de otras variables.

2. OBJETIVOS

- General: utilizar la estadística bivariada para establecer la asociación entre dos

variables de nuestro fichero de datos, dando respuesta a hipótesis de investigación

específicas.

- Específicos:

- Primer objetivo (ejercicio 1):

Conocer si existe o no asociación entre las variables “sexo” y

“practicadeporte”, utilizando el software “RCommander”.

Se debe de describir y representar los datos en una tabla y establecer

una hipótesis adecuada para el estudio. Además, se ha de utilizar la

prueba estadística más adecuada para contrastar la hipótesis.

Interpretar resultados.

- Segundo objetivo (ejercicio 3):

Conocer si existe relación y cómo de fuerte es entre las variables

“peso” y “altura”, utilizando para ello el software “RCommander”.

Se deben describir y representar los datos en una tabla y establecer

una hipótesis adecuada para el estudio. Además, se ha de utilizar la

prueba estadística más adecuada para contrastar la hipótesis.

Interpretar los resultados.

Page 4: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

3.METODOLOGÍA

3.1. POBLACIÓN DE ESTUDIO. MUESTRA

El estudio realizado consta de 291 participantes, estudiantes de primero de enfermería

de la Universidad de Sevilla, centros propios y adscritos, para conocer sus estilos de

vida y activos en salud.

3.2. VARIABLES A ANALIZAR

Dentro de este estudio, hemos trabajado con dos variables en cada caso:

Ejercicio 1

- Variable 1: sexo; es una variable cualitativa con dos categorías: varón o mujer.

- Variable 2: practicadeporte; variable cualitativa con dos categorías: sí o no.

Ejercicio 3

- Variable 1: altura; es una variable cuantitativa continua en la que hemos utilizado

como unidad de medida el metro (m).

- Variable 2: peso; es una variable cuantitativa continua en la que hemos utilizado como

unidad de medida el kilogramo (Kg).

3.3. ANÁLISIS DE DATOS

Software utilizado

Hemos utilizado el Software R-UCA-3.4.3 versión 3.3.1 para Windows. R es un

software para el análisis estadístico de datos considerado como uno de los más

interesantes y utilizados en investigación por la comunidad estadística. Apoyan esta

opinión la vasta variedad de métodos estadísticos que cubre, las capacidades gráficas

que ofrece, así como también el hecho de ser un software libre, es decir, gratuito.

Análisis estadísticos que se van a realizar

Se han usado dos test estadísticos para el análisis bivariado de las variables:

- En primer lugar, para el primer ejercicio se ha utilizado el test Chi Cuadrado, pues se

tratan de dos variables cualitativas dicotómicas.

Page 5: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

- Por otro lado, para el segundo ejercicio (tercero en la pauta), hemos utilizado el test

de ShapiroWilk para determinar si las variables seguían o no la normalidad. Al

comprobarque no la seguían, usamos el coeficiente de correlación de Spearman para

determinar la fuerza.

4. RESULTADOS

EJERCICIO 1

Queremos conocer si existe asociación entre las variables del archivo

“activossalud.Rdata” “sexo” y “practicadeporte” (Sí, No). Para ello y usando el software

“RCommander”: describe y representa los datos en una tabla, establece una hipótesis

adecuada para el estudio, utiliza la prueba más adecuada para contrastar tu hipótesis e

interpreta los resultados.

A. Describe y representa los datos en una tabla.

En primer lugar, trataremos que en este caso nuestras dos variables, son cualitativas. La

primera variable, “sexo” dispone de dos categorías, “hombre” y “mujer”, al igual que la

segunda variable “practicadeporte”, las cuales son “Sí” o “No”.

En cuanto al sexo, tras cargar el archivo “activossalud.Rdata” en RCommander y pedir

una distribución de frecuencias en estadísticos obtenemos que:

Hombre Mujer Descripción

51 240 Observamos que en nuestra muestra

hay muchas más mujeres que

hombres, un 82`47% frente a un

17.23%, por lo que los resultados

tendrán una mayor significación o

influencia en el sexo mayoritario.

Al hacer el mismo procedimiento con la segunda variable, “practicadeporte” obtenemos

que:

Page 6: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Sí No Descripción

159 132 Observamos que no existe mucha

diferencia entre ambas categorías.

Practica deporte un 54,64% de

nuestra muestra, frente a un

45,36% que no lo hace.

B. Establece una hipótesis adecuada para el estudio.

Se establecen dos hipótesis, de forma que la negación de una supone la aceptación de la

otra.

- Hipótesis nula (H0): es debida al azar, establece que no hay diferencia, que hay

igualdad, es la hipótesis sobre la que se desea decidir, en este caso: el sexo no influye en

la práctica de deporte.

- Hipótesis alternativa (H1): es debida a algo más, por ejemplo a la asociación entre las

variables que estudiamos. Es contraria a H0: el sexo sí influye en la práctica de deporte.

C. Utiliza la prueba más adecuada para contrastar tu hipótesis

Al tratarse de dos variables cualitativas, la prueba más adecuada para contrastar las

hipótesis planteadas anteriormente es el uso del test de Chi Cuadrado.

Este mismo, se puede realizar de dos formas: manualmente a través de las tablas de

contingencia que se emplean para registrar y analizar la asociación entre dos o más

variables de naturaleza cualitativa o a través del software RCommander. Hay que tener

en cuenta las condiciones de aplicabilidad: pues deben de ser observaciones

independientes, variables cualitativas y las frecuencias teóricas o esperadas en cada

casilla de clasificación no deben ser menores a 5.

Page 7: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Sexo/practicadeporte No Sí Total

Varón 9 42 51

Mujer 123 117 240

Total 132 159 291

Estas serían las frecuencias observadas en nuestro estudio (FO). A continuación

mostraremos las frecuencias esperadas (FE): que son aquellas que deberían de haberse

observado si la H0 fuese cierta, o si ambas fueran independientes, si no estuvieran

asociadas.

Sexo/practicadeporte No Sí Total

Varón 23,134 27,865 51

Mujer 108,865 131,134 240

Total 132 159 291

Una vez obtenidas las frecuencias observadas y esperadas, procedemos a calcular Chi

Cuadrado:

Page 8: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

X2= [(9-23.134)2 /23.134] + [(123-108.865)2 /108.865] + [(42-27.865)2 /27.865] +

[(117- 131.134)2 /131.134] = 19.163.

Por tanto, ya conocemos que el Chi Cuadrado observado es de 19.163, para terminar

con nuestro análisis y llegar a la conclusión debemos de calcular el esperado. Para ello

procedemos a calcular:

Grado de libertad (filas-1)x(columnas-1)=(2-1)x(2-1)=1

Una vez tengamos el grado de libertad (1) y el nivel de significación (0.05) vemos que

el Chi Cuadrado esperado era de 3,84.

Ahora haremos el mismo ejercicio pero a través del software “RCommander”.

Observamos de igual forma que el chi cuadrado observable es de 19,163 y que el p-

valor está por debajo de 0.05.

Page 9: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

EJERCICIO 3

Queremos conocer si existe asociación entre las variables del archivo

“activossalud.Rdata” “altura” y “peso”. Para ello y usando el software “RCommander”:

describe y representa los datos en una tabla, establece una hipótesis adecuada para el

estudio, utiliza la prueba más adecuada para contrastar tu hipótesis e interpreta los

resultados.

A. Descripción y representación de los datos en la tabla

- En primer lugar, comprobaremos si la variable “altura” sigue la distribución normal,

usando para ello una representación en histograma y en diagrama de cajas.

Histograma variable “altura”

Page 10: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Diagrama de caja variable “altura”

Gráfico q-q variable “altura”

Podemos observar como en el histograma, los datos presentan una mayor acumulación

entre 1.5-1.75 m, de modo que hay asimetría, lo que indicaría que no siguen la

normalidad. Si nos centramos ahora en el diagrama de cajas, aunque no es muy acusada,

es apreciable que existen algunos valores extremos que indican ausencia de

Page 11: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

normalidad.En el caso del gráfico q-q, la distribución se ajusta a la normalidad en el

centro y que presenta asimetría en los extremos.

- Por otro lado, comprobaremos si la segunda variable, “peso”, sigue o no la normalidad

empleando para ello el mismo método que para la variable anterior: representación

gráfica en histograma y en diagrama de dispersión.

Histograma variable “peso”

Diagrama de caja variable “peso”

Page 12: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Gráfica q-q variable “peso”

Analizando sendas representaciones gráficas, podemos observar como en el caso del

histograma los valores tienen a acumularse entre los 40-80 kg, de modo que es

apreciable la asimetría. En este sentido, podríamos decir que la variable “peso” tampoco

sigue la normalidad. Si continuamos analizando el diagrama de caja, ocurre lo mismo

que para la variable anterior, pero en este caso de un modo más acusado si cabe:

numerosos valores extremos, lo que indicaría, en principio, una ausencia de normalidad.

En el caso del gráfico q-q, la distribución se ajusta a la normalidad en el centro y que

presenta asimetría en los extremos, aunque algo más acusada que en la representación

de la variable “altura”.

Para verificar con total seguridad la ausencia o no de normalidad, usaremos a

continuación el test de ShapiroWilk para cada una de las variables:

Shapiro-Wilknormality test

data: altura

W = 0.96796, p-value = 0.000004686

Como bien hemos podido comprobar, el p-value= 4.686e-6 y es menor que 0.05, lo que

quiere decir que no sigue la normalidad.

Page 13: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Shapiro-Wilknormality test

data: peso

W = 0.89614, p-value = 8.406e-13

En este caso, el p-value= 8.406e-13 y es menor que 0.05, lo que significa que tampoco

sigue la normalidad.

B. Establece una hipótesis adecuada para el estudio

Hemos podido comprobar anteriormente que las variables se asocian linealmente pero

no siguen la distribución normal, por lo tanto, establecemos:

Ho no existe relación entre la variable “altura” y la variable “peso”, es decir, p>0.05

H1 sí existe relación entre la variable “altura” y la variable “peso”, es decir, p<0.05

C. Utiliza la prueba más adecuada para contrastar tu hipótesis

Una vez que hemos comprobado que las variables no siguen la normalidad y

establecidas las hipótesis, emplearemos el coeficiente de correlación de Spearman

para determinar la fuerza de la relación entre ambas variables.

Spearmancorrelations:

altura peso

altura 1.0000 0.6224

peso 0.6224 1.0000

Number of observations: 275

Pairwisetwo-sided p-values:

altura peso

altura <.0001

peso <.0001

Adjusted p-values (Holm'smethod)

altura peso

altura <.0001

peso <.0001

Page 14: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

Spearman'srankcorrelation rho

data: altura and peso

S = 1308800, p-value< 2.2e-16

alternativehypothesis: true rho isnotequal to 0

sampleestimates:

rho

0.6224114

Como hemos podido comprobar, el p-value<2.2e-16, lo cual nos servirá para aceptar o

rechazar la hipótesis nula (Ho). Así mismo, para determinar la fuerza de correlación

debemos contemplar que rho=0.6224114.

D. Interpreta los resultados

4. RESULTADOS

Ejercicio 1

Interpretando los resultados, en la primera realización del ejercicio “manualmente”

vemos como el chi observado (19.163) es mayor que el esperado (3.84) por lo que hay

relación entre las variables. Esto quiere decir que rechazamos la hipótesis nula (en la

que decíamos que no tenían asociación) y aceptamos la hipótesis alternativa: el sexo

influye en la práctica deportiva.

Con el software “RCommander” observamos como tomando un nivel de confianza del

95% (0.05), el p-valor es menor que 0.05 por lo que si aceptamos la hipótesis nula

quiere decir que aceptamos un margen de error por encima del 0.05 o un nivel de acierto

menor al 95%, por lo que coincidimos con el resultado anterior: rechazamos la hipótesis

nula y aceptamos la alternativa: el sexo influye en la práctica deportiva.

En esta muestra vemos como el sexo influye en la práctica del deporte, y que este es

realizado en mayor parte por hombres que por mujeres.

Ejercicio 3

Dado que se nos proponían dos variables cuantitativas continuas, para determinar la

existencia o no de relación entre ambas variables (“altura” y “peso”), comprobamos si

las dos variables seguían la normalidad. Tras la contrastación con representaciones

Page 15: INFORME ESTADÍSTICA BIVARIADA  · Web viewLa estadística bivariada aborda el estudio de sucesos en los que intervienen dos variables simultáneamente. Por una parte, se utiliza

gráficas y valiéndonos del test de Shapiro-Wilk, donde el p-valor fue menor a 0.05 en

ambos casos (p-value = 8.406e-13 para variable “peso” y p-value= 4.686e-6 para

variable “altura”), determinamos que ninguna de las dos variables seguía la normalidad.

Tras establecer la Ho (no existe relación entre la variable “altura” y la variable “peso”)

y la H1 (sí existe relación entre la variable “altura” y la variable “peso”), empleamos el

coeficiente de correlación de Spearman para determinar la fuerza de relación entre las

variables, obteniendo un p-value<2.2e-16, lo que significa que debíamos rechazar la

hipótesis nula (Ho) y aceptar la alternativa (H1), o lo que es lo mismo, afirmamos que

SÍ existe relación entre la variable “peso” y la variable “altura”. Una vez determinado

esto, calculamos rho=0.6224114, teniendo en cuenta para ello: r<0.3: débil; r=0.3-0.5:

moderada; r>0.5: fuerte. Por tanto, al ser rho mayor a 0.5, significa que la relación entre

sendas variables es fuerte.

5. CONCLUSIÓN

En ambos ejercicios hemos querido conocer la existencia o no de asociación entre las

variables estudiadas en cada uno de los dos casos. Para ello hemos utilizado diferentes

test dependiendo de los tipos de variables (en el primer caso usamos Chi Cuadrado

porque se trataban de dos variables cualitativas, mientras que en el segundohemos

utilizado el test de ShapiroWilk, pues eran variables cuantitativas, así como el

coeficiente de correlación de Spearman para determinar la fuerza).

Analizando los resultados, en nuestro primer objetivo, es decir, en el primer ejercicio,

hemos obtenido que el sexo sí influye en la práctica o no deportiva, siendo el sexo

masculino el que más lo práctica.

En el segundo objetivo, que responde al tercer ejercicio, hemos comprobado que

síexiste relación entre la variable “altura” y la variable “peso”, y esta es fuerte.