16
Práctica 4 Probabilidad y dependencia estadística En esta práctica se continúa avanzando en los procedimientos para el análisis de datos de encuesta mediante el uso de PSPP a la vez que se indaga en el uso de la noción de probabilidad para la determinación de relaciones entre variables. Con esta práctica se pretende que el alumno afiance los conceptos de suceso dependiente e independiente y su relación con la teoría de probabilidades. Con este acercamiento empírico se abre también la puerta a nociones de dependencia e independencia estadística que son centrales en la investigación de fenómenos sociales. Vamos a comenzar indagando en la relación que existe entre sexo y nivel de estudios, y más adelante nos preguntaremos por la relación que existe entre Status y Voto político. Recordemos que en la práctica anterior utilizábamos el barómetro 3261 del CIS, y en esta práctica utilizaremos el mismo barómetro. Buscaremos el fichero activo “SAV”, y abrimos el programa PSPP. Seleccionaremos desde el menú superior: Archivo y luego Abrir. Desde la ventana que se abre localizaremos el archivo 3261.sav en la ubicación donde lo tenemos guardado, marcando la opción “System files (*.sav)”, y seleccionando el archivo, para pulsar a continuación en el botón Abrir Se abrirá la matriz de datos y podemos empezar a trabajar con ella:

Práctica 4 Probabilidad y dependencia estadística

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Práctica 4 Probabilidad y dependencia estadística

Práctica 4 Probabilidad y dependencia estadística En esta práctica se continúa avanzando en los procedimientos para el análisis de datos de encuesta mediante el uso de PSPP a la vez que se indaga en el uso de la noción de probabilidad para la determinación de relaciones entre variables. Con esta práctica se pretende que el alumno afiance los conceptos de suceso dependiente e independiente y su relación con la teoría de probabilidades. Con este acercamiento empírico se abre también la puerta a nociones de dependencia e independencia estadística que son centrales en la investigación de fenómenos sociales. Vamos a comenzar indagando en la relación que existe entre sexo y nivel de estudios, y más adelante nos preguntaremos por la relación que existe entre Status y Voto político. Recordemos que en la práctica anterior utilizábamos el barómetro 3261 del CIS, y en esta práctica utilizaremos el mismo barómetro. Buscaremos el fichero activo “SAV”, y abrimos el programa PSPP. Seleccionaremos desde el menú superior: Archivo y luego Abrir. Desde la ventana que se abre localizaremos el archivo 3261.sav en la ubicación donde lo tenemos guardado, marcando la opción “System files (*.sav)”, y seleccionando el archivo, para pulsar a continuación en el botón Abrir

Se abrirá la matriz de datos y podemos empezar a trabajar con ella:

Page 2: Práctica 4 Probabilidad y dependencia estadística

Una vez abierto el fichero vamos a solicitar la distribución de frecuencias de las siguientes variables: -Sexo (P33) -Estudios (ESTUDIOS) Esta variable, se encuentra en la parte final del fichero, ha sido generada por el CIS, mediante la combinación de las preguntas P31 y P31a. Para pedir dicha distribución, recordemos la secuencia Analizar: Estadística Descriptiva: Frecuencias

Page 3: Práctica 4 Probabilidad y dependencia estadística

Y en la ventana que se abre, Pinchamos con el botón derecho del ratón en la lista de variables y aceptamos la opción de “prefiero las etiquetas de la variable”

Así será más fácil localizar la variable P33 (sexo) de la lista.

llevamos la variable P33 a la caja de la derecha y buscamos abajo de la lista de variables la variable ESTUDIOS y la pasamos también a la caja.

Page 4: Práctica 4 Probabilidad y dependencia estadística

como son nominales, desmarcamos todos los estadísticos que aparecen marcados por defecto y pinchamos en el botón Aceptar.

La distribución que obtenemos es la siguiente:

Con dicha información podemos calcular las siguientes probabilidades

P(Mujer)= 3060/5906=0,5181

P(Superiores)= 1448/5906=0,2452

Si ahora nos preguntamos cuál es la probabilidad de encontrar en una selección aleatoria a una mujer con estudios superiores debemos suponer que el hecho de ser

Page 5: Práctica 4 Probabilidad y dependencia estadística

mujer no tiene relación con el nivel de estudios alcanzado. Es decir, que hay independencia entre las variables.

Recordemos que la probabilidad de ocurrencia conjunta de dos sucesos independientes es el producto de ambas probabilidades. En este caso el producto de la probabilidad de seleccionar a una mujer por la probabilidad de seleccionar a alguien con estudios superiores.

P( S(mujer) Ç S(Superiores))= P(Mujer) P(Superiores)

En nuestro caso P( S(mujer) Ç S(Superiores)) = 0,5181x0,2452 = 0,1270

De forma análoga podríamos pensar en la probabilidad conjunta de ser un hombre con estudios superiores, en nuestro caso es

P( S(Hombre) Ç S(Superiores))= 0,4817x0,2452 = 0,1181

Ahora vamos a comprobar mediante la distribución conjunta entre las variables sexo y estudios si nuestro supuesto es cierto. Para ello desde el menú superior vamos a Analizar: Estadística Descriptiva y seleccionamos en este caso la opción de Tablas Cruzadas

En la caja de las filas colocamos la variable ESTUDIOS y en la caja de las columnas colocamos la variable P33. Conviene que en estadísticos desmarquemos todos los estadísticos y en el botón de Celdas asegúrese de que estén marcadas las opciones de recuento, fila, columna y Total. Al aceptar obtenemos la siguiente tabla:

Page 6: Práctica 4 Probabilidad y dependencia estadística

En cada una de las celdas nos indica la frecuencia –el número de casos- , el porcentaje en la dirección de las filas, el porcentaje en la dirección de las columnas, y el porcentaje sobre el total de casos (n=5.906)

Si observamos, por ejemplo la casilla de mujeres con estudios superiores vemos que hay 790 entrevistadas, que suponen el 54,56% de quienes tienen estudios superiores (790/5906) y un 25,82% del conjunto de mujeres (790/3060). Las 790 mujeres suponen el 13,38% de la muestra (790/5906).

Este último valor 0,1338 es la probabilidad de selección al azar de una mujer con estudios superiores. Recordemos que bajo el supuesto de independencia esperábamos una probabilidad de 0,1270 es decir, la probabilidad observada es mayor.

Page 7: Práctica 4 Probabilidad y dependencia estadística

En el caso de los hombres encontramos una probabilidad del 0,1114 cuando en realidad esperábamos 0,1181, es decir que el valor observado es ligeramente inferior1.

Las diferencias observadas son pequeñas, podemos suponer que el efecto combinado entre sexo y nivel de estudios resulta reducido, si bien es importante señalar que dicho efecto es positivo para las mujeres, hay una mayor probabilidad de tener estudios superiores por ser mujer que por ser hombre.

Recordemos que cuando dos sucesos no son independientes y son condicionados:

P( S(Mujer) Ç S(Superiores) )= P(Mujer)P(Superiores/Mujer)

En nuestro caso: 0,1338=0,5181x P(Superiores/Mujer)

La probabilidad condicionada de tener estudios Superiores cuando se es mujer será: P(Superiores/Mujer)=(0,1338/0,5181)=0,2582 De forma análoga para los hombres: P( S(Hombre) Ç S(Superiores) )= P(Hombre) P(Superiores/Hombre)

En nuestro caso: 0,1114=0,4817x P(Superiores/Hombre)

La probabilidad condicionada de tener estudios Superiores cuando se es mujer será: P(Superiores/Hombre)=(0,1114/0,4817)=0,2313 Si bien la interacción entre género y estudios superiores no es elevada, sí que se puede decir que comparativamente ser mujer implica tener un nivel de estudios más elevado.2 (Evidentemente el sexo no explica el nivel de estudios alanzado. La explicación deviene en las diferencias sociales que penalizan las condiciones laborales y desarrollo social de las mujeres. Esta penalización exige que hagan un mayor esfuerzo en cualificación de cara a su integración en el mercado laboral).

Vamos ahora a explorar otra relación entre variables. Clase Social y posicionamiento ideológico. La variable Clase Social se encuentra en la P45 y es una variable generada por el CIS a partir de las preguntas sobre la percepción subjetiva de la posición social según los encuestados. La variable de posicionamiento ideológico vamos a construirla a partir de la pregunta P27

1 Las frecuencias esperadas de cada casilla, pueden obtenerse mediante el producto del total de la fila a la que pertenece la casilla, multiplicado por el total de la columna donde está la casilla, dividiendo después ese producto por el total absoluto de la tabla. 2 Si bien supera con creces el propósito de este ejercicio, podemos observar que la relación (ratio) entre probabilidades condicionadas de mujeres respecto a hombres es !,#$%#

!,#&'&=1,12 que es la ventaja comparativa que

tienen las mujeres en lo que a estudios se refiere

Page 8: Práctica 4 Probabilidad y dependencia estadística

Dicha pregunta posiciona entre la izquierda y la derecha a los entrevistados. Es una variable de intervalo. Podemos obtener la distribución de frecuencias de dicha variable:

En este caso queremos transformar esta variable en tres categorías: Izquierda, Centro y Derecha. De forma que;

• Valores entre 1 y 3 sean Izquierda • Valores entre 4 y 7 sean Centro • Valores entre 8 y 10 sean Derecha

Para realizar esta transformación podemos ejecutar en el fichero de sintaxis la siguiente secuencia de comandos:

Page 9: Práctica 4 Probabilidad y dependencia estadística

****Generación de la variable ideología política IDEO mediante el agrupamiento de P27 ****Con COMPUTE copiamos la variable ****Con RECODE recodificamos los valores ****Declaramos valores missing con MISSING VALUE y etiquetamos la variable IDEO con VALUE LABELS. COMPUTE IDEO=P27. RECODE IDEO (1 THRU 3=1) (4THRU 7=2) (8 THRU 10=3). MISSING VALUES ISEO (98,99). VARIABLE LABELS IDEO “Posición política”. VALUE LABELS IDEO 1 “Izquierda” 2 “Centro” 3 “Derecha”.

De los comandos anteriores el único nuevo es RECODE. Se ha utilizado de una forma simple, en la que indicamos el nombre de la variable a recodificar IDEO y mediante la expresión THRU indicamos que desde 1 a 3, ahora se convierten en código 1; desde 4 a 7 en código 2…

P27 THRU IDEO 1 2 1 3 4 5 2 6 7 8 9 2

10 98 Missing 99

La variable de salida tendrá 3 códigos. Lo anterior podemos hacerlo también desde los menús del PSPP, accediendo desde la barra superior con la secuencia Transformar, Recodificar en Variables Diferentes

Seleccionamos la variable P27, luego pulsamos el botón de valores anteriores y nuevos

Page 10: Práctica 4 Probabilidad y dependencia estadística

Vamos rellenando en la opción intervalo los valores viejos e indicando el valor nuevo, pulsamos Añadir y repetimos la operación las veces que sea necesario.

Para introducir los valores perdidos (98,99) mediante un intervalo, en “nuevo valor” seleccionamos la opción Perdido por el sistema

Page 11: Práctica 4 Probabilidad y dependencia estadística

Después de Añadir Pulsamos Continuar, y regresamos a la ventana anterior en la que escribimos el nombre de la variable de salida (IDEO) y su etiqueta Posición ideológica y pulsamos el botón Cambio.

Después, finalmente Aceptar pulsando OK. En caunto a las etiquetas de los valores, como hemos elegido la opción de los menús, deberemos etiquetar los valores de la nueva variable, accediendo a la misma por la pestaña de “Vista de variables”, abajo en

Page 12: Práctica 4 Probabilidad y dependencia estadística

la rejilla de datos, y seleccionando la variable introducimos manualmente en la casilla de etiquetas de valor las etiquetas Izquierda, Centro y derecha:

Después de Añadir las veces necesarias pulsamos Aceptamos con OK.

Debemos ahora Recodificar además la otra variable P45 de la Clase social subjetiva

Siguiendo el mismo procedimiento que para la variable de la posición ideológica, reduciremos el número de categorías agrupando las existentes en la P45. Veamos en primer lugar, mediante una tabla de frecuencias, cómo están las categorías de la P45:

Page 13: Práctica 4 Probabilidad y dependencia estadística

Esta vez, en una ventana de sintaxis escribiremos el comando de RECODE para recodificar la P45 en otra variable llamada CLASESOC.

****Generación de la variable Clase Social Subjetiva CLASESOC mediante el agrupamiento de P45 ****Con COMPUTE copiamos la variable ****Con RECODE recodificamos los valores ****Declaramos valores missing con MISSING VALUE y etiquetamos la variable CLASESOC con VALUE LABELS. COMPUTE clasesoc =P45. RECODE RECODE P45 (1 thru 2 = 1) ( 3 = 2) (4 = 3) (5 = 4) (6 thru 96 = 5) (97 THRU 99 = SYSMIS) INTO clasesoc. MISSING VALUES clasesoc (98,99). VARIABLE LABELS clasesoc “Clase Social Subjetiva”. VALUE LABELS clasesoc 1“Clase Alta/Media-Alta” 2 “Clase Media-Media” 3 “Clase Media-Baja” 4 “Clase trabajadora/obrera” 5 “Clase Pobre/proletariado”.

Una vez tecleados los comandos en la ventana de sintaxis, seleccionamos “Ejecutar” y “Todo” en el desplegable del menú superior.

Ahora estamos en condiciones de trabajar con la variable CLASESOC e IDEO. Vamos a comenzar solicitando la distribución de frecuencias así como la tabla con el cruce de la nueva variable CLASESOC con IDEO.

Primero obtenemos las frecuencias:

Page 14: Práctica 4 Probabilidad y dependencia estadística

Y a continuación el cruce de las variables de forma análoga a como hicimos con la variable Estudios y Sexo. Desde el menú superior Analizar: Estadística Descriptiva: Tablas Cruzadas

Seleccionamos la variable clase social en las filas y la variable ideología en las columnas.

Aceptamos con OK y obtenemos la siguiente tabla:

Los resultados anteriores nos permiten obtener las probabilidades de cada suceso:

Page 15: Práctica 4 Probabilidad y dependencia estadística

Izquierda 0,3574 Centro 0,5466 Derecha 0,0960 TOTAL 1,0000

Clase Alta/ Media Alta 0,0492 Clase Media-Media 0,4687 Clase Media-Baja 0,1867 Clase Trabajadora-Obrera 0,2446 Clase Pobre/proletariado 0,0508 TOTAL 1,0000

A partir de los resultados anteriores podemos construir la tabla, bajo el supuesto de independencia. Es decir, el producto de las probabilidades de cada suceso.

Izquierda Centro Derecha Clase Alta/ Media Alta 0,0176 0,0269 0,0047 Clase Media-Media 0,1675 0,2562 0,0450 Clase Media-Baja 0,0667 0,1020 0,0179 Clase Trabajadora-Obrera 0,0874 0,1337 0,0235 Clase Pobre/proletariado 0,0182 0,0278 0,0049

Las probabilidades observadas empíricamente, las obtenemos de la encuesta:

Izquierda Centro Derecha Clase Alta Media-Alta 0,0146 0,0271 0,0075 Clase Media-Media 0,1597 0,2563 0,0526 Clase Media-Baja 0,0703 0,0998 0,0166 Clase Trabajadora-Obrera 0,0941 0,1357 0,0148 Clase Pobre/proletariado 0,0186 0,0277 0,0045

Podemos ahora preguntarnos el efecto que tiene la clase social en la ideología. Por ejemplo respecto a la derecha. Para ello calculamos las probabilidades condicionadas de declararse de derecha por clase social.

Por ejemplo, en el caso de la clase “Alta-Media-alta”

P( S(Alta Media-Alta) Ç S(Derecha) ) = P(Alta Media-Alta) P(Derecha/Alta Media-Alta) En nuestro caso: 0,0075=0,0492x P(Derecha/AltaMedia-Alta) P(Derecha/Alta Media -Alta)= 0,0075/0,0492 = 0,1524 Procediendo de forma idéntica obtenemos las demás:

Page 16: Práctica 4 Probabilidad y dependencia estadística

Como podemos observar las Clases Altas-Medias-Altas tienen una mayor propensión a posicionarse en la derecha mientras que la clase trabajadora-Obrera son el grupo que menos lo hace. La relación (ratio) es que las Clases Altas-Medias-Altas lo hacen !,'$#(

!,!)!$=2,5

veces más que la clase trabajadora-Obrera.

Derecha Clase Alta/ Media Alta 0,1524 Clase Media-Media 0,1122 Clase Media-Baja 0,0889 Clase Trabajadora-Obrera 0,0605 Clase Pobre/proletariado 0,0885