Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Módulo 7: Recopilación de datos posteriores
Vídeo 2: Sintetización, visualización y edición
Sharan Sharma
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación
6. Control de divulgación
7. Procesamiento final, documentación y difusión
2
Muchas actividades...
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Datos faltantes
• Aunque se supervisan durante la recopilación de datos (→ módulo 6,
vídeo 4), también deberían analizarse en esta fase.
• ¿Faltan debido a patrones de exclusión (NA)? ¿O debido a DK/RF?
¿O a cualquier otro problema?
– Es útil analizar estas cuestiones por separado.
• En primer lugar, calcular el % de datos faltantes para cada variable.
– Centrarse en variantes con un índice de datos faltantes >___ %.
– Comparar con rondas anteriores en el caso de encuestas panel o
transversales repetidas.
3
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Datos faltantes...
• Revisar también los patrones de datos faltantes. ¿Vemos algún
problema aparente?
– P. ej., todos los valores faltantes para una variable ocurren en PSU 10.
– ¿Hay valores faltantes cuando no debería haber ninguno? P. ej., se
debería hacer la pregunta al encuestado (no omitirla), pero mostrarla
como NA.
• Visualizar datos faltantes
4
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 5
ID
Vivienda Ingresos
• Correlación entre casos que registran datos
faltantes en variables de vivienda e ingresos.
- Algunas identificaciones tienden a tener más
datos faltantes; ¿cuáles son las características
de estas identificaciones?
• Esta visualización puede resultar difícil con
cientos de variables; lo mejor es analizar
mediante algunos grupos de variables sensibles.
• Varias visualizaciones posibles:
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 6
Véase https://cran.r-
project.org/web/packages/naniar/vignette
s/naniar-visualisation.html para otros
ejemplos útiles.
Variable
Estado marital
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
2. Tener una idea de los datos agregados
Tablas resumen: resumen de cinco números
7
Datos adaptados del juego de datos «mpg» disponible en el paquete ggplot2 en R. Las variables
se reetiquetaron para esta presentación («cty», «hwy»). n = 234.
• ¿Tienen sentido estos datos?
• ¿Cómo se comparan con
rondas anteriores de la
encuesta?
• ¿Cómo se comparan con otros
datos de referencia?
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Visualizaciones univariantes: diagrama de caja
8
Mediana
Q1
Q3
«Máximo» = Q3 + 1,5*IQR
«Mínimo» = Q1 - 1,5*IQR
Rango intercuartílico (IQR)
«Valor
atípico»
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 9
Si también le interesa ver
la forma de la distribución
Visualizaciones univariantes: Histogramas o diagramas de densidad
Distancia al centro de atención primaria de salud
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¿De dónde provienen esos grandes valores?
10
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 11
Dis
tancia
al centr
ode a
tenció
nprim
aria
de s
alu
d
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Visualizaciones bivariantes: Gráfica de dispersión
¡El color puede añadir información!
12
SEC -> clase socioeconómica
Distancia al centro de atención primaria de saludDistancia al centro de atención primaria de salud
Dis
tancia
a la s
ede a
dm
inis
trativa d
e P
SU
Dis
tancia
a la s
ede a
dm
inis
trativa d
e P
SU
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 13
Fuente: Ghahroodi et al. 2015
Visualizar
conjuntamente
distribuciones
univariantes y
bivariantes
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Software de visualización
• El software estadístico estándar (p. ej., SAS, STATA, SPSS)
puede producir estos resultados.
• El software de código abierto, como R, ha contribuido mucho, p.
ej., el paquete ggplot2.
• También se pueden utilizar visualizaciones interactivas basadas
en la web. Los diagramas de las diapositivas anteriores se
hicieron con: https://shiny.gmw.rug.nl/ggplotgui/
14
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Para variables categóricas
• Las variables categóricas suelen usarse para dividir el juego de datos con el
fin de analizarlo. Pero también hay que analizarlas independientemente.
• Sintetizar/representar gráficamente una distribución por categoría (gráfica de
barras). Comparar con olas anteriores o datos externos si es posible. ¿Algo
que sorprenda? P. ej., % de graduados >% de ellos inferior a escuela
secundaria.
• Las tablas de contingencia se usan cuando hay más de una variable
categórica.
– Categorías SEC x ingresos
– ¿Alguna combinación incoherente? P. ej., casos con «Mayor nivel de educación alcanzado»
= Licenciados, pero «cursando actualmente» = educación secundaria superior.
15
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Controles de coherencia
• Algunos controles se incorporan automáticamente al instrumento
informatizado.
– Controles de rango, p. ej., edad del hijo menor <18 años
– Tipo de respuesta, p. ej., el número de hijos debe ser un número entero;
una pregunta abierta sobre ocupación debe contener algunos valores de
texto, etc.
– Controles lógicos (p. ej., número de años de matrimonio < edad)
• Pero no es posible tener todos los controles posibles integrados.
Es necesario ejecutar controles de coherencia después de la
recopilación de datos...
16
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Ejemplos de
controles de
coherencia para
el Programa
Internacional
para la
Evaluación de
Estudiantes
(2018).
17
https://www.oecd.org/pisa/data/pisa2018technicalreport/PISA2018%20TecReport-Ch-10-Data-Management.pdf
Secuencia Descripción Código de SAS
Invalidar si el número del peso de una persona es negativo
Invalidar si el número de la altura de una persona es negativo.
Invalidar si el número de períodos de clase por semana en las lecciones de idioma de prueba (ST059Q01TA) es mayor que 40
Invalidar si el número de períodos de clase por semana en if (5 matemáticas (ST059Q0RTA) es mayor que 40
Invalidar si el número de períodos de clase por semana en si (S ciencia (ST059Q03TA) es mayor que 40
Invalidar si el número de <períodos de clase> por semana si (S en idioma extranjero es mayor que 40. Invalidar si el número total de períodos de clase en una semana (ST060Q01NA) es mayor que 120 o menos de 10
Invalidar si el número de períodos de clase por semana en lengua extranjera es mayor que 40
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación (tratado en el módulo 2)
6. Control de divulgación
7. Procesamiento final, documentación y difusión
18
Muchas actividades...
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
3. Edición de datos
• ¿Qué deberíamos hacer con esos valores «extremos» o incoherentes que hemos visto anteriormente?
• ¿Son plausibles? – Valores atípicos «representativos» (extremos pero válidos) frente a
valores atípicos «no representativos» (errores)
• «numéricamente alejados del resto de datos». ¿Pero qué datos? – Numerosos algoritmos
• Más formalmente: datos que no encajan en un modelo.
19
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 20
Fuente de gráficos: r-statistics.co/Outlier-Treatment-With-R.html
Después de eliminar «valores atípicos»
Es peligroso hacerlo automáticamente:
• El modelo que plantee (quizás de forma
simplista) no necesita ser «verdadero».
• No hay una definición estándar de lo que
es un «valor atípico».
Datos completos
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Detección de valores atípicos: cuestiones
prácticas1. No hay una definición clara de lo que es un valor atípico.
– Aguinis et al. (2013): revisión bibliográfica de 46 fuentes metodológicas,
232 artículos de revistas científicas institucionales.
Resultado: 14 definiciones de valores atípicos, 39 técnicas de detección
de valores atípicos y 20 formas distintas de gestionar valores atípicos
detectados.
– Sea cual sea la definición aplicada, hay que ser coherente.
2. Distribuciones sesgadas
– Se puede seguir usando el diagrama de caja, pero con una
transformación Box-Cox aplicada a los datos.
21
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Detección de valores atípicos: cuestiones prácticas
3. Muchos ceros.
– Describir/representar gráficamente sin los ceros.
– Para acontecimientos muy poco comunes, los procesos habituales de detección de
valores atípicos pueden no ser válidos.
4. ¿Ponderados o sin ponderar?
– Empezar con los no ponderados, pero no ignorar la detección de valores atípicos
ponderados
5. Error común: eliminar valores atípicos. Repetir análisis. Surgirán algunos
más. Volver a eliminar -> La propia edición de datos es una fuente de error.
6. No detenerse en el análisis univariante...
22
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Diagramas de cajas univariantes...
23
Alt
ura
en
Pes
o e
n
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Dispersión bivariante
24
Alt
ura
en
Peso en
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Valores atípicos multivariantes
• Dado que la mayoría de las encuestas recopila muchas
(cientos/miles) variables, teóricamente pueden tener 3D, 4D...
– Se necesita una solución automática.
• Varios algoritmos disponibles para detectar valores atípicos
multivariantes, p. ej., Epidemia, BACON-EEM
– Usar una estimación sólida para evitar que el «centro» de los datos se
distorsione a sí mismo con valores extremos.
– También tiene en cuenta las ponderaciones muestrales.
Para más información, véase Filzmoser et al. (2016) y Todorov et al. (2009)
25
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¿Qué hacemos con los valores atípicos o con los
valores que no pasan los controles de coherencia?
1: Mantener
Si los valores son consecuencia de un error de introducción de
datos verificado, ¿deberíamos mantenerlos? Puede dañar el
análisis.
En algunos casos se puede llamar al encuestado para confirmar
la respuesta.
Para estudios panel, también vale la pena comprobar valores
pasados facilitados por el encuestado para la/s misma/s
variable/s.
26
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¿Qué hacemos con los valores atípicos o con los
valores que no pasan los controles de coherencia?
1: Mantener
2: Borrar
• Aunque se necesitan métodos de detección automática para
una encuesta típica, la eliminación automática basada en un
umbral ad hoc no es buena idea.
• Los valores atípicos deben investigarse.
• Normalmente, los valores atípicos son una parte informativa de
los datos...
27
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Una lección de una configuración no basada en encuestas
¿Por qué no descubrieron este fenómeno antes? Por desgracia, el
software Transacciones en software matemático de análisis de datos
se programó para marcar y apartar puntos de datos que se desviaban
considerablemente de las mediciones previstas, por lo que las
mediciones iniciales que deberían haber disparado las alarmas
simplemente se ignoraron. En resumen, el equipo Transacciones en
software matemático no fue capaz de detectar el agotamiento de la
capa de ozono años antes porque era mucho más grave de lo que los
científicos esperaban.
28
https://earthobservatory.nasa.gov/features/RemoteSensingAtmosphere/remote_sensing5.php
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¿Qué hacemos con los valores atípicos o con los
valores que no pasan los controles de coherencia?
1: Mantener
2: Borrar
3: Winsorizar/ajuste estadístico
4: Imputar
29
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Winsorizar/ajuste estadístico
• Los valores por encima/debajo de un valor discriminatorio se
ajustan en función de este valor.
• Nadie regala nada: puede estar reduciendo la varianza, pero es
posible que el sesgo aumente (→ módulo 1 para conceptos de
sesgo y varianza).
• Se pueden usar procedimientos como el diagrama de Pareto para
distribuciones sesgadas. Los valores por encima del umbral
definido por la distribución se sustituyen por un valor estimado.
30
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¿Qué hacemos con los valores atípicos o con los
valores que no pasan los controles de coherencia?
1: Mantener
2: Borrar
3: Winsorizar
4: Imputar
31
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación (ponderación tratada en el módulo 2)
6. Control de divulgación
7. Procesamiento final, documentación y difusión
32
Muchas actividades...
FIN DEL vídeo 2