Upload
cesar-salinas-olivares
View
236
Download
0
Embed Size (px)
Citation preview
Análisis de datos
Descripción de Métodos
• Objetivos• Metodología• Evaluación• Bibliografía• Programación
Objetivos del análisis
• Un estudio es un ejercicio de medición• Estimación del efecto• Validez de la estimación• Precisión de la estimación• No, prueba de hipótesis• Análisis debe ser cuantitativo más que
cualitativo
Pasos en el análisis de datos1. Editar los datos para evaluar su validez, consistencia
y cobertura2. Resumir los datos en tablas o gráficas (análisis
descriptivo)3. Estimar las medidas epidemiológicas de interés
para el estudio: ocurrencia o efecto con sus respectivos intérvalos de confianza.
4. Interpretar los resultados del análisis descriptivo y la estimación
Edición: aspectos generales
• Revisión de los datos recién digitados• Identificación y corrección de errores, siempre
que sea posible• Predefinir naturaleza de las variables que
serán usadas en el análisis• Disminuir al máximo el número de veces que
la información debe ser digitada y codificada
Edición: aspectos básicos
• Revisión de cada variable buscando valores “atipicos” o diferentes a lo esperado. Confrontar con la fuente primaria de la información.
• Tener cuidado en la codificación de ciertas respuestas, i.e uso del “0” como código.
• Examinar la distribución completa de cada variable y confrontar con lo esperado
Edición: otros aspectos
• Consistencia en los patrones de respuesta de variables que están relacionadas.
• Usar software especializado en la entrada de datos para optimizar la edición de los mismos.
Resumir y describir los datos
• Examinar y mostrar la distribución de las principales variables:– Exposición– Evento– Confusores?– Modificadores de la medida de efecto?
• No utilizar estadísticas ni nada que permita hacer inferencias más allá de los datos del estudio
Para que las estadísticas descriptivas?
• Sirve para identificar valores “atipicos”• Permite validar supuestos requeridos por las
pruebas de estadística inferencial.
Tabulación de datos
• Las tablas de contingencia (n x n) pueden ser lo único que el investigador necesita para realizar sus estimaciones.
• Muy útil cuando no hay confusores o modificadores de la medida de efecto.
Elección de categorías
• Hay que decidir como colapsar los datos en pocas categorías para construir las tablas de contingencia, especialmente para las variables continuas.
• Número de categorías depende del tamaño de la muestra
• En muestras grandes para el control de confusión, 5 categorías son suficientes, lo mismo que para evaluar el efecto dosis-respuesta de una exposición.
Elección de categorías
• Utilizar categorías que sean propias de la variable• Incluir categorías extremas en el análisis,
especialmente para la exposición principal. • Tener cuidado con el uso de quintiles y categorías
definidas a partir de la distribución de la variable.• Las categorías abiertas, en los extremos de la
distribución de la variable, pueden ser una fuente de confusión importante.
Clasificación de sujetos y del tiempo-persona
• Para clasificar adecuadamente el aporte de cada sujeto a las categorías de expuesto y no expuesto, se debe asumir un modelo de periodo de inducción para la relación exposición-evento que estamos estudiando.
• Tiempo que aporta el sujeto durante el periodo de inducción hace parte del periodo de “no expuesto”. Eventos previos al cumplimiento del periodo de inducción promedio, no pueden ser atribuidos a la exposición que esta bajo estudio.
Manejo de datos faltantes• Excluir completamente los sujetos: análisis de sujetos
completos• Métodos de imputación o predicción del valor de los
datos faltantes• Métodos de asignación de pesos a los sujetos con
datos faltantes• Nunca deben ser interpretados los datos faltantes
como una “categoría” más de la variable en cuestión o identificados con una variable nueva que indique la presencia o no del dato faltante (missing indicator).
Otras reflexiones sobre el análisis de los datos...
Prueba de hipótesis
• No debe ser el objetivo del análisis• No es necesaria, ni para publicar los
resultados• No aporta al análisis • Sin embargo es un concepto muy arraigado
Medición
• Proceso más complejo que el de toma de decisiones
• Definir cual es el parámetro objeto • Estimarlo en el estudio• Calcular el estimativo puntual• Múltiples factores pueden afectar el valor de
dicho estimativo puntual
Error aleatorio en la estimación
• Estimación de un rango o intervalo de estimativos puntuales posibles a partir de los datos
• Intervalo de confianza• Límites de confianza• Nivel de confianza del intervalo (1- alfa) es un
porcentaje (i.e. 95%)
Temas importantes en el análisis de los datos
• Diseño del estudio• Descripción de los datos en tablas y figuras,
pero sin el uso de estadísticas.• Análisis estratificado (confusión y modificación
de la medida de efecto)• Métodos multivariados
Buenas prácticas en análisis de datos
• Elaborar y seguir un plan de análisis• Familiarizarse temática, estudio y datos• Documentar las actividades y decisiones
tomadas (i.e. en un diario o bitácora)• Hacer los análisis mediante programas (code)
y dejar documentación.• No modificar la base de datos original y hacer
copias de seguridad
Ajuste de variables de confusión
La identificación de asociaciones no causales: confusión
• Confusión: es una asociación no causal entre una exposición y un desenlace, que ocurre como consecuencia de una tercera variables, variable confusora o confusor.
• La variable confusora tiene que estar asociada causalmente o no a la supuesta variable de exposición y está asociada al desenlace. Esto puede dar como resultado una aparición o intensificación de una asociación que no es debida a un efecto causal, también puede desaparecer o diluir una asociación causal.
• La confusión no es un sesgo, por que la relación no es causal pero es real.
• La confusión está asociada a la definición de exposiciones
Las tasas de mortalidad bruta general para seís países en las Américas en un tiempo X
• Costa Rica: 3,8 por 1.000• Venezuela: 4,4 por 1.000• México: 4,9 por 1.000• Cuba: 6,7 por 1.000• Canadá: 7,3 por 1.000• Estados Unidos: 8,7 por 1.000
• Al ajustar las tasas de mortalidad• Costa Rica: 3,7 por 1.000• Venezuela: 4,6 por 1.000• México: 5 por 1.000• Cuba: 4 por 1.000• Canadá: 3,2 por 1.000• Estados Unidos: 3,6 por 1.000
• Al valorar la confusión se requiere establecer si la asociación entre la exposición y un desenlace dado es inducida, fortalecida, debilitada o eliminada una tercera variable o grupo de variables (confusores)
La variable confusora se asocia causalmente con el desenlace
y esta asociada causalmente o no con la
exposiciónpero
no es una variable intermediaria en el camino causal entre la exposición y desenlace
C
E
Y
?
Distribución por edad
País
Mortalidad
?
Salud general
Actividad sexual
Mortalidad
?
Salud general
Actividad sexual
Mortalidad
Es una variable intermedia en la cadena causal entre la exposición y el desenlace
Hipertensión
Obesidad
Mortalidad
Es una variable intermedia en la cadena causal entre la exposición y el desenlace
Bajo peso al nacer
Hábito de fumar de la madre
Muerte perinatal
El confusor es una variable intermedia en la cadena causal entre la exposición y el desenlace
Bajo peso al nacer
Hábito de fumar de la madre
Muerte perinatal
¿Otros mecanismos?
Falta de validez: Sesgo
Sesgo
• Este error sistemático se deriva de deficiencias en la selección de participantes del estudio o en los procedimientos de recolección de información relevante sobre la exposición, o el desenlace.
• Los resultados observados del estudio tienden a ser diferentes de los verdaderos. Esa tendencia es la que se denomina Sesgo
• El error sistemático (sesgo) debe distinguirse del error debido a variabilidad aleatoria (error de muestreo).
• El sesgo se relaciona con el proceso, es decir, con el diseño y los procedimientos del estudio y no con los resultados de estudio particular alguno
• Si el diseño y los procedimientos de un estudio son insesgados, el estudio se considera válido porque sus resultados serán en promedio correctos. Un diseño deficiente se considera sesgado (o no válido) porque producirá un resultados erróneo en promedio.
Distribución hipotética de resultados procedentes de un diseño sesgado
Verdad
sesgo
Promedio de los resultados
Estudios que se acercan a la verdad
Resultados de los estudios
Sesgo de selección
• Cuando los individuos tienen diferentes probabilidades de ser incluido en la muestra dependiendo de sus características relevantes; es decir, la exposición y el desenlace de interés. Un ejemplo es el sesgo de vigilancia médica .
Sesgo de selección: un grupo relevante en la población (casos expuestos en el ejemplo) tiene una probabilidad más alta de estar incluido en la muestra
Población de referencia
Enfermos expuestos
Sanos expuestos
Enfermos no expuestos
Sanos no expuestos
Muestra del estudio
El sesgo de información
• Resulta de una tendencia sistemática de los individuos seleccionados para su inclusión en el estudio de ser colocados erróneamente en categorías diferentes de exposición/desenlace, lo que conduce a un error de clasificación.
• Ej es el sesgo del recuerdo que acaece cuando la capacidad para recordar exposiciones pasadas difiere en dependencia de que se trate de un caso o de un control.
Sesgo de mala clasificación (información) se produce cierto grado de mala clasificación en la información sobre la exposición tanto en caso como en controles, pero los casos no expuestos en este ejemplo tienden a comunicar un grado de exposición pasada en mayor medida que los controles. E (expuesto); NE (no expuestos)
Población de referencia
Enfermos expuestos
Sanos expuestos
Enfermos no expuestos
Sanos no expuestos
Casos Control
E
NE
Muestras del estudio
Sesgo de selección
• Este sesgo ocurre cuando existe un error sistemático en la asignación de los sujetos, a la condición de casos o de controles en los estudios de casos y controles, o a la condición de expuestos o no expuestos en los estudios de cohorte. Contribuye a distorsionar nuestra apreciación de la verdadera asociación entre la exposición y el desenlace. Ej es el sesgo Berksoniano que ocurre en estudios de Ca y Co con pacientes hospitalizados.
Tabla 4.1 Estudio hipotético de casos y controles que incluye todos los casos y los no casos de una población definida; se supone que no hay confusión ni sesgos de información
Factor de riesgo A
Población total
casos No casos (controles)
Presente 500 1800
Ausente 500 7200
Total 1000 9000
Odds de exposición
500:500= 1,0 1800:7200=1:4
OR (500/500)/(1800/7200) = 4
Tabla 4.2 Estudio hipotético de casos y controles conformado por una muestra insesgada del 50% de los casos y 10% de los controles procedentes de una población de referencia que se muestra en esta tabla
Factor de riesgo A Población total
casos No casos (controles)
Presente 250 180
Ausente 250 720
Total 1000*0,5=500 9000*0.1=900
Odds de exposición 500:500= 1,0 1800:7200=1:4
OR (250/250)/(180/720) = 4
Consecuencias: El odds de exposición insesgado en casos y controles OR insesgado
Tabla 4.3 Ejemplo de sesgo de selección al escoger los casos en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación
Factor de riesgo A Población total
casos No casos (controles)
Presente 500*0,6= 300 180
Ausente 500*0,4= 200 720
Total 1000*0,5= 500 9000*0,1= 900
Odds de exposición 300:200= 1,5:1 180:720= 1.0/4.0
OR (300/200)/(180/720) = 6
Consecuencias: El odds de exposición sesgado en casos y odds de exposición insesgado en controles OR sesgado
Fracciones de muestreo diferenciales ajenas a la intención del investigador y desconocidas para él
Tabla 4.4 Ejemplo del mismo sesgo de selección de casos y controles en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación
Factor de riesgo A Población total
casos No casos (controles)
Presente 500*0,6= 300 1800*0,136= 245
Ausente 500*0,4= 200 7200*0.091 = 655
Total 1000*0,5= 500 9000*0,1= 900
Odds de exposición 300:200= 1,5:1 180:720= 1.0/2.67
OR (300/200)/(245/655) = 4
Consecuencias: El odds de exposición sesgado en igual grado en casos y controles. OR insesgado
• En los estudios de cohorte la pérdida diferencial en el seguimiento pueden tener diferentes probabilidades en el desenlace respecto a los que se mantienen en la cohorte.
• Un riesgo relativo es sesgado si las pérdidas del seguimiento son sesgadas de acuerdo a la exposición o al desenlace
Sesgo de información
• Aparece como resultado de definiciones imperfectas de las variables de estudio o como consecuencia del empleo de procedimientos inapropiados para coleccionar los datos. Esto puede generar errores de clasificación de la exposición y/o del desenlace para una proporción significativa de participantes en el estudio.
• VALIDEZ capacidad de una prueba de distinguir entre aquellos individuos que tienen la enfermedad (u otra característica) y aquellos que no la tienen.
• SENSIBILIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que tienen la enfermedad (o característica de interés)
• ESPECIFICIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que no tienen la enfermedad (o característica de interés)
• FIABILIDAD (REPLICABILIDAD) grado en que los resultados obtenidos por una prueba son ratificados cuando se repite.
La sensibilidad y especificidad también pueden referirse a la exposición
• Un estudio válido es equivalente a un estudio insesgado un estudio que basado en su diseño, método y procedimiento producirá (en promedio) resultados globales cercanos a la verdad. La sensibilidad y la especificidad como los dos componentes principales de la validez.
Sesgos en la identificación de la exposición
• Sesgo del recuerdo, este sesgo dimana de un recuerdo inexacto de la exposición pasada.
• Si el sesgo del recuerdo difiere entre casos y controles, el error de clasificación es diferencial; cuando el error del recuerdo es de igual magnitud se dice que el error es no diferencial.
• Los métodos usados para prevenir este sesgo se hallan en la verificación de la respuesta que dan los individuos, el uso de controles enfermos en el caso de casos y controles, el empleo de marcadores objetivos de la exposición y realización de anidados de casos y controles al interior de una cohorte
• La verificación de la información obtenida de los participantes se hace a través de la evaluación de registros.
• En el caso de los estudios de casos y controles como los casos han estado rumiando en torno a las causas de la enfermedad, en alguna se selecciono como control a otros enfermos en un intento por introducir un sesgo similar en el odds de exposición de los controles
• Los marcadores objetivos de la exposición o a la susceptibilidad son menos propensos al sesgo del recuerdo que las respuestas directas de los sujetos de estudio.
Sesgo del entrevistador
• Cuando la recolección de los datos en un estudio de casos y controles no está enmascarada con respecto al estado de la enfermedad de los participantes en el estudio puede producirse tanto el sesgo del observador al evaluar la exposición, como el del entrevistador.
• El sesgo del entrevistador puede producirse como consecuencia del afán por aclarar las preguntas cuando tales aclaraciones no son parte del protocolo de estudio, cuando se violan las reglas de la prueba o se pasan por alto las especificaciones del cuestionario. Desviaciones mas sutiles pueden ser por algunos énfasis en algunas palabras.
• Para disminuir este sesgo se incluye cuidadosos controles de calidad, desarrollo de manuales de operación, entrenamiento de grupos, estándarización de procesos. Medidas de confiabilidad y validez, en submuestras, enmascaramiento de entrevistadores
Sesgo de identificación del desenlace
• Sesgo del observador, ocurre cuando la evaluación del desenlace no es independiente del conocimiento que se tenga acerca de la exposición.
• Enmascarar la situación en términos de exposición ante los observadores a cargo de decidir si el desenlace está presente o no podrían teóricamente prevenir este sesgo.
• Cuando el enmascaramiento no es práctico el sesgo del observador puede evaluarse estratificando según la certeza del diagnóstico o los niveles de exposición.
• Otra estrategia es realizar la clasificación diagnóstica con múltiples observadores
Sesgo del que responde
• Los sesgos del recuerdo atribuibles al informante están usualmente asociados con la identificación de la exposición en los estudios de casos y controles.
• El sesgo puede ocurrir durante el seguimiento de una cohorte cuando la información del desenlace se obtiene a través de la información de un participante.
• Siempre que sea posible la información de un participante sobre la posible ocurrencia de un desenlace de interés debería confirmarse por medios más objetivos como la revisión de otros instrumentos.
El sesgo de información el error de clasificación
• Error de clasificación no diferencialOcurre cuando el error de clasificación de la
exposición es independiente de que se trate de un caso o de un control
• Error de clasificación no diferencial cuando hay dos categorías.
Ejemplo hipotético del efecto del error de clasificación no diferencial de dos categorías de exposición, con el 30% de casos expuestos y 30% de controles
expuestos clasificados erróneamente
Sin error de clasificación
Exposición Casos Controles
Si 50 20
No 50 80
OR= (50/50)/(20/80)= 4,0
30% de error de clasificación de la exposición en cada grupo
Exposición Casos Controles
Si 50-15=35 20-6=14
No 50+15=65 80+6=86
OR=(35/65)/(14/86)=3,3
Efecto del error de clasificación no diferencial con dos categorías de exposición: sesgar el OR hacia el valor nulo (con lo cual se diluye la asociación
En negritas los individuos mal clasificados
• En un estudio de casos y controles el error de clasificación no diferencial aparece siempre que la sensibilidad o especificidad de la clasificación de la exposición es la misma para los casos que para los controles, aunque menor al 100%.
Aplicación de los conceptos de sensibilidad y especificidad en el error de clasificación de la exposición
Casos Controles
Exp (Pos)
No exp (Neg)
Exp (Pos)
No exp (Neg)
OR verdadero
Resultados verdaderos
A C B D (A/C)/(B/D)
Resultados del estudio
OR mal clasificado
Exp VP FP VP+FP= a VP FP VP+FP= b
No exp FN VN FN+VN= c
FN VN FN+VN= d
(a/c)/(b/d)