Análisis de datos. Descripción de Métodos Objetivos Metodología Evaluación Bibliografía Programación

Análisis de datos

Descripción de Métodos

• Objetivos• Metodología• Evaluación• Bibliografía• Programación

Objetivos del análisis

• Un estudio es un ejercicio de medición• Estimación del efecto• Validez de la estimación• Precisión de la estimación• No, prueba de hipótesis• Análisis debe ser cuantitativo más que

cualitativo

Pasos en el análisis de datos1. Editar los datos para evaluar su validez, consistencia

y cobertura2. Resumir los datos en tablas o gráficas (análisis

descriptivo)3. Estimar las medidas epidemiológicas de interés

para el estudio: ocurrencia o efecto con sus respectivos intérvalos de confianza.

4. Interpretar los resultados del análisis descriptivo y la estimación

Edición: aspectos generales

• Revisión de los datos recién digitados• Identificación y corrección de errores, siempre

que sea posible• Predefinir naturaleza de las variables que

serán usadas en el análisis• Disminuir al máximo el número de veces que

la información debe ser digitada y codificada

Edición: aspectos básicos

• Revisión de cada variable buscando valores “atipicos” o diferentes a lo esperado. Confrontar con la fuente primaria de la información.

• Tener cuidado en la codificación de ciertas respuestas, i.e uso del “0” como código.

• Examinar la distribución completa de cada variable y confrontar con lo esperado

Edición: otros aspectos

• Consistencia en los patrones de respuesta de variables que están relacionadas.

• Usar software especializado en la entrada de datos para optimizar la edición de los mismos.

Resumir y describir los datos

• Examinar y mostrar la distribución de las principales variables:– Exposición– Evento– Confusores?– Modificadores de la medida de efecto?

• No utilizar estadísticas ni nada que permita hacer inferencias más allá de los datos del estudio

Para que las estadísticas descriptivas?

• Sirve para identificar valores “atipicos”• Permite validar supuestos requeridos por las

pruebas de estadística inferencial.

Tabulación de datos

• Las tablas de contingencia (n x n) pueden ser lo único que el investigador necesita para realizar sus estimaciones.

• Muy útil cuando no hay confusores o modificadores de la medida de efecto.

Elección de categorías

• Hay que decidir como colapsar los datos en pocas categorías para construir las tablas de contingencia, especialmente para las variables continuas.

• Número de categorías depende del tamaño de la muestra

• En muestras grandes para el control de confusión, 5 categorías son suficientes, lo mismo que para evaluar el efecto dosis-respuesta de una exposición.

Elección de categorías

• Utilizar categorías que sean propias de la variable• Incluir categorías extremas en el análisis,

especialmente para la exposición principal. • Tener cuidado con el uso de quintiles y categorías

definidas a partir de la distribución de la variable.• Las categorías abiertas, en los extremos de la

distribución de la variable, pueden ser una fuente de confusión importante.

Clasificación de sujetos y del tiempo-persona

• Para clasificar adecuadamente el aporte de cada sujeto a las categorías de expuesto y no expuesto, se debe asumir un modelo de periodo de inducción para la relación exposición-evento que estamos estudiando.

• Tiempo que aporta el sujeto durante el periodo de inducción hace parte del periodo de “no expuesto”. Eventos previos al cumplimiento del periodo de inducción promedio, no pueden ser atribuidos a la exposición que esta bajo estudio.

Manejo de datos faltantes• Excluir completamente los sujetos: análisis de sujetos

completos• Métodos de imputación o predicción del valor de los

datos faltantes• Métodos de asignación de pesos a los sujetos con

datos faltantes• Nunca deben ser interpretados los datos faltantes

como una “categoría” más de la variable en cuestión o identificados con una variable nueva que indique la presencia o no del dato faltante (missing indicator).

Otras reflexiones sobre el análisis de los datos...

Prueba de hipótesis

• No debe ser el objetivo del análisis• No es necesaria, ni para publicar los

resultados• No aporta al análisis • Sin embargo es un concepto muy arraigado

Medición

• Proceso más complejo que el de toma de decisiones

• Definir cual es el parámetro objeto • Estimarlo en el estudio• Calcular el estimativo puntual• Múltiples factores pueden afectar el valor de

dicho estimativo puntual

Error aleatorio en la estimación

• Estimación de un rango o intervalo de estimativos puntuales posibles a partir de los datos

• Intervalo de confianza• Límites de confianza• Nivel de confianza del intervalo (1- alfa) es un

porcentaje (i.e. 95%)

Temas importantes en el análisis de los datos

• Diseño del estudio• Descripción de los datos en tablas y figuras,

pero sin el uso de estadísticas.• Análisis estratificado (confusión y modificación

de la medida de efecto)• Métodos multivariados

Buenas prácticas en análisis de datos

• Elaborar y seguir un plan de análisis• Familiarizarse temática, estudio y datos• Documentar las actividades y decisiones

tomadas (i.e. en un diario o bitácora)• Hacer los análisis mediante programas (code)

y dejar documentación.• No modificar la base de datos original y hacer

copias de seguridad

Ajuste de variables de confusión

La identificación de asociaciones no causales: confusión

• Confusión: es una asociación no causal entre una exposición y un desenlace, que ocurre como consecuencia de una tercera variables, variable confusora o confusor.

• La variable confusora tiene que estar asociada causalmente o no a la supuesta variable de exposición y está asociada al desenlace. Esto puede dar como resultado una aparición o intensificación de una asociación que no es debida a un efecto causal, también puede desaparecer o diluir una asociación causal.

• La confusión no es un sesgo, por que la relación no es causal pero es real.

• La confusión está asociada a la definición de exposiciones

Las tasas de mortalidad bruta general para seís países en las Américas en un tiempo X

• Costa Rica: 3,8 por 1.000• Venezuela: 4,4 por 1.000• México: 4,9 por 1.000• Cuba: 6,7 por 1.000• Canadá: 7,3 por 1.000• Estados Unidos: 8,7 por 1.000

• Al ajustar las tasas de mortalidad• Costa Rica: 3,7 por 1.000• Venezuela: 4,6 por 1.000• México: 5 por 1.000• Cuba: 4 por 1.000• Canadá: 3,2 por 1.000• Estados Unidos: 3,6 por 1.000

• Al valorar la confusión se requiere establecer si la asociación entre la exposición y un desenlace dado es inducida, fortalecida, debilitada o eliminada una tercera variable o grupo de variables (confusores)

La variable confusora se asocia causalmente con el desenlace

y esta asociada causalmente o no con la

exposiciónpero

no es una variable intermediaria en el camino causal entre la exposición y desenlace

C

E

Y

?

Distribución por edad

País

Mortalidad

?

Salud general

Actividad sexual

Mortalidad

?

Salud general

Actividad sexual

Mortalidad

Es una variable intermedia en la cadena causal entre la exposición y el desenlace

Hipertensión

Obesidad

Mortalidad

Es una variable intermedia en la cadena causal entre la exposición y el desenlace

Bajo peso al nacer

Hábito de fumar de la madre

Muerte perinatal

El confusor es una variable intermedia en la cadena causal entre la exposición y el desenlace

Bajo peso al nacer

Hábito de fumar de la madre

Muerte perinatal

¿Otros mecanismos?

Falta de validez: Sesgo

Sesgo

• Este error sistemático se deriva de deficiencias en la selección de participantes del estudio o en los procedimientos de recolección de información relevante sobre la exposición, o el desenlace.

• Los resultados observados del estudio tienden a ser diferentes de los verdaderos. Esa tendencia es la que se denomina Sesgo

• El error sistemático (sesgo) debe distinguirse del error debido a variabilidad aleatoria (error de muestreo).

• El sesgo se relaciona con el proceso, es decir, con el diseño y los procedimientos del estudio y no con los resultados de estudio particular alguno

• Si el diseño y los procedimientos de un estudio son insesgados, el estudio se considera válido porque sus resultados serán en promedio correctos. Un diseño deficiente se considera sesgado (o no válido) porque producirá un resultados erróneo en promedio.

Distribución hipotética de resultados procedentes de un diseño sesgado

Verdad

sesgo

Promedio de los resultados

Estudios que se acercan a la verdad

Resultados de los estudios

Sesgo de selección

• Cuando los individuos tienen diferentes probabilidades de ser incluido en la muestra dependiendo de sus características relevantes; es decir, la exposición y el desenlace de interés. Un ejemplo es el sesgo de vigilancia médica .

Sesgo de selección: un grupo relevante en la población (casos expuestos en el ejemplo) tiene una probabilidad más alta de estar incluido en la muestra

Población de referencia

Enfermos expuestos

Sanos expuestos

Enfermos no expuestos

Sanos no expuestos

Muestra del estudio

El sesgo de información

• Resulta de una tendencia sistemática de los individuos seleccionados para su inclusión en el estudio de ser colocados erróneamente en categorías diferentes de exposición/desenlace, lo que conduce a un error de clasificación.

• Ej es el sesgo del recuerdo que acaece cuando la capacidad para recordar exposiciones pasadas difiere en dependencia de que se trate de un caso o de un control.

Sesgo de mala clasificación (información) se produce cierto grado de mala clasificación en la información sobre la exposición tanto en caso como en controles, pero los casos no expuestos en este ejemplo tienden a comunicar un grado de exposición pasada en mayor medida que los controles. E (expuesto); NE (no expuestos)

Población de referencia

Enfermos expuestos

Sanos expuestos

Enfermos no expuestos

Sanos no expuestos

Casos Control

E

NE

Muestras del estudio

Sesgo de selección

• Este sesgo ocurre cuando existe un error sistemático en la asignación de los sujetos, a la condición de casos o de controles en los estudios de casos y controles, o a la condición de expuestos o no expuestos en los estudios de cohorte. Contribuye a distorsionar nuestra apreciación de la verdadera asociación entre la exposición y el desenlace. Ej es el sesgo Berksoniano que ocurre en estudios de Ca y Co con pacientes hospitalizados.

Tabla 4.1 Estudio hipotético de casos y controles que incluye todos los casos y los no casos de una población definida; se supone que no hay confusión ni sesgos de información

Factor de riesgo A

Población total

casos No casos (controles)

Presente 500 1800

Ausente 500 7200

Total 1000 9000

Odds de exposición

500:500= 1,0 1800:7200=1:4

OR (500/500)/(1800/7200) = 4

Tabla 4.2 Estudio hipotético de casos y controles conformado por una muestra insesgada del 50% de los casos y 10% de los controles procedentes de una población de referencia que se muestra en esta tabla

Factor de riesgo A Población total


Presente 250 180

Ausente 250 720

Total 1000*0,5=500 9000*0.1=900

Odds de exposición 500:500= 1,0 1800:7200=1:4

OR (250/250)/(180/720) = 4

Consecuencias: El odds de exposición insesgado en casos y controles OR insesgado

Tabla 4.3 Ejemplo de sesgo de selección al escoger los casos en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación



Presente 500*0,6= 300 180

Ausente 500*0,4= 200 720

Total 1000*0,5= 500 9000*0,1= 900

Odds de exposición 300:200= 1,5:1 180:720= 1.0/4.0

OR (300/200)/(180/720) = 6

Consecuencias: El odds de exposición sesgado en casos y odds de exposición insesgado en controles OR sesgado

Fracciones de muestreo diferenciales ajenas a la intención del investigador y desconocidas para él

Tabla 4.4 Ejemplo del mismo sesgo de selección de casos y controles en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación



Presente 500*0,6= 300 1800*0,136= 245

Ausente 500*0,4= 200 7200*0.091 = 655

Total 1000*0,5= 500 9000*0,1= 900

Odds de exposición 300:200= 1,5:1 180:720= 1.0/2.67

OR (300/200)/(245/655) = 4

Consecuencias: El odds de exposición sesgado en igual grado en casos y controles. OR insesgado

• En los estudios de cohorte la pérdida diferencial en el seguimiento pueden tener diferentes probabilidades en el desenlace respecto a los que se mantienen en la cohorte.

• Un riesgo relativo es sesgado si las pérdidas del seguimiento son sesgadas de acuerdo a la exposición o al desenlace

Sesgo de información

• Aparece como resultado de definiciones imperfectas de las variables de estudio o como consecuencia del empleo de procedimientos inapropiados para coleccionar los datos. Esto puede generar errores de clasificación de la exposición y/o del desenlace para una proporción significativa de participantes en el estudio.

• VALIDEZ capacidad de una prueba de distinguir entre aquellos individuos que tienen la enfermedad (u otra característica) y aquellos que no la tienen.

• SENSIBILIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que tienen la enfermedad (o característica de interés)

• ESPECIFICIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que no tienen la enfermedad (o característica de interés)

• FIABILIDAD (REPLICABILIDAD) grado en que los resultados obtenidos por una prueba son ratificados cuando se repite.

La sensibilidad y especificidad también pueden referirse a la exposición

• Un estudio válido es equivalente a un estudio insesgado un estudio que basado en su diseño, método y procedimiento producirá (en promedio) resultados globales cercanos a la verdad. La sensibilidad y la especificidad como los dos componentes principales de la validez.

Sesgos en la identificación de la exposición

• Sesgo del recuerdo, este sesgo dimana de un recuerdo inexacto de la exposición pasada.

• Si el sesgo del recuerdo difiere entre casos y controles, el error de clasificación es diferencial; cuando el error del recuerdo es de igual magnitud se dice que el error es no diferencial.

• Los métodos usados para prevenir este sesgo se hallan en la verificación de la respuesta que dan los individuos, el uso de controles enfermos en el caso de casos y controles, el empleo de marcadores objetivos de la exposición y realización de anidados de casos y controles al interior de una cohorte

• La verificación de la información obtenida de los participantes se hace a través de la evaluación de registros.

• En el caso de los estudios de casos y controles como los casos han estado rumiando en torno a las causas de la enfermedad, en alguna se selecciono como control a otros enfermos en un intento por introducir un sesgo similar en el odds de exposición de los controles

• Los marcadores objetivos de la exposición o a la susceptibilidad son menos propensos al sesgo del recuerdo que las respuestas directas de los sujetos de estudio.

Sesgo del entrevistador

• Cuando la recolección de los datos en un estudio de casos y controles no está enmascarada con respecto al estado de la enfermedad de los participantes en el estudio puede producirse tanto el sesgo del observador al evaluar la exposición, como el del entrevistador.

• El sesgo del entrevistador puede producirse como consecuencia del afán por aclarar las preguntas cuando tales aclaraciones no son parte del protocolo de estudio, cuando se violan las reglas de la prueba o se pasan por alto las especificaciones del cuestionario. Desviaciones mas sutiles pueden ser por algunos énfasis en algunas palabras.

• Para disminuir este sesgo se incluye cuidadosos controles de calidad, desarrollo de manuales de operación, entrenamiento de grupos, estándarización de procesos. Medidas de confiabilidad y validez, en submuestras, enmascaramiento de entrevistadores

Sesgo de identificación del desenlace

• Sesgo del observador, ocurre cuando la evaluación del desenlace no es independiente del conocimiento que se tenga acerca de la exposición.

• Enmascarar la situación en términos de exposición ante los observadores a cargo de decidir si el desenlace está presente o no podrían teóricamente prevenir este sesgo.

• Cuando el enmascaramiento no es práctico el sesgo del observador puede evaluarse estratificando según la certeza del diagnóstico o los niveles de exposición.

• Otra estrategia es realizar la clasificación diagnóstica con múltiples observadores

Sesgo del que responde

• Los sesgos del recuerdo atribuibles al informante están usualmente asociados con la identificación de la exposición en los estudios de casos y controles.

• El sesgo puede ocurrir durante el seguimiento de una cohorte cuando la información del desenlace se obtiene a través de la información de un participante.

• Siempre que sea posible la información de un participante sobre la posible ocurrencia de un desenlace de interés debería confirmarse por medios más objetivos como la revisión de otros instrumentos.

El sesgo de información el error de clasificación

• Error de clasificación no diferencialOcurre cuando el error de clasificación de la

exposición es independiente de que se trate de un caso o de un control

• Error de clasificación no diferencial cuando hay dos categorías.

Ejemplo hipotético del efecto del error de clasificación no diferencial de dos categorías de exposición, con el 30% de casos expuestos y 30% de controles

expuestos clasificados erróneamente

Sin error de clasificación

Exposición Casos Controles

Si 50 20

No 50 80

OR= (50/50)/(20/80)= 4,0

30% de error de clasificación de la exposición en cada grupo

Exposición Casos Controles

Si 50-15=35 20-6=14

No 50+15=65 80+6=86

OR=(35/65)/(14/86)=3,3

Efecto del error de clasificación no diferencial con dos categorías de exposición: sesgar el OR hacia el valor nulo (con lo cual se diluye la asociación

En negritas los individuos mal clasificados

• En un estudio de casos y controles el error de clasificación no diferencial aparece siempre que la sensibilidad o especificidad de la clasificación de la exposición es la misma para los casos que para los controles, aunque menor al 100%.

Aplicación de los conceptos de sensibilidad y especificidad en el error de clasificación de la exposición

Casos Controles

Exp (Pos)

No exp (Neg)

Exp (Pos)

No exp (Neg)

OR verdadero

Resultados verdaderos

A C B D (A/C)/(B/D)

Resultados del estudio

OR mal clasificado

Exp VP FP VP+FP= a VP FP VP+FP= b

No exp FN VN FN+VN= c

FN VN FN+VN= d

(a/c)/(b/d)

Documents

Análisis de datos. Descripción de Métodos Objetivos Metodología Evaluación Bibliografía Programación