of 21/21
Revista Colombiana de Estadística Volumen 30 No. 2. pp. 265 a 285. Diciembre 2007 Estimación de datos faltantes en medidas repetidas con respuesta binaria Estimation of Missing Data in Repeated Measurements with Binary Response Yolima Ayala 1, a , Óscar Orlando Melo 2, b 1 Departamento de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Tunja, Colombia 2 Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia Resumen Se propone una metodología para la estimación de datos faltantes en condiciones longitudinales con respuesta binaria, desde una perspectiva uni- variada, basada en máxima verosimilitud. Suponiendo que las respuestas son faltantes de forma aleatoria (FFA), en cada una de las ocasiones se emplea el algoritmo EM de dos formas distintas: en la primera, el paso E se expresa como una log-verosimilitud ponderada de la respuesta, condicionada a las anteriores ocasiones tomadas como covariables adicionales, con base en el método de Ibrahim (1990) para covariables categóricas faltantes, obteniendo de esta forma estimadores máximo verosímiles. En la segunda, en el paso E se realiza la estimación e imputación de datos faltantes basada en el méto- do Ancova de Bartlett (1937). La metodología propuesta es aplicada en un caso de estudio relacionado con factores de riesgo coronario, presentado en Fitzmaurice et al. (1994). Palabras clave : datos longitudinales, regresión logística, máxima verosimi- litud, algoritmo EM. Abstract A maximum likelihood method is proposed to provide estimates for mo- dels with binary response in longitudinal data based on an univariate model. Under a missing at random (MAR) mechanism, the EM algorithm is used in two different forms: in the first, the E step can be expressed as a weigh- ted log-likelihood responses given the previous times, based in the method of weights proposed by Ibrahim (1990), for partially missing covariates. In the second, on the E step the estimation and imputation for missing data a Profesora auxiliar. E-mail: [email protected] b Profesor asistente. E-mail: [email protected] 265

Estimación de datos faltantes en medidas repetidas con ... · PDF fileEstimación de datos faltantes en medidas repetidas con respuesta binaria 267 ... para modelos de medidas repetidas

  • View
    219

  • Download
    5

Embed Size (px)

Text of Estimación de datos faltantes en medidas repetidas con ... · PDF fileEstimación...

  • Revista Colombiana de Estadstica

    Volumen 30 No. 2. pp. 265 a 285. Diciembre 2007

    Estimacin de datos faltantes en medidas repetidas

    con respuesta binaria

    Estimation of Missing Data in Repeated Measurements with Binary

    Response

    Yolima Ayala1,a, scar Orlando Melo2,b

    1Departamento de Matemticas y Estadstica, Universidad Pedaggica y

    Tecnolgica de Colombia, Tunja, Colombia

    2Departamento de Estadstica, Facultad de Ciencias, Universidad Nacional de

    Colombia, Bogot, Colombia

    Resumen

    Se propone una metodologa para la estimacin de datos faltantes encondiciones longitudinales con respuesta binaria, desde una perspectiva uni-variada, basada en mxima verosimilitud. Suponiendo que las respuestas sonfaltantes de forma aleatoria (FFA), en cada una de las ocasiones se empleael algoritmo EM de dos formas distintas: en la primera, el paso E se expresacomo una log-verosimilitud ponderada de la respuesta, condicionada a lasanteriores ocasiones tomadas como covariables adicionales, con base en elmtodo de Ibrahim (1990) para covariables categricas faltantes, obteniendode esta forma estimadores mximo verosmiles. En la segunda, en el paso Ese realiza la estimacin e imputacin de datos faltantes basada en el mto-do Ancova de Bartlett (1937). La metodologa propuesta es aplicada en uncaso de estudio relacionado con factores de riesgo coronario, presentado enFitzmaurice et al. (1994).

    Palabras clave: datos longitudinales, regresin logstica, mxima verosimi-litud, algoritmo EM.

    Abstract

    A maximum likelihood method is proposed to provide estimates for mo-dels with binary response in longitudinal data based on an univariate model.Under a missing at random (MAR) mechanism, the EM algorithm is usedin two different forms: in the first, the E step can be expressed as a weigh-ted log-likelihood responses given the previous times, based in the methodof weights proposed by Ibrahim (1990), for partially missing covariates. Inthe second, on the E step the estimation and imputation for missing data

    aProfesora auxiliar. E-mail: [email protected]rofesor asistente. E-mail: [email protected]

    265

  • 266 Yolima Ayala & scar Orlando Melo

    is based in Ancova method proposed by Bartlett (1937). Finally, we applyour method to the data from the Muscatine Coronary Risk Factor Study,employed in Fitzmaurice et al. (1994).

    Key words: Longitudinal data, Logistic regression, Maximum likelihood,EM algorithm.

    1. Introduccin

    En cualquier tipo de anlisis estadstico se desea hacer inferencias vlidas sobreuna poblacin de inters. La presencia de informacin faltante en una matriz dedatos lleva consigo ciertos inconvenientes, dentro de los cuales, segn Horton &Lipsitz (2001), se encuentran: prdida de eficiencia, complicaciones en el anlisisde datos faltantes, y adems estimadores sesgados que ponen en riesgo la validezdel proceso.

    Yates (1933), uno de los precursores en el manejo de datos faltantes, seal quesi stos fueran remplazados por sus estimadores de mnimos cuadrados aplicados adatos completos, se producira un estimador de mnimos cuadrados correcto, teoraque no fue muy acogida por la desventaja de producir un estimador de la varianzamenor de la real. Bartlett (1937), en cambio, propuso un mtodo de estimacin dedatos faltantes basado en indicadores faltantes, tomados a travs de covariables,el cual tiene la ventaja de obtener estimadores y errores estndares correctos. Pos-teriormente, varios autores, entre ellos Healy & Wesmacott (1956), proponen laestimacin iterativa de informacin faltante, teora profundizada ms adelante porDempster et al. (1977), con el algoritmo EM (Esperanza, Maximizacin). Srivasta-va & Carter (1986) presentan un mtodo de estimacin e imputacin a travs delanlisis de mxima veromisilitud en datos continuos. Little & Rubin (2002) hacenun gran aporte al anlisis estadstico con la recopilacin de algunas metodologasrelacionadas con la estimacin y el anlisis de informacin con datos faltantes.

    En algunos diseos de experimentos es ms comn la presencia de informacinfaltante que en otros, como es el caso de los relacionados con medidas repetidas; es-tos diseos en el campo de la experimentacin son frecuentes, especialmente en lasciencias mdicas, biolgicas y agronmicas; no obstante, presentan ciertas dificul-tades con su manejo, debido no solo a la ocurrencia de observaciones faltantes, sinoa la caracterstica de dependencia entre las observaciones repetidas hechas sobre lamisma unidad experimental, pues este tipo de diseos son raramente balanceadosy completos. Estas dificultades llevan consigo complicaciones en el modelamiento,prdida de precisin en estimaciones, y adems la inferencia se ve afectada ya quese pueden presentar funciones no estimables.

    Entre los aportes ms recientes en estudios con medidas repetidas con respues-ta binaria, teniendo en cuenta informacin faltante, se tiene el de Ibrahim (1990),quien propone un mtodo por ponderaciones para modelos lineales generalizadoscuando las covariables son faltantes de forma aleatoria y las respuestas son com-pletamente observadas; Park & Davis (1993) tratan mecanismos de datos faltantesen diseos de medidas repetidas con respuesta categrica. De igual forma, Lipsitz

    Revista Colombiana de Estadstica 30 (2007) 265285

  • Estimacin de datos faltantes en medidas repetidas con respuesta binaria 267

    et al. (1999), en datos longitudinales aplican mtodos de verosimilitud ponderadapara modelos de medidas repetidas incompletos (respuestas y covariables parcial-mente observadas). Yang et al. (2005) proponen un mtodo para el manejo dedatos faltantes creando un conjunto de estrategias de imputacin, analizadas atravs de la imputacin mltiple.

    En este artculo se presenta un mtodo alternativo para el manejo de informa-cin faltante en medidas repetidas con respuesta binaria, desde una perspectivaunivariada, asumiendo que el mecanismo faltante es de forma aleatoria (FFA).Segn Lipsitz et al. (1999), un mecanismo FFA se tiene cuando dados los datosobservados, la probabilidad que los datos sean faltantes es condicionalmente inde-pendiente de los datos no observados, lo cual permite la estimacin de informacinbasada nicamente en los datos observados.

    El problema de los datos faltantes merece especial atencin en el contexto demodelos que hacen uso de las ecuaciones de estimacin generalizada (EEG), debidoa la inconveniencia de su aplicacin en informacin bajo el mecanismo FFA. Ya quelos datos bajo un mecanismo de faltante de forma completamente aleatoria (FFCA)no tienen problema, se han desarrollado pruebas que aseguran este mecanismo dedatos faltantes (Diggle et al. 1994), dentro de las cuales se encuentran la de Chen& Little (1999) basado en patrones de datos faltantes y la de Park & Lee (1997),quienes prueban la significancia del indicador faltante. Segn Zorn (2001), si losdatos no son FFCA hay varias opciones para los investigadores: una de ellas usacorrecciones basadas en imputacin, donde los datos faltantes son imputados apartir de los datos disponibles y el anlisis es conducido sobre datos completados(empleando mtodos de datos completos).

    En este artculo se asume que los datos son FFA, suposicin que es empleadaen el momento de la imputacin, ya que est basada en la informacin observada(modelos condicionales). Para el anlisis de la informacin con datos completa-dos, como lo describen algunos autores mencionados anteriormente, no se tiene encuenta el mecanismo de informacin faltante.

    En la metodologa propuesta en este artculo, en cada una de las ocasiones,iniciando por la primera, se emplea el algoritmo EM en dos formas: en la primerase encuentra un estimador mximo verosmil, en el cual el paso E del algoritmose expresa como una log-verosimilitud de datos completos ponderada, similar alpropuesto por Ibrahim (1990) para covariables faltantes. En el segundo ciclo, elestimador obtenido en la fase anterior se emplea como estimador inicial para deter-minar la estimacin de datos faltantes en el paso E, teniendo en cuenta el modelocon una covariable adicional relacionada con el indicador faltante, como el pro-puesto por Bartlett (1937); se realiza la imputacin de datos faltantes estimadosy se efecta la maximizacin (paso M) con datos imputados.

    La revisin de la notacin y los supuestos para Y matriz de respuestas binarias,y X matriz de covariables categricas se contemplan en la segunda seccin; laespecificacin paso a paso de la metodologa propuesta de estimacin e imputacinde datos faltantes est dada en la tercera seccin. En la cuarta, se muestra unaaplicacin de la metodologa propuesta en un caso de estudio relacionado confactores de riesgo coronario, presentado en Fitzmaurice et al. (1994).

    Revista Colombiana de Estadstica 30 (2007) 265285

  • 268 Yolima Ayala & scar Orlando Melo

    2. Notacin y supuestos

    Sea Y = (Y1, Y2, . . . , YT ) la matriz de respuestas, observadas parcialmente entiempos igualmente espaciados t = 1, 2, . . . , T , en donde Yt = (y1t, y2t, . . . , yNt)

    hace referencia al vector de observaciones en el tiempo t de los N individuos.

    Se considera adems que el vector de N observaciones en el tiempo t, Yt, sepuede escribir como una particin de nt datos completamente observados y N ntdatos faltantes, as

    Yt = (y1t, y2t, . . . , yntt, y(nt+1)t, . . . , yNt) = (Yobs,t, Yfal,t)

    donde yi(obs),t, componente de Yobs,t, hace referencia al valor del i-simo indivi-duo en el tiempo t, cuando i = 1, 2, . . . , nt, y yi(fal),t, componente de Yfal,t, hacereferencia al valor del i-simo individuo en el tiempo t, cuando i = nt + 1, . . . , N .

    Adicionalmente, se tiene una matriz Xt = (x1t, x2t, . . . , xjt, . . . , xpt) de p co-variables completamente observadas, fijas en el tiempo asociadas a Yt. Particular-mente, cada elemento xijt de la matriz c