29
De censura y otros demonios. Francisco Javier Rubio Alvarez CIMAT Julio de 2008. (CIMAT) Julio de 2008. 1 / 29

De censura y otros demonios. - CIMAT · 2008. 7. 9. · Groucho Marx, Memorias de un amante sarnoso "Estimación de parÆmetros mediante el mØtodo de verosimilitud para datos censurados."

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

  • De censura y otros demonios.

    Francisco Javier Rubio Alvarez

    CIMATJulio de 2008.

    (CIMAT) Julio de 2008. 1 / 29

  • ¿Por qué el título de esta presentación?

    "De sobras sé que el título de este libro es capcioso, pero lo cierto es quehay mil modos de vender un libro."

    (o de atraer gente a tu presentación)

    Groucho Marx, Memorias de un amante sarnoso

    "Estimación de parámetros mediante el método de verosimilitud paradatos censurados."

    (CIMAT) Julio de 2008. 2 / 29

  • Contenido.Modelación Estadística.

    Método de Máxima Verosimilitud para la estimación de parámetros.

    Ejemplo de estimación.

    Censura.

    Ejemplo para datos censurados.

    Conclusiones.

    (CIMAT) Julio de 2008. 3 / 29

  • Modelación Estadística.

    1 Proponer un modelo estadístico f (x ; θ) para describir al fenómeno deinterés. Los datos medidos son la variable x y hay un parámetrodesconocido θ.Ejemplo: Tiempos de fallas de aparatos electrodomésticos.Distribución Exponencial con parámetro θ:

    f (x ; θ) =1θe�x/θ.

    2 Recolección de datos al azar.3 Estimación de los parámetros θ del modelo con los datos.4 Validación del modelo.

    (CIMAT) Julio de 2008. 4 / 29

  • Método de Verosimilitud para la estimación de parámetros.

    La funci ón de verosimilitud de un parámetro θ y una muestrax0 = (x1, ..., xn) se dene como:

    L (θ; x0) = c (x0) � P (X = x0; θ) ,donde c es una constante positiva arbitraria, se elige de tal manera quesimplique la expresión de la función de verosimilitud como función de θ.

    (CIMAT) Julio de 2008. 5 / 29

  • Es útil también denir la función de log�verosimilitud como:

    ` (θ) = logL (θ) .Se dene el ESTIMADOR DE MÁXIMA VEROSIMILITUD (EMV) de θcomo el valor de θ que maximiza la función de verosimilitud y es denotadocomo bθ.

    (CIMAT) Julio de 2008. 6 / 29

  • R. A. Fisher 1921.

    La idea es encontrar el valor del parámetro θ quemaximiza la probablidad de haber observado la muestradada (datos). Esto es, el valor más verosímil delparámetro bajo los datos observados.

    (CIMAT) Julio de 2008. 7 / 29

  • La razón L (θ1) /L (θ2) es una manera de comparar dos valores de θ a laluz de qué tan probable hacen a la muestra observada.

    L (θ1)L (θ2)

    8 1, θ1 más verosímil que θ2.< 1, θ1 menos verosímil que θ2.= 1, θ1 igual de verosímil que θ2.

    (CIMAT) Julio de 2008. 8 / 29

  • Verosimilitud Relativa

    Esto motiva la denición de verosimilitud relativa:

    < (θ; x1, ..., xn) =L (θ; x1, ..., xn)L�bθ; x1, ..., xn� .

    La verosimilitud relativa es una función que varía entre 0 y 1, y es usadacomo una medida de plausibilidad para los valores del parámetro θ anteuna muestra x1, ..., xn.

    (CIMAT) Julio de 2008. 9 / 29

  • ¿Cómo calcular la función de Verosimilitud?

    Considérese X variable aleatoria continua. Debido a la precisión nita delos instrumentos de medición, un valor observado x0 corresponde a unpequeño intervalo x0 � ε/2 < X � x0 + ε/2. La probabilidad de haberobservado el valor x0 es:

    P (x0 � ε/2 < X � x0 + ε/2) =Z x0+ε/2x0�ε/2

    f (t)dt

    = F (x0 + ε/2)� F (x0 � ε/2),

    donde:F (x) =

    Z x0�∞f (t)dt.

    (CIMAT) Julio de 2008. 10 / 29

  • Si tenemos una muestra de n variables aleatorias independientesx1, x2, ..., xn con distribución F correspondientes a los intervalos[xi � ε/2, xi + ε/2], la función de verosimilitud para estos datos esproporcional al siguiente producto:

    LE (θ; x1, ..., xn) _n

    ∏j=1P (xi � ε/2 < X � xi + ε/2)

    =n

    ∏j=1[F (xi + ε/2; θ)� F (xi � ε/2; θ)] .

    (CIMAT) Julio de 2008. 11 / 29

  • Si ε es pequeño (precisión grande de medición), es razonable hacer lasiguiente aproximación (TVM):

    P (xi � ε/2 < X � xi + ε/2) = F (xi + ε/2; θ)� F (xi � ε/2; θ)� f (xi ; θ)ε.

    Entonces:

    L (θ; x1, ..., xn) _n

    ∏j=1f (xi ; θ).

    (CIMAT) Julio de 2008. 12 / 29

  • Tiempos de falla

    x1

    x2...

    xn(CIMAT) Julio de 2008. 13 / 29

  • Ejemplo de estimación.

    Un cierto tipo de aparato electrónico es susceptible de una fallainstantánea en cualquier momento. Resulta razonable suponer que lostiempos de falla tienen distribución Exponencial con parámetro θ > 0. Secuenta con una muestra x1, x2, ..., xn de tiempos de fallas de diferentesaparatos electrónicos. Cómo estimaríamos θ?

    (CIMAT) Julio de 2008. 14 / 29

  • En este caso la función de densidad es continua:

    f (x ; θ) =1θe�x/θ,

    entonces la función de verosimilitud puede ser calculada como:

    L (θ) =n

    ∏j=1f (xi ; θ) =

    n

    ∏j=1

    1θe�xj/θ

    = θ�n exp

    �1

    θ

    n

    ∑j=1xj

    !.

    Para encontrar el valor de θ que maximice la probabilidad de la muestraobservada maximizaremos la log-verosimilitud.

    (CIMAT) Julio de 2008. 15 / 29

  • Es equivalente maximizar L (θ) que maximizar ` (θ) = logL (θ) .

    ` (θ) = log

    "θ�n exp

    �1

    θ

    n

    ∑j=1xj

    !#

    = �n log (θ)� 1θ

    n

    ∑j=1xj .

    La derivada de la log-verosimilitud es:

    `0(θ) = �n

    θ+1

    θ2

    n

    ∑j=1xj .

    Haciendo `0(θ) = 0 se tiene que:

    θ =1n

    n

    ∑j=1xj = x .

    (CIMAT) Julio de 2008. 16 / 29

  • `00(θ) = � n

    θ2� 2

    θ3

    n

    ∑j=1xj < 0.

    Por lo tanto este valor de x es un máximo para la función de verosimilitudy por lo tanto el EMV para θ es:

    bθ = 1n

    n

    ∑j=1xj = x .

    Si los datos son:

    70 11 66 5 20 4 35 40 29 8.

    El Estimador de Máxima Verosimilitud para θ es:

    bθ = 28.8(CIMAT) Julio de 2008. 17 / 29

  • La gráca de la función de verosimilitud relativa es:

    (CIMAT) Julio de 2008. 18 / 29

  • Censura

    T

    (CIMAT) Julio de 2008. 19 / 29

  • Datos no censurados

    (CIMAT) Julio de 2008. 20 / 29

  • Datos censurados

    (CIMAT) Julio de 2008. 21 / 29

  • Ejemplo para datos censurados.

    Supongamos que se tienen m tiempos de falla observados x1, x2, ..., xm ,pero además sabemos que los n�m restantes no fallaron al tiempo T , esdecir, hay n�m datos censurados.Esta información debe ser incluída para la realizar una estimación. Acontinuación veremos cómo hacer esta inclusión.

    (CIMAT) Julio de 2008. 22 / 29

  • Para los tiempos de falla observados se tiene que:

    P (xi � ε/2 < X � xi + ε/2) = F (xi + ε/2; θ)� F (xi � ε/2; θ)� εf (xi ; θ).

    Para los especímenes que no fallaron al tiempo T se tiene que:

    P (T < X < ∞) = F (∞)� F (T ; θ) = 1� F (T ; θ).La función de verosimilitud para datos censurados puede ser calculadacomo:

    L (θ; x0) _"m

    ∏j=1f (xi ; θ)

    #[1� F (T ; θ)]n�m .

    (CIMAT) Julio de 2008. 23 / 29

  • Si los tiempos de falla tienen distribución exponencial, la función deverosimilitud para datos n�m censurados es:

    L (θ; x0) =�1

    θme�

    1θ ∑

    mj=1 xj

    �e�

    (n�m)Tθ .

    En este caso se tiene que el EMV para θ en el caso de datos censurados es:

    bθc = sm , s = m∑j=1 xj + (n�m)T .Consideremos ahora que los datos son:

    50+ 11 50+ 5 20 4 35 40 29 8.

    Entonces el EMV es bθc = 36.5.(CIMAT) Julio de 2008. 24 / 29

  • En el caso de censura la verosimilitud es:

    (CIMAT) Julio de 2008. 25 / 29

  • Caso bθ Tamaño de muestra1. Datos no censurados 28.8 102. Datos censurados 36.5 103. Datos no censurados del caso 2 19 8

    Lo cual nos indica la importancia de la información que aportan los datoscensurados.

    (CIMAT) Julio de 2008. 26 / 29

  • Intervalo de 15% de verosimilitud [16.5, 57.2] y [30.4, 123]respectivamente.

    (CIMAT) Julio de 2008. 27 / 29

  • Conclusiones.

    El método de verosimilitud es utilizado para estimar parámetros deuna distribución cuando se cuenta con una muestra de ella.

    En el caso de datos censurados se debe incluir la información dadapor la censura, en otro caso resultaría en una pérdida de información.

    El hecho de tener datos censurados se ve reejado en la longitud delos intervalos de verosimilitud obtenidos con la función deverosimilitud relativa, así como en el valor del EMV.

    Los estimadores obtenidos por máxima verosimilitud tienen algunaspropiedades asintóticas.

    Los EMV están basados en la muestra, es decir, incluyen informacióndada por el experimento a través de la muestra.

    (CIMAT) Julio de 2008. 28 / 29

  • Referencias.

    Probability and Statistical Inference: Volume 2: Statistical Inference(Springer Texts in Statistics). J.G. Kalbeisch.

    Statistical Inference in Science. Springer Series in Statistics. D. A.Sprott.

    Statistical Methods for Reliability Data (Wiley Series in Probabilityand Statistics). William Q. Meeker and Luis A. Escobar.

    (CIMAT) Julio de 2008. 29 / 29