Click here to load reader

Bootstrap - famaf.unc.edu. jgimenez/Modelos_y_Simulacion/2013/clase15.pdf Precaución II Si la muestra original es una mala representación de la población en general, a pesar de

  • View
    1

  • Download
    0

Embed Size (px)

Text of Bootstrap - famaf.unc.edu. jgimenez/Modelos_y_Simulacion/2013/clase15.pdf Precaución II Si la...

  • Bootstrap

    Georgina Flesia

    FaMAF

    9 de mayo, 2013

  • Técnica de bootstrap

    La técnica de Bootstrap fue introducida por B. Efron, 1982.

    I Bootstrap: Levantarse tirando de las propias correas de las botas. Método autosuficiente.

    I Fue diseñado para aproximar la precisión de un estimador a partir de un conjunto x1, x2, . . . , xn de datos u observaciones.

    I Determinar la precisión de muchos estimadores suele ser algebraicamente complicado, o imposible si no se conoce la distribución de los datos.

    I El método Bootstrap permite obtener una buena aproximación del ECM (error cuadrático medio), del desvío y de la varianza de un estimador, a partir de la muestra, aún sin conocer la distribución de donde provienen los datos.

  • Técnica de bootstrap

    La idea central de este método es simple;

    I Dada una muestra aleatoria con n observaciones, dicha muestra es tratada como si fuera toda la población de las cuál se extraerán B muestras con reposición.

    I Para cada una de las B nuevas muestras, se realizará una estimación del parámetro de interes.

    Se usarán los B valores bootstrap estimados para aproximar la distribución del estimador del parámetro, y funcionales derivados de dicha distribución (como la precisión).

  • Precaución

    II Si la muestra original es una mala representación de la población en general, a pesar de ser una muestra aleatoria bien tomada, la simulación bootstrap va a generar una estimación pobre de la precisión.

    I La estadística no mejora un diseño pobre. I Los modelos deben ser elegidos con conocimiento general del

    problema, y luego ajustados con los datos recolectados para tal fin.

  • Distribución empírica de un grupo de datos fijo

    F (x)

    y(1) y(3)y(2) y(4) y(5)

    1

  • Distribución empírica de un grupo de datos fijo

    Recordemos que si tenemos un grupo de datos observados: x1, x2, . . . , xn disponibles, se define la distribución acumulada empírica Fe del grupo de datos

    I Ordenando los datos de menor a mayor: x(1), x(2), . . . , x(n) I Definiendo Fe(x) como:

    Fe(x) =

     0 x < x(1) i n x(i) ≤ x < x(i+1) 1 ≤ i < n 1 x(n) ≤ x

    Fe(x(i)) = i/n ≈ proporción de xj menores que x(i).

  • Consideraciones estadísticas Si el grupo de datos observados: x1, x2, . . . , xn es una realización de una muestra aleatoria X1,X2, . . . ,Xn, esto es, v. a. independientes con la misma distribución F ,

    F (x) = P(X ≤ x)

    entonces los parámetros

    µ = E [Xi ] σ2 = Var(Xi)

    dependen de la distribución F .

  • Distribución empírica

    I Supongamos que el grupo de datos observados: x1, x2, . . . , xn es una realización de una muestra aleatoria X1,X2, . . . ,Xn, esto es, v. a. independientes con la misma distribución F .

    I La variable discreta Xe que toma los valores de la muestra x1, . . . xn con igual probabilidad 1/n, (combinando los pesos si los xi no son todos distintos, tiene distribución acumulada Fe,

  • Distribución empírica La variable discreta Xe tiene distribución Fe, por lo cual:

    I

    µFe = EFe [Xe] = n∑

    i=1

    xiP(Xe = xi) = n∑

    i=1

    xi n

    =

    ∑n i=1 xi n

    = X

    I

    σ2Fe = VarFe(Xe) = EFe [(Xe−µFe)] 2 =

    n∑ i=1

    (xi−µFe)2P(Xe = xi) = n∑

    i=1

    (xi − µFe)2

    n

    σ2Fe = 1 n

    n∑ i=1

    (xi − X )2 = n − 1

    n S2

    También se definen otras medidas y parámetros: mediana, curtosis, coeficiente de asimetría, etc., todos ellos dependientes de la distribución.

  • Estimaciones Si X1, X2, . . . , Xn son v.a. independientes, con distribución común F , tal que

    E [X ] = µ, Var(X ) = E [(X − µ)2] = σ2, E [(X − µ)4] = µ4

    La media muestral y la varianza muestral se definen como:

    X (n) = 1 n

    n∑ i=1

    Xi , S2(n) = 1

    n − 1

    n∑ i=1

    (Xi − X (n))2.

    II X (n) y S2(n) son estimadores insesgados de µ y σ2.

    E [X (n)] = µ E [S2(n)] = σ2.

    I La varianza del estimador X (n) está dada por

    Var(X (n)) = σ2/n.

    I La varianza del estimador S2(n) es

    Var(S2(n)) = µ4 n − (n − 3)σ

    4

    n(n − 1)

  • Estimaciones

    Distribución F

    E [X (n)] = µ, E [S2(n)] = σ2, Var(X (n)) = σ2/n.

    Distribución Fe

    EFe [X (n)] = µFe , EFe [S 2(n)] = σ2Fe , VarFe(X (n)) = σ

    2 Fe/n.

    µFe = 1 n

    n∑ i=1

    xi σ2Fe = 1 n

    n∑ i=1

    (xi − µFe)2

  • Técnica de bootstrap

    I Así como X (n) y S2(n), pueden definirse otros estimadores para un determinado parámetro θ.

    I Si θ̂ = g(X1,X2, . . . ,Xn) es un estimador para un parámetro θ, interesa conocer

    Var(θ̂) y ECM(θ̂, θ) = E [(θ̂ − θ)2].

    I Estos valores suelen ser difíciles de calcular algebraicamente o numéricamente, más aún si no se conoce la distribución. Por ejemplo

    ECM(θ̂, θ) = ∫ . . .

    ∫ (g(x1, . . . , xn)− θ)2 f (x1) . . . f (xn)dx1 . . . dxn.

    I La técnica de Bootstrap propone aproximar esta estimación utilizando la distribución empírica.

  • Técnica bootstrap

    I Si n es suficientemente grande, suele ser cierto que: I (Glivenko-Cantelli): Fe converge uniformemente en x a F , con

    probabilidad 1. I Puede suponerse que los parámetros θ(Fe) de Fe se aproximan a

    los parámetros θ de F de manera continua. I Entonces, por ejemplo: el error cuadrático medio del estimador θ̂ = g(X1,X2, . . . ,Xn),

    ECM(θ̂, θ) = ∫ . . .

    ∫ (g(x1, . . . , xn)− θ)2 f (x1) . . . f (xn)dx1 . . . dxn.

    podría aproximarse por:

    ECMe(θ̂, θ) = EFe [(g(X1,X2, . . . ,Xn)− θ(Fe)) 2],

    I ECMe(θ̂, θ): aproximación bootstrap al error cuadrático medio.

  • Bootstrap

    I Una aproximación bootstrap requiere una suma de nn términos, si la muestra es de n observaciones.

    I Cualquiera sea el estimador µ̂ = g(X1, . . . ,Xn) de un parámetro µ, la estimación bootstrap de ECM(µ̂):

    ∑ 1≤i1≤n

    · · · ∑

    1≤in≤n

    (g(xi1 , xi2 , . . . , xin)− µ(Fe)) 2

    nn

    I Por ejemplo, para la aproximación de ECM(S2(n), se debe calcular:

    I µFe : una vez. I VarFe : una vez. I Por cada una de las nn muestras calcular el promedio x(n) y la

    varianza muestral s2(n) y hacer

    (s2(n)− VarFe ) 2.

  • Ejemplo A partir de las 2 observaciones

    X1 = 1, X2 = 3,

    calcular la aproximación bootstrap de ECM(X , µ) y ECM(S2, σ2), siendo X = 12 (X1 + X2) y S

    2 = 12−1 ∑2

    i=1(Xi − X )2.

    I Dado que X y S2 son estimadores insesgados de la media y de la varianza respectivamente, se tiene que el error cuadrático medio con respecto a estos parámetros es igual a la varianza.

    I ECM(X , µ) = Var(X ) = E [(X − E [X ])2], ECM(S2, σ2) = Var(S2) = E [(S2 − E [S2])2].

    I Para la aproximación bootstrap utilizamos la distribución empírica, que da peso p1 = p2 = 12 .

  • Aproximación bootstrap Varianza de la media muestral: Var(X )

    VarFe(X ) = EFe [(X − EFe [X ])2] = nn∑

    i=1

    (X i − µFe)2

    nn

    Observaciones originales:

    X1 = 1, X2 = 3,

    I EFe [X ] = µFe = 1+3

    2 = 2.

    Muestras x1 x2 X (X − 2)2

    1 1 1 1 1 3 2 0 3 1 2 0 3 3 3 1

    VarFe(X ) = 1 4 · 1 + 1

    4 · 0 + 1

    4 · 0 + 1

    4 · 1 = 1

    2 .

  • Aproximación bootstrap Varianza de la varianza muestral: Var(S2)

    VarFe(S 2) = EFe [(S

    2 − EFe [S2])2] = nn∑

    i=1

    (S2i − σ2Fe) 2

    nn

    Observaciones originales:

    X1 = 1, X2 = 3,

    I EFe [S2] = σ2Fe = (1−2)2+(3−2)2

    2 = 1.

    Muestras x1 x2 X S2 (S2 − 1)2

    1 1 1 0 1 1 3 2 2 1 3 1 2 2 1 3 3 3 0 1

    VarFe(S 2) =

    1 4 · 1 + 1

    4 · 1 + 1

    4 · 1 + 1

    4 · 1 = 1.

  • Bootstrap y Montecarlo

    I Montecarlo: Este promedio puede aproximarse con un promedio de B términos, tomando B muestras aleatorias (X j1,X

    j 2, . . . ,X

    j n),

    1 ≤ j ≤ B:

    Y1 = ( g(X 11 ,X

    1 2 , . . . ,X

    1 n )− µ(Fe)

    )2 Y2 =

    ( g(X 21 ,X

    2 2 , . . . ,X

    2 n )− µ(Fe)

    )2 ...

    YB = ( g(X B1 ,X

    , 2 . . . ,X

    B n )− µ(Fe)

    )2 ECMe(µ̂) ≈

    ∑B j=1 Yj B

    .

  • Aproximación bootstrap para ECM(S2, σ2) = Var(S2)

    I Obtener una muestra x1, x2, . . . , xn (datos observados). I Fe le asigna probabilidad 1/n a cada uno de estos datos

    (sumando pesos si no son todos distintos). I Utilizar la distribución empírica para calcular:

    EFe [(S 2(n)− EFe [S2(n)])2] = EFe [(S2(n)− VarFe(X ))2]

    siendo

    µFe = 1 n (x1 + x2 + · · ·+ xn)

    VarFe(X ) = 1 n ( (x1 − µFe)2 + (x2 − µFe)2 + · · ·+ (xn − µFe)2

    )

  • Ejemplo A partir de las 15 observaciones

    5,4,9,6,21,17,11,20,7,10,21,15,13,16,8,

    calcular la aproximación bootstrap de Var(S2) = Var(S2(15)).

    I La distribución empírica da peso p(21) = 215 y p(x) = 1

    15 a los restantes 13 valores.

    I µFe = 12.2