Transcript
Page 1: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Bootstrap

Georgina Flesia

FaMAF

9 de mayo, 2013

Page 2: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Técnica de bootstrap

La técnica de Bootstrap fue introducida por B. Efron, 1982.

I Bootstrap: Levantarse tirando de las propias correas de lasbotas. Método autosuficiente.

I Fue diseñado para aproximar la precisión de un estimador apartir de un conjunto x1, x2, . . . , xn de datos u observaciones.

I Determinar la precisión de muchos estimadores suele seralgebraicamente complicado, o imposible si no se conoce ladistribución de los datos.

I El método Bootstrap permite obtener una buena aproximacióndel ECM (error cuadrático medio), del desvío y de la varianza deun estimador, a partir de la muestra, aún sin conocer ladistribución de donde provienen los datos.

Page 3: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Técnica de bootstrap

La idea central de este método es simple;

I Dada una muestra aleatoria con n observaciones, dicha muestraes tratada como si fuera toda la población de las cuál seextraerán B muestras con reposición.

I Para cada una de las B nuevas muestras, se realizará unaestimación del parámetro de interes.

Se usarán los B valores bootstrapestimados para aproximar ladistribución del estimador delparámetro, y funcionalesderivados de dicha distribución(como la precisión).

Page 4: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Precaución

II Si la muestra original es una mala representación de lapoblación en general, a pesar de ser una muestra aleatoria bientomada, la simulación bootstrap va a generar una estimaciónpobre de la precisión.

I La estadística no mejora un diseño pobre.I Los modelos deben ser elegidos con conocimiento general del

problema, y luego ajustados con los datos recolectados para talfin.

Page 5: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Distribución empírica de un grupo de datos fijo

F (x)

y(1) y(3)y(2) y(4) y(5)

1

Page 6: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Distribución empírica de un grupo de datos fijo

Recordemos que si tenemos un grupo de datos observados:x1, x2, . . . , xn disponibles, se define la distribución acumuladaempírica Fe del grupo de datos

I Ordenando los datos de menor a mayor: x(1), x(2), . . . , x(n)I Definiendo Fe(x) como:

Fe(x) =

0 x < x(1)in x(i) ≤ x < x(i+1) 1 ≤ i < n1 x(n) ≤ x

Fe(x(i)) = i/n ≈ proporción de xjmenores que x(i).

Page 7: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Consideraciones estadísticasSi el grupo de datos observados: x1, x2, . . . , xn es una realización deuna muestra aleatoria X1,X2, . . . ,Xn, esto es, v. a. independientescon la misma distribución F ,

F (x) = P(X ≤ x)

entonces los parámetros

µ = E [Xi ] σ2 = Var(Xi)

dependen de la distribución F .

Page 8: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Distribución empírica

I Supongamos que el grupo de datos observados: x1, x2, . . . , xn esuna realización de una muestra aleatoria X1,X2, . . . ,Xn, esto es,v. a. independientes con la misma distribución F .

I La variable discreta Xe que toma los valores de la muestrax1, . . . xn con igual probabilidad 1/n, (combinando los pesos silos xi no son todos distintos, tiene distribución acumulada Fe,

Page 9: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Distribución empíricaLa variable discreta Xe tiene distribución Fe, por lo cual:

I

µFe = EFe [Xe] =n∑

i=1

xiP(Xe = xi) =n∑

i=1

xi

n=

∑ni=1 xi

n= X

I

σ2Fe

= VarFe(Xe) = EFe [(Xe−µFe)]2 =

n∑i=1

(xi−µFe)2P(Xe = xi) =

n∑i=1

(xi − µFe)2

n

σ2Fe

=1n

n∑i=1

(xi − X )2 =n − 1

nS2

También se definen otras medidasy parámetros: mediana, curtosis,coeficiente de asimetría, etc.,todos ellos dependientes de ladistribución.

Page 10: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

EstimacionesSi X1, X2, . . . , Xn son v.a. independientes, con distribución común F ,tal que

E [X ] = µ, Var(X ) = E [(X − µ)2] = σ2, E [(X − µ)4] = µ4

La media muestral y la varianza muestral se definen como:

X (n) =1n

n∑i=1

Xi , S2(n) =1

n − 1

n∑i=1

(Xi − X (n))2.

II X (n) y S2(n) son estimadores insesgados de µ y σ2.

E [X (n)] = µ E [S2(n)] = σ2.

I La varianza del estimador X (n) está dada por

Var(X (n)) = σ2/n.

I La varianza del estimador S2(n) es

Var(S2(n)) =µ4

n− (n − 3)σ4

n(n − 1)

Page 11: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Estimaciones

Distribución F

E [X (n)] = µ, E [S2(n)] = σ2, Var(X (n)) = σ2/n.

Distribución Fe

EFe [X (n)] = µFe , EFe [S2(n)] = σ2

Fe, VarFe(X (n)) = σ2

Fe/n.

µFe =1n

n∑i=1

xi σ2Fe

=1n

n∑i=1

(xi − µFe)2

Page 12: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Técnica de bootstrap

I Así como X (n) y S2(n), pueden definirse otros estimadores paraun determinado parámetro θ.

I Si θ̂ = g(X1,X2, . . . ,Xn) es un estimador para un parámetro θ,interesa conocer

Var(θ̂) y ECM(θ̂, θ) = E [(θ̂ − θ)2].

I Estos valores suelen ser difíciles de calcular algebraicamente onuméricamente, más aún si no se conoce la distribución. Porejemplo

ECM(θ̂, θ) =

∫. . .

∫(g(x1, . . . , xn)− θ)2 f (x1) . . . f (xn)dx1 . . . dxn.

I La técnica de Bootstrap propone aproximar esta estimaciónutilizando la distribución empírica.

Page 13: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Técnica bootstrap

I Si n es suficientemente grande, suele ser cierto que:I (Glivenko-Cantelli): Fe converge uniformemente en x a F , con

probabilidad 1.I Puede suponerse que los parámetros θ(Fe) de Fe se aproximan a

los parámetros θ de F de manera continua.I Entonces, por ejemplo: el error cuadrático medio del estimadorθ̂ = g(X1,X2, . . . ,Xn),

ECM(θ̂, θ) =

∫. . .

∫(g(x1, . . . , xn)− θ)2 f (x1) . . . f (xn)dx1 . . . dxn.

podría aproximarse por:

ECMe(θ̂, θ) = EFe [(g(X1,X2, . . . ,Xn)− θ(Fe))2],

I ECMe(θ̂, θ): aproximación bootstrap al error cuadrático medio.

Page 14: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Bootstrap

I Una aproximación bootstrap requiere una suma de nn términos,si la muestra es de n observaciones.

I Cualquiera sea el estimador µ̂ = g(X1, . . . ,Xn) de un parámetroµ, la estimación bootstrap de ECM(µ̂):

∑1≤i1≤n

· · ·∑

1≤in≤n

(g(xi1 , xi2 , . . . , xin)− µ(Fe))2

nn

I Por ejemplo, para la aproximación de ECM(S2(n), se debecalcular:

I µFe : una vez.I VarFe : una vez.I Por cada una de las nn muestras calcular el promedio x(n) y la

varianza muestral s2(n) y hacer

(s2(n)− VarFe )2.

Page 15: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

EjemploA partir de las 2 observaciones

X1 = 1, X2 = 3,

calcular la aproximación bootstrap de ECM(X , µ) y ECM(S2, σ2),siendo X = 1

2 (X1 + X2) y S2 = 12−1

∑2i=1(Xi − X )2.

I Dado que X y S2 son estimadores insesgados de la media y dela varianza respectivamente, se tiene que el error cuadráticomedio con respecto a estos parámetros es igual a la varianza.

I ECM(X , µ) = Var(X ) = E [(X − E [X ])2],ECM(S2, σ2) = Var(S2) = E [(S2 − E [S2])2].

I Para la aproximación bootstrap utilizamos la distribuciónempírica, que da peso p1 = p2 = 1

2 .

Page 16: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrapVarianza de la media muestral: Var(X )

VarFe(X ) = EFe [(X − EFe [X ])2] =nn∑

i=1

(X i − µFe)2

nn

Observaciones originales:

X1 = 1, X2 = 3,

I EFe [X ] = µFe = 1+32 = 2.

Muestrasx1 x2 X (X − 2)2

1 1 1 11 3 2 03 1 2 03 3 3 1

VarFe(X ) =14· 1 +

14· 0 +

14· 0 +

14· 1 =

12.

Page 17: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrapVarianza de la varianza muestral: Var(S2)

VarFe(S2) = EFe [(S

2 − EFe [S2])2] =

nn∑i=1

(S2i − σ2

Fe)2

nn

Observaciones originales:

X1 = 1, X2 = 3,

I EFe [S2] = σ2Fe

= (1−2)2+(3−2)2

2 = 1.

Muestrasx1 x2 X S2 (S2 − 1)2

1 1 1 0 11 3 2 2 13 1 2 2 13 3 3 0 1

VarFe(S2) =

14· 1 +

14· 1 +

14· 1 +

14· 1 = 1.

Page 18: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Bootstrap y Montecarlo

I Montecarlo: Este promedio puede aproximarse con un promediode B términos, tomando B muestras aleatorias (X j

1,Xj2, . . . ,X

jn),

1 ≤ j ≤ B:

Y1 =(g(X 1

1 ,X12 , . . . ,X

1n )− µ(Fe)

)2

Y2 =(g(X 2

1 ,X22 , . . . ,X

2n )− µ(Fe)

)2

...YB =

(g(X B

1 ,X,2 . . . ,X

Bn )− µ(Fe)

)2

ECMe(µ̂) ≈∑B

j=1 Yj

B.

Page 19: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrap para ECM(S2, σ2) = Var(S2)

I Obtener una muestra x1, x2, . . . , xn (datos observados).I Fe le asigna probabilidad 1/n a cada uno de estos datos

(sumando pesos si no son todos distintos).I Utilizar la distribución empírica para calcular:

EFe [(S2(n)− EFe [S

2(n)])2] = EFe [(S2(n)− VarFe(X ))2]

siendo

µFe =1n(x1 + x2 + · · ·+ xn)

VarFe(X ) =1n((x1 − µFe)

2 + (x2 − µFe)2 + · · ·+ (xn − µFe)

2)

Page 20: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

EjemploA partir de las 15 observaciones

5,4,9,6,21,17,11,20,7,10,21,15,13,16,8,

calcular la aproximación bootstrap de Var(S2) = Var(S2(15)).

I La distribución empírica da peso p(21) = 215 y p(x) = 1

15 a losrestantes 13 valores.

I µFe = 12.2I VarFe(X ) = 32.03.I Para cada una de las 1515 muestras y1, . . . , y15 calcular

I y = 115

∑15i=1 yi ,

I s2(n) = 114

∑15i=1(yi − y)2,

I (s2(n)− 32.03)2,I y promediar.

Page 21: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Consideraciones

Algorithm 1: X con distribución Fe

for i = 1 to nB doGenerar U ∼ U(0,1);I ← bnUc+ 1;X ← x [I]

end

I Heurística: con B = 100 simulaciones se obtiene una buenaaproximación de ECMFe .

I Esta aproximación bootstrap es a su vez una aproximación deECM.

Page 22: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrap para ECM(X (n), µ)

El cálculo de ECM(X (n), µ) es muy eficiente usando el valorobservado de S2/n, ya que

ECM(X (n), µ) = Var(X (n)) = σ2/n = E [S2/n]

Pero veamos como se aproxima via bootstrapI Si tenemos una muestra x1, x2, . . . , xn de datos observados.I Y Fe le asigna probabilidad 1/n a cada uno de estos datos

(sumando pesos si no son todos distintos).I El ECM estimado via Bootstrap resulta

ECMFe(X (n), µFe) = EFe [(X (n)− µFe)2].

Page 23: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrap para ECM(X (n), µ)

EFe(X (n)) = µFe

VarFe

(X (n)

)= σFe/n

ECM(X (n), µFe) = EFe [(X (n)− µFe)2]

= EFe [(X (n)− EFe(X (n)))2]

= VarFe

(X (n)

)=

σFe

n

=1n2

n∑i=1

(xi − µFe)2

Valor observado de S2/n:1

n(n − 1)

n∑i=1

(xi − µFe)2.

Page 24: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Ejemplo

Si se quiere estimar el tiempo promedio que un cliente pasa en unsistema debido a:

I Tiempo de espera en cola.I Tiempo(s) de servicio.

I Wi ← tiempo que permanece el i-ésimo cliente en el sistema.I Se quiere calcular

µ = limn→∞

W1 + · · ·+ Wn

n.

Page 25: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Ejemplo

I Notar: los tiempos Wi no son independientes ni idénticamentedistribuidos.

En un caso simple de un solo servidor, en el que los clientes sonatendidos por orden de llegada:

Ai : tiempo de arribo del cliente i .Si : tiempo de servicio del cliente i .Vi : tiempo de salida del cliente i .

Vi = max{Ai ,Vi−1}+ Si , V0 = 0

Wi : tiempo que pasa el cliente i en el sistema,

Wi = Vi − Ai = max{Ai ,Vi−1}+ Si − Ai .

Page 26: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Ni ← número de clientes el día i :Di ← suma de tiempos que permanecen los clientes en el sistema eldía i :

D1 = W1 + · · ·+ WN1

D2 = WN1+1 + · · ·+ WN1+N2

...Di = WN1+···+Ni−1+1 + · · ·+ WN1+···+Ni

I Notar: los tiempos Di y los números Ni son independientes eidénticamente distribuidos.

Page 27: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Caracterización de µ

Por la ley de los grandes números

µ = limn→∞

W1 + · · ·+ Wn

n

= limm→∞

D1 + · · ·+ Dm

N1 + · · ·+ Nm

= limm→∞

(D1 + · · ·+ Dm)/m(N1 + · · ·+ Nm)/m

=E [D]

E [N]

donde E [N] es el número esperado de clientes que llegan en un día yE [D] es el tiempo total esperado que esos clientes pasan en elsistema.

Page 28: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Estimación de µ

I Simular el sistema k días.

I Estimar E [D] con D =D1 + · · ·+ Dk

k.

I Estimar E(N) con N =N1 + · · ·+ Nk

k.

I Estimar µ con µ̂ =DN

.

Para estimar

ECM

(DN

)= E

[(∑i Di∑i Ni− µ

)2].

usamos el método bootstrap.

Page 29: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Aproximación bootstrap

I Observar valores di , ni , 1 ≤ i ≤ k .I Distribución empírica:

PFe (D = di , N = ni) =1k

I EFe(D) = d =∑k

i=1 di/k .

I EFe(N) = n =∑k

i=1 ni/k .

I µFe =dn

.

ECMFe

(DN

)=

1kk

∑(i1,...,ik )

(di1 + · · ·+ dik

ni1 + · · ·+ nik− d

n

)2

.

Page 30: Bootstrap - famaf.unc.edu.arjgimenez/Modelos_y_Simulacion/2013/clase15.pdfPrecaución II Si la muestra original es una mala representación de la población en general, a pesar de

Bootstrap aproximado

I Este promedio puede aproximarse con un promedio de Btérminos, tomando B muestras aleatorias (Dj

i ,Nji ),1 ≤ i ≤ k ,

1 ≤ j ≤ B:

Y1 =

(∑ki=1 D1

i∑ki=1 N1

i

− dn

)2

Y2 =

(∑ki=1 D2

i∑ki=1 N2

i

− dn

)2

...

YB =

(∑ki=1 DB

i∑ki=1 NB

i

− dn

)2

ECMe(µ̂) ≈∑B

j=1 Yj

B.


Recommended