View
0
Download
0
Category
Preview:
Citation preview
Metodos Computacionais para Inferencia EstatısticaCapıtulo 6 - Topicos Adicionais - Clonagem de Dados
Paulo Justiniano Ribeiro Jr.Wagner Hugo Bonat
Elias Teixeira KrainskiWalmes Marques Zeviani
LEG: Laboratorio de Estatıstica e GeoinformacaoUniversidade Federal do Parana
20oSINAPE , 30-31/07/2012
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 1 / 1
Clonagem de dados
Motivacao
Clonagem de dados (data cloning)
Lele (2007) e Lele (2010)
(Outras referencias)
Implementacao: algoritmos MCMC
Pacote R: clone (Solymos, 2010)
utiliza JAGS, BUGS ou OpenBUGS
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 2 / 1
Clonagem de dados
Intuicao
Clonagem de dados (data cloning)
Busca conciliar obtencao da verossimilhanca com flexibilidade dosalgoritmos de Inf. Bayesiana (MCMC)
Dados ”abundantes”dominam a priori
Posteriori reflete a verossimilhanca
Proposta: Clonar dados (K vezes): preserva informacao essencial
Media da posteriori : converge para EMVK vezes a variancia de posteriori : converge para variancia assintoticado MLE
Especificacao de modelos e identificabilidade
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 3 / 1
Clonagem de dados
Construcao - Generica
Modelo hierarquico (Bayesiano)
1 [Y |b,X ] ∼ f (µ, φ)
2 g(µ) = Xβ + Zb
3 b ∼ NMV (0,Σ).
4 priori : [β,Σ, φ].
Posteriori informa sobre verossimilhanca clonada LK (β,Σ, φ)
πK (β,Σ, φ|yij) =[∫fi (yi |β,Σ, φ)f (bi |Σ)dbi ]
Kπ(β)π(Σ)π(φ)
C (K ; yij)
C (K ; yij) =
∫[
∫fi (yi |β,Σ, φ)f (bi |Σ)dbi ]
Kπ(β)π(Σ)π(φ)dβdΣdφ
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 4 / 1
Clonagem de dados
Passos
Especificar modelo completo (Bayesiano)
Clonar dados (K vezes)
MCMC em dados clonados
Repetir para diferentes K
Verificar comportamento
Resumos da posteriori informam sobre:
LK (·)L(·) (assintoticamente)
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 5 / 1
Clonagem de dados
Algoritmo
1 Dados K -clonado Y k = (Y ,Y , . . . ,Y )2 Gerar amostras (MCMC) da posteriori [β,Σ,φ] utilizando dados
clonados Y k
Gere estado atual (β,Σ,φ)∗ de [β,Σ,φ]Gere K valores dos efeitos aleatorios b, digamos b1, b2, . . . ,bK de[b|θ∗].Calcule q∗ = f (y |b1,φ∗)f (y |b2,φ∗), . . . , f (y |bK ,φ∗) e faca q1 = q∗
Repita (a) e (b) obtendo novos valores (β,Σ,φ)@ e q@.
Gere uma U(0,1) e calcule p = min(1, q@
q1). Se U > p
(β,Σ,φ)j+1 = (β,Σ, φ)j caso contrario (β,Σ,φ)j+1 = (β,Σ,φ)@.Repita (d) e (e) muitas vezes.
3 Calcule as medias e as variancias amostrais para (θ,φ)j .
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 6 / 1
Clonagem de dados
Identificabilidade
1 Estudar a identificabilidade de modelos em geral e nao trivial.
2 Por vezes modelos sao ajustados como se fossem identificaveis.
3 A atribuicao de priori’s pode tornar um modelo ’identificavel’.
Sob clonagem dos dados:
1 Parametros sao nao-estimaveis: posteriori converge para a prioritruncada no espaco de nao-identificabilidade dos parametros quandoaumenta-se o numero de clones
2 Maior autovalor da matriz de variancia-covariancia a posteriori naoconverge para 0.
3 Se a variancia a posteriori de um parametro converge para 0 quandoaumentamos o numero de clones, ele e estimavel.
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 7 / 1
Clonagem de dados
Exemplo I: Poisson com efeito aleatorio
1 Modelo:
Yij |bi ∼ P(λi )log(λi ) = β0 + bibi ∼ N(0, 1/τ 2)τ 2 ∼ G (1; 0,1)
2 Codigo
mod.poisson <- function(){for(j in 1:n.ua){
for(i in 1:n.rep){Y[j,i] ~ dpois(lambda[j,i])
log(lambda[j,i]) <- beta0 + b[j]}b[j] ~ dnorm(0,tau)
}beta0 ~ dnorm(0, 0.001)tau ~ dgamma(1, 0.01)
}
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 8 / 1
Clonagem de dados
Exemplo I: Poisson com efeito aleatorio (cont)
dados.list <- list(Y = t(matrix(dados$y, 10, 10)), n.ua = 10, n.rep = 10)clone<-dc.fit(data=dados.list, model=mod.poisson, params=c("beta0","tau"),
n.clones=c(1,5,10,20,30,40,50), multiply="n.ua", unchanged="n.rep",n.iter= 10000, n.adapt = 500, n.update = 500, thin =5)
β0
Number of clones
Est
imat
e
●
● ● ● ● ● ●
1 5 10 20 30 40 50
0.8
1.0
1.2
1.4
1.6
1.8
2.0
x
x x x x x xx x x x x x x
τ2
Number of clones
Est
imat
e
●
● ● ● ● ● ●
1 5 10 20 30 40 50
010
2030
4050
6070
●
●
R.hat >= 1.1R.hat < 1.1
x
x x x x x x
x
xx
x x x x
●
●
●
●
●●
●
β0
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 30 50
−6
−5
−4
−3
−2
−1
0 ●
●
●
●
●
●
●
τ2
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 30 50
−4
−3
−2
−1
0●
●
R.hat >= 1.1R.hat < 1.1
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 9 / 1
Clonagem de dados
Exemplo II: Normal sem replicacoes
1 Modelo:
Yi ∼ N(µi , 1/σ2)
log(µi ) = β0 + bibi ∼ N(0, 1/τ 2)σ2 ∼ G (0,5; 0,5) ; τ 2 ∼ G (0,5; 0,5)
2 Codigo
model.normal <- function(){for(i in 1:n){Y[i] ~ dnorm(mu[i], 1/sigma2)mu[i] <- b0 + b[i]b[i] ~dnorm(0, 1/tau2)
}b0 ~ dnorm(0, 0.01)sigma2 ~ dgamma(0.5, 0.5)tau2 ~ dgamma(0.5, 0.5)soma <- sigma2 + tau2
}
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 10 / 1
Clonagem de dados
Exemplo II: Normal sem replicacoes (cont)
k <- c(1,5,10,20,30,40,50)Gclone1 <- dc.fit(data = dat.gauss, params= c("b0","tau2", "sigma2"),
model = model.normal, n.clones=k, multiply="n",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)
Gclone2 <- dc.fit(data = dat.gauss, params= c("soma"),model = model.normal, n.clones=k, multiply="n",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)
φ = σ2 + τ2
β0
Number of clones
Est
imat
e
● ● ● ● ● ● ●
1 5 10 20 30 40 50
4.8
4.9
5.0
5.1
5.2
●
●
R.hat >= 1.1R.hat < 1.1
x
xx
x x x x
x
xx x x x x
σ2
Number of clones
Est
imat
e
● ●
●
● ●●
●
1 5 10 20 30 40 50
0.0
0.5
1.0
1.5
2.0
●
●
R.hat >= 1.1R.hat < 1.1
x x xx
xx x
x
x xx x x x
τ2
Number of clones
Est
imat
e
●●
●
● ●●
●
1 5 10 20 30 40 500.
00.
51.
01.
5
●
●
R.hat >= 1.1R.hat < 1.1
x x x x x x x
x
x x
xx
x x
τ2 + σ2
Number of clones
Est
imat
e
●● ● ● ● ● ●
1 5 10 20 30 40 50
1.4
1.6
1.8
2.0
2.2 ●
●
R.hat >= 1.1R.hat < 1.1
x
xx x x x x
x
xx
x x x x
●
●
●
●
●
●●
β0
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 40
−3
−2
−1
0
●
●
R.hat >= 1.1R.hat < 1.1
●
●
●
●
●
●
●
σ2
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 40
−1.
2−
0.8
−0.
40.
0
●
●
R.hat >= 1.1R.hat < 1.1
●
●
●
●
●
●
●
τ2
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 40
−1.
0−
0.6
−0.
2
●
●
R.hat >= 1.1R.hat < 1.1
●
●
●
●
●
●●
τ2 + σ2
Number of cloneslo
g(S
cale
d V
aria
nce)
1 5 10 20 40
−4
−3
−2
−1
0
●
●
R.hat >= 1.1R.hat < 1.1
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 11 / 1
Clonagem de dados
Exemplo II: Normal sem replicacoes (cont)
Cadeias MCMC:
1000 2000 3000 4000 5000 6000
4.92
4.96
5.00
5.04
Trace of b0
4.95 5.00 5.05
05
1015
20
Density of b0
1000 2000 3000 4000 5000 6000
0.0
0.5
1.0
1.5
Trace of sigma2
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
Density of sigma2
1000 2000 3000 4000 5000 6000
0.5
1.0
1.5
Trace of tau2
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
Density of tau2
1000 2000 3000 4000 5000 6000
1.55
1.65
1.75
Trace of soma
1.55 1.60 1.65 1.70 1.75 1.80
02
46
810
Density of soma
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 12 / 1
Clonagem de dados
Exemplo III: Normal com replicacoes
1 Modelo:
Yij ∼ N(µi , 1/σ2)
log(µi ) = β0 + bibi ∼ N(0, 1/τ 2)σ2 ∼ G (1; 0,01) ; τ 2 ∼ G (1; 0.01)
2 Codigo
mod.gauss.rep <- function(){for(j in 1:n.ua){
for(i in 1:n.rep){Y[j,i] ~ dnorm(mu[j,i], sigma2)mu[j,i] <- beta0 + b[j]
}b[j] ~ dnorm(0,tau2)
}beta0 ~ dnorm(0,0.01)tau2 ~ dgamma(1,0.01)sigma2 ~ dgamma(1,0.01)
}
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 13 / 1
Clonagem de dados
Exemplo III: Normal com replicacoes (cont)
GcloneR<- dc.fit(data=dados.list, params= c("beta0","tau2", "sigma2"),model = mod.gauss.rep, n.clones=c(1,5,10,20,30,40,50),multiply="n.ua", unchanged = "n.rep",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)
β0
Number of clones
Est
imat
e ● ●● ● ● ● ●
1 5 10 20 30 40 50
4.5
5.0
5.5
6.0
xx
xx x x x
x
xx
x x x x
σ2
Number of clones
Est
imat
e
●● ● ● ● ● ●
1 5 10 20 30 40 50
1.0
1.2
1.4
1.6
x
xx
x x x x
x
xx
x x x x
τ2
Number of clones
Est
imat
e
●
● ● ● ● ● ●
1 5 10 20 30 40 50
0.5
1.0
1.5
2.0
2.5
3.0
●
●
R.hat >= 1.1R.hat < 1.1
xx
x x x x x
x
xx
x x x x
●●
●
●
●
●
●
β0
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 30 50
−1.
5−
1.0
−0.
50.
0 ●
●
●
●
●
●
●
σ2
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 30 50
−4
−3
−2
−1
0 ●
●
●
●
●
●●
τ2
Number of clones
log(
Sca
led
Var
ianc
e)
1 5 10 20 30 50
−3.
5−
2.5
−1.
5−
0.5
●
●
R.hat >= 1.1R.hat < 1.1
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 14 / 1
Clonagem de dados
Exemplo III: Normal com replicacoes (cont)
Cadeias MCMC
0 1000 2000 3000 4000 5000
2.5
3.5
4.5
5.5
Iterations
Trace of beta0
2.5 3.0 3.5 4.0 4.5 5.0 5.5
02
46
8
N = 1000 Bandwidth = 0.01103
Density of beta0
0 1000 2000 3000 4000 5000
1.20
1.25
1.30
1.35
Iterations
Trace of sigma2
1.15 1.20 1.25 1.30 1.35
02
46
810
N = 1000 Bandwidth = 0.00642
Density of sigma2
0 1000 2000 3000 4000 5000
0.2
0.6
1.0
1.4
Iterations
Trace of tau2
0.2 0.4 0.6 0.8 1.0 1.2 1.4
01
23
4
N = 1000 Bandwidth = 0.01926
Density of tau2
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 15 / 1
Clonagem de dados
Exemplo III: Normal com replicacao (cont)
Cuidado com as interpretacoes das saıdas!
summary(GcloneR)
Iterations = 105:5100Thinning interval = 5Number of chains = 3Sample size per chain = 1000Number of clones = 50
1. Empirical mean and standard deviation for each variable,plus standard error of the mean:
Mean SD DC SD Naive SE Time-series SE R hatbeta0 5.231 0.22414 1.5849 0.0040922 0.0165402 1.007sigma2 1.263 0.03004 0.2124 0.0005484 0.0005426 1.000tau2 1.108 0.13144 0.9294 0.0023998 0.0075793 1.000
2. Quantiles for each variable:
2.5% 25% 50% 75% 97.5%beta0 5.1332 5.220 5.254 5.289 5.354sigma2 1.2046 1.242 1.263 1.282 1.322tau2 0.9265 1.055 1.117 1.176 1.301
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 16 / 1
Clonagem de dados
Exemplo IV: Regressao Beta com efeitos aleatorios
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 17 / 1
Clonagem de dados
Bibliografia
Lele, S.; Dennis, B. ; Lutscher, F.Data cloning: easy maximum likelihood estimation for complexecological models using Bayesian Markov chain Monte Carlo methods.Ecology Letter 10: 551-563 (2007)
Solymos, P.dclone: Data Cloning in R.The R Journal 2: 29-37 (2010)
Lele, S. ; Nadeem, K. ; Schmuland, B.Estimability and Likelihood Inference for Generalized Linear MixedModels Using data Cloning.Journal of the American Statistical Association 105:1617-1625 (2010)
Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 18 / 1
Recommended