Upload
gra-maria
View
24
Download
4
Embed Size (px)
DESCRIPTION
Estatística
Citation preview
UNIVERSIDADE DE ÉVORA
Curso de Matemática Aplicada
Estimadores de máxima verosimilhançapara a combinação captura - recaptura etrajectos lineares e as suas propriedades
Trabalho de Fim de Curso
realizado por
João Filipe Gonçalves Monteiro
ÉVORA
Julho de 2001
i
“Este Trabalho não inclui as observações e críticas feitas pelo júri”
ii
Agradecimentos
Agradeço ao Professor Russel Alpizar-Jara, meu orientador, pelos sábios con-
hecimentos, entusiasmo, atenção que sempre me dedicou.
Aos meus queridos pais, cunhada Alcinda, irmãos e Nene em particular pelo
amor e ternura ilimitada que foram decisivos no meu empenho durante todos esses
anos de estudos.
À Cláudia pelo amor, carinho e amizade.
Com apreço e infinita estima agradeço Ana, André, Evaldo, Hermes e Njalo
pela amizade e incansável ajuda na lida do dia-a-dia e muito especialmente na
elaboração do presente trabalho.
Pude compartilhar momentos indeléves em companhia de colegas, amigos, do-
centes e à todos vós um muito obrigado pela força e encorajamento que sempre me
deram. A maravilhasa cidade de Évora e sua simpática gente pela hospitalidade.
Também, não posso deixar de agradecer à Cabo Verde, terra mãe.
iii
Índice
Lista das Quadros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Lista das Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Notação e abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
1 Introdução 1
2 Conceitos estatísticos 3
2.1 Amostragem aleatória . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Método de estimação . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Propriedades de um estimador de máxima verosimilhança . . . . . 19
3 Estimação do tamanho duma população e parâmetros relaciona-
dos 26
3.1 Modelo de Lincoln-Petersen . . . . . . . . . . . . . . . . . . . . . 26
3.1.1 Estimação de Lincoln-Petersen . . . . . . . . . . . . . . . . 26
3.1.2 Função da máxima verosimilhança . . . . . . . . . . . . . 28
iv
3.1.3 Variância (uma aproximação utilizando a série de Taylor) . 32
3.2 Modelo de Trajectos Lineares . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Trajectos Lineares . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Função de detecção . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Estimação da densidade populacional . . . . . . . . . . . 47
3.2.4 Função da máxima verosimilhança . . . . . . . . . . . . . 50
3.3 Combinação dos modelos de Lincoln-Petersen e Trajectos Lineares 56
3.3.1 A combinação . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Função da máxima verosimilhança . . . . . . . . . . . . . 57
3.3.3 Estimação de N e g0 . . . . . . . . . . . . . . . . . . . . . 59
3.4 Exemplo prático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4 Simulação 73
5 Conclusão 87
Apêdices 89
Apêndice A (Teoremas) . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Apêndice B (Cálculos auxiliares) . . . . . . . . . . . . . . . . . . . . . 91
Apêndice C (Simulações) . . . . . . . . . . . . . . . . . . . . . . . . . . 92
v
List of Tables
3.1 Densidade populacional em função de g0 . . . . . . . . . . . . . . . . . 49
3.2 Nova organização dos dados de Otto . . . . . . . . . . . . . . . . . . . 67
3.3 Critério de Informaccão de Akaike . . . . . . . . . . . . . . . . . . . . 68
3.4 Estimadores de Trajecto Linear-Metade da Normal sem ajustamento de termos 69
3.5 Estimação de Lincoln-Petersen ( PopSize) . . . . . . . . . . . . . . . . 70
3.6 Comparação entre o estimador de Lincoln - Petersen e o de Chapman. . . . 70
3.7 Estimação de g0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.1 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Comparação entre os estimadores de CH, LP e TL com o estimador de MC,
quando a função detecção é a normal truncada . . . . . . . . . . . . . . . 83
4.3 Comparação de estimativas de teta para o caso em que g0 é livre e g0=1 . . 86
5.1 Rotina binomial para o calculo de n1 . . . . . . . . . . . . . . . . . . . 100
5.2 Rotina binomial para o calculo de n11 . . . . . . . . . . . . . . . . . . . 100
vi
List of Figures
2.1 Inferência estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 N é o tamanho da população e p é a probabilidade de captura (constante).
Para um conjunto de dados, o método de máxima verosimilhança estima os
parâmetros N e p, que são os valores que maximizam a função de verosimil-
hança. White et al., 1982, pag. 31. . . . . . . . . . . . . . . . . . . . . 14
2.3 A derivada não se anula para qualquer valor finito de θ,no entanto a estimativa
da máxima verosimilhança deve ser θ = max xi. Bento Murteira, 1996, vol.
II, pag. 186. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 O máximo absoluto de L(θ) é atingido em θ enquanto que o emprego da
derivação conduz ao máximo relativo θ0 6= θ. Bento Murteira, 1996, vol. II,
pag. 186. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Estimador enviesado. Rui Guimarães, 1997, pag. 265. . . . . . . . . . . . 20
2.6 Estimador não enviesado. Rui Guimarães, 1997, pag. 265. . . . . . . . . . 21
2.7 Estimador pouco preciso, quando comparado com o da Figura 2.8. Rui Guimarães,
1997, pag. 267. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
vii
2.8 Estimador preciso, quando comparado com o da Figura 2.7. Rui Guimarães,
1997, pag. 267. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Diagrama captura -recaptura. . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Distribuição dos indivíduos sobre a áreaA. · representa os indivíduos (animais)
na área de estudo A. Apesar dos animais terem tendência a agruparem-se, as
vezes parte-se do principio que estes seguem um processo de Poisson. . . . . 41
3.3 a) Trajectos lineares. b) Os objectos em cima da linha são observados e
presupões-se que os mais distantes da linha tem menor probabilidade de serem
observados, tanto menor quanto maior for a distância. . . . . . . . . . . . 42
3.4 Trajecto linear ao longo da faixa de largura 2w. . . . . . . . . . . . . . . 43
3.5 Cálculo da distância xi. . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Várias tentativas para a função de detecção : A - Normal truncada , B -
Uniforme, C - Exponencial Negativa, D - Hazard-Rate, que depois de escolhida
em função da performance de cada uma faz-se uma ajuste da função detecção. 44
3.7 Função densidade truncada, g(x). . . . . . . . . . . . . . . . . . . . . 46
3.8 Dados das distâncias de latas de cervejas castanhas obtidas atraves da exper-
iência de Otto,1982. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.1 Gerar uma multinomial pelo sistema de urnas . . . . . . . . . . . . . . . 78
4.2 Determinação de n2. A = p1(1 − p2), B = p1(1 − p2) + (1 − p1)p2,
C = p1(1− p2) + (1− p1)p2 + p1p2. . . . . . . . . . . . . . . . . . 79
viii
4.3 Gráfico da função detecção da Normal truncada em [0, 20]. g (x) = e−x2
σ ,
com σ = 9.04296162. . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.4 Transformação de x = G−1 (y) . . . . . . . . . . . . . . . . . . . . . 81
4.5 O gráfico da esquerda diz respeito ao parâmetro θ e o da direita a p1 para 500
simulações com N=150, p1 = 0.4 e p2 = 0.2. . . . . . . . . . . . . . . . 84
4.6 Distribuição de g0, para 500 simulações com N=150, p1 = 0.4 e p2 = 0.2. . 85
4.7 Ilustração do gráfico do parâmetro g0 caso a função de verosimilhança seja
restringida a g0<1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.8 Gráfico da função de verosimilhança do modelo combinado com p1=0.4, p2=0.2,
θ=20.37, N=150 e a função de detecção é a normal truncada em [0, 20] . . . 86
ix
Notacão e abreviaturas
• Notações tais comoP, ∞, etc. não serão descritas por razões obvias.N - número de animais na área A;
n1 - quantidade de indivíduos da primeira captura;
n10 (= n1 − n11) - número de indivíduos que forammarcados apenas na primeira
captura;
n2 - número de indivíduos da segunda captura;
n01 (= n2 − n11) número indivíduos marcados só na segunda captura;
n11 - total de indivíduos que forammarcados na primeira e na segunda captura;
n00 - número os indivíduos que não chegaram a ser marcados;
n - total de indivíduos capturados ;
p1 - probabilidade de um indivíduo ter a marca da primeira captura;
p2 - probabilidade de um indivíduo ter a marca da segunda captura;
p (= p1 + p2 − p1p2) - probabilidade de um indivíduo ser capturado;
NLP - estimador de Lincoln-Petersen;
x
NTL - estimador do método de trajecto Linear;
NMC - estimador do método Combinado;
θ - vector parâmetro;
w - metade da distância da largura da área de trajecto linear de comprimento
L;
g (x) = g (x|θ) - função de detecção;
g0 - probabilidade de um individuo ser detectado em cima da linha L de tra-
jecto linear;
g (x|θ) = g0×g∗ (x|θ∗), com θ = (g0, θ∗). θ∗ é o vector parâmetro que descreve
g∗;
µ =R w0g (x) dx - efectivo da metade do trajecto;
• Abreviaturas
cv - coeficiente de variação.
i.i.d - independente e identicamente distribuídos;
se - desvio padrão ( standar error);
v.a.c - variável aleatória contínua;
v.a.d - variável aleatória discreta;
xi
1. Introdução
As estimativas do tamanho das populações são necessárias seja qual for o estudo
ecológico e (ou) evolutivo. Um conjunto de indivíduos da mesma espécie coex-
istindo num mesmo espaço designa-se por população, N . Uma população pode
designar a um conjunto de indivíduos que vivem, por exemplo, num parque, numa
cidade ou mesmo numa determinada região dum país.
Os modelos matemáticos têm sido usados para perceber fenómenos ecológicos.
O desenvolvimento das tecnologias, juntamente com o crescimento da população
mundial, bem como a caça descontrolada e catástrofes naturais, têm provocado,
a nível global, várias alterações nos ecossistemas, que podem pôr em risco as
populações, reduzindo o seu efectivo ou mesmo, em caso extremo, levar à sua
extinção. O conhecimento destas alterações advém principalmente das conclusões
inferidas a partir dos modelos matemáticos.
Consequentemente formulam-se modelos matemáticos que tentam estimar, por
exemplo, o tamanho e a densidade da população: método Fisher - Ford, método
estocástico de Jolly, método de Jackson, método de Lincoln - Petersen, método
trajectos lineares, entre outros, Beger (1989) e Krebs (1994).
Todavia, existem outros métodos cuja finalidade é o estudo da evolução da
população, destes deduzem-se as taxas de natalidade, mortalidade, etc., entre
1
outras variáveis de índole biológica, vitais para evitar ou minimizar desastres
ecológicos.
No capítulo 2, após uma breve introdução sobre alguns conceitos estatísti-
cos que permitem uma melhor percepção dos modelos que neste trabalho serão
abordados, dando particular realce ao método de máxima verosimilhança e às
propriedades dos seus estimadores.
O modelo combinado desenvolvido por Alpizar-Jara e Pollock (1999) permite
estimar populações animais. Este é a combinação dos dois modelos: Lincoln-
Petersen e Trajecto Linear, sendo mais eficiente e com estimadores robostos e
pouco enviesados. A origem do enviesamento nos dois modelos deve-se ao facto
de nem todos os indivíduos serem detectados devido a dificuldades de visão do
observador, em obstáculos como pedras, árvores, etc. Lincoln (1930) e Petersen
(1896) foram os pioneiros em usar conceitos de captura-recaptura para estimar
populações animais. Entretanto, no método de trajecto linear supõe -se que todos
os animais em cima da linha L são vistos com probalidade 1, g0.
Ométodo de trajecto Linear foi desenvolvido sobretudo para estimar densidade
populacional, e a partir da densidade, obtém-se o tamanho da população.
A última parte do trabalho dedica-se a uma aplicação prática do modelo com-
binado com base nas simulações feitas no programa Maple utilizando o método
de Monte Carlo.
2
2. Conceitos estatísticos
2.1. Amostragem aleatória
A inferência estatística consiste em estudar a população1 analisando apenas parte
desta, que se designa por amostra - processo indutivo. Com base nos conheci-
mentos da população e fundamentos da teoria das probalidade tem-se uma ideia
do comportamento da amostra - processo dedutivo, Figura 2.1.
Figura 2.1: Inferência estatística
Para o estudo de um fenómeno aleatório formula-se ummodelo, que não se pre-
tenda exacto, de tal maneira que este seja o mais adequado à situação em questão,
1É a totalidade dos dados.
3
ou seja, pretende-se encontrar um modelo que faça com que a amostra seja rep-
resentativa2 da população. A questão que se põe muitas vezes, é de como extrair
esta amostra da população. Várias técnicas têm sido desenvolvidas nesse sen-
tido, entre as quais se destaca a técnica de amostragem aleatória,Bento Murteira
(1996).
Para obter uma amostra aleatória utiliza-se o processo de lotaria ou então um
programa de computador para gerar números aleatórios.
No processo de lotaria, constrói-se uma réplica da população numa urna com
várias bolas, de tal maneira que cada bola represente um indivíduo da população.
Retira-se ao acaso tantas bolas quanto se queira, até obter-se a dimensão desejada
para a amostra. Esta técnica é prática quando se trata de populações pequenas,
mas é inconveniente no caso de populações grandes já que se torna um processo
cansativo.
O processo de número aleatório é idêntico, mas a “urna” é substituída por
números aleatórios gerados por computador. A cada indivíduo atribui-se um
número, e a partir do computador gera-se uma quantidade de números aleatórios
correspondente ao tamanho da amostra.
A técnica de amostragem aleatória garante que dada uma amostra com n ob-
servações, seja (x1, x2, ..., xn), tal amostra é a realização de n variáveis aleatórias3
(X1, X2, ..., Xn) sobre as mesmas condições que se traduzem por:
2Uma amostra diz-se reprensentativa se for construída de modo que qualquer que seja oelemento, tenha a mesma probabilidade de pertencer a esta.
3Define-se como variável aleatória real X uma representaçãosimbólica de um espaço mensurável (<,B) e de medida de probabilidade P sobre (<,B) onde
< é o conjunto dos números reais e B a família dos borelianos lineares e onde para todo oconjunto A ⊂ <, A ∈ B, P (A) é a probabilidade do acontecimento X ∈ A. Especificar umavariável aleatória é introduzir um espaço de probabilidade (<,B,P ).
4
• uma lei de probabilidade comum , i.e, as variáveis têm a mesma probabili-
dade de serem observadas
∀x : PX1 (x) = PX2 (x) = · · · = PXn (x) = PX (x)
(variável aletória discreta)
∀x : fX1 (x) = fX2 (x) = · · · = fXn (x) = fX (x)
(variável aletória contínua)
• e independência entre as variáveis
∀x1, x2, · · · , xn :
PX1,X2,··· ,Xn (x1, x2, · · · , xn) = PX (x1) · PX (x2) · · ·PX (xn) (v.a.d)
fX1,X2,··· ,Xn (x1, x2, · · · , xn) = fX (x1) · fX (x2) · · · fX (xn) (v.a.c)
Numa primeira fase do processo a natureza dos dados é, muitas das vezes,
desconhecida. Para tal, os dados são agrupados em categorias para facilitar a
construção de histogramas e gráficos de barras. Com estas representações gráficas
pretende-se ajustar os dados a uma função de distribuição. Nem sempre a função
de distribuição caracteriza o comportamento dos dados, já que o acesso aos dados
é por vezes limitado. Os dados são caracterizados pela função de distribuição,
que pode depender (F (x|θ) ,∀θ ∈ Θ)4 ou não (F (x)) de um parâmetro θ (, ou
vector parâmetro θ = (θ1, θ2, ..., θk)). No caso paramétrico, contrariamente ao
4A Θ designa-se por espaço parâmetrico.
5
não paramétrico, que deixa escapar diversos pormenores da natureza dos dados, o
fenómeno aleatório é melhor expresso. Apenas o caso paramétrico será analisado,
e mais a frente, abordar-se-à os estimadores de máxima verosimilhança.
Para o modelo em estudo- modelo de Lincoln-Petersen, utilizou-se uma amostragem
casual simples, pois há reposição dos dados. Embora não faça sentido marcar um
animal duas vezes, a reposição dos dados apresenta vantagens de âmbito teórico
sobre não reposição. A grande vantagem da reposição é que em vez de trabal-
har com a distribuição Hipergeométrica, utiliza-se a distribuição Binomial, que
é muito menos trabalhosa em termos de cálculos. Para populações grandes, a
dependência entre as variáveis X1, X2, · · · ,Xn tende a desaparecer, o que torna
irrelevante a reposição ou não dos dados.
2.2. Estatísticas
Definição 1. Dada uma população com uma função distribuição paramétrica
F (x|θ) ,∀θ ∈ Θ)
define-se por uma estatística T = (X1,X2, · · · , Xn) a todo o processo que se rege
no resumo de toda a informação contida na amostra aleatória X1,X2, · · · ,Xn
sobre o parâmetro desconhecido θ ∈ Θ.
6
Informação
É difícil definir o conceito de informação acima mencionado já que, muitas das
definições propostas têm sido alvo de sérias contestações. Contudo, a definição de
Fisher é a que tem maior aceitação.
Sobre a condição de que qualquer função de densidade (probabilidade) da
família F = f (x|θ) ,∀θ ∈ Θ com parâmetro escalar satisfaça as condições de
regularidade:
[1 ] Θ é intervalo aberto da recta real, podendo mesmo coincidir com toda a
recta real;
[2 ] Os conjuntos x : f (x|θ) > 0 são independentes de θ;
[3 ] ∂f(x|θ)∂θ
existe e é finita, ∀x e ∀θ ∈ Θ;
[4 ] ∀θ ∈ Θ
0 < Eθ
(µ∂ ln f (x|θ)
∂θ
¶2)<∞
(Bento Murteira, 1996, vol.II, p.138-139)
, Fisher traduz o conceito de informação no seguinte teorema :
Teorema 2. Dada uma amostra aleatória (X1,X2, · · · , Xn) de dimensão n, toda
a informação presumível é expressa por
=X1,X2,··· ,Xn (θ) = n=X (θ)
e =X (θ) =
Z +∞
−∞
µ∂ ln f (x|θ)
∂θ
¶2f (x|θ) dx (2.1)
7
Para certas funções de densidade é por vezes complicado chegar a uma ex-
pressão para o segundo membro da equação 2.1. O teorema seguinte mostra que,
sob determinadas condições, nomeadamente condições de regularidade já enunci-
adas atrás, é possível simplificar 2.1.
Teorema 3. Uma vez que se verifiquem as condições de regularidade, 1-4, e se
a segunda derivada deR +∞−∞ f (x|θ) dx se pode obter derivando duas vezes sob a
operação de integração então:
=X (θ) = −Eθ
½∂2
∂θ2ln f (x|θ)
¾(2.2)
Dem.: Derivando uma vez em ordem a θ, temos que
0 =
Z +∞
−∞
∂f (x|θ)∂θ
dx =
Z +∞
−∞
∂ ln f (x|θ)∂θ
f (x|θ) dx
derivando um segunda vez em ordem a θ, vem,
0 =
Z +∞
−∞
∂2 ln f (x|θ)∂θ2
f (x|θ) dx+Z +∞
−∞
∂ ln f (x|θ)∂θ
∂f (x|θ)∂θ
dx
=
Z +∞
−∞
∂2 ln f (x|θ)∂θ2
f (x|θ) dx+Z +∞
−∞
µ∂ ln f (x|θ)
∂θ
¶2f (x|θ) dx
e tendo em conta 2.1 fica demonstrado o que se pretendia.
¥
Exemplo 4. No caso da distribuição Binomial sente-se o quão cómodo pode ser
a expressão 2.2:
8
Seja a função probabilidades
f (x|θ) =µn
x
¶θx (1− θ)n−x
aplicando 2.2 tem-se que:
∂
∂θ
·ln
µn
x
¶θx (1− θ)n−x
¸=
x
θ− n− x
1− θ, 0 < θ < 1
donde se conclui que
=X (θ) = Eθ
(·x
θ− n− x
1− θ
¸2)=
n
θ (1− θ)
Verosimilhança
Como já foi referido atrás, para uma dada amostra aleatória (X1,X2, · · · , Xn)
definindo uma lei de probabilidade f (x|θ), com o parâmetro θ fixo e fazendo
variar X na amostra, temos diferentes resultados de acordo com essa lei de prob-
abilidades. Fixando agora X e fazendo variar θ obtem-se a função de verosim-
ilhança:
L (θ|X) = L (θ|x1, x2, · · · , xn) (2.3)
= f (x1, x2, · · · , xn|θ) = f (X|θ)
9
(As variáveis são independentes entre si e identicamente distribuídas)
= f (x1|θ) f (x2|θ) · · · f (xn|θ)
=nYi=1
f (xi|θ)
É de frisar que a função de verosimilhança tal como é definida em 2.3, não
condiciona a distinção entre variáveis aleatórias discretas ou contínuas. A definição
2.3 é útil para fins práticos, desde que se tenha em conta a natureza da variável
aleatória X.
A função de verosimilhança pode ser interpretada como uma quantificação da
verosimilhança associada a cada θ ∈ Θ, para uma amostra particular (X1, · · · ,Xn).
Para uma melhor percepção do conceito de verosimilhança, é comum trabalhar
primeiro com variáveis discretas (quase sempre de fácil manuseamento).
Consideremos X uma variável aleatória discreta e dois parâmetros θ1 e θ2.
Sem perda de generalidade, suponhamos que:
L (θ1|x) > L (θ2|x) (2.4)
então, de 2.4 pode-se afirmar-se que é mais plausível ter θ = θ1 do que θ ser igual
a θ2.
Exemplo 5. Para uma amostra de dimensão 5 (n = 5), de uma população
Binomial(n,θ)
seja (X1 = 1,X2 = 2,X3 = 3,X4 = 4, X5 = 5)
10
para X fixo, seja X = 1
f (x = 1|θ = 0.01) =µ5
x
¶θ (1− θ)4 = 0.0480
f (x = 1|θ = 0.05) =µ5
x
¶θ (1− θ)4 = 0.2036
f (x = 1|θ = 0.10) =µ5
x
¶θ (1− θ)4 = 0.3280
f (x = 1|θ = 0.25) =µ5
x
¶θ (1− θ)4 = 0.3955
donde se conclui que θ = 0.25 é mais verosímil do que os outros casos.
Quando a variável aleatória X é contínua, a definição da função de verosimil-
hança será mais “delicada”. As aproximações assumem uma maior utilidade.
Se a função densidade de probabilidade, f (x), da variável aleatória X, for
contínua em x, para ε, suficientemente pequeno, temos que:
P (x− ε < X < x+ ε) = P (X < x+ ε) − P (X < x− ε)
= F (x+ ε) −F (x− ε)
=2ε (F (x+ ε) −F (x− ε))
(x+ ε) − (x− ε)
≈ 2εdF (x)dx
= 2εf (x)
Assim, tendo em conta que P (x− ε < X < x+ ε) ≈ 2εf (x|θ) = 2εL (θ|x),uma boa aproximação para comparação da função de verosimilhança de dois val-
11
ores para um parâmetro será:
Pθ1 (x− ε < X < x+ ε)
Pθ2 (x− ε < X < x+ ε)≈ L (θ1|x)
L (θ2|x)
Tanto para o caso discreto como para o contínuo, a função de verosimilhança
pode ser definida a menos de um factor constante positivo, que é expresso pelo
seguinte principio:
Princípio de verosimilhança
Se x e y são duas amostras da mesma população tal que L (θ|x) seja propor-cional a L (θ|y), existirá uma constante C (x, y) tal que :
L (θ|x) = C (x, y)L (θ|y) , para todo o θ
o que nos leva a concluir que que x e y são idênticas.
A constante proporcional C (x, y) toma diferentes valores para diferentes pares
de (x, y), mas não depende jamais de θ. Para o caso particular C (x, y) = 1 tem-se
L (θ|x) = L (θ|y), i.e, se para duas amostras diferentes temos a mesma função deverosimilhança sobre o parâmetro θ, então estas nos dá a mesma informação de
θ.
2.3. Método de estimação
Até aqui analisaram-se os primeiros passos para se construir um modelo. Depois
de conhecido o comportamento da amostra, tem-se então uma lei de probabilidade
12
que depende de um parâmetro. O problema que se põe agora é de como estimar
θ.
Não há um único método para estimar θ, mas sim vários métodos que podem
ser mais adequados ou menos, para cada caso. De entre os métodos5 que podemos
utilizar, apenas o método de máxima verosimilhança será analisado.
Antes de expôr o método de máxima verosimilhança, convém referir a distinção
entre conceitos de estimador e estimativas.
Definição 6. θ designa-se por estimador de um parâmetro θ, e uma realização
particular θ (x1, x2, · · · , xn) do estimador constitui uma estimativa do parâmetroem causa.
Método de Máxima Verosimilhança
Definição 7. SejaXi uma variável aleatória com uma lei de probabilidade definida
por:
f (x|θ)
onde θ é um vector de dimensão p. E com função verosimilhança dada por:
L (θ|x1, x2, · · · , xn) =nYi=1
f (xi|θ) (2.5)
5Alguns métodos alternativos: método dos mínimos quadrados, método de estimação comvariância mínima e método dos momentos.
13
No método máxima verosimilhança assume que as estimativas³θ1, θ2, ..., θp
´dos parâmetros θ1, θ2, ..., θp são os valores destes que maximizam a função de
verosimilhança, i.e.:
Maxθ1,θ2,...,θp
L (θ1, θ2, ..., θp) = Maxθ1,θ2,...,θp
nYi=1
f (xi|θ)
Portanto θ = θ (x1, x2, · · · , xn) diz-se uma estimativa θ se
L³θ|x1, x2, · · · , xn
´> L (θ|x1, x2, · · · , xn) , ∀θ Θp
Figura 2.2: N é o tamanho da população e p é a probabilidade de captura (constante). Paraum conjunto de dados, o método de máxima verosimilhança estima os parâmetros N e p, quesão os valores que maximizam a função de verosimilhança. White et al., 1982, pag. 31.
Sobre as condições de que as funções de verosimilhança são diferenciáveis e
satisfaçam as condições de regularidade, logo, as estimativas podem ser obtidas
resolvendo o seguinte sistema de equações :
14
∂
∂θjL (θ|x) = 0, j = 1, 2, · · · , p (2.6)
desde que
∂2
∂θ2jL (θ|x)
¯¯θ=x
< 0 e∂2
∂θk∂θlL (θ|x)
¯θ=x
< 0 para todo k 6= l (2.7)
Normalmente as soluções obtidas de 2.6 e 2.7 são máximos, Figura 2.3. Mas
nem sempre o máximo obtido por derivação constitui um máximo global, Figura
2.4. Muitas vezes, tal só é possível atraves de métodos numéricos. No entanto,
mesmo a nível de cálculos numéricos é importante analisar a função de verosim-
ilhança tanto quanto possível no que toca à existência de extremos locais.
Figura 2.3: A derivada não se anula para qualquer valor finito de θ,no entanto a estimativada máxima verosimilhança deve ser θ = max xi. Bento Murteira, 1996, vol. II, pag. 186.
15
Figura 2.4: O máximo absoluto de L(θ) é atingido em θ enquanto que o emprego da derivaçãoconduz ao máximo relativo θ0 6= θ. Bento Murteira, 1996, vol. II, pag. 186.
Para fins práticos, em vez de se utilizar a expressão 2.5, é comum usar-se
a transformada logarítmica da função de verosimilhança, substituindo assim o
produtório pelo somatório, nos cálculos:
lnL (θ) = lnnYi=1
f (xi|θ) (2.8)
=nXi=1
ln f (xi|θ)
Tendo em conta que a função logarítmica é monótona crescente, 2.5 e 2.6 têm
pontos estacionários comuns e 2.6 pode escrever-se:
nXi=1
∂
∂θjln f (xi|θ) , j = 1, 2, · · · p
Exemplo 8. Seja Xi uma variável aleatória com distribuição Normal, a função
16
densidade é dada por :
f (xi|θ) = 1√2πθ2
e− 12
³xi−θ1θ2
´2, onde θ=(θ1,θ2)=(µ,σ2)
A transformada logarítmica da função de verosimilhança é:
lnL (θ1, θ2|xi) = −n2ln (2π)− n
2ln¡σ2¢−Pn
i=1 (xi − µ)2
2σ2
e tem-se
∂L∂µ= 0
∂L∂σ= 0
⇔
Pn
i=1(xi−µ)2σ2
= 0
− n2σ2−
Pni=1(xi−X)
2
2σ4= 0
(2.9)
Resolvendo a equação 2.9, tem-se que os estimadores de máxima verosimilhança
são: µ = X e σ2 =Pn
i=1(xi−X)2
n.
Método de Máxima Verosimilhança Restringida
O método de máxima verosimilhança restringida surge para resolver problemas
de estimação de parâmetros sempre que estes estejam restringidos a determinadas
condições.
Um problema de máxima verosimilhança restringida pode expressar-se como:
L (θ|x1, x2, · · · , xn) =nYi=1
f (xi|θ)
17
onde f (xi|θ) é uma lei de probabilidade e θ é um vector de dimensão p sujeito àsrestrinções
Aθ = B
Cθ ≥ DG (θ) = 0
H (θ) ≥ 0
e ainda limitada a θi ≤ θ ≤ θs.
De um modo geral, as restrições podem ser divididas em dois tipos: restrições
lineares e restrições não lineares, . No entanto, para fins computacionais e por
uma questão de conveniência, utilizamos 5 classificações diferentes para restrições:
- Restrições Lineares
1 Aθ = B, onde A é uma matriz m1 × p de constantes conhecidas e B uma
matriz m1 × 1 também de constantes conhecidas;
2 Cθ ≥ D, onde C é uma matriz m2 × p de constantes conhecidas e D uma
matriz m2 × 1 também de constantes conhecidas.
- Restrições Não Lineares
3 G (θ) = 0, com G (θ) uma função arbitrária do parâmetro θ;
4 H (θ) ≥ 0 e H (θ) é uma função arbitrária de θ.
5 Apesar de θi ≤ θ ≤ θs poderem ser enquadradas nas restrições lineares,
estas são convenientemente separadas para fins computacionais.
18
Ometódo de máxima verosimilhançca restringida processa-se de forma idêntica
ao método de máxima verosimilhança. Para estimar parâmetros utilizando este
método, basta resolver um sistema tendo em conta 2.6 , 2.7 e as restrinções acima
mencionadas.
2.4. Propriedades de um estimador de máxima verosimil-
hança
Um estimador da máxima verosimilhança usufrui de uma série de propriedades.
De entre elas, salienta-se, que o estimador máxima verosimilhança é consistente,
eficiente, assimptoticamente não enviesado, as suas distribuições são assimptoti-
camente normais e a ainda possui a propriedade da invariância .
Estimadores suficientes
Definição 9. Uma estatística T (X1, X2, · · · ,Xn) que consiga resumir toda a in-
formação de uma amostra X1,X2, · · · , Xn sobre o parâmetro θ ( Θ) de uma forma
concisa e sem redundância designa-se por estatística suficiente.
Uma estatística diz-se suficiente se e só se a função distribuição da amostra
(X1, X2, · · · ,Xn) aleatória em função de T = t não depende de θ ( Θ), para todo
o t Dt, onde Dt é o domínio de T .
19
Estimadores não enviesados
Definição 10. Dado um parâmetro θ ( Θ) e seja θ um estimador do mesmo,
define-se como enviesamento :
Enviesamento θ = µθ − θ
onde µθ é valor esperado de θ.
Um estimador θ diz-se não enviesado se o valor do enviesamento for nulo,
Figuras 2.5 e 2.6. O estimador não enviesado permite, para amostras diferentes,
obter um estimador que fornece, em média, estimativas iguais ao verdadeiro valor
do parâmetro.
Figura 2.5: Estimador enviesado. Rui Guimarães, 1997, pag. 265.
20
Figura 2.6: Estimador não enviesado. Rui Guimarães, 1997, pag. 265.
Estimadores consistentes
Definição 11. Um estimador θ do parâmetro θ sob as condições de consistên-
cia e que satisfaça a condição:
∀δ > 0, limn→+∞
Pθ
³¯θ − θ
¯< δ´= 1
diz-se consistente, onde n é a dimensão da amostra.
Demonstra-se que se o enviesamento e a variância de um estimador tendem
para zero quando a dimensão da amostra tender para infinito (n→ +∞):
lim
n→+∞(µθ − θ) = 0
limn→+∞
σ2θ= 0
(condições de regularidade)
então o estimador é consistente.
21
Estimadores Precisos
Definição 12. Um estimatidor θ1 diz-se menos preciso que outro θ2, se a disper-
são dos erros de estimação que podem ser cometidos for maior quando se recorre
ao estimador θ1, Figuras 2.7 e 2.8. Geralmente, a precisão de um estimador é
expressa pelo erro quadrático médio:
Erro Quadratico medioθ = EQM θ = E
·³θ − θ
´2¸= σ2
θ− (Enviesamentoθ)
2
Figura 2.7: Estimador pouco preciso, quando comparado com o da Figura 2.8. Rui Guimarães,1997, pag. 267.
Propriedade de invariância
A propriedade de invariância é talvez a mais importante de todas as propriedades
do método da máxima verosimilhança.
Teorema 13 (Propriedade de invariância). Se θ é um estimador de máxima
22
Figura 2.8: Estimador preciso, quando comparado com o da Figura 2.7. Rui Guimarães, 1997,pag. 267.
verosimilhança e se τ³θ´é uma função biunívoca, então τ
³θ´é estimador de
máxima verosimilhança de τ (θ).
Por exemplo, se θ é a média de uma variável aleatória com função distribuição
F , então, o estimador de máxima verosimilhança de uma função z (θ) é z ¡X¢.Assimptoticamente normais
Para soluções da equação 2.6 (ou 2.8) sobre as condições
E
µ∂L
∂θ
¶= 0
I (θ) = −Eµ∂2L
∂θ2
¶= E
õ∂L
∂θ
¶2!
então θ diz-se assimptoticamente normal com vector média θ0 e amatriz variância-
covariância, I−1θ0, onde θ0 é o real valor de θ. A matriz Iθ0 é conhecida por
matriz informação de Fisher, Efron (1978). A matriz variância-covariância, I−1θ0,
é denotada porP.
23
A partir da variância sabe-se qual é a precisão de um estimador e da covar-
iância, a relação que existe entre dois estimadores particulares, isto é, se são ou
não independentes6, já que foram obtidos a partir dos mesmo conjunto de dados.
dX=
var³θ1´
cov³θ1, θ2
´cov
³θ1, θ3
´. . . cov
³θ1, θn
´cov
³θ2, θ1
´var
³θ2´
cov³θ2, θ3
´. . . cov
³θ2, θn
´cov
³θ3, θ1
´cov
³θ3, θ2
´var
³θ3´
. . . cov³θ3, θn
´...
......
. . ....
cov³θn, θ1
´cov
³θn, θ2
´cov
³θn, θ3
´. . . var
³θn´
Na matriz covariância,
P, as variâncias aparecem na diagonal principal da
mesma e as covariâncias são simétricas em relação à diagonal, isto é, cov³θi, θj
´=
cov³θj, θi
´para todo i e j. Para obter uma estimativa da matriz-covariância, é
necessário estimar os parâmetros e subtituí-los na função de máxima verosimil-
hança.
Se a função de verosimilhança tem vários parâmetros, então as respectivas
variâncias e covariâncias obtêm-se da matriz informação, I (θ), e:
dX=hI³θ´i−1
Para o caso em que a função de verosimilhança tem um único parâmetro e
assumindo ainda que os estimadores de máxima merosimilhança sejam assimp-
6Duas variáveis aleatórias X e Y , dizem-se linearmente independentes se e só se cov(X,Y ) =0.
24
toticamente eficientes e usando a aproximação de Cramér-Rao para a variância
de estimadores de máxima verosimilhança, a variância aproximada de uma dada
função h³θ´é:
var³h³θ´|θ´≈
hh³θ´i2 ¯
θ=θ
E¡− ∂2
∂θ2lnL (θ|X)¢¯
θ=θ
=
hh³θ´i2 ¯
θ=θ
− ∂2
∂θ2lnL (θ|X)¯
θ=θ
(2.10)
(Casella e Berger, 1990, pag. 325-328)
25
3. Estimação do tamanho duma
população e parâmetros relacionados
3.1. Modelo de Lincoln-Petersen
3.1.1. Estimação de Lincoln-Petersen
Quanto aos modelos de captura - recaptura, talvez o mais simples de todos seja o
modelo Lincoln-Petersen. Utilizado por C. G. J. Petersen6 em 1896 e aperfeicoado
em 1930 por F. C. Lincoln7, para estimar o tamanho de populações de patos.
Tal como outros modelos de estimação do tamanho de populações, este é con-
stituido no seu essencial pela captura, marcação e recaptura dos indivíduos.
Este método tem como pressupostos:
A1 Na população não hája nascimentos nem imigração, mortes ou emigração.
Portanto, a diferença entre o tempo da recolha de duas amostras tem de ser
pequena - população fechada;
6Carl George Johannes Petersen nasceu na Dinamarca em 1860. O metodo que hoje tem oseu nome foi publicado em 1896.
7Frederick C. Lincoln nasceu em 1892, no Colorado. Passou a maior parte da vida a estudarpassáros.
26
A2 Os animais têm igual probabilidade de serem capturados dentro de cada
amostra;
A3 As etiquetas não se perdem no ensaio e não são ignoradas pelo observador.
Tendo em conta os pressupostos do método, e considerando N o universo, isto
é, o número total dos indivíduos que se pretende estimar, numa primeira fase
captura-se um certo número de indivíduos (n1), tendo todos a mesma probabili-
dade de serem capturados - captura. Depois de serem marcados são posterior-
mente libertados para o seu habitat natural, juntando-se aos restantes indivíduos
não marcados - marcação. Num segundo passo do método capturam-se novos
indivíduos (n2) - recaptura, podendo estes já terem sido capturados ou não
aquando da captura, Figura 3.1.
Figura 3.1: Diagrama captura -recaptura.
Como não há nascimentos nem mortes, a população mantém-se constante,
em tamanho, tanto na primeira como na recaptura e, por isso, é evidente que
a proporção de animais marcados na recaptura seja aproximadamente
igual à proporção de animais marcados no total da população:
27
n11n2≈ n11
N⇒ NLP =
n1n2n11
(3.1)
onde NLP é o estimador de Lincoln-Petersen.
Apesar do método ser simples e prático, pode surgir um “pequeno” problema;
no caso, de n11 ser zero, isto é, não existem indivíduos marcados nem na primeira
e nem na segunda fase. Para resolver tal situação, em 1951 Chapman introduziu
pequenas modificações na formula 3.1:
N∗LP =
(n1 + 1) (n2 + 1)
n11 + 1− 1 (3.2)
O estimador de Chapman é menos enviesado que o de Lincoln-Petersen. O
enviesamento do estimador de Lincoln-Petersen é mais evidente para populações
de pequenas dimensões, já que para esses casos a população é sobreestimada. En-
tretanto, para populações grandes é indiferente a utilização da fórmula padrão de
Lincoln-Petersen ou a corrigida de Chapman para o estimar, pois o enviesamento
é similar.
3.1.2. Função da máxima verosimilhança
Uma das várias maneiras de se chegar à função de máxima verosimilhança é con-
siderar que n10, n01 e n11 são variáveis aleatórias que têm distribuição multinomial.
Seja a partição do universo, de tamanho N , n10, n01, n11, n00 em que:
28
• n11 são aqueles indivíduos que foram marcados duas vezes;
• n10 representa o número de indivíduos que forammarcados apenas na primeira
captura;
• n01(= n2 − n11) refere-se ao número indivíduos marcados só na segunda
captura;
• n00 descreve os indivíduos que não foram marcados;
• p1 é a probabilidade de um indivíduo ter a marca da primeira captura, p1
[0, 1] ;
• p2 é a probabilidade de um indivíduo ter a marca da recaptura, p2 [0, 1] ;
e portanto:
• P10 = P¡ um indivíduo ter a marca da primeiracaptura e não ter a marca da recaptura
¢= P
¡um indivíduo ter a marca da primeira captura
¢×P¡um indivíduo não ter a marca da recaptura
¢= p1 (1− p2);
• P01 = P¡um indivíduo não ter a marca da primeira
captura e ter a marca da recaptura
¢= P
¡um indivíduo não ter a marca da primeira captura
¢×P¡um indivíduo ter a marca da recaptura
¢= (1− p1) p2;
• P11 = P¡um indivíduo ter a marca da primeiracaptura e ter a marca da recaptura
¢29
= P¡um indivíduo ter a marca da primeira captura
¢×P¡um indivíduo ter a marca da recaptura
¢= p1p2;
• P00 = P¡um indivíduo não ter a marca da primeiracaptura e não ter a marca da recaptura
¢= P
¡um indivíduo não ter a marca da primeira captura
¢×P¡um indivíduo não ter a marca da recaptura
¢= (1− p1) (1− p2);
Considerando n10, n01 e n11 como variáveis aleatórias, que seguem uma dis-
tribuição multinomial e tendo em conta os pressupostos do método, a função da
máxima verosimilhança toma o seguinte aspecto:
LLP (·) = (N, p1, p2|n10, n01, n11) =
=
µN
n10 n01 n11
¶[p1 (1− p2)]
n10 [(1− p1) p2]n01 [p1p2]
n11 [(1− p1) (1− p2)]n00
(3.3)
(e pondo n00 = N − n10 − n01 − n11 = N − n, temos)µN
n10 n01 n11
¶[p1 (1− p2)]
n10 [(1− p1) p2]n01 [p1p2]
n11 ×
× [(1− p1) (1− p2)]N−n
30
Utilizando a propriedade invariante dos estimadores do método da máxima
verosimilhança e o lema 15 (Chapman), consultar Apêndice A, temos que:
= L1LP (N, p|n)L2LP (p1, p2|n10, n01, n11) (3.4)
(consultar Apêndice A)
=
·µN
n
¶pn (1− p)N−n
¸×
×·µ
n
n10 n01 n11
¶·p1 (1− p2)
p
¸n10 ·(1− p1) p2p
¸n01 ·p1p2p
¸n11¸(3.5)
onde n = n10 + n01 + n11 e portanto
Pn = P11 + P10 + P01
= p1 (1− p2) + (1− p1) p2 + p1p2
= p1 + p2 − p1p2 = p
Estimação de N
Uma das possíveis maneiras de estimar N é resolvendo o seguinte sistema:
L0LP (·) = 0
⇔
∂L1LP (·)∂N
= 0
∂L1LP (·)∂p
= 0
⇔
∂L1LP (·)∂N
= 0
∂∂p
¡Nn
¢pn (1− p)N−n = 0
⇒ ∂
∂p
µN
n
¶pn (1− p)N−n = 0
⇔µµ
N
n
¶pn−1 (1− p)N−n−1
¶(n (1− p)− p (N − n)) = 0
⇔ n (1− p)− p (N − n) = 0
31
⇔ n−Np = 0
⇔ p =n
N
Donde sai que p = nN, ou seja:
N =n
p(3.6)
Também se pode estimar p1 e p2 por meio algébrico (consultar Apêndice B),
Maple neste caso, donde se conclui que:
p1 =n11n2
(3.7)
e
p2 =n11n1
(3.8)
3.1.3. Variância (uma aproximação utilizando a série de Taylor)
Para se obter uma aproximação da variância recorre-se à série de Taylor1 e as
propriedades da variância e do somatório. Vejamos, então como chegar a uma
1Definição: Se uma função φ (x) tem derivada de ordem r tal que φ(r) (x) = dr
dxr φ (x), entãopara uma constante a, o polinómio de Taylor de ordem r em torno de a é dado por Tr (x) =Pr
i=0φ(r)
i! (x− a)i.
32
expressão para a variância.
Sejam X1,X1,...,Xk variáveis aleatórias com média θ1,θ1,...,θk , tais que X =
(X1, X1, ..., Xk) e θ = (θ1, θ1, ..., θk). Suponhamos que exista uma função φ (X)
diferenciável (um estimador de alguns parâmetros) para o qual queremos uma
aproximação da variância estimada. Seja
φ0i (θ) =
∂φ (X)
∂Xi|X1=θ1,X1=θ2,...,Xk=θk
A expansão da serie de Taylor de primeira ordem de φ (X) em de torno θ é
dada por:
φ (X) ≈ φ (θ) +rX
i=0
φ0i (θ) (Xi − θi) (3.9)
e aplicando a esperança matemática a ambos os membros da equação 3.9 sai que:
Eθφ (X) ≈ φ (θ) +rX
i=0
φ0i (θ)Eθ (Xi − θi) = φ (θ) (3.10)
Assim, uma aproximação da variância de φ (X) sai como consequência de 3.9
e de 3.10:
33
varθφ (X) ≈rX
i=0
³φ0i (θ)
´2varθ (Xi) + 2
rXi>j
φ0i (θ)φ
0j (θ) covθ (Xi, Xj) (3.11)
A variância de NLP pode ser calculada de diversas formas, dos quais abordarei
dois casos: hipergeométrico e o multinomial. A variância está inteiramente ligada
ao modo como o problema é abordado.
Caso Hipergeométrico
No caso hipergeométrico a variância é calculada condicionando n1 e n2, ou seja,
parte-se do princípio que n1 e n2 são conhecidos. A única grandeza não fixa
será n11, variável que tem distribuição hipergeométrica. Assim, temos a seguinte
função de verosimilhança:
L (N |n1, n2, n11) = f (n11|N,n1, n2, ) =
¡n1n11
¢¡N−n1n2−n11
¢¡Nn2
¢ (3.12)
e com as seguintes condições para função de probabilidade:
• 0 ≤ n11 ≤ n1;
• 0 ≤ p ≤ 1;
• p+ q = 1
34
Utilizando o método dos momentos2, sabemos que :
E (n11) =n1n2N⇒ N =
n1n2n11
Seja φ (z) = 1z, onde a média de z é µz e tendo em conta a expressão 3.11 a
variância de φ (z) é dada por:
dvarφ (z) ≈ ·dφdz
¸2z=µz
.dvar (z) = 1
µ4zvar (z)
A variância estimada de NLP obtém-se tendo em conta a aproximação à série
de Taylor e uma transformação de variável. Ou seja:
dvar ³NLP
´=dvarµn1n2
n11
¶
≈ n21n22dvarµ 1
n11
¶(Propriedade da variancia −assmindo que n1 e n2 sao conhecidas)
2O método dos momentos foi desenvolvido no príncipio deste século por Karl Pearson paraproduzir estimadores de parâmetros.
35
=n21n
22
n411dvar (n11)
(Transformação de variável e aproximação á serie de Taylor)
Como a variável n11 aleatória segue uma distribuição hipergeométrica, i.e:
n11 y H (N, k, p)
tal que:
• O parâmetro N tem como estimador a estimação de Lincoln-Petersen, i.e,
NLP =n1n2n11;
• A proporção n1 indivíduos marcados é p = n1N. p = n11
n2e a probabilidade de
um indivíduo não ser marcado é q = 1− p = n2−n11n2
;
• Retiram-se n2(= k) indivíduos do total, sem reposição;
e tendo em conta a variância de uma variável com distribuição hipergeométrica3
temos que:
dvar (n11) ≈ n2n11n2
n2 − n11n2
³n1n2n11− n2
´n1n2n11− 1 ≈ n11 (n1 − n11) (n2 − n11)
n1n2
(a aproximação é considerada boa desde que a população em conta seja grande)
3Dado uma variável X,tal que X y H (N, k, p) então a variância de X é σ2 = kpqN−kN−1
36
e por conseguinte a variância estimada de N é:
dvar ³NLP
´=
n1n2 (n1 − n11) (n2 − n11)
n311(3.13)
(Seber, 1982)
Para o estimador corrigido 3.2, Chapman desenvolveu a seguinte expressão
para a variância:
dvar ³N∗LP
´=(n1 + 1) (n2 + 1) (n1 − n11) (n2 − n11)
(n11 + 1) (n11 + 2)2 (3.14)
Caso Multinomial
Atendendo que n1 e n2 podem ser expressos respectivamente por n10 + n11 e
n01 + n11, é também possível obter uma estimativa para a variância traduzindo
o problema numa multinomial, onde n10, n01 e n11 são variáveis aleatórias. A
função de máxima verosimilhança para o caso multinomial é a expressão 3.5 atrás
apresentada.
Seja φ (z10, z01, z11) =(z10+z11)(z01+z11)
z11, onde a média de z10, z01 e z11 são re-
spectivamente µZ10 e µZ01 e µZ11 .Utilizando a expressão 3.11 vem que:
dvar ³NLP
´= dvarµn1n2
n11
¶=dvarµ(n10 + n11) (n01 + n11)
n11
¶≈
·dφ
dz10
¸2z10=µz10
.var (n10) +
·dφ
dz01
¸2z01=µz01
.var (n01)
37
+
·dφ
dz11
¸2z11=µz11
.var (n11) +
+2
÷dφ
dz10
¸z10=µz10
·dφ
dz01
¸z01=µz01
.cov (n10, n01)+
+
·dφ
dz10
¸z10=µz10
·dφ
dz11
¸z11=µz11
.cov (n10, n11) +·dφ
dz11
¸z11=µz11
·dφ
dz01
¸z01=µz01
.cov (n11, n01)
!
=(n01 + n11)
2
n211.var (n10) +
(n10 + n11)2
n211.var (n01) +
+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))
2
n411.var (n11) +
+2
µ(n10 + n11) (n01 + n11)
n211.cov (n10, n01)+
+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))
n311×
× (n01 + n11) cov (n10, n11) +
+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))
n311×
× (n10 + n11) cov (n11, n01))
=n21n
22
n211
µV ar (n10)
n21+
V ar (n01)
n22
¶+
+((n1 + n2)n11 − n1n2)
2
n411.var (n11) +
+2n21n
22
n211.cov (n10, n01)
n1n2+
+2n2 ((n1 + n2)n11 − n1n2)
n311.cov (n10, n11) +
+2n1 ((n1 + n2)n11 − n1n2)
n311.cov (n01, n11)
38
Uma vez que as variáveis aleatórias n01, n10 e n11 seguem uma distibuição
multinomial4 Mult (n, π10, π01, π11), onde n = n01 + n10 + n11 e π10 =p1(1−p2)
p,
π01 =(1−p1)p2
pe π11 =
p1p2p, p = p1 + p2 − p1p2, com temos que:
• var (n01) = nπ10 (1− π10);
• var (n01) = nπ01 (1− π01);
• var (n01) = nπ11 (1− π11);
e as seguintes covariâncias:
• cov (n10, n01) = −nπ10π01;
• cov (n10, n11) = −nπ10π11;
• cov (n11, n01) = −nπ11π01;
e portanto,
dvar ³NLP
´=
n21n22
n211
µnπ10 (1− π10)
n21+
nπ01 (1− π01)
n22
¶+
+((n1 + n2)n11 − n1n2)
2
n411.nπ11 (1− π11)−
−2n21n22nπ10π01
n211n1n2+2n2 ((n1 + n2)n11 − n1n2)nπ10π11
n311+
+2n1 ((n1 + n2)n11 − n1n2)nπ11π01
n311(3.15)
4Dado uma variável aleatória Xi
(i = 1, ..., k), tal que X yMult (n, p1, ..., pk) compi = P (Ai), onde
Pki=1 pi = 1, então V ar (Xi) = npi (1− pi) para todo i = 1, ..., k e
Cov (Xi,Xj) = −npipj, i 6= j.
39
A variância tanto para p1 como para p2 obtêm-se considerando as distribuições
binomiais condicionadas das variáveis, isto é :
- n11|n2 y Bin (n2, p1)
dvar (p1|n2) =dvarµn11n2|n2¶=dvar (n11|n2)
n22=
n2p1 (1− p1)
n22=
p1 (1− p1)
n2
(3.16)
- n11|n2 y Bin (n2, p1)
dvar (p2|n1) =dvarµn11n1|n1¶=dvar (n11|n1)
n21=
n1p1 (1− p1)
n21=
p1 (1− p1)
n1
(3.17)
3.2. Modelo de Trajectos Lineares
3.2.1. Trajectos Lineares
Á semelhança do modelo de Lincoln - Petersen, o modelo de trajecto linear tam-
bém permite estimar o tamanho de uma determinada população, embora o mod-
elo seja geralmente utilizado para estimar a densidade populacional 5, que é um
parâmetro fundamental nos estudos biológicos de uma população.
5Entende-se por densidade populacional ao número de indivíduo por unidade de área.
40
No modelo, parte-se de princípio que a área representada por A, da qual se
pretende estimar a densidade populacional é conhecida, Figura 3.2.
Figura 3.2: Distribuição dos indivíduos sobre a área A. · representa os indivíduos (animais)na área de estudo A. Apesar dos animais terem tendência a agruparem-se, as vezes parte-se do
principio que estes seguem um processo de Poisson.
De uma forma aleatória, traçam-se linhas rectas ao longo da área (lj, tal quePlj = L). Cada uma dessas linhas, lj, é então percorrida de uma ponta à outra,
a medida que se vão detectando os objectos. Aos indivíduos detectados, mede-se
a distância (xi) perpendicular à linha do trajecto - Trajecto linear, Figura 3.3.
Por vezes, os indivíduos são detectados ao longo de uma faixa de largura 2w
(predefinida pelo experimentador) - Trajecto ao longo da faixa, Figura 3.4.
Quando as distâncias perpendiculares (xi) não estão disponíveis, estas podem
ser obtidas a partir de duas grandezas, Figura 3.5, conhecidas : ri e θi, isto é :
xi = ri cos (θi) , (e Zi = ri cos (θi))
41
a) b)
Figura 3.3: a) Trajectos lineares. b) Os objectos em cima da linha são observados e presupões-se que os mais distantes da linha tem menor probabilidade de serem observados, tanto menor
quanto maior for a distância.
Pressupostos do método
B1 Os N objectos estão distribuídos ao longo da área A segundo um processo
estocástico13;
B2 A linha recta L , que atravessa a área, é traçada ao acaso;
Entre os pressupostos há que contar com os mais críticos, nomeadamente:
B3 Os indivíduos sobre a recta nunca são esquecidos, i.e., são detectados com
probabilidade 1;
B4 Os animais nunca se movem de um lugar antes de serem detectados, e além
disso são contados uma única vez tendo em conta que a detecção de um é
independente do outro. Não existem erros de medição;
13Dado um espaço de probabilidade (Ω, A, P ) e um conjunto arbitrário T , um processo es-tocástico é uma função real e finita X (t, ω), definida no produto cartesiano T ×Ω que para cadaτ fixo τ T , é função mensurável ( no sentido de Borel) de ω. Neste caso o processo estocásticorepresenta um fenómeno aleatório que evolui no espaço, onde t (t (0,+∞)) representa o espaço.
42
Figura 3.4: Trajecto linear ao longo da faixa de largura 2w.
Figura 3.5: Cálculo da distância xi.
.
3.2.2. Função de detecção
Após o cálculo das distância perpendiculares, xi, constrói-se então, um histograma
de frequências e a partir deste um polígono de frequências que é ajustado à função
de detecção pelo método da máxima verosimilhança, pois entre várias há uma
que melhor se ajusta a função, Figura 3.6. À medida que a distância xi tende a
aumentar os indivíduos detectados tornam-se cada vez mais escassos.
43
Figura 3.6: Várias tentativas para a função de detecção : A - Normal truncada , B - Uniforme,C - Exponencial Negativa, D - Hazard-Rate, que depois de escolhida em função da performance
de cada uma faz-se uma ajuste da função detecção.
A função de detecção é dada por:
g (x) = P [observar um indivíduo|x]
Voltando aos pressupostos, nota-se que quando um indivíduo estiver em cima
da linha recta L, isto é quando xi = 0, vem que:
g (0) = P [observar um indivíduo|0] = 1
traduzindo naquele que é talvez o pressuposto mais crítico, uma vez que, sobre
44
a linha L, o animal pode não ser detectado por diversas razões. Por exemplo,
pode-se encontar sobre a copa de uma árvore, debaixo de um tufo de ervas ou
num lago, fazendo com que tal pressuposto seja constantemente violado.
Normalmente, no método de trajecto linear, para simplificar e tornar mais
cómodo o estudo, o experimentador estipula uma certa distância máxima denom-
inada por w, para a detecção dos animais. Aqueles que se encontrem para além
da distância estabelecida são simplesmente ignorados.
Uma outra possibilidade para a selecção dos dados é, depois de observados
os indivíduos, ignorar uma parte das distâncias com menos frequência. Certos
autores (Alldredge e Gates, 1985) aconselham uma redução de 5 a 10% dos indi-
víduos mais distantes do observador.
Uma função truncada num dado intervalo (a, b) em que b > a, onde se ex-
clui todos os valores que não pertencem ao intervalo tem a seguinte função de
distribuição:
F (x)x (a,b]
=
0⇐ x ≤ a
F(x)−F(a)F(b)−F(a) ⇐ a < x ≤ b
1⇐ x > b
Se existir a função densidade temos que:
F (x)x (a,b]
=
0⇐ x ≤ a
R xa f(u)duR ba f(x)dx
⇐ x (a, b]
1⇐ x > b
45
e por derivação obtemos a função densidade:
f (x)x (a,b)
=
f(x)R b
a f(x)dx⇐ x (a, b)
1⇐ x ≤ a e x ≥ b
Assim, a função detecção g (x) truncada no intervalo [0, w], que não é uma
densidade de probabilidade, é substituída por outra, f (·), tal que:
∀xi (i = 1, 2, · · · , n2)
f (xi|n2) = f
µUm objecto ser detectado pelo observador no
rectângulo de área 2wL, a uma distância xi da linha L
¶=
g (xi)R w0g (x) dx
=g (xi)
µ
com f (0) = 1µeR w0
g(xi)R w0 g(x)dx
= 1 como se pretendia, Figura 3.7.
Figura 3.7: Função densidade truncada, g(x).
46
3.2.3. Estimação da densidade populacional
Paralelamente à linha recta L traçam-se duas outras rectas, que distam da primeira
w unidades. Partindo do princípio que os pressupostos são respeitados, B1-B5,
ao longo da área de largura 2w os indivíduos são detectados com o objectivo de
estimar a densidade populacional.
Assim, a densidade populacional é estimada por:
D =NTL
A(3.18)
onde NTL é a estimação da população na área A = 2wL.
Depois de estimada a proporção da população ao longo da área A, designada
por p2, 3.18 toma o seguinte aspecto:
D =n2
2wLp2(3.19)
p2 é razão entre o número de indivíduos detectados na área (n2) e a população
total estimada (NTL) ou então:
p2 =
R w0g (x) dx
w=
µ
w(3.20)
onde g (x) é a função de detecção acima referida.
47
Da expressão 3.19 e 3.20 obtém-se
D =n22Lµ
(3.21)
e como se verifica w desaparece, não interferindo, assim, na densidade o que faz
com que este método seja basicamente utilizado para estimar a densidade e não
o tamanho da população.
No entanto, o parâmetro w constitui um marco importante para estimar o
tamanho da população, pois este depende inteiramente do valor de w, NTL =n2wµ.
Entretanto, o modelo trajecto linear quando combinado com o Lincoln-Petersen
constituem um modelo eficaz para estimar o tamanho da população, com esti-
madores robustos, pois o pressuposto g0 = 1 já não será necessário.
Tendo em conta que a área A é uma constante e que o tamanho da população
depende de determinados parâmetros, a variância da densidade da população é
expressa por:
V ar³D´= V ar
ÃNTL
A
!=1
A2V ar
³NTL
´
Para melhor compreender a importância de g0, considera-se a seguinte notação
para a função de detecção:
g (x) = g (0)× g∗ (x) = g0 × g∗ (x)
48
de tal maneira que p2 passa a definir-se por:
p2³θ´=
R w0g³x|θ´dx
w=
R w0g0 × g∗
³x|θ´dx
w
=g0R w0g∗³x|θ´dx
w=
g0µ∗w
e por conseguinte temos que :
D =n22Lµ
=n2
2g0µ∗L
Como se pode constatar no Quadro 3.1 quando g0 toma valores inferiores a
1, o enviesamento é tanto maior quanto menor for g0. O mesmo se aplica para o
tamanho da população. Quanto menor for a probabilidade de um indivíduo que
encontra sobre a linha L ser observado maior será o enviesamento e o tamanho
da população é sobestimada.
Quadro 3.1: Densidade populacional em função de g0g0 Di
1 D1 = D12
D2 = 2D13
D3 = 3D· · · · · ·
49
3.2.4. Função da máxima verosimilhança
Caso condicionada (Buckland, 1993)
Buckland traduz o modelo por uma equação mais simples, mas também menos
realista, na qual a função de verosimilhança é condicionada a n2:
L (·) = f (x1, x2, · · · , xn2|n2)
= f (x1|n2) f (x2|n2) · · · f (xn2|n2)
(Os acontecimentos são independentes entre si)
=n2Yi=1
g (xi)R w0g (x) dx
∴ L (x1, x2, · · · , xn2 |n2) =n2Yi=1
g (xi)
µ(3.22)
Caso Binomial (Seber, 1982)
Ao longo dos tempos a função para o método de trajecto linear foi abordada de
diversas maneiras. Seber6 apresentou a função de verosimilhança tendo em conta
que as distâncias e o total de indivíduos observados são variáveis aleatórias.
6Grande parte das pesquisas George A. F. Seber são sobre populações abertas. O seu tra-balho foi desenvolvido em conjunto com J. N. Darroch. Hoje é uma dos altos dirigentes dodepartamento de matemática na universidade de Auckland.
50
Eis então, a função de verosimilhança desenvolvida por Seber:
L (·) = f (x1, x2, · · · , xn2, n2)
= f (x1, x2, · · · , xn2|n2) f (n2)
(Propriedade condicionada da função densidade)
= f (x1|n2) f (x2|n2) · · · f (xn2 |n2) f (n2)
(Os acontecimentos são independentes entre si)
= f (x1|n2) f (x2|n2) · · · f (xn2 |n2)µNTL
n2
¶pn22 (1− p2)
NTL−n2
(Os n2 objectos tem função de distribuição Binomial7)
= f (x1|n2) f (x2|n2) · · · f (xn2 |n2)µNTL
n2
¶pn22 (1− p2)
NTL−n2
=g (x1)R w
0g (x) dx
g (x1)R w0g (x) dx
· · · g (xn2)R w0g (x) dx
µNTL
n2
¶pn22 (1− p2)
NTL−n2
=n2Yi=1
g (xi)R w0g (x) dx
µNTL
n2
¶pn22 (1− p2)
NTL−n2
∴ L (x1, x2, · · · , xn2 , n2) =n2Yi=1
g (xi)
µ
µNTL
n2
¶pn22 (1− p2)
NTL−n2 (3.23)
Utilizando a função de máxima verosimilhança desenvolvida por Seber estima-
7Os n2 objectos têm função de distribuição Binomial. Num universo de NTL, cada um dosn2 objectos pode ou não ser visto pelo observador com probabilidade p2 - o que traduz numabinomial.
51
se o vector parâmetro θ donde se obtém
p2
³θ´=
R w0g³x|θ´dx
w=
µ
w
e aplicando o lema de Chapman temos que :
NTL =n2
p2³θ´ (3.24)
Sabe-se que µ é uma constante dada porR w0g³x|θ´dx e que também pode-se
interpretar como:
∀x, µ = g (x)
f (x)=
1
f (x)
e em particular quando x é nulo. Não esquecendo o pressuposto g (0) = 1, e
fazendo x = 0 temos que:
µ =g (0)
f (0)=
1
f (0)
portanto
NTL = n2f (0)w
52
De 3.18 e 3.19:
D =n2
2wLp2=
n22Lµ
=n2f (0)
2L
logo o tamanho da população é dado pela seguinte expressão:
NTL = DA =n2f (0)
2 /L2 /Lw = n2f (0)w
Da equação 3.24 consideram-se n2 e p2 como sendo variáveis aleatórias e apli-
cando a técnica do cálculo da variância utilizando uma aproximação da série de
Taylor, temos que a variância estimada da população é:
dV ar ³NTL
´≈ dV ar ³NTL
´= dV arµn2
p2
¶=
·∂φ
∂Z1
¸2z=µZ1
.dV ar (n2) + · ∂φ
∂Z2
¸2z=µZ2
.dV ar (p2)=
dV ar (n2)p22
+n22dV ar (p2)
p42
=n22p22
ÃdV ar (n2)n22
+dV ar (p2)
p22
!∴ dV ar ³NTL
´= N2
TL
¡(CV (n2))
2 + (CV (p2))2¢ (3.25)
Sabe-se que a p2 (proporção de indivíduos capturados) é definido condicionado
53
a n2, mas se admitirmos que são independetes uma do outra temos que:
E [p2|n2] = E [p2]
e a covariância entre n2 e p2 é nula, então:
cov (p2, n2) = cov ((p2|n2) , n2)
= E ((p2|n2)n2)−E (p2|n2)E (n2)
(definição da covariância)
= En2 (E ((p2|n2)n2|n2))−E [p2]E (n2)
(propriedade da esperança condicionada)
= En2 (n2E (p2|n2))− E [p2]E (n2)
= E (n2)E [p2]−E [p2]E (n2)
= 0
A variância de n2 pode ser estimada por diversas formas. Na altura da real-
ização da experiência, ao invés de se retirar uma única amostra, tiram-se várias e
com base nisso obtém-se uma estimativa para a variância empírica de n2, dV ar (n2).Também com base nos conhecimentos duma experiência pode-se estimar a variân-
cia de n2 através de métodos computacionais utilizando, por exemplo, o método
de Monte Carlo, Dias (1979).
Tendo em conta que os estimadores de máxima verosimilhança são assimptot-
icamente normais, uma aproximação para a variância p2³θ´pode ser obtida pela
expressão 2.10.
54
Vejamos então o caso em que a função detecção é a exponencial negativa e a
função de verosimilhança é a de Buckland (1993):
Seja a função detecção
g (x|θ) = e−θx, 0 < x ≤ w
então temos que
p2³θ´=
R w0g³x|θ´dx
w=1
w
Z w
0
e−θxdx =1
w
·−1θe−θx
¸w0
=1
w
Ã−e
−θw
θ+1
θ
!=1
wθ
³1− e−θw
´e
V ar³p2³θ´|θ´≈
hp02
³θ´i2
|θ=θE¡− ∂2
∂θ2lnL (θ|X)¢ |θ=θ ≈
hp02
³θ´i2
|θ=θ− ∂2
∂θ2lnL (θ|X) |θ=θ
=
³wθe(−wθ) − 1 + e−wθ
´2 ³−1 + e−wθ
´2w2θ
2n2³−e−2wθ + w2θ
2e−wθ + 2e−wθ − 1
´(A dimensão da amostra é n2)
O modelo de trajecto linear acima abordado é conduzido por um único obser-
vador. Um modelo mais geral, que considera a detecção dos animais por vários
observadores, foi proposto por Alpizar e Pollock (1996). Este modelo é consider-
ado mais realista (pois na realidade o observador óptimo não existe) e toma em
conta que as probabilidades de detecção são diferentes entre os observadores.
55
3.3. Combinação dos modelos de Lincoln-Petersen e Trajec-
tos Lineares
3.3.1. A combinação
Omodelo de captura - recaptura do Lincoln-Petersen (com dois tempos de amostragem)
considera que as variáveis aleatórias n10, n01 e n11 têm distribuição multinomial.
Para estimar a populacção usando informação das distâncias em que se encon-
tram os animais marcados da linha L, recorre-se ao modelo de trajecto linear no
segundo tempo de amostragem.
Ao combinar os dois modelos, obtém-se maior informação sobre a população
e é permitido a violação do pressuposto crítico B3, ou seja, um animal em cima
da linha L pode não ser detectado pelo observador.
Só se considera o caso em que g0 < 1, pois g0 > 1 não tem significado bi-
ológico e é possível estimar g0. Toda esta informação traduz-se num modelo com
estimadores mais eficientes que os outros dois.
Já que este modelo combina informações dos outros dois é natural que tenha
como pressupostos :
C1 Os pressupostos do modelo de Lincoln-Petersen e os do trajecto linear (A1-
A3 e B1, B2, B4 e B5);
e um outro cujo pressuposto lhe é peculiar
C2 independência entre os animais marcados e avistados no trajecto linear.
56
Tendo em conta os pressupostos do método e com o mesmo objectivo (estimar
o tamanho da população), capturam-se os indivíduos, que são posteriormente
soltos após terem sido marcados tal e como no método de Lincoln - Petersen (n1).
De seguida, baseando no método de trajectos lineares e de uma forma aleatória,
os objectos são de novo avistados (n2) e separados em:
- marcados e avistados segundo o método de trajectos lineares (n11);
- avistados segundo o método de trajectos lineares, mas sem terem sido mar-
cados, (n01)
- marcados, mas não avistados segundo o método de trajectos lineares (n10);
e ao total dos indivíduos (marcados e avistados) designa-se por n (= n11 + n10 + n01).
3.3.2. Função da máxima verosimilhança
Da combinação dos dois modelos e dados os pressupostos acima referidos obtém-se
a seguinte função de máxima verosimilhança completa:
L (·) = LLP (·)× LTL (·) (3.26)
em que:
- LLP (N, p1, p2 (θ) |n11, n10, n01) é a função da máxima verosimilhança multi-nomial do modelo captura-recaptura;
- LTL (θ| (x1, x2, · · · , xn2) , n2) é a função da máxima verosimilhança do mod-elo de trajectos lineares.
57
No modelo combinado p1 (p2) é a probabilidade de um indivíduo ser marcado
(avistado) na primeira (segunda) captura e p (= p1 + p2 − p1p2) a probabilidade
de um objecto ser detectado no processo todo.
Alpizar - Jara e Pollock (1999) definiram 3.26 da seguinte maneira :
L (N, p1, g0, θ| (x1, x2, · · · , xn2) , n11, n10, n01) = LLP (·)× LTL (·)
= fLP (n11, n10, n01|N, p1, p2 (θ)) fTL (x1, x2, · · · , xn2|n2, θ) (3.27)
onde p2 (θ) =
R w0g (x|θ) dxw
=µ
w
Há que ter em conta que θ é o parâmetro que define a função detecção.
LLP (N, p1, p2 (θ) |n11, n10, n01) =µ
N
n10 n01 n11
¶×
× [p1 (1− p2 (θ))]n10 [(1− p1) p2 (θ)]
n01 [p1p2 (θ)]n11 [(1− p1) (1− p2 (θ))]
N−n
(3.28)
58
e
LTL (θ| (x1, x2, · · · , xn2) , n2) =n2Yi=1
g (xi)R w0g (x|θ) dx (3.29)
A informação do trajecto linear é expressa pela função de verosimelhança
desenvolvida por Seber (1982, ver 3.23) e não a de Buckland (1993, ver 3.22)
pelo facto de 3.28 conter tal informação, pois a distribuição binomial é um caso
particular da distribuição multinomial.
A partir das expressões 3.27, 3.28 e 3.29 estimam-se os parâmetros. Aos esti-
madores do tamanho da população obtidos a partir da expressão 3.27 designam-se
por estimadores da máxima verosimilhança completa (NMC), aqueles que forem
obtidos exclusivamente a apartir de 3.28 ( sem tomar em conta a informação
proporcionada pelas distâncias) denominam-se por estimadores Lincoln-Petersen
(NLP ); e os que forem meramente estimados por 3.29, entendem-se como NTL.
3.3.3. Estimação de N e g0
Sem perda de generalidade, seja a seguinte notação para a função detecção definida
a menos da constante de proporcional g0:
g (x|θ) = g0 × g∗ (x|θ) (3.30)
Não é possível estimar g0 com apenas um dos modelos. O modelo de trajecto
linear não permite estimar g0 já que, por hipótese, supõe que este vale 1. Por
59
outro lado, no modelo de captura-recaptura, podemos escrever p2 em função de
g0:
p2 = g0µ∗
w= g0p
∗2 (3.31)
porém, um estimador para p2 estima o segundo membro da equação 3.31 como
sendo um produto e não separadamente. Posto isto, só é possível estimar g0, se
for utilizada toda a informação existente.
A questão que se põe agora é decidir qual o modelo a utilizar para estimar N .
A decisão reside no facto do pressuposto B3 ser ou não violado, vejamos então o
que acontece nos dois casos:
1 Se admitirmos que um animal em cima da linha do trajecto linear nem
sempre é avistado pelo observador, ou seja g0 < 1, estamos no caso do
modelo de Lincoln -Petersen, o pressuposto mais importante do modelo de
trajecto linear é violado. Não faria sentido estimar a população pelo método
de trajecto linear já que a população é subestimada, logo o estimador para
N seria enviesado.
Como g0 < 1, então de 3.31 vem que
p2 < p∗2
e utilizando a função de verosimilhança completa condicionada a informação do
modelo de captura-recaptura e as distâncias, temos que o estimador NMC coincide
com o estimador de máxima verosimilhança de Lincoln-Petersen, NLP .
60
Assim, NLP é um estimador de máxima verosimilhança de N e tendo em conta
3.8, p2 = n11n1, e 3.1 temos que
NLP =n1n2n11
=n2p2
(3.32)
sendo a respectiva variância dada pela expressão 3.13 ou 3.15.
2 Quando um indivíduo que se encontra sobre da linha L é detectado com
probabilidade certa, g0 = 1, e sob as condições C1 e C2 NLP deixa de ser
um estimador de máxima verosimilhança de N , pois de 3.31 temos que
p2 = p∗2
isto é, p2 e p∗2 confudem-se, e temos três candidatos para o estimador da
população, N : NLP , NTL e NMC. Dos três, NMC é sem dúvida o estimador
mais preciso e por isso mais eficiente.
Para estimar a população é necessário combinar toda a informação existente.
Para tal utiliza-se a função de verosimilhança completa, 3.27.
A propriedade de invariância garante que escrevendo 3.26 como:
L (·) = L1LP (·)L2LP (·)× LTL (·)
e tendo em conta o lema de Chapman, ver Apêndice A, obtem-se o seguinte
61
estimador para N :
NMC =n
p (θ)
onde p é dado em função de p1 e p2 (θ), mas com a particularidade de p2 depender
de parâmetro θ. Consequentemente, o próprio p expressa-se em prol de θ:
p (θ) = p1 + p2³θ´− p1p2
³θ´
À semelhança dos outros casos, 3.15 e 3.25, uma estimativa para variância do
estimador, NMC, da população pelo método combinado obtém-se tendo em conta
3.11.
Seja φ (z1, z2) = z1z2= n
p(θ), onde a média de z1e z2 são respectivamente µZ1 e
µZ2, temos que:
dV ar ³NMC
´≈ dV ar
n
p³θ´
=
·∂φ
∂Z1
¸2z=µZ1
.dV ar (n) + · ∂φ
∂Z2
¸2z=µZ2
.dV ar ³p³θ´´
=dV ar (n)p2
+n2dV ar ³p³θ´´
p4
=n2
p2 (θ)
dV ar (n)n2
+
dV ar ³p³θ´´p2³θ´
62
∴dV ar ³NMC
´= N2
MC
µ(CV (n))2 +
³CV
³p³θ´´´2¶
(3.33)
A variância impiríca pode ser uma boa estimativa para V ar (n). Utilizando o
método de Monte Carlo obtém-se dV ar (n) e recorrendo as propriedades da var-iância e a aproximações da série de Taylor tem-se:
dV ar (p) = dV ar (p1) + dV ar ³p2 ³θ´´−dV ar ³p1p2 ³θ´´= dV ar (p1) + dV ar ³p2 ³θ´´−dV ar (p1)³p2 ³θ´´2−dV ar ³p2 ³θ´´ (p1)2
Para o cálculo de dV ar (p1) utiliza-se 3.16 e 2.10:
dV ar (p) =p1 (1− p1)
n2+dV ar ³p2 ³θ´´− p1 (1− p1)
³p2³θ´´2
n2
−dV ar ³p2 ³θ´´ (p1)2Uma estimativa para a variância de p2
³θ´depende obviamente da função de
detecção utilizada no modelo e para uma expressão para dV ar ³p2 ³θ´´, complexana maioria das vezes, recorre-se à matriz variância-covariância
P.
Para estimar g0 integra-se ambos membros da equação 3.30:
63
Z w
0
g³x|θ´dx =
Z w
0
g0 × g∗³x|θ´dx (3.34)
donde vem que um estimador para g0 é:
g0 =µ
µ∗=
µ
w× w
µ∗
=p2p∗2=
p2n2× n2
p∗2
e tendo em conta 3.32, lembre-se que o estimador de 3.29 para N é dado por NTL,
g0 expressa por:
g0 =NTL
NLP
Quando há pouca diferença entre NLP e de NTL, g0 é aproximadamente 1.
Para fins prácticos não interessa os casos em que NTL é maior do que NLP , pois
tem-se g0 > 1. A variância de g0 é expressa em função das variâncias de µ, µ∗ e
dela própria:
dV ar (g0) = dV arµ µ
µ∗
¶= g20
¡(CV (µ))2 + (CV (µ∗))2
¢(3.35)
Atendendo que µ (µ∗) pode ser interpretado como µ = wp2( µ∗ = wp∗2) e
64
portanto:
dV ar (µ) = w2dV ar (p2) = w2p2 (1− p2)
n1
Tendo em conta 2.10 temos que:
dV ar (µ∗) = w2dV ar (p∗2) = w2
hh0³θ´i2
|θ=θ− ∂2
∂θ2lnL (θ|X) |θ=θ
e neste caso temos que h³θ´=
R w0 g∗(x|θ)dx
w.
Vejamos agora que nem sempre é facil obter uma expressão para uma estima-
tiva de g0. Recorde-se que p2 = n11n1(ver Apêndice B) e seja a função detecção
dada por:
g∗(x|θ) = e−x2
θ
,temos que
p∗2³θ´=
R w0g∗³x|θ´dx
w=
R w0e−
x2
θ dx
w=
=
erf
µw√θ
¶pπθ
2w' 0.88625
erf
µw√θ
¶pθ
w
65
onde
erf (x) =2R x0e−t
2dt√
π
e portanto
g0 =p2p∗2=
n11n1
w
0.88625 erf
µw√θ
¶pθ
.
3.4. Exemplo prático
O exemplo terá como base uma os resultados duma experiência feita por Otto
em 1982 com latas castanhas de cervejas. Foram utilizadas latas distribuídas em
quatro grupos de tamanhos diferentes: 1, 2, 4 e 8 respectivamente. As latas
foram distribuídas aleatoriamente ao longo de um trajecto linear com 200 metros
de comprimento e 20 metros de largura. Foram usados nove observadores, que
nunca saíram da linha da L.
Otto considerou um total de 495 latas de cervejas; 33 do primeiro grupo, 66
do segundo, 132 do terceiro e 264 do último grupo, cujo tamanho era 8.
Por meio deste método, Otto foi capaz de registar a distância exacta per-
pendicular e o grupo de tamanhos de cada objecto visto por cada observador.
Como Otto possuia um mapa com a distribuição dos objecto, foi possível estimar
a probabilidade de avistar cada objecto baseado nos nove observadores.
Por simplicidade nas análise dos dados em vez de vários grupos e nove obser-
vadores, vou considerar as latas como unidades individuais vistas por apenas um
66
observador.
O Quadro 3.2 apresenta os dados que aqui serão analisados e correspondem
às distâncias das latas que foram detectadas pelo observador, num total de 202
observações.
Quadro 3.2: Nova organização dos dados de Otto0.11 2.18 2.19 3.51 3.75 4.05 4.09 4.1 5.16 8.42 0.93 0.93 1.11 1.11 1.33 1.33 1.69 1.69 2.31
2.31 4.15 4.15 4.26 4.26 4.35 4.35 5.24 5.24 5.28 5.28 5.48 5.48 7.20 7.20 7.31 7.31 17.01
17.01 0.88 0.88 0.88 0.88 1.77 1.77 1.77 1.77 3.35 3.35 3.35 3.35 4.35 4.35 4.35 4.35 8.97
8.97 8.97 8.97 9.58 9.58 9.58 9.58 9.61 9.61 9.61 9.61 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14
0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.30 0.30 0.30 0.30 0.30 0.30 0.30 0.30 0.74 0.74 0.74
0.74 0.74 0.74 0.74 0.74 1.12 1.12 1.12 1.12 1.12 1.12 1.12 1.12 2.68 2.68 2.68 2.68 2.68 2.68
2.68 2.68 2.91 2.91 2.91 2.91 2.91 2.91 2.91 2.91 4.13 4.13 4.13 4.13 4.13 4.13 4.13 4.13 5.58
5.58 5.58 5.58 5.58 5.58 5.58 5.58 6.03 6.03 6.03 6.03 6.03 6.03 6.03 6.03 7.27 7.27 7.27 7.27
7.27 7.27 7.27 7.27 7.63 7.63 7.63 7.63 7.63 7.63 7.63 7.63 7.9 7.9 7.9 7.9 7.9 7.9 7.9 7.9 8.35
8.35 8.35 8.35 8.35 8.35 8.35 8.35 8.51 8.518.51 8.51 8.51 8.51 8.51 8.51 9.69 9.69 9.69 9.69
9.69 9.69 9.69 9.69 11.79 11.79 11.79 11.79 11.79 11.79 11.79 11.79
Depois de escolhida a função, função chave, que melhor se ajuste aos dados em
questão. É altura de definir o número de termos de ajustamento da expansão de
série que ajuste a função chave às distâncias. No programa Distance8, a função
de detecção é definida pela seguinte fórmula geral:
g (y) = funçao chave (y) [1 + serie (y)]
(Buckland,1993)
onde serie corresponde à respectiva expansão de série:
8Distance 3.5, Realise 5, www.ruwpa.st-and.ac.uk/distance.
67
Função chave Expansão de série
Metade da normal, 1w
Coseno,Pm
j=1 aj cos¡jwyw
¢Exponencial Negativa, e−
y2
2σ2 Coseno,Pm
j=1 aj cos¡jwyw
¢Uniforme, e−
yσ Coseno,
Pmj=1 aj cos
¡jwyw
¢onde m é o total de termos da série e
aj
= 0 se o termo j de cos
¡jwyw
¢nao e usado no modelo ou
e estimado pela funçao de maxima verosimilhança
De acordo com o critério de informação de Akaike, AIC 9, é possível constatar
que a função metade da normal10 é a que melhor se ajusta aos dados acima
apresentados, Quadro 3.3.
Quadro 3.3: Critério de Informaccão de AkaikeFunção de detecção AIC Função chave
Metade da Normal 744.83 k (y) = e− y2
2A(1)2
Exponencial Negativa 772.60 k (y) = e−y
A(1)
Uniforme 930.24 k (y) = 1W
Utilizando a função metade da normal como função de detecção sem ajusta-
mento de termos e tendo que Distance define µ∗ =R w0g³x|θ´dx, no Quadro 3.4
estão apresentados : NTL, p∗2 e µ∗.
9AIC = −2lnL+2p. L é a função de máxima verosimilhança e p é o número de parâmetrosexistentes.10A função metade da normal é dada por g (y) = e−
y2
2σ2 onde σ é o parâmetro que a define.
68
Quadro 3.4: Estimadores de Trajecto Linear-Metade da Normal sem ajustamento de termosParâmetro Estimação SE CV IC 95%
µ∗ 7.6410 0.3934 0.0515 [6.9038; 8.4570]
p∗2 0.3820 0.0197 0.0515 [0.3452; 0.4228]
NTL 529.00 46.122 0.0872 [445.00; 628.00]
Apesar da função metade da normal ser a que melhor se ajusta aos dados
apresentados no Quadro 3.2, a população é subreestimada com um enviesamento
relativo de 6.87%. A Figura 3.8 mostra que à medida que afastamos da linha
L há cada vez menos latas observadas e as latas que se encontram sobre a linha
são observadas com probabilidade 1, como já era de se esperar. Há uma grande
concentração de latas na faixa compreendidade entre 4 a 10 metros da linha L.
Figura 3.8: Dados das distâncias de latas de cervejas castanhas obtidas atraves da experiênciade Otto,1982.
Para exemplificar o modelo de captura-recaptura, vou utilizar parte da infor-
mação dos dados de Otto apresentado no Quadro 3.2.
A dimensão da população das latas de cervejas é 495. Do programa Distance
sei que p2 é 0.38, por parece razoavel considerar que p2 = 0.4 e sem perda de
generalidade, vou supor que p1 = 0.3. Atraves do programa Maple foi possível
69
gerar uma binomial, Bin (N, p1), para o cálculo de n1 (Apêndice C- Quadro 5.1).
O Quadro 3.5 apresenta os resultados obtidos do programa PopSize para 149
indivíduos marcados na primeira captura e 202 na recaptura. Para o cálculo das
variâncias de p1 e p2, utilizei respectivamente as expressões 3.16 e 3.17.
Quadro 3.5: Estimação de Lincoln-Petersen ( PopSize)p1 0.2970
se(p1) 0.0321
p2 0.4027
se(p2) 0.0401
se(NLP ) 41.964
A população é sobreestimada, pois para uma população real de dimensão 495
o estimador de Lincoln-Petersen é 501.63¡= 149×202
60
¢. O enviesamento deve-se ao
facto de as latas de cerveja se encontrarem agrupadas em dimensões diferentes
e a uma possível falta de visão por parte do observador. Os grupos com maior
número de latas são detectados facilmentemente pelo observador.
Salvo o caso em queN = 495, os restantes foram estimado atraves do programa
PopSize11 utilizando 1000 simulações.
Quadro 3.6: Comparação entre o estimador de Lincoln - Petersen e o de Chapman.N 1a captura 2a captura NLP %BIAS N∗
LP %BIAS200 60 79 225.7 0.1285 220.8 0.1040
1000 300 499 1108.9 0.1089 1097.5 0.0975
10000 3004 4993 10900.4 0.0900 10905.2 0.0905
No Quadro 3.6 verifica-se que o método de Lincoln-Petersen é mais eficaz para
populações grandes; quanto maior é população menor é o envisamento. Para
11PopSize - Copyright 1998 by Robert P. Gengron. Version 1.0.www.iup.edu/~rgendron/software.htmlx)
70
populações pequenas, verifica-se que o estimador de Chapman é mais eficáz face
ao de Lincoln-Petersen. Apesar da variância do estimador de Chapam ser menor,
para populações grandes o enviesamento de ambos os estimadores é praticamente
igual.
Da teoria sabe-se que é possível estimar o parâmetro g0 utilizando a informação
dos dois modelos: modelo de Lincoln-Petersen e trajectos lineares.
Tendo em conta que p2 = 0.4 e p1 = 0.3, através do método de Monte Carlo
obteve-se que n11 é 60 (ver rotina do Quadro 5.2 no Apêndice C). Utilizando a
função de máxima verosimilhança completa, 3.27, noMaple foi possível estimar
g0 e os restantes parâmetros p1 e θ, consultar Apêndice C:
ng0 ≈ 1.05, p1 ≈ 0.3, θ ≈ 77.11
o
Quadro 3.7: Estimação de g0SE(g0) 0.1241
IC 95% [0.793,1.279]
como pode verificar-se, g0 > 1, pelo que o estimador da população do modelo
combinado deve coincidir com NLP . Temos que
p2³θ´≈ g0
R 200
e−x2
θ dx
20
¯¯θ=77.11,g0=1.05
≈ 0.4
71
e
p = p1 + p2³θ´− p1p2
³θ´
= 0.3 + 0.4− 0.3× 0.4
= 0.58
e portanto
NMC =n
p=291
0.58= 501.7
Pode considerarar-se que NMC coincide com NLP , pois as pequenas diferenças
devem-se às aproximações do programa utilizado, Maple. O parâmetro g0 pode
também ser estimado através da razão entre NTL e NLP :
g0 =NTL
NLP
=529.00
501.63≈ 1.05
Apesar de g0 ser maior do que 1, o que não tem importância sobre o ponto de
vista biológico, a teoria continua sendo válida.
72
4. Simulação
Como já se referiu atrás, muitas vezes para melhor se conhecer a realidade recorre-
se a construção de modelos. Um estudo preciso e rigoroso de um fenómeno pode
ser custoso ou mesmo impossível de se realizar. Contudo para se ter alguma
garantia da robustez do modelo é essencial fazer estudos sobre esse. É sobretudo
necessário conhecer o comportamento do modelo mediante um conjunto de dados e
parâmetros diferentes. Para um melhor conhecimento do modelo recorre-se então
a simulações do mesmo, utilizando métodos numéricos por via computacional.
O Método de Monte Carlo é muito conveniente para tratamento destes
modelos.
O objectivo da simulação é encontrar estimativas para os parâmetros g0, p1
e θ. Primeiro será analisado o caso em que a função de verosimilhança não é
restringida para depois, com base nesses resultados estudar o caso restringido.
Para tal, consideraremos a função de verosimilhança dada por 3.27 sugeito a:
0 < g0 < 1 (4.1)
73
e
0 < p1, p2 < 1 (4.2)
Método Monte Carlo
O método de Monte Carlo é um método de simulação que resolve problemas
através de meios numéricos gerando variáveis aleatórias.
A geração de amostras aleatórias processa-se em duas fases distintas, uma
de gerar variáveis aleatórias uniformes no intervalo [0, 1] e outra transforma-as
noutras, também aleatórias mas seguindo uma outra distribuição.
No método de Monte Carlo para estimar um parâmetro θ consideram-se var-
iáveis aleatórias X tais que a esperança matemática deste seja exactamente θ.
Gera-se então ns20 amostras, todas com dimensão k, obtendo-se assim matrizes
ns linhas por k colunas, Tabela 4.1. Assim, dos ns amostras obtêm-se as re-
spectivas X1,X2, · · · ,Xns variáveis independentes e idênticas X a cuja a média
aritmética
X =
Pnsi=1 Xi
ns(4.3)
é ainda uma variável aleatória de esperança , com variância21
20ns é um número suficentemente grande, que corresponde ao total de simulaões feitas.21A variância definida por ( 4.2) é a empírica corrigida, mais a frente será definida a
assimptótica.
74
V ar (X) =
Pnsi=1
¡xi − X
¢2ns− 1 (4.4)
inversamente ao número de simulações feitas.
Quadro 4.1: Método de Monte Carlo⇓
a11 a12 · · · a1i · · · a1(k−1) a1ka21 a22 · · · a2i · · · a2(k−1) a2k...
......
......
ans1 a2ns · · · ansi · · · ans(k−1) ansk
Parâmetros a estimar
Atendendo a 3.27 e que LLP = L1LPL2LP , o Lema de Chapman garante-nos que
N = np, consultar o apêndice B, é uma estimativa válida. Entretanto para se obter
p (= p1 + p2 (θ)− p1p2 (θ)) é necessário estimar p1 e p2 (θ).
Portanto, para se ter uma estimativa da população N basta estimar p1 e p2 (θ),
pois n (= n10 + n01 + n11) é conhecido.
O parâmetro p2(θ)
Vejamos como obter uma estimativa de p2 (θ). A probabilidade de um animal
ser detectado é dada em função dos parâmetros, que definem a função detecção.
Uma vez que a função de detecção se define como g (x|θ) = g0 × g∗ (x|σ) é certoque p2 (θ) depende sempre do parâmetro g0 e de outros que definem g∗ (x|σ∗) .Aqui, serão considerados apenas os casos em a função detecção e a normal ou
75
exponencial negativa, ambas truncadas em [0, w]. Tanto para um caso como para
o outro a função detecção depende apenas do parâmetro σ. O vector parâmetro
que define p2 (θ) é então dado por θ = (g0, σ).
Os parâmetros g0, p1 e σ
O parâmetro σ (que define a função detecção e por conseguinte p2), g0 e p1 são
estimados mediante ao método de máxima verosimilhança utilizando a expressão
3.27. Da resolução numérica dum sistema de três equações, em que a cada equação
corresponde a derivada parcial em ordem a g0, p1 e σ respectivamente, obtém-se
uma estimativa para cada um dos parâmetros.
Entretanto, para gerar amostras de números aleatórios que traduzem as distân-
cias xi (i = 1, 2, · · · , n2) é necessário definir um valor para σ do qual se pretende
estimar.
Vejamos então como calcular σ para o caso particular em que a função detecção
é a exponencial negativa . Por hipótese g0 = 1, p2(θ) = 0.4 e w = 20.
Seja
g (x|θ) = g0 × g∗ (x|σ) = e−σx, 0 < x ≤ w
temos então que
p2 (θ) =
R w0g (x|θ) dxw
=
R w0g0 × g∗ (x|σ) dx
w
=
R 200
e−σxdx20
=1
20
·−e
−σx
σ
¸200
76
=1
20
µ1
σ− e−σ20
σ
¶=
1
σ20
¡1− e−σ20
¢
isto é
0.4 =1
σ20
¡1− e−σ20
¢, σ > 0 (4.5)
⇔ e−σ20 + 8σ − 1 = 0
Uma vez resolvida (por métodos numéricos22) a equação 4.5 obtém-se um valor
de sigma, que neste caso é aproximadamente 0.1116.
Procedimentos do método
O primeiro passo a ser dado é a definição dos parâmetros hipóteses do modelo.
Há que se estipular valores para:
• ns (numero de simulações);
• N (tamanho da população) e w;
• p1 e p2;
• e em consequência de p2 obtem-se um valor para σ.
De seguida, o objectivo é obter n2 (= n01 + n11). Para tal gera-se uma multi-
nomial com parâmetros N , p1 e p2.
À semelhança do sistema de urna, geram-se números aleatórios U seguindo
uma distribuição uniformes em (0, 1) (U (0, 1)) e de acordo com a probabilidade
22No programa Maple a equação 4.5 é resolvida utilizando o comando fsolve.
77
de cada acontecimento, estes são distribuídos na respectiva urna, Figura 4.1. No
fim do ciclo tem-se n10, n01, n11 e n00.
Figura 4.1: Gerar uma multinomial pelo sistema de urnas
A partir do ciclo apresentado na Figura 4.2 obtém-se n2, definindo assim o
número necessário de distancias a gerar. As n2 distancias seguem uma determi-
nada distribuição de probabilidades.
Para gerar variáveis duma distribuição normal truncada utilizou-se o seguinte
pacote predefinido peloMaple:
stats[random,normald[0, sigma]](1)
dos quais são considerados apenas os que estiverem no intervalo [0, w].
O caso em que a função de detecção é a exponencial negativa com parâmetro23
θ , i.e. quando se tem
23θ define-se á custa do parâmetro p2.
78
Figura 4.2: Determinação de n2. A = p1(1 − p2), B = p1(1 − p2) + (1 − p1)p2,C = p1(1− p2) + (1− p1)p2 + p1p2.
g (x|θ) = e−θx (4.6)
e
f (x) =g (x|θ)
µ=
e−θxR w0e−θxdx
=e−θx
1wθ(1− e−wθ)
79
0
0.2
0.4
0.6
0.8
1
5 10 15 20x
Figura 4.3: Gráfico da função detecção da Normal truncada em [0, 20]. g (x) = e−x2
σ , com
σ = 9.04296162.
considerou-se uma variável contínua X, com função densidade de probabilidade
definida em 4.6 e a função de distribuição invertível
F (x) =Z x
−∞f (t) dt
Defina-se, por transformação da variável X numa nova variável Y ,
Y = F (x) = 1
/θ 1/θ (1− e−wθ)
¡1− e−xθ
¢=1− e−xθ
1− e−wθ
onde, F é a função de distribuição acima definida.
80
Figura 4.4: Transformação de x = G−1 (y)
As funções distribuição, H (y), e densidade, h (y), da nova variável vêm dadaspor :
H (y) = P (Y < y) = P£X < x = F−1 (y)¤ = F £F−1 (y)¤ = y, y [0, 1]
e
h (y) =dH (y)dy
= 1, y [0, 1]
Ora a forma destas funções implica que
Y y U (0, 1)
A conclusão a que se chega é, portanto, que se uma variável X tem uma
determinada distribuição com função densidade f (x) e a função de distribuição
F (x), então a variável Y = F (x) transformada segue uma distribuição U (0, 1).
81
Inversamente, se uma variável Y segue uma distribuição U (0, 1), então a var-
iável
X = F−1 (y)
⇔ X = −1θln
µ1
1− y (1− e−θw)
¶
segue uma distribuição com função densidade de probabilidade f (x) e a função
de distribuição F (x). Este é o resultado no qual se fundamenta a geração deamostras aleatórias provenientes de populações contínuas com funções de dis-
tribuição invertíveis.
Comparação e avaliação da performance dos estimadores
Posto isto, encontramo-nos em condições de aplicar o método de Monte Carlo
para avaliar as propriedades dos estimadores de máxima verosimilhança para os
parâmetros acima referidos.
Primeiro vejamos o caso mais simples em que só é considerado a restrinção
4.2 para a função de maxima verosimilhança completa. Portanto o parâmetro g0
é livre.
Supondo que
• g0 = 1 ;
• a população tem dimensão 150 ou 500;
• p1 e p2 tomam os seguintes valores: 0.2 e 0.4;
82
• a função de detecção pode ser a normal ou a exponencial negativa, ambastruncada em [0, 20], mas apenas o caso da normal truncada sera analisado.
Quadro 4.2: Comparação entre os estimadores de CH, LP e TL com o estimador de MC,
quando a função detecção é a normal truncada%BIASp2 = 0.2 p2 = 0.4
p1 N LP TL MC LP TL MC0.2 150 9.26 0.91 0.66 1.72 1.63 0.53
500 2.08 0.19 0.11 0.58 0.98 0.110.4 150 0.55 0.50 0.68 2.59 0.93 0.98
500 0.30 0.05 0.10 0.09 1.10 0.63
EQMp2 = 0.2 p2 = 0.4
p1 N LP TL MC LP TL MC0.2 150 85.28 35.09 5.52 39.52 23.11 4.85
500 111.50 59.67 10.96 56.95 35.04 8.310.4 150 36.85 32.26 4.82 17.61 23.14 4.50
500 54.34 65.40 7.87 29.37 41.70 7.34
Dos resultados da simulação apresentados no Quadro 4.2 conclui-se que:
• ao contrário dos outros modelos, em todos os casos, o modelo combinado é
o mais preciso, sendo mais preciso para populações pequenas e quando p2 é
grande, 0.4.
• para o par (p1, p2) = (0.4, 0.4) o enviesamento é menor, sendo maior em
todos os modelos para amostras de tamanho 150 e curiosamente o en-
viesamento é praticamente nulo para (p1, p2, N) = (0.4, 0.2, 500) quando
o método utilizado é o trajecto linear;
83
• para p1 e p2 pequenos, isto é, quando a probabilidade de um individuo
ser detectado na primeira ou na segunda é baixa o enviesamento é muito
elevado;
Quando não há restrinções, os três parâmetros apresentam distribuições em
forma de um sino, distribuição normal.
,590,571
,552,533
,514,495
,476,457
,438,419
,400,381
,362,343
,324,305
,286,267
,248,229
,210
120
100
80
60
40
20
04,90
4,524,14
3,763,38
3,002,62
2,241,86
1,481,10
100
80
60
40
20
0
a) p1 b)θ
Figura 4.5: O gráfico da esquerda diz respeito ao parâmetro θ e o da direita a p1 para 500simulações com N=150, p1 = 0.4 e p2 = 0.2.
Temos que a esperança de g0 é 1.02 e os valores de g0 estão situados entre
0.5915 e 1.4512.
Agora, acrescentando a restrinção 4.1 ao modelo é de esperar que a função de
distrubuição do parâmetro g0 fosse semelhante ao gráfigo ilustrado na Figura 4.7.
Para o caso restringido espera-se que uma estimativa de g0 seja quanto muito 1,
podendo ser mesmo igual a 1. Tendo em conta que para o caso nao restringido
o gráfico de g0 é analoga a da função normal, para o caso em que g0 < 1 até
84
1 o gráfico deve ser muito parecido e os restantes casos em que g0 > 1 devem
concentrar em redor do valor 1.
1,91,71,51,31,1,9,7,5,3,1
120
100
80
60
40
20
0
Figura 4.6: Distribuição de g0, para 500 simulações com N=150, p1 = 0.4 e p2 = 0.2.
Na tentativa de estimar g0 encontrei várias dificuldades. Apesar de a função
de verosimilhança ser continua em g0, para valores de g0 muito próximos de um a
função de verosmilhança é practicamente constante, Figura 4.8. Ora, isso causa
vários transtorno sob o ponto de vista computacional. O facto de haver pouca
diferenças faz com queMaple entra num loop.
Fixando g0 = 1 temos que p1 mantem-se com os mesmo valores que obtidos
no caso em que g0 é não restringido, e θ varia inversamente proporcional a g0. A
simulação assinalada no quadro 4.3 mostra que de facto a estimativa de θ aumenta
quando g0 é restringido face ao caso não restringido.
85
Figura 4.7: Ilustração do gráfico do parâmetro g0 caso a função de verosimilhança seja re-stringida a g0<1.
Quadro 4.3: Comparação de estimativas de teta para o caso em que g0 é livre e g0=10 < g0 < 2 g0 = 1
⇒
σ g0 p13.2783.1963.4443.5792.800
0.7141.0981.0190.9811.178
0.3730.3800.4400.3530.446
σ p1
2.7963.2063.3553.4342.885
0.3730.3800.4400.3530.446
Figura 4.8: Gráfico da função de verosimilhança do modelo combinado com p1=0.4, p2=0.2,
θ=20.37, N=150 e a função de detecção é a normal truncada em [0, 20] .
86
5. Conclusão
Um dos objectivos do trabalho era obter estimador para o tamanho da população
através da combincão do modelo de Lincoln-Petersen com o método de Trajecto
Linear utilizando o método de máxima verosimilhança restringida. Neste sentido
mostrei como é que ambos os métodos se processam. Utilizei, ainda o método de
máxima verosimilhança para mostrar que sob determinados pressupostos um bom
estimador para a população será NLP =n2p2para o método de Lincoln-Petersen
e NTL =n2
p2(θ)para o método de Trajecto Linear, onde θ é um estimador do
parâmetro θ que define a função de detecção g (x|θ).No modelo combinado g0 deixa de ser um pressuposto critico e é estimado, no
caso de g0 < 1, à custa dos dois modelos acima mencionados e pelo método de
máxima verosimilhança
g0 =NTL
NLP
bem como os parâmetros: p1 e θ e consequentemente Nmc.
As propriedades dos estimadores são avaliados mediante ao uso da técnica
de simulação Monte Carlo e se apresenta um exemplo ilustrativo para melhor
87
entendimento dos conceitos.
Através do exemplo prático pude verificar que a nivel teórico a igualdade g0 =
NTL
NLPé válida mesmo quando g0 > 1.
A partir de simulações foi possível conhecer a distribuição dos parâmetros
g0, p1 e θ para o caso em que g0 não é restringido. Entretanto, para o caso re-
stringido, algumas vezes não foi possível estimar g0 e consequentemente os outros
dois parâmetros: θ e p1.
Para além da definição do método adequado para situações específicas e das
aplicações a outras áreas, este constitui um bom desafio para os demais interes-
sados neste tipo de metodologia.
No futuro tentarei desenvolver um procedimento para obter estimativas do
pârametro da função de verosimilhança completa restringida.
Cabe-me sinceramente manifestar a alegria laboriosa e que sinto findo este
trabalho de fim de curso, o qual não foi só despertando, em mim, muito mais
interesse sobre este assunto, à medida que fui pesquisando como também me
serviu para aprofundar conhecimentos.
88
Apêndices
Apêndice A (Teoremas)
• Na passagem de 3.3 para 3.5, L1LP obtém-se dividindo 3.3 por L2LP , isto é:
LLP (N, p1, p2|n10, n01, n11, (N − n10 − n01 − n11))
L2LP (p1, p2|n10, n01, n11)=
=
¡N
n10 n01 n11
¢[p1 (1− p2)]
n10 [(1− p1) p2]n01 [p1p2]
n11 [(1− p1) (1− p2)]N−n¡
nn10 n01 n11
¢ hp1(1−p2)p
in10 h (1−p1)p2p
in01 hp1p2p
in11
=
µN
n
¶[(1− p1) (1− p2)]
N−nh1p
in10 h1p
in01 h1p
in11=
µN
n
¶pn10+n01+n11 (1− p1 − p2 + p1p2)
N−n10−n01−n11
=
µN
n
¶pn (1− p)N−n
= L1LP (N, p|n)
¥
Também de uma forma análoga pode-se obter L2LP à custa de 3.3 e L1LP .
Lema 14 (Chapman - 1951). Para qualquer p ( [0, 1]) dado,
N = np(maior inteiro menor ou igual a n
p) maximiza L (N, p), onde L (N, p|n) =¡
Nn
¢pn (1− p)N−n.
89
Se p = nNpara algum inteiro N ,
então N e N − 1 ambos maximizam L (N, p). Por outro lado N é o único
máximo.
(Sanathan, 1972, pag. 144)
• Estimar N:
> lnL:=ln(((N!)/(n!*(N-n)!))*(p^n)*((1-p)^(N-n)));
lnL := ln
ÃN !pn (1− p)N−n
n! (N − n)!
!
> ans1:=simplify(diff(lnL, N));
ans1 := ψ(N + 1)− ψ(N − n+ 1) + ln(1− p)
> ans2 :=simplify(diff(lnL,p)) ;
ans2 :=−n+ pN
p(−1 + p)
> ans3 :=solve( ans1 =0, ans2 =0, N,p) ;
ans3 := p = p,N =n
p
90
Nota 15. ψ(x) = ∂∂xlnΓ (x) =
∂∂x
Γ(x)
Γ(x)e Γ (x) =
R∞0
tz−1e−tdt.
Apêndice B (Cálculos auxiliares)
• Estimar p1 e p2 ( de L1LP )
>lnL:=ln(((n10+n01+n12)!/(n10!*n01!*n12!))*(((p1*(1-p2))/(p1+p2-p1*p2))
^n10)*
((((1-p1)*p2)/(p1+p2-p1*p2))^n01)*(((p1*p2)/(p1+p2-p1*p2))^n12));
lnL := ln
³(n10+n01+n12)!∗(p1∗(1−p2)
p1+p2−p1p2
´n10 ³ (1−p1)∗p2p1+p2−p1p2
´n01 ³p1p2
p1+p2−p1p2
´n11n10!n01!n11!
> ans1:=simplify(diff(lnL,p1));
ans1 :=−n10p2 + n10p2p1 + n01p1− n11p2 + n11p2p1
(1− p1)p1(−p1 − p2 + p1p2)
> ans2:=simplify(diff(lnL,p2));
ans2 :=n10p2 − n01p1 + n01p1p2 − n11p1 + n11p2p1
p2(1− p2)(−p1 − p2 + p1p2)
> ans3:=solve(ans1=0,ans2=0,p1,p2);
91
ans3 := p1 = n11n01 + n11
, p2 =n11
n11 + n10
onde n1 = n10 + n11 e n2 = n01 + n11, portanto:
p1 =n11n2
e p2 =n11n1
• Variância de p2 (θ):
Atendendo que :
- g (x|θ) = e−θx;
- lnL (·) =Qn2i=1 ln
g(xi)R w0 g(x)dx
= −Pn2i=1 θxi − n2 ln (µ) + n2 ln (θ);
- p2³θ´=(1−e−θw)
wθ.
∂
∂θlnL (·) = −
n2Xi=1
xi − n2we−θw
1− e−θw+
n2θ
∂2
∂θ2lnL (·) =
(n2w)2 e−θw
(1− e−θw)2− n2
θ2
Apêndice C (Simulações)
• Estimação de NMC utilizando os dados de Otto
92
>x := vector(202,[0.11, 2.18, 2.19, 3.51, 3.75, 4.05, 4.09, 4.1, 5.16, 8.42, 0.93, 0.93, 1.11,
1.11, 1.33, 1.33, 1.69, 1.69, 2.31, 2.31, 4.15, 4.15, 4.26, 4.26, 4.35, 4.35, 5.24, 5.24, 5.28, 5.28,
5.48, 5.48, 7.2, 7.2, 7.31, 7.31, 17.01, 17.01, 0.88, 0.88, 0.88, 0.88, 1.77, 1.77, 1.77, 1.77, 3.35,
3.35, 3.35, 3.35, 4.35, 4.35, 4.35, 4.35, 8.97, 8.97, 8.97, 8.97, 9.58, 9.58, 9.58, 9.58, 9.61, 9.61,
9.61, 9.61, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.26, 0.26, 0.26, 0.26, 0.26, 0.26, 0.26,
0.26, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 1.12, 1.12,
1.12, 1.12, 1.12, 1.12, 1.12, 1.12, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.91, 2.91, 2.91 ,
2.91, 2.91, 2.91, 2.91, 2.91, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 5.58, 5.58, 5.58, 5.58,
5.58, 5.58, 5.58, 5.58, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 7.27, 7.27, 7.27, 7.27, 7.27,
7.27, 7.27, 7.27, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9,
8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 9.69,
9.69, 9.69, 9.69, 9.69, 9.69, 9.69, 9.69, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79]):
>n10:=89.0:n01:=142.0:n11:=60.0:n2:=n11+n01;n:=n10+n01+n11:w:=20;n1:=n10+n11:
> p2:=(g0/w)*(int(exp(-((u^2)/teta)),u=0..w)):p:=p1+p2-p1*p2:
>odeN:=ln(495!) - (ln(n!)+ln((495-n)!)) + n*ln(p) + (495-n)*ln(1-p) + ln(n!) - (ln(n11!)
+ ln(n10!) + ln(n01!)) + n10*(ln(p1) + ln(1-p2) - ln(p)) + n01*(ln(p2) + ln(1-p1) - ln(p))
+ n11*(ln(p1) + ln(p2) - ln(p)) + n2*ln(1/(int(exp(-((u^2)/teta)),u=0..w))) + sum(ln(exp(-
(((x[i])^2)/teta))),i=1..n2):
>ans1N:=diff(odeN,g0):ans2N:=diff(odeN,teta):ans3N:=diff(odeN,p1):
>ans4N:=fsolve(ans1N=0,ans2N=0,ans3N=0,g0,teta,p1,g0=0.5..1.2,p1=0.1..0.5);
ans4N := g0 = 1.050090732, teta = 77.11151483, p1 = .3010101010
93
• PROGRAMA MODCOMB
O programa tem como objetivo estimar o tamanho da população usando o método de monte
carlo em conjunto com o método de máxima verosimilhança utilizando os seguintes estimadores:
Lincoln Petersen,Chapman, Trajecto Linear e por fim o do Modelo Combinado.
Depois de definidos os demais parâmetros que definem os modelos, incluindo o número de
simulações, estimam-se e comparam-se os diferentes estimadores.
INPUT
> numsim:=1000 ; # Declaração do total de simulações
> seed:=123; # Semente
> with(stats);
> N:=150; # Tamanho da população
> p1:=0.4; # Probabilidade de um animal ser capturado
> p2:=0.2; # Probabilidade de um animal ser avistados
> w:=20; # Metade da distância da largura da área de trajecto linear de comprimento L
Declaração das variavéis
> unif:= vector(200): n1:= matrix (numsim,1): n2:= matrix (numsim,1): n00:= matrix
(numsim,1): n11:= matrix(numsim,1): n01: = matrix (numsim,1): n10: = matrix (num-
sim,1): nlp: = matrix (numsim,1): n10lp:= matrix (numsim,1): n01lp:= matrix (numsim,1):
n11lp:= matrix (numsim,1): n1lp:= matrix (numsim,1): n2lp:= matrix (numsim,1): nch:= ma-
trix (numsim,1): nch: = matrix (numsim,1): nw: = matrix (numsim,1): ans4Ncm: = matrix
(numsim,1): anst:= matrix (numsim,1): Ntlest:= matrix (numsim,1): tetaest:= matrix (num-
sim,1): mutl:= matrix (numsim,1): pwest:= matrix (numsim,1): p2tl= matrix (numsim,1):
94
teta= matrix (numsim,1): g0cm:= matrix (numsim,1): pcm:= matrix (numsim,1): tcm:= ma-
trix (numsim,1):tcm1:= matrix (numsim,1):
> ode1mc:=matrix(numsim,1):ans1Ncm:=matrix(numsim,1): ans2Ncm:=matrix(numsim,1):
ans3Ncm:=matrix(numsim,1): ans4Ncm:=matrix(numsim,1):Nmc:=matrix(numsim,1):
Inicialização das variavéis: n11, n10, n01 e n00;
> n00:= matrix (numsim,1,0): n11:= matrix (numsim,1,0): n01: =matrix (numsim,1,0):
n10:= matrix (numsim,1,0): a:= matrix (numsim,1,1):
Cálculo dos parâmetros da função de detecção
θ ( parâmetro da função detecção normal truncada em [0, w])
> p2FL:=(g01/w)*(int(exp(-((u^2)/teta)),u=0..w)): aN:=fsolve(p2FL=p2,teta):
> sigma:=sqrt(aN/2);
Definição de p2; e consequentemente p;
> p2:=(g0/w)*(int(exp(-((z^2)/teta)),z=0..w)):p:=p1+p2-p1*p2:
INÍCIO DO CICLO GERAL PARA APLICAÇÃO DO MÉTODO DE MONTE CARLO
> for j from 1 to numsim do
Este ciclo gera uma multinomial, onde N é a população e n11, n10, n01 e n00 são
variavéis
> for k from 1 to N do
> unif[k]:=stats[random,uniform[0,1]](1):
> if (unif[k] > (p11*(1-p21)+p21*(1-p11)+p11*p21)) then n00[j,1]:=n00[j,1]+a[j,1] fi;
95
> if ((unif[k] >(p11*(1-p21)+p21*(1-p11))) and (unif[k] < (p11*(1-p21) + p21*(1-p11)
+p11*p21))) then n11[j,1]:=a[j,1]+n11[j,1] fi;
> if ((unif[k] > (p11*(1-p21))) and (unif[k] < (p11*(1-p21)+p21*(1-p11)))) then n01[j,1]:=
a[j,1]+n01[j,1] fi;
> if unif[k] < p11*(1-p21) then n10[j,1]:=a[j,1]+n10[j,1] fi;
> od;
Cálculo de n1, n2 e n
> n1[j,1]:=n11[j,1]+n10[j,1];n2[j,1]:=n11[j,1]+n01[j,1];
> nw[j,1]:=n10[j,1]+n01[j,1]+n11[j,1];
Este ciclo gera as n2; distancias ( xi ) que seguem uma normal truncada em [ 0,
w]. Vai gerando xi, tal que esse seja normal e serão escolhidos apenas os que
forem positivos e menores do que w até obter um total de n2
> Xinorm0w1:=vector(200):Xinorm0w:=vector(n2[j,1]):cout:=0;
> for y from 1 to 200 do
> Xinorm0w1[y]:=abs(stats[random,normald[0,sigma]](1)):
> od:
> for p from 1 while cout<n2[j,1] do
> if Xinorm0w1[p]<w then
> Xinorm0w[p]:=Xinorm0w1[p] :
> cout:=cout+1;
> else
> Xinorm0w[p]:=Xinorm0w1[p+1]:
> cout:=cout+1;
96
> fi:
> od:
Função de Maxima Verosimilhança ( lnFMV)
Caso Modelo Combinado
>ode1mc[j,1]:=ln(Np!)-(ln(nw[j,1]!)+ln((Np-nw[j,1])!))+ nw[j,1]*ln(pw)+(Np-nw[j,1])*ln(1-
pw)+ln(nw[j,1]!)- (ln(n11[j,1]!)+ln(n10[j,1]!)+ln(n01[j,1]!))+n10[j,1]*(ln(p1)+ln(1-p2)-ln(pw))+
n01[j,1]*(ln(p2)+ln(1-p1)-ln(pw)) +n11[j,1]*(ln(p1)+ln(p2)-ln(pw))+n2[j,1]*ln(1/(int(exp(-((m^2)
/teta)),m=0..w)))+ sum(ln(exp(-(((Xinorm0w[h])^2)/teta))),h=1..n2[j,1]):
Caso Trajecto Linear
> ode1tl:=n2[j,1]*ln(1/(int(exp(-((mn^2)/teta1)),mn=0..w))) +sum(ln(exp(-(( (Xinorm0w
[hn])^2) /teta1))),hn=1..n2[j,1]):
Aplicação do Método de Máxima Verosimilhança
>ans1Ncm[j,1]:=diff(ode1mc[j,1],g0):ans2Ncm[j,1]:=diff(ode1mc[j,1],teta):ans3Ncm[j,1]:=diff(
ode1mc[j,1],p1): ans4Ncm[j,1]:=fsolve(ans1Ncm[j,1]=0,ans2Ncm[j,1]=0,ans3Ncm[j,1]=0,g0,
teta,p1,g0=0..3,p1=0..1);ans1tl:=diff(ode1tl,teta1): anstl[j,1]:=fsolve(ans1tl=0,teta1);
p2 é definido em função do parâmetro σ ou θ conforme o caso:
> p2mc[j,1]:=simplify(eval((g0/w)*(int(exp(-((o^2)/teta)),o=0..w)),ans4Ncm[j,1]));
> p2tl[j,1]:=(1/w)*(int(exp(-((q^2)/anstl[j,1])),q=0..w));
> pwest[j,1]:=eval(p1+p2mc[j,1]-p1*p2mc[j,1],ans4Ncm[j,1]);
Estimação do Modelo Combinado
97
> Nmc[j,1]:=nw[j,1]/pwest[j,1]:
> Ntlest[j,1]:=simplify(nw[j,1]/pwest[j,1]):
Estimação do Trajecto Linear
> Ntlwest[j,1]:=n2[j,1]/p2tl[j,1]:
> g0cm[j,1]:=eval(g0,ans4Ncm[j,1]):
> pcm[j,1]:=eval(p1,ans4Ncm[j,1]):
> tcm[j,1]:=evalf(eval(sqrt(teta/2),ans4Ncm[j,1]),5):
>tcm1[j,1]:=eval(teta1,teta1=anstl[j,1]):
> od:
COMPILAÇÃO E APRESENTAÇÃO DOS RESULTADOS
>n10lpest:=sum(n10[su,1],su=1..numsim)/numsim: n01lpest:=sum(n01[sq,1],sq=1..numsim)/
numsim: n11lpest:=sum(n11[sr,1],sr=1..numsim)/numsim:
> NLP:=sum(Nlpest[we,1],we=1..numsim)/numsim;
> NLPC:=sum(Nlpcest[wq,1],wq=1..numsim)/numsim;
> Nest:=sum(Nmc[s,1],s=1..numsim)/numsim;
> Ntlest:=sum(Ntlwest[sn,1],sn=1..numsim)/numsim;
> varnlp:=sum(((Nlpest[kr,1]-NLP)^2),kr=1..numsim)/(numsim-1):senlp:=sqrt(varnlp):
> varnlpc:=sum(((Nlpcest[dr,1]-NLPC)^2),dr=1..numsim)/(numsim-1):senlpc:=sqrt(varnlpc):
> varNTL:=sum(((Ntlwest[ar,1]-Ntlest)^2),ar=1..numsim)/(numsim-1):seNtl:=sqrt(varNTL);
> varNMC:=sum(((Nmc[hr,1]-Nest)^2),hr=1..numsim)/(numsim-1):seN:=sqrt(varNMC);
> g0cmest:=sum(g0cm[e,1],e=1..numsim)/numsim;
> g0p:=Ntlest/NLP;
98
> pbiasmc:=((abs(Nest-Np))/Np)*100;pbiastl:=((abs(Ntlest-Np))/Np)*100;pbiaslp:= ((abs(NLP-
Np))/Np)*100; pbiaslpc:=((abs(NLPC-Np))/Np)*100;
> biasmc:=(abs(Nest-Np)):biastl:=(abs(Ntlest-Np)):biaslp:=(abs(NLP-Np)):biaslpc:= (abs(NLPC-
Np)):
> ICmc:=[Nest-1.96*seN,Nest+1.96*seN];ICtl:=[Ntlest-1.96*seNtl,Ntlest+1.96*seNtl]; IClp:=[NLP-
1.96*senlp,NLP+1.96*senlp];IClpc:=[NLPC-1.96*senlpc,NLPC+1.96*senlpc]; ICg0mc:=[g0cmest-
1.96*seg0,g0cmest+1.96*seg0];
> eficitl:=sqrt(varNTL+biastl^2);eficilp:=sqrt(varnlp+biaslp^2); eficilpc:=sqrt(varnlpc +bi-
aslpc^2); eficimc:=sqrt(varNMC+biasmc^2);
99
• Rotinas para simular n1 e n11.
Quadro 5.1: Rotina binomial para o calculo de n1>n1:=matrix(1000,1,0):n00:=matrix(1000,1,0):
>a:=matrix(1000,1,1):p1:=0.3;p2:=0.5:
>for j from 1 to 1000 do
>for k from 1 to 495 do
>unif[k]:=stats[random,uniform[0,1]](1):
> if (unif[k] < (p1)) then n1[j,1]:=a[j,1]+n1[j,1] fi:
>if (unif[k] > (p1)) then n00[j,1]:=a[j,1]+n00[j,1]fi:
> od:od:
> n1est:=evalf(sum(n1[e,1],e=1..1000)/1000,5);
> n1se:=sqrt((sum((n1[c,1]-n1est)^2,c=1..1000))/999);
Quadro 5.2: Rotina binomial para o calculo de n11>n11:=matrix(1000,1,0):n00:=matrix(1000,1,0):
>a:=matrix(1000,1,1):p1:=0.3:p2:=0.5:
>for j from 1 to 1000 do
>for k from 1 to 495 do
>unif[k]:=stats[random,uniform[0,1]](1):
> if (unif[k] < (p1*p2)) then n11[j,1]:=a[j,1]+n11[j,1] fi:
>if (unif[k] > (p1*p2)) then n00[j,1]:=a[j,1]+n00[j,1]fi:
> od:od:
> n11est:=evalf(sum(n11[e,1],e=1..1000)/1000,5);
> n11se:=sqrt((sum((n11[c,1]-n1est)^2,c=1..1000))/999);
100
Bibliografia
[1] Alldredge, J. R. e Gates, C. E. (1985).“Line transect estimators for left trun-
cated distributions”. Biometrics, 41, Pag. 275-80.
[2] Alpízar-Jara, R. e Pollock, K.H. (1996). “A combination line transect and
capture-recapture sampling model for multiple observers in aerial surveys”.
Journal Env. Ecol. Stat. 3(4):311-327, www.home.uevora.pt/~alpizar.
[3] Alpízar-Jara, R. e Pollock, K.H. (1999). “Combining line transect capture-
recapture for mark-resighting studies”. Marine Mammal Survey and Assess-
ment Methods, ISBN 90 5809 043 4, www.home.uevora.pt/~alpizar.
[4] Begon, M. (1989). Ecología animal-Modelos de cuantificación de poblaciones.
Editorial trillas.
[5] Begon, M. (1979). Investigating Animal Abundance: capture-recapture for
biologists. Edward Arnold, England.
[6] Brownie, C., Anderson, D.R., Burnham, K.P. and Robson, D.S. (1985). Sta-
tistical inference from band recovery data—a handbook. U. S. Department
of Interior, Fish and Wildlife Service Resource Publication 156. 305 pp,
www.cnr.colostate.edu/~gwhite/software.html.
101
[7] Buckland, S. T., Anderson, D.R., Burnham, K.P. e Laake, J.L. (1993).
Distance sampling: Estimating Abundance of Biological Populations. Chap-
man&Hall, London, www.ruwpa.st.and.ac.uk/distancebook/.
[8] Burnham, Kenneth P. et al (1980). Estimation of density from line transect
sample of biological populations. Wildlife Monographs.
[9] Burnham, K. P. et al (1987). Design and analisis methods for fish surbival
expreriments basead on realease-recapture. American Fisheries Society Mono-
graph 5, Betheasda,www.cnr.colostate.edu/~gwhite/software.html.
[10] Casella, G. e R. L. Berger (1990). Statistical inference. Duxbury, California.
[11] “Constrained Maximum Likelihood”. http://faculty.washington.edu
[12] Cormen, T. et al.. Introduction to algorithims. The MIT Press, Mas-
sachusetts.
[13] Dias, J. R. (1979).Aplicação do método de Monte Carlo ao cálculo dos valores
de . Barbosa&Xavier LDA, Evora.
[14] Efron, B. e D.V. Hinkley (1978). “Assessing the accuracy of the maxi-
mum likelihood estimator: Observed versus expected Fisher information”.
Biometrika, Vol. 65, n.o4. Pag.457-87.
[15] Guimarães, R. C. (1997). Estatística. Ed. revista. McGraw-Hill, Portugal.
[16] Krebs, C. J. (1994). Ecology-The experimental Analysis of Distribution and
Abundance. Fourth ed. Harper Collins, New York. Pag.9-11
102
[17] Murteira, B. J. F. Probabilidades e estatísticas. vol. I e II ,2aEd. Revista
McGraw - Hill, Portugal, Dezembro de 1996.
[18] Otis, D. L., K. P. Burnham, G. C. White, and D. R. Anderson. Statistical in-
ference from capture data on closed animal populations. Wildlife Monographs
62, 1978, 135 pp, www.cnr.colostate.edu/~gwhite/software.html.
[19] Pina, H. Métodos numéricos. McGraw - Hill, Portugal, 1995.
[20] Sanathan, L. (1972). “The Annals of Mathematical Statistics”. Vol. 43, No1,
Pag. 142-152.
[21] Seber, G. A. F. (1982). The estimation of animal abundance and related
parameters. Macmillan, New York.
[22] White, G. C., D. R. Anderson, K. P. Burnham, and D. L. Otis. (1982).
Capture-recapture and removal methods for sampling closed populations. Los
Alamos National Laboratory LA-8787-NERP.
103