Estimadores de Máxima Verosimilhança

UNIVERSIDADE DE ÉVORA

Curso de Matemática Aplicada

Estimadores de máxima verosimilhançapara a combinação captura - recaptura etrajectos lineares e as suas propriedades

Trabalho de Fim de Curso

realizado por

João Filipe Gonçalves Monteiro

ÉVORA

Julho de 2001

i

“Este Trabalho não inclui as observações e críticas feitas pelo júri”

ii

Agradecimentos

Agradeço ao Professor Russel Alpizar-Jara, meu orientador, pelos sábios con-

hecimentos, entusiasmo, atenção que sempre me dedicou.

Aos meus queridos pais, cunhada Alcinda, irmãos e Nene em particular pelo

amor e ternura ilimitada que foram decisivos no meu empenho durante todos esses

anos de estudos.

À Cláudia pelo amor, carinho e amizade.

Com apreço e infinita estima agradeço Ana, André, Evaldo, Hermes e Njalo

pela amizade e incansável ajuda na lida do dia-a-dia e muito especialmente na

elaboração do presente trabalho.

Pude compartilhar momentos indeléves em companhia de colegas, amigos, do-

centes e à todos vós um muito obrigado pela força e encorajamento que sempre me

deram. A maravilhasa cidade de Évora e sua simpática gente pela hospitalidade.

Também, não posso deixar de agradecer à Cabo Verde, terra mãe.

iii

Índice

Lista das Quadros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

Lista das Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

Notação e abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . viii

1 Introdução 1

2 Conceitos estatísticos 3

2.1 Amostragem aleatória . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Método de estimação . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Propriedades de um estimador de máxima verosimilhança . . . . . 19

3 Estimação do tamanho duma população e parâmetros relaciona-

dos 26

3.1 Modelo de Lincoln-Petersen . . . . . . . . . . . . . . . . . . . . . 26

3.1.1 Estimação de Lincoln-Petersen . . . . . . . . . . . . . . . . 26

3.1.2 Função da máxima verosimilhança . . . . . . . . . . . . . 28

iv

3.1.3 Variância (uma aproximação utilizando a série de Taylor) . 32

3.2 Modelo de Trajectos Lineares . . . . . . . . . . . . . . . . . . . . 40

3.2.1 Trajectos Lineares . . . . . . . . . . . . . . . . . . . . . . 40

3.2.2 Função de detecção . . . . . . . . . . . . . . . . . . . . . . 43

3.2.3 Estimação da densidade populacional . . . . . . . . . . . 47


3.3 Combinação dos modelos de Lincoln-Petersen e Trajectos Lineares 56

3.3.1 A combinação . . . . . . . . . . . . . . . . . . . . . . . . . 56


3.3.3 Estimação de N e g0 . . . . . . . . . . . . . . . . . . . . . 59

3.4 Exemplo prático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4 Simulação 73

5 Conclusão 87

Apêdices 89

Apêndice A (Teoremas) . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Apêndice B (Cálculos auxiliares) . . . . . . . . . . . . . . . . . . . . . 91

Apêndice C (Simulações) . . . . . . . . . . . . . . . . . . . . . . . . . . 92

v

List of Tables

3.1 Densidade populacional em função de g0 . . . . . . . . . . . . . . . . . 49

3.2 Nova organização dos dados de Otto . . . . . . . . . . . . . . . . . . . 67

3.3 Critério de Informaccão de Akaike . . . . . . . . . . . . . . . . . . . . 68

3.4 Estimadores de Trajecto Linear-Metade da Normal sem ajustamento de termos 69

3.5 Estimação de Lincoln-Petersen ( PopSize) . . . . . . . . . . . . . . . . 70

3.6 Comparação entre o estimador de Lincoln - Petersen e o de Chapman. . . . 70

3.7 Estimação de g0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.1 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Comparação entre os estimadores de CH, LP e TL com o estimador de MC,

quando a função detecção é a normal truncada . . . . . . . . . . . . . . . 83

4.3 Comparação de estimativas de teta para o caso em que g0 é livre e g0=1 . . 86

5.1 Rotina binomial para o calculo de n1 . . . . . . . . . . . . . . . . . . . 100

5.2 Rotina binomial para o calculo de n11 . . . . . . . . . . . . . . . . . . . 100

vi

List of Figures

2.1 Inferência estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 N é o tamanho da população e p é a probabilidade de captura (constante).

Para um conjunto de dados, o método de máxima verosimilhança estima os

parâmetros N e p, que são os valores que maximizam a função de verosimil-

hança. White et al., 1982, pag. 31. . . . . . . . . . . . . . . . . . . . . 14

2.3 A derivada não se anula para qualquer valor finito de θ,no entanto a estimativa

da máxima verosimilhança deve ser θ = max xi. Bento Murteira, 1996, vol.

II, pag. 186. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 O máximo absoluto de L(θ) é atingido em θ enquanto que o emprego da

derivação conduz ao máximo relativo θ0 6= θ. Bento Murteira, 1996, vol. II,

pag. 186. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.5 Estimador enviesado. Rui Guimarães, 1997, pag. 265. . . . . . . . . . . . 20

2.6 Estimador não enviesado. Rui Guimarães, 1997, pag. 265. . . . . . . . . . 21

2.7 Estimador pouco preciso, quando comparado com o da Figura 2.8. Rui Guimarães,

1997, pag. 267. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

vii

2.8 Estimador preciso, quando comparado com o da Figura 2.7. Rui Guimarães,

1997, pag. 267. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1 Diagrama captura -recaptura. . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Distribuição dos indivíduos sobre a áreaA. · representa os indivíduos (animais)

na área de estudo A. Apesar dos animais terem tendência a agruparem-se, as

vezes parte-se do principio que estes seguem um processo de Poisson. . . . . 41

3.3 a) Trajectos lineares. b) Os objectos em cima da linha são observados e

presupões-se que os mais distantes da linha tem menor probabilidade de serem

observados, tanto menor quanto maior for a distância. . . . . . . . . . . . 42

3.4 Trajecto linear ao longo da faixa de largura 2w. . . . . . . . . . . . . . . 43

3.5 Cálculo da distância xi. . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.6 Várias tentativas para a função de detecção : A - Normal truncada , B -

Uniforme, C - Exponencial Negativa, D - Hazard-Rate, que depois de escolhida

em função da performance de cada uma faz-se uma ajuste da função detecção. 44

3.7 Função densidade truncada, g(x). . . . . . . . . . . . . . . . . . . . . 46

3.8 Dados das distâncias de latas de cervejas castanhas obtidas atraves da exper-

iência de Otto,1982. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.1 Gerar uma multinomial pelo sistema de urnas . . . . . . . . . . . . . . . 78

4.2 Determinação de n2. A = p1(1 − p2), B = p1(1 − p2) + (1 − p1)p2,

C = p1(1− p2) + (1− p1)p2 + p1p2. . . . . . . . . . . . . . . . . . 79

viii

4.3 Gráfico da função detecção da Normal truncada em [0, 20]. g (x) = e−x2

σ ,

com σ = 9.04296162. . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.4 Transformação de x = G−1 (y) . . . . . . . . . . . . . . . . . . . . . 81

4.5 O gráfico da esquerda diz respeito ao parâmetro θ e o da direita a p1 para 500

simulações com N=150, p1 = 0.4 e p2 = 0.2. . . . . . . . . . . . . . . . 84

4.6 Distribuição de g0, para 500 simulações com N=150, p1 = 0.4 e p2 = 0.2. . 85

4.7 Ilustração do gráfico do parâmetro g0 caso a função de verosimilhança seja

restringida a g0<1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.8 Gráfico da função de verosimilhança do modelo combinado com p1=0.4, p2=0.2,

θ=20.37, N=150 e a função de detecção é a normal truncada em [0, 20] . . . 86

ix

Notacão e abreviaturas

• Notações tais comoP, ∞, etc. não serão descritas por razões obvias.N - número de animais na área A;

n1 - quantidade de indivíduos da primeira captura;

n10 (= n1 − n11) - número de indivíduos que forammarcados apenas na primeira

captura;

n2 - número de indivíduos da segunda captura;

n01 (= n2 − n11) número indivíduos marcados só na segunda captura;

n11 - total de indivíduos que forammarcados na primeira e na segunda captura;

n00 - número os indivíduos que não chegaram a ser marcados;

n - total de indivíduos capturados ;

p1 - probabilidade de um indivíduo ter a marca da primeira captura;

p2 - probabilidade de um indivíduo ter a marca da segunda captura;

p (= p1 + p2 − p1p2) - probabilidade de um indivíduo ser capturado;

NLP - estimador de Lincoln-Petersen;

x

NTL - estimador do método de trajecto Linear;

NMC - estimador do método Combinado;

θ - vector parâmetro;

w - metade da distância da largura da área de trajecto linear de comprimento

L;

g (x) = g (x|θ) - função de detecção;

g0 - probabilidade de um individuo ser detectado em cima da linha L de tra-

jecto linear;

g (x|θ) = g0×g∗ (x|θ∗), com θ = (g0, θ∗). θ∗ é o vector parâmetro que descreve

g∗;

µ =R w0g (x) dx - efectivo da metade do trajecto;

• Abreviaturas

cv - coeficiente de variação.

i.i.d - independente e identicamente distribuídos;

se - desvio padrão ( standar error);

v.a.c - variável aleatória contínua;

v.a.d - variável aleatória discreta;

xi

1. Introdução

As estimativas do tamanho das populações são necessárias seja qual for o estudo

ecológico e (ou) evolutivo. Um conjunto de indivíduos da mesma espécie coex-

istindo num mesmo espaço designa-se por população, N . Uma população pode

designar a um conjunto de indivíduos que vivem, por exemplo, num parque, numa

cidade ou mesmo numa determinada região dum país.

Os modelos matemáticos têm sido usados para perceber fenómenos ecológicos.

O desenvolvimento das tecnologias, juntamente com o crescimento da população

mundial, bem como a caça descontrolada e catástrofes naturais, têm provocado,

a nível global, várias alterações nos ecossistemas, que podem pôr em risco as

populações, reduzindo o seu efectivo ou mesmo, em caso extremo, levar à sua

extinção. O conhecimento destas alterações advém principalmente das conclusões

inferidas a partir dos modelos matemáticos.

Consequentemente formulam-se modelos matemáticos que tentam estimar, por

exemplo, o tamanho e a densidade da população: método Fisher - Ford, método

estocástico de Jolly, método de Jackson, método de Lincoln - Petersen, método

trajectos lineares, entre outros, Beger (1989) e Krebs (1994).

Todavia, existem outros métodos cuja finalidade é o estudo da evolução da

população, destes deduzem-se as taxas de natalidade, mortalidade, etc., entre

1

outras variáveis de índole biológica, vitais para evitar ou minimizar desastres

ecológicos.

No capítulo 2, após uma breve introdução sobre alguns conceitos estatísti-

cos que permitem uma melhor percepção dos modelos que neste trabalho serão

abordados, dando particular realce ao método de máxima verosimilhança e às

propriedades dos seus estimadores.

O modelo combinado desenvolvido por Alpizar-Jara e Pollock (1999) permite

estimar populações animais. Este é a combinação dos dois modelos: Lincoln-

Petersen e Trajecto Linear, sendo mais eficiente e com estimadores robostos e

pouco enviesados. A origem do enviesamento nos dois modelos deve-se ao facto

de nem todos os indivíduos serem detectados devido a dificuldades de visão do

observador, em obstáculos como pedras, árvores, etc. Lincoln (1930) e Petersen

(1896) foram os pioneiros em usar conceitos de captura-recaptura para estimar

populações animais. Entretanto, no método de trajecto linear supõe -se que todos

os animais em cima da linha L são vistos com probalidade 1, g0.

Ométodo de trajecto Linear foi desenvolvido sobretudo para estimar densidade

populacional, e a partir da densidade, obtém-se o tamanho da população.

A última parte do trabalho dedica-se a uma aplicação prática do modelo com-

binado com base nas simulações feitas no programa Maple utilizando o método

de Monte Carlo.

2

2. Conceitos estatísticos

2.1. Amostragem aleatória

A inferência estatística consiste em estudar a população1 analisando apenas parte

desta, que se designa por amostra - processo indutivo. Com base nos conheci-

mentos da população e fundamentos da teoria das probalidade tem-se uma ideia

do comportamento da amostra - processo dedutivo, Figura 2.1.

Figura 2.1: Inferência estatística

Para o estudo de um fenómeno aleatório formula-se ummodelo, que não se pre-

tenda exacto, de tal maneira que este seja o mais adequado à situação em questão,

1É a totalidade dos dados.

3

ou seja, pretende-se encontrar um modelo que faça com que a amostra seja rep-

resentativa2 da população. A questão que se põe muitas vezes, é de como extrair

esta amostra da população. Várias técnicas têm sido desenvolvidas nesse sen-

tido, entre as quais se destaca a técnica de amostragem aleatória,Bento Murteira

(1996).

Para obter uma amostra aleatória utiliza-se o processo de lotaria ou então um

programa de computador para gerar números aleatórios.

No processo de lotaria, constrói-se uma réplica da população numa urna com

várias bolas, de tal maneira que cada bola represente um indivíduo da população.

Retira-se ao acaso tantas bolas quanto se queira, até obter-se a dimensão desejada

para a amostra. Esta técnica é prática quando se trata de populações pequenas,

mas é inconveniente no caso de populações grandes já que se torna um processo

cansativo.

O processo de número aleatório é idêntico, mas a “urna” é substituída por

números aleatórios gerados por computador. A cada indivíduo atribui-se um

número, e a partir do computador gera-se uma quantidade de números aleatórios

correspondente ao tamanho da amostra.

A técnica de amostragem aleatória garante que dada uma amostra com n ob-

servações, seja (x1, x2, ..., xn), tal amostra é a realização de n variáveis aleatórias3

(X1, X2, ..., Xn) sobre as mesmas condições que se traduzem por:

2Uma amostra diz-se reprensentativa se for construída de modo que qualquer que seja oelemento, tenha a mesma probabilidade de pertencer a esta.

3Define-se como variável aleatória real X uma representaçãosimbólica de um espaço mensurável (<,B) e de medida de probabilidade P sobre (<,B) onde

< é o conjunto dos números reais e B a família dos borelianos lineares e onde para todo oconjunto A ⊂ <, A ∈ B, P (A) é a probabilidade do acontecimento X ∈ A. Especificar umavariável aleatória é introduzir um espaço de probabilidade (<,B,P ).

4

• uma lei de probabilidade comum , i.e, as variáveis têm a mesma probabili-

dade de serem observadas

∀x : PX1 (x) = PX2 (x) = · · · = PXn (x) = PX (x)

(variável aletória discreta)

∀x : fX1 (x) = fX2 (x) = · · · = fXn (x) = fX (x)

(variável aletória contínua)

• e independência entre as variáveis

∀x1, x2, · · · , xn :

PX1,X2,··· ,Xn (x1, x2, · · · , xn) = PX (x1) · PX (x2) · · ·PX (xn) (v.a.d)

fX1,X2,··· ,Xn (x1, x2, · · · , xn) = fX (x1) · fX (x2) · · · fX (xn) (v.a.c)

Numa primeira fase do processo a natureza dos dados é, muitas das vezes,

desconhecida. Para tal, os dados são agrupados em categorias para facilitar a

construção de histogramas e gráficos de barras. Com estas representações gráficas

pretende-se ajustar os dados a uma função de distribuição. Nem sempre a função

de distribuição caracteriza o comportamento dos dados, já que o acesso aos dados

é por vezes limitado. Os dados são caracterizados pela função de distribuição,

que pode depender (F (x|θ) ,∀θ ∈ Θ)4 ou não (F (x)) de um parâmetro θ (, ou

vector parâmetro θ = (θ1, θ2, ..., θk)). No caso paramétrico, contrariamente ao

4A Θ designa-se por espaço parâmetrico.

5

não paramétrico, que deixa escapar diversos pormenores da natureza dos dados, o

fenómeno aleatório é melhor expresso. Apenas o caso paramétrico será analisado,

e mais a frente, abordar-se-à os estimadores de máxima verosimilhança.

Para o modelo em estudo- modelo de Lincoln-Petersen, utilizou-se uma amostragem

casual simples, pois há reposição dos dados. Embora não faça sentido marcar um

animal duas vezes, a reposição dos dados apresenta vantagens de âmbito teórico

sobre não reposição. A grande vantagem da reposição é que em vez de trabal-

har com a distribuição Hipergeométrica, utiliza-se a distribuição Binomial, que

é muito menos trabalhosa em termos de cálculos. Para populações grandes, a

dependência entre as variáveis X1, X2, · · · ,Xn tende a desaparecer, o que torna

irrelevante a reposição ou não dos dados.

2.2. Estatísticas

Definição 1. Dada uma população com uma função distribuição paramétrica

F (x|θ) ,∀θ ∈ Θ)

define-se por uma estatística T = (X1,X2, · · · , Xn) a todo o processo que se rege

no resumo de toda a informação contida na amostra aleatória X1,X2, · · · ,Xn

sobre o parâmetro desconhecido θ ∈ Θ.

6

Informação

É difícil definir o conceito de informação acima mencionado já que, muitas das

definições propostas têm sido alvo de sérias contestações. Contudo, a definição de

Fisher é a que tem maior aceitação.

Sobre a condição de que qualquer função de densidade (probabilidade) da

família F = f (x|θ) ,∀θ ∈ Θ com parâmetro escalar satisfaça as condições de

regularidade:

[1 ] Θ é intervalo aberto da recta real, podendo mesmo coincidir com toda a

recta real;

[2 ] Os conjuntos x : f (x|θ) > 0 são independentes de θ;

[3 ] ∂f(x|θ)∂θ

existe e é finita, ∀x e ∀θ ∈ Θ;

[4 ] ∀θ ∈ Θ

0 < Eθ

(µ∂ ln f (x|θ)

∂θ

¶2)<∞

(Bento Murteira, 1996, vol.II, p.138-139)

, Fisher traduz o conceito de informação no seguinte teorema :

Teorema 2. Dada uma amostra aleatória (X1,X2, · · · , Xn) de dimensão n, toda

a informação presumível é expressa por

=X1,X2,··· ,Xn (θ) = n=X (θ)

e =X (θ) =

Z +∞

−∞

µ∂ ln f (x|θ)

∂θ

¶2f (x|θ) dx (2.1)

7

Para certas funções de densidade é por vezes complicado chegar a uma ex-

pressão para o segundo membro da equação 2.1. O teorema seguinte mostra que,

sob determinadas condições, nomeadamente condições de regularidade já enunci-

adas atrás, é possível simplificar 2.1.

Teorema 3. Uma vez que se verifiquem as condições de regularidade, 1-4, e se

a segunda derivada deR +∞−∞ f (x|θ) dx se pode obter derivando duas vezes sob a

operação de integração então:

=X (θ) = −Eθ

½∂2

∂θ2ln f (x|θ)

¾(2.2)

Dem.: Derivando uma vez em ordem a θ, temos que

0 =

Z +∞

−∞

∂f (x|θ)∂θ

dx =

Z +∞

−∞

∂ ln f (x|θ)∂θ

f (x|θ) dx

derivando um segunda vez em ordem a θ, vem,

0 =

Z +∞

−∞

∂2 ln f (x|θ)∂θ2

f (x|θ) dx+Z +∞

−∞

∂ ln f (x|θ)∂θ

∂f (x|θ)∂θ

dx

=

Z +∞

−∞

∂2 ln f (x|θ)∂θ2

f (x|θ) dx+Z +∞

−∞

µ∂ ln f (x|θ)

∂θ

¶2f (x|θ) dx

e tendo em conta 2.1 fica demonstrado o que se pretendia.

¥

Exemplo 4. No caso da distribuição Binomial sente-se o quão cómodo pode ser

a expressão 2.2:

8

Seja a função probabilidades

f (x|θ) =µn

x

¶θx (1− θ)n−x

aplicando 2.2 tem-se que:

∂

∂θ

·ln

µn

x

¶θx (1− θ)n−x

¸=

x

θ− n− x

1− θ, 0 < θ < 1

donde se conclui que

=X (θ) = Eθ

(·x

θ− n− x

1− θ

¸2)=

n

θ (1− θ)

Verosimilhança

Como já foi referido atrás, para uma dada amostra aleatória (X1,X2, · · · , Xn)

definindo uma lei de probabilidade f (x|θ), com o parâmetro θ fixo e fazendo

variar X na amostra, temos diferentes resultados de acordo com essa lei de prob-

abilidades. Fixando agora X e fazendo variar θ obtem-se a função de verosim-

ilhança:

L (θ|X) = L (θ|x1, x2, · · · , xn) (2.3)

= f (x1, x2, · · · , xn|θ) = f (X|θ)

9

(As variáveis são independentes entre si e identicamente distribuídas)

= f (x1|θ) f (x2|θ) · · · f (xn|θ)

=nYi=1

f (xi|θ)

É de frisar que a função de verosimilhança tal como é definida em 2.3, não

condiciona a distinção entre variáveis aleatórias discretas ou contínuas. A definição

2.3 é útil para fins práticos, desde que se tenha em conta a natureza da variável

aleatória X.

A função de verosimilhança pode ser interpretada como uma quantificação da

verosimilhança associada a cada θ ∈ Θ, para uma amostra particular (X1, · · · ,Xn).

Para uma melhor percepção do conceito de verosimilhança, é comum trabalhar

primeiro com variáveis discretas (quase sempre de fácil manuseamento).

Consideremos X uma variável aleatória discreta e dois parâmetros θ1 e θ2.

Sem perda de generalidade, suponhamos que:

L (θ1|x) > L (θ2|x) (2.4)

então, de 2.4 pode-se afirmar-se que é mais plausível ter θ = θ1 do que θ ser igual

a θ2.

Exemplo 5. Para uma amostra de dimensão 5 (n = 5), de uma população

Binomial(n,θ)

seja (X1 = 1,X2 = 2,X3 = 3,X4 = 4, X5 = 5)

10

para X fixo, seja X = 1

f (x = 1|θ = 0.01) =µ5

x

¶θ (1− θ)4 = 0.0480

f (x = 1|θ = 0.05) =µ5

x

¶θ (1− θ)4 = 0.2036

f (x = 1|θ = 0.10) =µ5

x

¶θ (1− θ)4 = 0.3280

f (x = 1|θ = 0.25) =µ5

x

¶θ (1− θ)4 = 0.3955

donde se conclui que θ = 0.25 é mais verosímil do que os outros casos.

Quando a variável aleatória X é contínua, a definição da função de verosimil-

hança será mais “delicada”. As aproximações assumem uma maior utilidade.

Se a função densidade de probabilidade, f (x), da variável aleatória X, for

contínua em x, para ε, suficientemente pequeno, temos que:

P (x− ε < X < x+ ε) = P (X < x+ ε) − P (X < x− ε)

= F (x+ ε) −F (x− ε)

=2ε (F (x+ ε) −F (x− ε))

(x+ ε) − (x− ε)

≈ 2εdF (x)dx

= 2εf (x)

Assim, tendo em conta que P (x− ε < X < x+ ε) ≈ 2εf (x|θ) = 2εL (θ|x),uma boa aproximação para comparação da função de verosimilhança de dois val-

11

ores para um parâmetro será:

Pθ1 (x− ε < X < x+ ε)

Pθ2 (x− ε < X < x+ ε)≈ L (θ1|x)

L (θ2|x)

Tanto para o caso discreto como para o contínuo, a função de verosimilhança

pode ser definida a menos de um factor constante positivo, que é expresso pelo

seguinte principio:

Princípio de verosimilhança

Se x e y são duas amostras da mesma população tal que L (θ|x) seja propor-cional a L (θ|y), existirá uma constante C (x, y) tal que :

L (θ|x) = C (x, y)L (θ|y) , para todo o θ

o que nos leva a concluir que que x e y são idênticas.

A constante proporcional C (x, y) toma diferentes valores para diferentes pares

de (x, y), mas não depende jamais de θ. Para o caso particular C (x, y) = 1 tem-se

L (θ|x) = L (θ|y), i.e, se para duas amostras diferentes temos a mesma função deverosimilhança sobre o parâmetro θ, então estas nos dá a mesma informação de

θ.

2.3. Método de estimação

Até aqui analisaram-se os primeiros passos para se construir um modelo. Depois

de conhecido o comportamento da amostra, tem-se então uma lei de probabilidade

12

que depende de um parâmetro. O problema que se põe agora é de como estimar

θ.

Não há um único método para estimar θ, mas sim vários métodos que podem

ser mais adequados ou menos, para cada caso. De entre os métodos5 que podemos

utilizar, apenas o método de máxima verosimilhança será analisado.

Antes de expôr o método de máxima verosimilhança, convém referir a distinção

entre conceitos de estimador e estimativas.

Definição 6. θ designa-se por estimador de um parâmetro θ, e uma realização

particular θ (x1, x2, · · · , xn) do estimador constitui uma estimativa do parâmetroem causa.

Método de Máxima Verosimilhança

Definição 7. SejaXi uma variável aleatória com uma lei de probabilidade definida

por:

f (x|θ)

onde θ é um vector de dimensão p. E com função verosimilhança dada por:

L (θ|x1, x2, · · · , xn) =nYi=1

f (xi|θ) (2.5)

5Alguns métodos alternativos: método dos mínimos quadrados, método de estimação comvariância mínima e método dos momentos.

13

No método máxima verosimilhança assume que as estimativas³θ1, θ2, ..., θp

´dos parâmetros θ1, θ2, ..., θp são os valores destes que maximizam a função de

verosimilhança, i.e.:

Maxθ1,θ2,...,θp

L (θ1, θ2, ..., θp) = Maxθ1,θ2,...,θp

nYi=1

f (xi|θ)

Portanto θ = θ (x1, x2, · · · , xn) diz-se uma estimativa θ se

L³θ|x1, x2, · · · , xn

´> L (θ|x1, x2, · · · , xn) , ∀θ Θp

Figura 2.2: N é o tamanho da população e p é a probabilidade de captura (constante). Paraum conjunto de dados, o método de máxima verosimilhança estima os parâmetros N e p, quesão os valores que maximizam a função de verosimilhança. White et al., 1982, pag. 31.

Sobre as condições de que as funções de verosimilhança são diferenciáveis e

satisfaçam as condições de regularidade, logo, as estimativas podem ser obtidas

resolvendo o seguinte sistema de equações :

14

∂

∂θjL (θ|x) = 0, j = 1, 2, · · · , p (2.6)

desde que

∂2

∂θ2jL (θ|x)

¯¯θ=x

< 0 e∂2

∂θk∂θlL (θ|x)

¯θ=x

< 0 para todo k 6= l (2.7)

Normalmente as soluções obtidas de 2.6 e 2.7 são máximos, Figura 2.3. Mas

nem sempre o máximo obtido por derivação constitui um máximo global, Figura

2.4. Muitas vezes, tal só é possível atraves de métodos numéricos. No entanto,

mesmo a nível de cálculos numéricos é importante analisar a função de verosim-

ilhança tanto quanto possível no que toca à existência de extremos locais.

Figura 2.3: A derivada não se anula para qualquer valor finito de θ,no entanto a estimativada máxima verosimilhança deve ser θ = max xi. Bento Murteira, 1996, vol. II, pag. 186.

15

Figura 2.4: O máximo absoluto de L(θ) é atingido em θ enquanto que o emprego da derivaçãoconduz ao máximo relativo θ0 6= θ. Bento Murteira, 1996, vol. II, pag. 186.

Para fins práticos, em vez de se utilizar a expressão 2.5, é comum usar-se

a transformada logarítmica da função de verosimilhança, substituindo assim o

produtório pelo somatório, nos cálculos:

lnL (θ) = lnnYi=1

f (xi|θ) (2.8)

=nXi=1

ln f (xi|θ)

Tendo em conta que a função logarítmica é monótona crescente, 2.5 e 2.6 têm

pontos estacionários comuns e 2.6 pode escrever-se:

nXi=1

∂

∂θjln f (xi|θ) , j = 1, 2, · · · p

Exemplo 8. Seja Xi uma variável aleatória com distribuição Normal, a função

16

densidade é dada por :

f (xi|θ) = 1√2πθ2

e− 12

³xi−θ1θ2

´2, onde θ=(θ1,θ2)=(µ,σ2)

A transformada logarítmica da função de verosimilhança é:

lnL (θ1, θ2|xi) = −n2ln (2π)− n

2ln¡σ2¢−Pn

i=1 (xi − µ)2

2σ2

e tem-se

∂L∂µ= 0

∂L∂σ= 0

⇔

Pn

i=1(xi−µ)2σ2

= 0

− n2σ2−

Pni=1(xi−X)

2

2σ4= 0

(2.9)

Resolvendo a equação 2.9, tem-se que os estimadores de máxima verosimilhança

são: µ = X e σ2 =Pn

i=1(xi−X)2

n.

Método de Máxima Verosimilhança Restringida

O método de máxima verosimilhança restringida surge para resolver problemas

de estimação de parâmetros sempre que estes estejam restringidos a determinadas

condições.

Um problema de máxima verosimilhança restringida pode expressar-se como:

L (θ|x1, x2, · · · , xn) =nYi=1

f (xi|θ)

17

onde f (xi|θ) é uma lei de probabilidade e θ é um vector de dimensão p sujeito àsrestrinções

Aθ = B

Cθ ≥ DG (θ) = 0

H (θ) ≥ 0

e ainda limitada a θi ≤ θ ≤ θs.

De um modo geral, as restrições podem ser divididas em dois tipos: restrições

lineares e restrições não lineares, . No entanto, para fins computacionais e por

uma questão de conveniência, utilizamos 5 classificações diferentes para restrições:

- Restrições Lineares

1 Aθ = B, onde A é uma matriz m1 × p de constantes conhecidas e B uma

matriz m1 × 1 também de constantes conhecidas;

2 Cθ ≥ D, onde C é uma matriz m2 × p de constantes conhecidas e D uma

matriz m2 × 1 também de constantes conhecidas.

- Restrições Não Lineares

3 G (θ) = 0, com G (θ) uma função arbitrária do parâmetro θ;

4 H (θ) ≥ 0 e H (θ) é uma função arbitrária de θ.

5 Apesar de θi ≤ θ ≤ θs poderem ser enquadradas nas restrições lineares,

estas são convenientemente separadas para fins computacionais.

18

Ometódo de máxima verosimilhançca restringida processa-se de forma idêntica

ao método de máxima verosimilhança. Para estimar parâmetros utilizando este

método, basta resolver um sistema tendo em conta 2.6 , 2.7 e as restrinções acima

mencionadas.

2.4. Propriedades de um estimador de máxima verosimil-

hança

Um estimador da máxima verosimilhança usufrui de uma série de propriedades.

De entre elas, salienta-se, que o estimador máxima verosimilhança é consistente,

eficiente, assimptoticamente não enviesado, as suas distribuições são assimptoti-

camente normais e a ainda possui a propriedade da invariância .

Estimadores suficientes

Definição 9. Uma estatística T (X1, X2, · · · ,Xn) que consiga resumir toda a in-

formação de uma amostra X1,X2, · · · , Xn sobre o parâmetro θ ( Θ) de uma forma

concisa e sem redundância designa-se por estatística suficiente.

Uma estatística diz-se suficiente se e só se a função distribuição da amostra

(X1, X2, · · · ,Xn) aleatória em função de T = t não depende de θ ( Θ), para todo

o t Dt, onde Dt é o domínio de T .

19

Estimadores não enviesados

Definição 10. Dado um parâmetro θ ( Θ) e seja θ um estimador do mesmo,

define-se como enviesamento :

Enviesamento θ = µθ − θ

onde µθ é valor esperado de θ.

Um estimador θ diz-se não enviesado se o valor do enviesamento for nulo,

Figuras 2.5 e 2.6. O estimador não enviesado permite, para amostras diferentes,

obter um estimador que fornece, em média, estimativas iguais ao verdadeiro valor

do parâmetro.

Figura 2.5: Estimador enviesado. Rui Guimarães, 1997, pag. 265.

20

Figura 2.6: Estimador não enviesado. Rui Guimarães, 1997, pag. 265.

Estimadores consistentes

Definição 11. Um estimador θ do parâmetro θ sob as condições de consistên-

cia e que satisfaça a condição:

∀δ > 0, limn→+∞

Pθ

³¯θ − θ

¯< δ´= 1

diz-se consistente, onde n é a dimensão da amostra.

Demonstra-se que se o enviesamento e a variância de um estimador tendem

para zero quando a dimensão da amostra tender para infinito (n→ +∞):

lim

n→+∞(µθ − θ) = 0

limn→+∞

σ2θ= 0

(condições de regularidade)

então o estimador é consistente.

21

Estimadores Precisos

Definição 12. Um estimatidor θ1 diz-se menos preciso que outro θ2, se a disper-

são dos erros de estimação que podem ser cometidos for maior quando se recorre

ao estimador θ1, Figuras 2.7 e 2.8. Geralmente, a precisão de um estimador é

expressa pelo erro quadrático médio:

Erro Quadratico medioθ = EQM θ = E

·³θ − θ

´2¸= σ2

θ− (Enviesamentoθ)

2

Figura 2.7: Estimador pouco preciso, quando comparado com o da Figura 2.8. Rui Guimarães,1997, pag. 267.

Propriedade de invariância

A propriedade de invariância é talvez a mais importante de todas as propriedades

do método da máxima verosimilhança.

Teorema 13 (Propriedade de invariância). Se θ é um estimador de máxima

22

Figura 2.8: Estimador preciso, quando comparado com o da Figura 2.7. Rui Guimarães, 1997,pag. 267.

verosimilhança e se τ³θ´é uma função biunívoca, então τ

³θ´é estimador de

máxima verosimilhança de τ (θ).

Por exemplo, se θ é a média de uma variável aleatória com função distribuição

F , então, o estimador de máxima verosimilhança de uma função z (θ) é z ¡X¢.Assimptoticamente normais

Para soluções da equação 2.6 (ou 2.8) sobre as condições

E

µ∂L

∂θ

¶= 0

I (θ) = −Eµ∂2L

∂θ2

¶= E

Ãµ∂L

∂θ

¶2!

então θ diz-se assimptoticamente normal com vector média θ0 e amatriz variância-

covariância, I−1θ0, onde θ0 é o real valor de θ. A matriz Iθ0 é conhecida por

matriz informação de Fisher, Efron (1978). A matriz variância-covariância, I−1θ0,

é denotada porP.

23

A partir da variância sabe-se qual é a precisão de um estimador e da covar-

iância, a relação que existe entre dois estimadores particulares, isto é, se são ou

não independentes6, já que foram obtidos a partir dos mesmo conjunto de dados.

dX=

var³θ1´

cov³θ1, θ2

ćov

³θ1, θ3

´. . . cov

³θ1, θn

ćov

³θ2, θ1

´var

³θ2´

cov³θ2, θ3

´. . . cov

³θ2, θn

ćov

³θ3, θ1

ćov

³θ3, θ2

´var

³θ3´

. . . cov³θ3, θn

´...

......

. . ....

cov³θn, θ1

ćov

³θn, θ2

ćov

³θn, θ3

´. . . var

³θn´

Na matriz covariância,

P, as variâncias aparecem na diagonal principal da

mesma e as covariâncias são simétricas em relação à diagonal, isto é, cov³θi, θj

´=

cov³θj, θi

´para todo i e j. Para obter uma estimativa da matriz-covariância, é

necessário estimar os parâmetros e subtituí-los na função de máxima verosimil-

hança.

Se a função de verosimilhança tem vários parâmetros, então as respectivas

variâncias e covariâncias obtêm-se da matriz informação, I (θ), e:

dX=hI³θí−1

Para o caso em que a função de verosimilhança tem um único parâmetro e

assumindo ainda que os estimadores de máxima merosimilhança sejam assimp-

6Duas variáveis aleatórias X e Y , dizem-se linearmente independentes se e só se cov(X,Y ) =0.

24

toticamente eficientes e usando a aproximação de Cramér-Rao para a variância

de estimadores de máxima verosimilhança, a variância aproximada de uma dada

função h³θ´é:

var³h³θ´|θ´≈

hh³θí2 ¯

θ=θ

E¡− ∂2

∂θ2lnL (θ|X)¢¯

θ=θ

=

hh³θí2 ¯

θ=θ

− ∂2

∂θ2lnL (θ|X)¯

θ=θ

(2.10)

(Casella e Berger, 1990, pag. 325-328)

25

3. Estimação do tamanho duma

população e parâmetros relacionados

3.1. Modelo de Lincoln-Petersen

3.1.1. Estimação de Lincoln-Petersen

Quanto aos modelos de captura - recaptura, talvez o mais simples de todos seja o

modelo Lincoln-Petersen. Utilizado por C. G. J. Petersen6 em 1896 e aperfeicoado

em 1930 por F. C. Lincoln7, para estimar o tamanho de populações de patos.

Tal como outros modelos de estimação do tamanho de populações, este é con-

stituido no seu essencial pela captura, marcação e recaptura dos indivíduos.

Este método tem como pressupostos:

A1 Na população não hája nascimentos nem imigração, mortes ou emigração.

Portanto, a diferença entre o tempo da recolha de duas amostras tem de ser

pequena - população fechada;

6Carl George Johannes Petersen nasceu na Dinamarca em 1860. O metodo que hoje tem oseu nome foi publicado em 1896.

7Frederick C. Lincoln nasceu em 1892, no Colorado. Passou a maior parte da vida a estudarpassáros.

26

A2 Os animais têm igual probabilidade de serem capturados dentro de cada

amostra;

A3 As etiquetas não se perdem no ensaio e não são ignoradas pelo observador.

Tendo em conta os pressupostos do método, e considerando N o universo, isto

é, o número total dos indivíduos que se pretende estimar, numa primeira fase

captura-se um certo número de indivíduos (n1), tendo todos a mesma probabili-

dade de serem capturados - captura. Depois de serem marcados são posterior-

mente libertados para o seu habitat natural, juntando-se aos restantes indivíduos

não marcados - marcação. Num segundo passo do método capturam-se novos

indivíduos (n2) - recaptura, podendo estes já terem sido capturados ou não

aquando da captura, Figura 3.1.

Figura 3.1: Diagrama captura -recaptura.

Como não há nascimentos nem mortes, a população mantém-se constante,

em tamanho, tanto na primeira como na recaptura e, por isso, é evidente que

a proporção de animais marcados na recaptura seja aproximadamente

igual à proporção de animais marcados no total da população:

27

n11n2≈ n11

N⇒ NLP =

n1n2n11

(3.1)

onde NLP é o estimador de Lincoln-Petersen.

Apesar do método ser simples e prático, pode surgir um “pequeno” problema;

no caso, de n11 ser zero, isto é, não existem indivíduos marcados nem na primeira

e nem na segunda fase. Para resolver tal situação, em 1951 Chapman introduziu

pequenas modificações na formula 3.1:

N∗LP =

(n1 + 1) (n2 + 1)

n11 + 1− 1 (3.2)

O estimador de Chapman é menos enviesado que o de Lincoln-Petersen. O

enviesamento do estimador de Lincoln-Petersen é mais evidente para populações

de pequenas dimensões, já que para esses casos a população é sobreestimada. En-

tretanto, para populações grandes é indiferente a utilização da fórmula padrão de

Lincoln-Petersen ou a corrigida de Chapman para o estimar, pois o enviesamento

é similar.

3.1.2. Função da máxima verosimilhança

Uma das várias maneiras de se chegar à função de máxima verosimilhança é con-

siderar que n10, n01 e n11 são variáveis aleatórias que têm distribuição multinomial.

Seja a partição do universo, de tamanho N , n10, n01, n11, n00 em que:

28

• n11 são aqueles indivíduos que foram marcados duas vezes;

• n10 representa o número de indivíduos que forammarcados apenas na primeira

captura;

• n01(= n2 − n11) refere-se ao número indivíduos marcados só na segunda

captura;

• n00 descreve os indivíduos que não foram marcados;

• p1 é a probabilidade de um indivíduo ter a marca da primeira captura, p1

[0, 1] ;

• p2 é a probabilidade de um indivíduo ter a marca da recaptura, p2 [0, 1] ;

e portanto:

• P10 = P¡ um indivíduo ter a marca da primeiracaptura e não ter a marca da recaptura

¢= P

¡um indivíduo ter a marca da primeira captura

¢×P¡um indivíduo não ter a marca da recaptura

¢= p1 (1− p2);

• P01 = P¡um indivíduo não ter a marca da primeira

captura e ter a marca da recaptura

¢= P

¡um indivíduo não ter a marca da primeira captura

¢×P¡um indivíduo ter a marca da recaptura

¢= (1− p1) p2;

• P11 = P¡um indivíduo ter a marca da primeiracaptura e ter a marca da recaptura

¢29

= P¡um indivíduo ter a marca da primeira captura

¢×P¡um indivíduo ter a marca da recaptura

¢= p1p2;

• P00 = P¡um indivíduo não ter a marca da primeiracaptura e não ter a marca da recaptura

¢= P

¡um indivíduo não ter a marca da primeira captura

¢×P¡um indivíduo não ter a marca da recaptura

¢= (1− p1) (1− p2);

Considerando n10, n01 e n11 como variáveis aleatórias, que seguem uma dis-

tribuição multinomial e tendo em conta os pressupostos do método, a função da

máxima verosimilhança toma o seguinte aspecto:

LLP (·) = (N, p1, p2|n10, n01, n11) =

=

µN

n10 n01 n11

¶[p1 (1− p2)]

n10 [(1− p1) p2]n01 [p1p2]

n11 [(1− p1) (1− p2)]n00

(3.3)

(e pondo n00 = N − n10 − n01 − n11 = N − n, temos)µN

n10 n01 n11

¶[p1 (1− p2)]

n10 [(1− p1) p2]n01 [p1p2]

n11 ×

× [(1− p1) (1− p2)]N−n

30

Utilizando a propriedade invariante dos estimadores do método da máxima

verosimilhança e o lema 15 (Chapman), consultar Apêndice A, temos que:

= L1LP (N, p|n)L2LP (p1, p2|n10, n01, n11) (3.4)

(consultar Apêndice A)

=

·µN

n

¶pn (1− p)N−n

¸×

×·µ

n

n10 n01 n11

¶·p1 (1− p2)

p

¸n10 ·(1− p1) p2p

¸n01 ·p1p2p

¸n11¸(3.5)

onde n = n10 + n01 + n11 e portanto

Pn = P11 + P10 + P01

= p1 (1− p2) + (1− p1) p2 + p1p2

= p1 + p2 − p1p2 = p

Estimação de N

Uma das possíveis maneiras de estimar N é resolvendo o seguinte sistema:

L0LP (·) = 0

⇔

∂L1LP (·)∂N

= 0

∂L1LP (·)∂p

= 0

⇔

∂L1LP (·)∂N

= 0

∂∂p

¡Nn

¢pn (1− p)N−n = 0

⇒ ∂

∂p

µN

n

¶pn (1− p)N−n = 0

⇔µµ

N

n

¶pn−1 (1− p)N−n−1

¶(n (1− p)− p (N − n)) = 0

⇔ n (1− p)− p (N − n) = 0

31

⇔ n−Np = 0

⇔ p =n

N

Donde sai que p = nN, ou seja:

N =n

p(3.6)

Também se pode estimar p1 e p2 por meio algébrico (consultar Apêndice B),

Maple neste caso, donde se conclui que:

p1 =n11n2

(3.7)

e

p2 =n11n1

(3.8)

3.1.3. Variância (uma aproximação utilizando a série de Taylor)

Para se obter uma aproximação da variância recorre-se à série de Taylor1 e as

propriedades da variância e do somatório. Vejamos, então como chegar a uma

1Definição: Se uma função φ (x) tem derivada de ordem r tal que φ(r) (x) = dr

dxr φ (x), entãopara uma constante a, o polinómio de Taylor de ordem r em torno de a é dado por Tr (x) =Pr

i=0φ(r)

i! (x− a)i.

32

expressão para a variância.

Sejam X1,X1,...,Xk variáveis aleatórias com média θ1,θ1,...,θk , tais que X =

(X1, X1, ..., Xk) e θ = (θ1, θ1, ..., θk). Suponhamos que exista uma função φ (X)

diferenciável (um estimador de alguns parâmetros) para o qual queremos uma

aproximação da variância estimada. Seja

φ0i (θ) =

∂φ (X)

∂Xi|X1=θ1,X1=θ2,...,Xk=θk

A expansão da serie de Taylor de primeira ordem de φ (X) em de torno θ é

dada por:

φ (X) ≈ φ (θ) +rX

i=0

φ0i (θ) (Xi − θi) (3.9)

e aplicando a esperança matemática a ambos os membros da equação 3.9 sai que:

Eθφ (X) ≈ φ (θ) +rX

i=0

φ0i (θ)Eθ (Xi − θi) = φ (θ) (3.10)

Assim, uma aproximação da variância de φ (X) sai como consequência de 3.9

e de 3.10:

33

varθφ (X) ≈rX

i=0

³φ0i (θ)

´2varθ (Xi) + 2

rXi>j

φ0i (θ)φ

0j (θ) covθ (Xi, Xj) (3.11)

A variância de NLP pode ser calculada de diversas formas, dos quais abordarei

dois casos: hipergeométrico e o multinomial. A variância está inteiramente ligada

ao modo como o problema é abordado.

Caso Hipergeométrico

No caso hipergeométrico a variância é calculada condicionando n1 e n2, ou seja,

parte-se do princípio que n1 e n2 são conhecidos. A única grandeza não fixa

será n11, variável que tem distribuição hipergeométrica. Assim, temos a seguinte

função de verosimilhança:

L (N |n1, n2, n11) = f (n11|N,n1, n2, ) =

¡n1n11

¢¡N−n1n2−n11

¢¡Nn2

¢ (3.12)

e com as seguintes condições para função de probabilidade:

• 0 ≤ n11 ≤ n1;

• 0 ≤ p ≤ 1;

• p+ q = 1

34

Utilizando o método dos momentos2, sabemos que :

E (n11) =n1n2N⇒ N =

n1n2n11

Seja φ (z) = 1z, onde a média de z é µz e tendo em conta a expressão 3.11 a

variância de φ (z) é dada por:

dvarφ (z) ≈ ·dφdz

¸2z=µz

.dvar (z) = 1

µ4zvar (z)

A variância estimada de NLP obtém-se tendo em conta a aproximação à série

de Taylor e uma transformação de variável. Ou seja:

dvar ³NLP

´=dvarµn1n2

n11

¶

≈ n21n22dvarµ 1

n11

¶(Propriedade da variancia −assmindo que n1 e n2 sao conhecidas)

2O método dos momentos foi desenvolvido no príncipio deste século por Karl Pearson paraproduzir estimadores de parâmetros.

35

=n21n

22

n411dvar (n11)

(Transformação de variável e aproximação á serie de Taylor)

Como a variável n11 aleatória segue uma distribuição hipergeométrica, i.e:

n11 y H (N, k, p)

tal que:

• O parâmetro N tem como estimador a estimação de Lincoln-Petersen, i.e,

NLP =n1n2n11;

• A proporção n1 indivíduos marcados é p = n1N. p = n11

n2e a probabilidade de

um indivíduo não ser marcado é q = 1− p = n2−n11n2

;

• Retiram-se n2(= k) indivíduos do total, sem reposição;

e tendo em conta a variância de uma variável com distribuição hipergeométrica3

temos que:

dvar (n11) ≈ n2n11n2

n2 − n11n2

³n1n2n11− n2

ń1n2n11− 1 ≈ n11 (n1 − n11) (n2 − n11)

n1n2

(a aproximação é considerada boa desde que a população em conta seja grande)

3Dado uma variável X,tal que X y H (N, k, p) então a variância de X é σ2 = kpqN−kN−1

36

e por conseguinte a variância estimada de N é:

dvar ³NLP

´=

n1n2 (n1 − n11) (n2 − n11)

n311(3.13)

(Seber, 1982)

Para o estimador corrigido 3.2, Chapman desenvolveu a seguinte expressão

para a variância:

dvar ³N∗LP

´=(n1 + 1) (n2 + 1) (n1 − n11) (n2 − n11)

(n11 + 1) (n11 + 2)2 (3.14)

Caso Multinomial

Atendendo que n1 e n2 podem ser expressos respectivamente por n10 + n11 e

n01 + n11, é também possível obter uma estimativa para a variância traduzindo

o problema numa multinomial, onde n10, n01 e n11 são variáveis aleatórias. A

função de máxima verosimilhança para o caso multinomial é a expressão 3.5 atrás

apresentada.

Seja φ (z10, z01, z11) =(z10+z11)(z01+z11)

z11, onde a média de z10, z01 e z11 são re-

spectivamente µZ10 e µZ01 e µZ11 .Utilizando a expressão 3.11 vem que:

dvar ³NLP

´= dvarµn1n2

n11

¶=dvarµ(n10 + n11) (n01 + n11)

n11

¶≈

·dφ

dz10

¸2z10=µz10

.var (n10) +

·dφ

dz01

¸2z01=µz01

.var (n01)

37

+

·dφ

dz11

¸2z11=µz11

.var (n11) +

+2

Ã·dφ

dz10

¸z10=µz10

·dφ

dz01

¸z01=µz01

.cov (n10, n01)+

+

·dφ

dz10

¸z10=µz10

·dφ

dz11

¸z11=µz11

.cov (n10, n11) +·dφ

dz11

¸z11=µz11

·dφ

dz01

¸z01=µz01

.cov (n11, n01)

!

=(n01 + n11)

2

n211.var (n10) +

(n10 + n11)2

n211.var (n01) +

+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))

2

n411.var (n11) +

+2

µ(n10 + n11) (n01 + n11)

n211.cov (n10, n01)+

+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))

n311×

× (n01 + n11) cov (n10, n11) +

+((n01 + n10 + 2n11)n11 − (n10 + n11) (n01 + n11))

n311×

× (n10 + n11) cov (n11, n01))

=n21n

22

n211

µV ar (n10)

n21+

V ar (n01)

n22

¶+

+((n1 + n2)n11 − n1n2)

2

n411.var (n11) +

+2n21n

22

n211.cov (n10, n01)

n1n2+

+2n2 ((n1 + n2)n11 − n1n2)

n311.cov (n10, n11) +

+2n1 ((n1 + n2)n11 − n1n2)

n311.cov (n01, n11)

38

Uma vez que as variáveis aleatórias n01, n10 e n11 seguem uma distibuição

multinomial4 Mult (n, π10, π01, π11), onde n = n01 + n10 + n11 e π10 =p1(1−p2)

p,

π01 =(1−p1)p2

pe π11 =

p1p2p, p = p1 + p2 − p1p2, com temos que:

• var (n01) = nπ10 (1− π10);

• var (n01) = nπ01 (1− π01);

• var (n01) = nπ11 (1− π11);

e as seguintes covariâncias:

• cov (n10, n01) = −nπ10π01;

• cov (n10, n11) = −nπ10π11;

• cov (n11, n01) = −nπ11π01;

e portanto,

dvar ³NLP

´=

n21n22

n211

µnπ10 (1− π10)

n21+

nπ01 (1− π01)

n22

¶+

+((n1 + n2)n11 − n1n2)

2

n411.nπ11 (1− π11)−

−2n21n22nπ10π01

n211n1n2+2n2 ((n1 + n2)n11 − n1n2)nπ10π11

n311+

+2n1 ((n1 + n2)n11 − n1n2)nπ11π01

n311(3.15)

4Dado uma variável aleatória Xi

(i = 1, ..., k), tal que X yMult (n, p1, ..., pk) compi = P (Ai), onde

Pki=1 pi = 1, então V ar (Xi) = npi (1− pi) para todo i = 1, ..., k e

Cov (Xi,Xj) = −npipj, i 6= j.

39

A variância tanto para p1 como para p2 obtêm-se considerando as distribuições

binomiais condicionadas das variáveis, isto é :

- n11|n2 y Bin (n2, p1)

dvar (p1|n2) =dvarµn11n2|n2¶=dvar (n11|n2)

n22=

n2p1 (1− p1)

n22=

p1 (1− p1)

n2

(3.16)

- n11|n2 y Bin (n2, p1)

dvar (p2|n1) =dvarµn11n1|n1¶=dvar (n11|n1)

n21=

n1p1 (1− p1)

n21=

p1 (1− p1)

n1

(3.17)

3.2. Modelo de Trajectos Lineares

3.2.1. Trajectos Lineares

Á semelhança do modelo de Lincoln - Petersen, o modelo de trajecto linear tam-

bém permite estimar o tamanho de uma determinada população, embora o mod-

elo seja geralmente utilizado para estimar a densidade populacional 5, que é um

parâmetro fundamental nos estudos biológicos de uma população.

5Entende-se por densidade populacional ao número de indivíduo por unidade de área.

40

No modelo, parte-se de princípio que a área representada por A, da qual se

pretende estimar a densidade populacional é conhecida, Figura 3.2.

Figura 3.2: Distribuição dos indivíduos sobre a área A. · representa os indivíduos (animais)na área de estudo A. Apesar dos animais terem tendência a agruparem-se, as vezes parte-se do

principio que estes seguem um processo de Poisson.

De uma forma aleatória, traçam-se linhas rectas ao longo da área (lj, tal quePlj = L). Cada uma dessas linhas, lj, é então percorrida de uma ponta à outra,

a medida que se vão detectando os objectos. Aos indivíduos detectados, mede-se

a distância (xi) perpendicular à linha do trajecto - Trajecto linear, Figura 3.3.

Por vezes, os indivíduos são detectados ao longo de uma faixa de largura 2w

(predefinida pelo experimentador) - Trajecto ao longo da faixa, Figura 3.4.

Quando as distâncias perpendiculares (xi) não estão disponíveis, estas podem

ser obtidas a partir de duas grandezas, Figura 3.5, conhecidas : ri e θi, isto é :

xi = ri cos (θi) , (e Zi = ri cos (θi))

41

a) b)

Figura 3.3: a) Trajectos lineares. b) Os objectos em cima da linha são observados e presupões-se que os mais distantes da linha tem menor probabilidade de serem observados, tanto menor

quanto maior for a distância.

Pressupostos do método

B1 Os N objectos estão distribuídos ao longo da área A segundo um processo

estocástico13;

B2 A linha recta L , que atravessa a área, é traçada ao acaso;

Entre os pressupostos há que contar com os mais críticos, nomeadamente:

B3 Os indivíduos sobre a recta nunca são esquecidos, i.e., são detectados com

probabilidade 1;

B4 Os animais nunca se movem de um lugar antes de serem detectados, e além

disso são contados uma única vez tendo em conta que a detecção de um é

independente do outro. Não existem erros de medição;

13Dado um espaço de probabilidade (Ω, A, P ) e um conjunto arbitrário T , um processo es-tocástico é uma função real e finita X (t, ω), definida no produto cartesiano T ×Ω que para cadaτ fixo τ T , é função mensurável ( no sentido de Borel) de ω. Neste caso o processo estocásticorepresenta um fenómeno aleatório que evolui no espaço, onde t (t (0,+∞)) representa o espaço.

42

Figura 3.4: Trajecto linear ao longo da faixa de largura 2w.

Figura 3.5: Cálculo da distância xi.

.

3.2.2. Função de detecção

Após o cálculo das distância perpendiculares, xi, constrói-se então, um histograma

de frequências e a partir deste um polígono de frequências que é ajustado à função

de detecção pelo método da máxima verosimilhança, pois entre várias há uma

que melhor se ajusta a função, Figura 3.6. À medida que a distância xi tende a

aumentar os indivíduos detectados tornam-se cada vez mais escassos.

43

Figura 3.6: Várias tentativas para a função de detecção : A - Normal truncada , B - Uniforme,C - Exponencial Negativa, D - Hazard-Rate, que depois de escolhida em função da performance

de cada uma faz-se uma ajuste da função detecção.

A função de detecção é dada por:

g (x) = P [observar um indivíduo|x]

Voltando aos pressupostos, nota-se que quando um indivíduo estiver em cima

da linha recta L, isto é quando xi = 0, vem que:

g (0) = P [observar um indivíduo|0] = 1

traduzindo naquele que é talvez o pressuposto mais crítico, uma vez que, sobre

44

a linha L, o animal pode não ser detectado por diversas razões. Por exemplo,

pode-se encontar sobre a copa de uma árvore, debaixo de um tufo de ervas ou

num lago, fazendo com que tal pressuposto seja constantemente violado.

Normalmente, no método de trajecto linear, para simplificar e tornar mais

cómodo o estudo, o experimentador estipula uma certa distância máxima denom-

inada por w, para a detecção dos animais. Aqueles que se encontrem para além

da distância estabelecida são simplesmente ignorados.

Uma outra possibilidade para a selecção dos dados é, depois de observados

os indivíduos, ignorar uma parte das distâncias com menos frequência. Certos

autores (Alldredge e Gates, 1985) aconselham uma redução de 5 a 10% dos indi-

víduos mais distantes do observador.

Uma função truncada num dado intervalo (a, b) em que b > a, onde se ex-

clui todos os valores que não pertencem ao intervalo tem a seguinte função de

distribuição:

F (x)x (a,b]

=

0⇐ x ≤ a

F(x)−F(a)F(b)−F(a) ⇐ a < x ≤ b

1⇐ x > b

Se existir a função densidade temos que:

F (x)x (a,b]

=

0⇐ x ≤ a

R xa f(u)duR ba f(x)dx

⇐ x (a, b]

1⇐ x > b

45

e por derivação obtemos a função densidade:

f (x)x (a,b)

=

f(x)R b

a f(x)dx⇐ x (a, b)

1⇐ x ≤ a e x ≥ b

Assim, a função detecção g (x) truncada no intervalo [0, w], que não é uma

densidade de probabilidade, é substituída por outra, f (·), tal que:

∀xi (i = 1, 2, · · · , n2)

f (xi|n2) = f

µUm objecto ser detectado pelo observador no

rectângulo de área 2wL, a uma distância xi da linha L

¶=

g (xi)R w0g (x) dx

=g (xi)

µ

com f (0) = 1µeR w0

g(xi)R w0 g(x)dx

= 1 como se pretendia, Figura 3.7.

Figura 3.7: Função densidade truncada, g(x).

46

3.2.3. Estimação da densidade populacional

Paralelamente à linha recta L traçam-se duas outras rectas, que distam da primeira

w unidades. Partindo do princípio que os pressupostos são respeitados, B1-B5,

ao longo da área de largura 2w os indivíduos são detectados com o objectivo de

estimar a densidade populacional.

Assim, a densidade populacional é estimada por:

D =NTL

A(3.18)

onde NTL é a estimação da população na área A = 2wL.

Depois de estimada a proporção da população ao longo da área A, designada

por p2, 3.18 toma o seguinte aspecto:

D =n2

2wLp2(3.19)

p2 é razão entre o número de indivíduos detectados na área (n2) e a população

total estimada (NTL) ou então:

p2 =

R w0g (x) dx

w=

µ

w(3.20)

onde g (x) é a função de detecção acima referida.

47

Da expressão 3.19 e 3.20 obtém-se

D =n22Lµ

(3.21)

e como se verifica w desaparece, não interferindo, assim, na densidade o que faz

com que este método seja basicamente utilizado para estimar a densidade e não

o tamanho da população.

No entanto, o parâmetro w constitui um marco importante para estimar o

tamanho da população, pois este depende inteiramente do valor de w, NTL =n2wµ.

Entretanto, o modelo trajecto linear quando combinado com o Lincoln-Petersen

constituem um modelo eficaz para estimar o tamanho da população, com esti-

madores robustos, pois o pressuposto g0 = 1 já não será necessário.

Tendo em conta que a área A é uma constante e que o tamanho da população

depende de determinados parâmetros, a variância da densidade da população é

expressa por:

V ar³D´= V ar

ÃNTL

A

!=1

A2V ar

³NTL

´

Para melhor compreender a importância de g0, considera-se a seguinte notação

para a função de detecção:

g (x) = g (0)× g∗ (x) = g0 × g∗ (x)

48

de tal maneira que p2 passa a definir-se por:

p2³θ´=

R w0g³x|θ´dx

w=

R w0g0 × g∗

³x|θ´dx

w

=g0R w0g∗³x|θ´dx

w=

g0µ∗w

e por conseguinte temos que :

D =n22Lµ

=n2

2g0µ∗L

Como se pode constatar no Quadro 3.1 quando g0 toma valores inferiores a

1, o enviesamento é tanto maior quanto menor for g0. O mesmo se aplica para o

tamanho da população. Quanto menor for a probabilidade de um indivíduo que

encontra sobre a linha L ser observado maior será o enviesamento e o tamanho

da população é sobestimada.

Quadro 3.1: Densidade populacional em função de g0g0 Di

1 D1 = D12

D2 = 2D13

D3 = 3D· · · · · ·

49


Caso condicionada (Buckland, 1993)

Buckland traduz o modelo por uma equação mais simples, mas também menos

realista, na qual a função de verosimilhança é condicionada a n2:

L (·) = f (x1, x2, · · · , xn2|n2)

= f (x1|n2) f (x2|n2) · · · f (xn2|n2)

(Os acontecimentos são independentes entre si)

=n2Yi=1

g (xi)R w0g (x) dx

∴ L (x1, x2, · · · , xn2 |n2) =n2Yi=1

g (xi)

µ(3.22)

Caso Binomial (Seber, 1982)

Ao longo dos tempos a função para o método de trajecto linear foi abordada de

diversas maneiras. Seber6 apresentou a função de verosimilhança tendo em conta

que as distâncias e o total de indivíduos observados são variáveis aleatórias.

6Grande parte das pesquisas George A. F. Seber são sobre populações abertas. O seu tra-balho foi desenvolvido em conjunto com J. N. Darroch. Hoje é uma dos altos dirigentes dodepartamento de matemática na universidade de Auckland.

50

Eis então, a função de verosimilhança desenvolvida por Seber:

L (·) = f (x1, x2, · · · , xn2, n2)

= f (x1, x2, · · · , xn2|n2) f (n2)

(Propriedade condicionada da função densidade)

= f (x1|n2) f (x2|n2) · · · f (xn2 |n2) f (n2)

(Os acontecimentos são independentes entre si)

= f (x1|n2) f (x2|n2) · · · f (xn2 |n2)µNTL

n2

¶pn22 (1− p2)

NTL−n2

(Os n2 objectos tem função de distribuição Binomial7)

= f (x1|n2) f (x2|n2) · · · f (xn2 |n2)µNTL

n2

¶pn22 (1− p2)

NTL−n2

=g (x1)R w

0g (x) dx

g (x1)R w0g (x) dx

· · · g (xn2)R w0g (x) dx

µNTL

n2

¶pn22 (1− p2)

NTL−n2

=n2Yi=1

g (xi)R w0g (x) dx

µNTL

n2

¶pn22 (1− p2)

NTL−n2

∴ L (x1, x2, · · · , xn2 , n2) =n2Yi=1

g (xi)

µ

µNTL

n2

¶pn22 (1− p2)

NTL−n2 (3.23)

Utilizando a função de máxima verosimilhança desenvolvida por Seber estima-

7Os n2 objectos têm função de distribuição Binomial. Num universo de NTL, cada um dosn2 objectos pode ou não ser visto pelo observador com probabilidade p2 - o que traduz numabinomial.

51

se o vector parâmetro θ donde se obtém

p2

³θ´=

R w0g³x|θ´dx

w=

µ

w

e aplicando o lema de Chapman temos que :

NTL =n2

p2³θ´ (3.24)

Sabe-se que µ é uma constante dada porR w0g³x|θ´dx e que também pode-se

interpretar como:

∀x, µ = g (x)

f (x)=

1

f (x)

e em particular quando x é nulo. Não esquecendo o pressuposto g (0) = 1, e

fazendo x = 0 temos que:

µ =g (0)

f (0)=

1

f (0)

portanto

NTL = n2f (0)w

52

De 3.18 e 3.19:

D =n2

2wLp2=

n22Lµ

=n2f (0)

2L

logo o tamanho da população é dado pela seguinte expressão:

NTL = DA =n2f (0)

2 /L2 /Lw = n2f (0)w

Da equação 3.24 consideram-se n2 e p2 como sendo variáveis aleatórias e apli-

cando a técnica do cálculo da variância utilizando uma aproximação da série de

Taylor, temos que a variância estimada da população é:

dV ar ³NTL

´≈ dV ar ³NTL

´= dV arµn2

p2

¶=

·∂φ

∂Z1

¸2z=µZ1

.dV ar (n2) + · ∂φ

∂Z2

¸2z=µZ2

.dV ar (p2)=

dV ar (n2)p22

+n22dV ar (p2)

p42

=n22p22

ÃdV ar (n2)n22

+dV ar (p2)

p22

!∴ dV ar ³NTL

´= N2

TL

¡(CV (n2))

2 + (CV (p2))2¢ (3.25)

Sabe-se que a p2 (proporção de indivíduos capturados) é definido condicionado

53

a n2, mas se admitirmos que são independetes uma do outra temos que:

E [p2|n2] = E [p2]

e a covariância entre n2 e p2 é nula, então:

cov (p2, n2) = cov ((p2|n2) , n2)

= E ((p2|n2)n2)−E (p2|n2)E (n2)

(definição da covariância)

= En2 (E ((p2|n2)n2|n2))−E [p2]E (n2)

(propriedade da esperança condicionada)

= En2 (n2E (p2|n2))− E [p2]E (n2)

= E (n2)E [p2]−E [p2]E (n2)

= 0

A variância de n2 pode ser estimada por diversas formas. Na altura da real-

ização da experiência, ao invés de se retirar uma única amostra, tiram-se várias e

com base nisso obtém-se uma estimativa para a variância empírica de n2, dV ar (n2).Também com base nos conhecimentos duma experiência pode-se estimar a variân-

cia de n2 através de métodos computacionais utilizando, por exemplo, o método

de Monte Carlo, Dias (1979).

Tendo em conta que os estimadores de máxima verosimilhança são assimptot-

icamente normais, uma aproximação para a variância p2³θ´pode ser obtida pela

expressão 2.10.

54

Vejamos então o caso em que a função detecção é a exponencial negativa e a

função de verosimilhança é a de Buckland (1993):

Seja a função detecção

g (x|θ) = e−θx, 0 < x ≤ w

então temos que

p2³θ´=

R w0g³x|θ´dx

w=1

w

Z w

0

e−θxdx =1

w

·−1θe−θx

¸w0

=1

w

Ã−e

−θw

θ+1

θ

!=1

wθ

³1− e−θw

é

V ar³p2³θ´|θ´≈

hp02

³θí2

|θ=θE¡− ∂2

∂θ2lnL (θ|X)¢ |θ=θ ≈

hp02

³θí2

|θ=θ− ∂2

∂θ2lnL (θ|X) |θ=θ

=

³wθe(−wθ) − 1 + e−wθ

´2 ³−1 + e−wθ

´2w2θ

2n2³−e−2wθ + w2θ

2e−wθ + 2e−wθ − 1

´(A dimensão da amostra é n2)

O modelo de trajecto linear acima abordado é conduzido por um único obser-

vador. Um modelo mais geral, que considera a detecção dos animais por vários

observadores, foi proposto por Alpizar e Pollock (1996). Este modelo é consider-

ado mais realista (pois na realidade o observador óptimo não existe) e toma em

conta que as probabilidades de detecção são diferentes entre os observadores.

55

3.3. Combinação dos modelos de Lincoln-Petersen e Trajec-

tos Lineares

3.3.1. A combinação

Omodelo de captura - recaptura do Lincoln-Petersen (com dois tempos de amostragem)

considera que as variáveis aleatórias n10, n01 e n11 têm distribuição multinomial.

Para estimar a populacção usando informação das distâncias em que se encon-

tram os animais marcados da linha L, recorre-se ao modelo de trajecto linear no

segundo tempo de amostragem.

Ao combinar os dois modelos, obtém-se maior informação sobre a população

e é permitido a violação do pressuposto crítico B3, ou seja, um animal em cima

da linha L pode não ser detectado pelo observador.

Só se considera o caso em que g0 < 1, pois g0 > 1 não tem significado bi-

ológico e é possível estimar g0. Toda esta informação traduz-se num modelo com

estimadores mais eficientes que os outros dois.

Já que este modelo combina informações dos outros dois é natural que tenha

como pressupostos :

C1 Os pressupostos do modelo de Lincoln-Petersen e os do trajecto linear (A1-

A3 e B1, B2, B4 e B5);

e um outro cujo pressuposto lhe é peculiar

C2 independência entre os animais marcados e avistados no trajecto linear.

56

Tendo em conta os pressupostos do método e com o mesmo objectivo (estimar

o tamanho da população), capturam-se os indivíduos, que são posteriormente

soltos após terem sido marcados tal e como no método de Lincoln - Petersen (n1).

De seguida, baseando no método de trajectos lineares e de uma forma aleatória,

os objectos são de novo avistados (n2) e separados em:

- marcados e avistados segundo o método de trajectos lineares (n11);

- avistados segundo o método de trajectos lineares, mas sem terem sido mar-

cados, (n01)

- marcados, mas não avistados segundo o método de trajectos lineares (n10);

e ao total dos indivíduos (marcados e avistados) designa-se por n (= n11 + n10 + n01).


Da combinação dos dois modelos e dados os pressupostos acima referidos obtém-se

a seguinte função de máxima verosimilhança completa:

L (·) = LLP (·)× LTL (·) (3.26)

em que:

- LLP (N, p1, p2 (θ) |n11, n10, n01) é a função da máxima verosimilhança multi-nomial do modelo captura-recaptura;

- LTL (θ| (x1, x2, · · · , xn2) , n2) é a função da máxima verosimilhança do mod-elo de trajectos lineares.

57

No modelo combinado p1 (p2) é a probabilidade de um indivíduo ser marcado

(avistado) na primeira (segunda) captura e p (= p1 + p2 − p1p2) a probabilidade

de um objecto ser detectado no processo todo.

Alpizar - Jara e Pollock (1999) definiram 3.26 da seguinte maneira :

L (N, p1, g0, θ| (x1, x2, · · · , xn2) , n11, n10, n01) = LLP (·)× LTL (·)

= fLP (n11, n10, n01|N, p1, p2 (θ)) fTL (x1, x2, · · · , xn2|n2, θ) (3.27)

onde p2 (θ) =

R w0g (x|θ) dxw

=µ

w

Há que ter em conta que θ é o parâmetro que define a função detecção.

LLP (N, p1, p2 (θ) |n11, n10, n01) =µ

N

n10 n01 n11

¶×

× [p1 (1− p2 (θ))]n10 [(1− p1) p2 (θ)]

n01 [p1p2 (θ)]n11 [(1− p1) (1− p2 (θ))]

N−n

(3.28)

58

e

LTL (θ| (x1, x2, · · · , xn2) , n2) =n2Yi=1

g (xi)R w0g (x|θ) dx (3.29)

A informação do trajecto linear é expressa pela função de verosimelhança

desenvolvida por Seber (1982, ver 3.23) e não a de Buckland (1993, ver 3.22)

pelo facto de 3.28 conter tal informação, pois a distribuição binomial é um caso

particular da distribuição multinomial.

A partir das expressões 3.27, 3.28 e 3.29 estimam-se os parâmetros. Aos esti-

madores do tamanho da população obtidos a partir da expressão 3.27 designam-se

por estimadores da máxima verosimilhança completa (NMC), aqueles que forem

obtidos exclusivamente a apartir de 3.28 ( sem tomar em conta a informação

proporcionada pelas distâncias) denominam-se por estimadores Lincoln-Petersen

(NLP ); e os que forem meramente estimados por 3.29, entendem-se como NTL.

3.3.3. Estimação de N e g0

Sem perda de generalidade, seja a seguinte notação para a função detecção definida

a menos da constante de proporcional g0:

g (x|θ) = g0 × g∗ (x|θ) (3.30)

Não é possível estimar g0 com apenas um dos modelos. O modelo de trajecto

linear não permite estimar g0 já que, por hipótese, supõe que este vale 1. Por

59

outro lado, no modelo de captura-recaptura, podemos escrever p2 em função de

g0:

p2 = g0µ∗

w= g0p

∗2 (3.31)

porém, um estimador para p2 estima o segundo membro da equação 3.31 como

sendo um produto e não separadamente. Posto isto, só é possível estimar g0, se

for utilizada toda a informação existente.

A questão que se põe agora é decidir qual o modelo a utilizar para estimar N .

A decisão reside no facto do pressuposto B3 ser ou não violado, vejamos então o

que acontece nos dois casos:

1 Se admitirmos que um animal em cima da linha do trajecto linear nem

sempre é avistado pelo observador, ou seja g0 < 1, estamos no caso do

modelo de Lincoln -Petersen, o pressuposto mais importante do modelo de

trajecto linear é violado. Não faria sentido estimar a população pelo método

de trajecto linear já que a população é subestimada, logo o estimador para

N seria enviesado.

Como g0 < 1, então de 3.31 vem que

p2 < p∗2

e utilizando a função de verosimilhança completa condicionada a informação do

modelo de captura-recaptura e as distâncias, temos que o estimador NMC coincide

com o estimador de máxima verosimilhança de Lincoln-Petersen, NLP .

60

Assim, NLP é um estimador de máxima verosimilhança de N e tendo em conta

3.8, p2 = n11n1, e 3.1 temos que

NLP =n1n2n11

=n2p2

(3.32)

sendo a respectiva variância dada pela expressão 3.13 ou 3.15.

2 Quando um indivíduo que se encontra sobre da linha L é detectado com

probabilidade certa, g0 = 1, e sob as condições C1 e C2 NLP deixa de ser

um estimador de máxima verosimilhança de N , pois de 3.31 temos que

p2 = p∗2

isto é, p2 e p∗2 confudem-se, e temos três candidatos para o estimador da

população, N : NLP , NTL e NMC. Dos três, NMC é sem dúvida o estimador

mais preciso e por isso mais eficiente.

Para estimar a população é necessário combinar toda a informação existente.

Para tal utiliza-se a função de verosimilhança completa, 3.27.

A propriedade de invariância garante que escrevendo 3.26 como:

L (·) = L1LP (·)L2LP (·)× LTL (·)

e tendo em conta o lema de Chapman, ver Apêndice A, obtem-se o seguinte

61

estimador para N :

NMC =n

p (θ)

onde p é dado em função de p1 e p2 (θ), mas com a particularidade de p2 depender

de parâmetro θ. Consequentemente, o próprio p expressa-se em prol de θ:

p (θ) = p1 + p2³θ´− p1p2

³θ´

À semelhança dos outros casos, 3.15 e 3.25, uma estimativa para variância do

estimador, NMC, da população pelo método combinado obtém-se tendo em conta

3.11.

Seja φ (z1, z2) = z1z2= n

p(θ), onde a média de z1e z2 são respectivamente µZ1 e

µZ2, temos que:

dV ar ³NMC

´≈ dV ar

n

p³θ´

=

·∂φ

∂Z1

¸2z=µZ1

.dV ar (n) + · ∂φ

∂Z2

¸2z=µZ2

.dV ar ³p³θ´´

=dV ar (n)p2

+n2dV ar ³p³θ´´

p4

=n2

p2 (θ)

dV ar (n)n2

+

dV ar ³p³θ´´p2³θ´

62

∴dV ar ³NMC

´= N2

MC

µ(CV (n))2 +

³CV

³p³θ´´´2¶

(3.33)

A variância impiríca pode ser uma boa estimativa para V ar (n). Utilizando o

método de Monte Carlo obtém-se dV ar (n) e recorrendo as propriedades da var-iância e a aproximações da série de Taylor tem-se:

dV ar (p) = dV ar (p1) + dV ar ³p2 ³θ´´−dV ar ³p1p2 ³θ´´= dV ar (p1) + dV ar ³p2 ³θ´´−dV ar (p1)³p2 ³θ´´2−dV ar ³p2 ³θ´´ (p1)2

Para o cálculo de dV ar (p1) utiliza-se 3.16 e 2.10:

dV ar (p) =p1 (1− p1)

n2+dV ar ³p2 ³θ´´− p1 (1− p1)

³p2³θ´´2

n2

−dV ar ³p2 ³θ´´ (p1)2Uma estimativa para a variância de p2

³θ´depende obviamente da função de

detecção utilizada no modelo e para uma expressão para dV ar ³p2 ³θ´´, complexana maioria das vezes, recorre-se à matriz variância-covariância

P.

Para estimar g0 integra-se ambos membros da equação 3.30:

63

Z w

0

g³x|θ´dx =

Z w

0

g0 × g∗³x|θ´dx (3.34)

donde vem que um estimador para g0 é:

g0 =µ

µ∗=

µ

w× w

µ∗

=p2p∗2=

p2n2× n2

p∗2

e tendo em conta 3.32, lembre-se que o estimador de 3.29 para N é dado por NTL,

g0 expressa por:

g0 =NTL

NLP

Quando há pouca diferença entre NLP e de NTL, g0 é aproximadamente 1.

Para fins prácticos não interessa os casos em que NTL é maior do que NLP , pois

tem-se g0 > 1. A variância de g0 é expressa em função das variâncias de µ, µ∗ e

dela própria:

dV ar (g0) = dV arµ µ

µ∗

¶= g20

¡(CV (µ))2 + (CV (µ∗))2

¢(3.35)

Atendendo que µ (µ∗) pode ser interpretado como µ = wp2( µ∗ = wp∗2) e

64

portanto:

dV ar (µ) = w2dV ar (p2) = w2p2 (1− p2)

n1

Tendo em conta 2.10 temos que:

dV ar (µ∗) = w2dV ar (p∗2) = w2

hh0³θí2

|θ=θ− ∂2

∂θ2lnL (θ|X) |θ=θ

e neste caso temos que h³θ´=

R w0 g∗(x|θ)dx

w.

Vejamos agora que nem sempre é facil obter uma expressão para uma estima-

tiva de g0. Recorde-se que p2 = n11n1(ver Apêndice B) e seja a função detecção

dada por:

g∗(x|θ) = e−x2

θ

,temos que

p∗2³θ´=

R w0g∗³x|θ´dx

w=

R w0e−

x2

θ dx

w=

=

erf

µw√θ

¶pπθ

2w' 0.88625

erf

µw√θ

¶pθ

w

65

onde

erf (x) =2R x0e−t

2dt√

π

e portanto

g0 =p2p∗2=

n11n1

w

0.88625 erf

µw√θ

¶pθ

.

3.4. Exemplo prático

O exemplo terá como base uma os resultados duma experiência feita por Otto

em 1982 com latas castanhas de cervejas. Foram utilizadas latas distribuídas em

quatro grupos de tamanhos diferentes: 1, 2, 4 e 8 respectivamente. As latas

foram distribuídas aleatoriamente ao longo de um trajecto linear com 200 metros

de comprimento e 20 metros de largura. Foram usados nove observadores, que

nunca saíram da linha da L.

Otto considerou um total de 495 latas de cervejas; 33 do primeiro grupo, 66

do segundo, 132 do terceiro e 264 do último grupo, cujo tamanho era 8.

Por meio deste método, Otto foi capaz de registar a distância exacta per-

pendicular e o grupo de tamanhos de cada objecto visto por cada observador.

Como Otto possuia um mapa com a distribuição dos objecto, foi possível estimar

a probabilidade de avistar cada objecto baseado nos nove observadores.

Por simplicidade nas análise dos dados em vez de vários grupos e nove obser-

vadores, vou considerar as latas como unidades individuais vistas por apenas um

66

observador.

O Quadro 3.2 apresenta os dados que aqui serão analisados e correspondem

às distâncias das latas que foram detectadas pelo observador, num total de 202

observações.

Quadro 3.2: Nova organização dos dados de Otto0.11 2.18 2.19 3.51 3.75 4.05 4.09 4.1 5.16 8.42 0.93 0.93 1.11 1.11 1.33 1.33 1.69 1.69 2.31

2.31 4.15 4.15 4.26 4.26 4.35 4.35 5.24 5.24 5.28 5.28 5.48 5.48 7.20 7.20 7.31 7.31 17.01

17.01 0.88 0.88 0.88 0.88 1.77 1.77 1.77 1.77 3.35 3.35 3.35 3.35 4.35 4.35 4.35 4.35 8.97

8.97 8.97 8.97 9.58 9.58 9.58 9.58 9.61 9.61 9.61 9.61 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14

0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.30 0.30 0.30 0.30 0.30 0.30 0.30 0.30 0.74 0.74 0.74

0.74 0.74 0.74 0.74 0.74 1.12 1.12 1.12 1.12 1.12 1.12 1.12 1.12 2.68 2.68 2.68 2.68 2.68 2.68

2.68 2.68 2.91 2.91 2.91 2.91 2.91 2.91 2.91 2.91 4.13 4.13 4.13 4.13 4.13 4.13 4.13 4.13 5.58

5.58 5.58 5.58 5.58 5.58 5.58 5.58 6.03 6.03 6.03 6.03 6.03 6.03 6.03 6.03 7.27 7.27 7.27 7.27

7.27 7.27 7.27 7.27 7.63 7.63 7.63 7.63 7.63 7.63 7.63 7.63 7.9 7.9 7.9 7.9 7.9 7.9 7.9 7.9 8.35

8.35 8.35 8.35 8.35 8.35 8.35 8.35 8.51 8.518.51 8.51 8.51 8.51 8.51 8.51 9.69 9.69 9.69 9.69

9.69 9.69 9.69 9.69 11.79 11.79 11.79 11.79 11.79 11.79 11.79 11.79

Depois de escolhida a função, função chave, que melhor se ajuste aos dados em

questão. É altura de definir o número de termos de ajustamento da expansão de

série que ajuste a função chave às distâncias. No programa Distance8, a função

de detecção é definida pela seguinte fórmula geral:

g (y) = funçao chave (y) [1 + serie (y)]

(Buckland,1993)

onde serie corresponde à respectiva expansão de série:

8Distance 3.5, Realise 5, www.ruwpa.st-and.ac.uk/distance.

67

Função chave Expansão de série

Metade da normal, 1w

Coseno,Pm

j=1 aj cos¡jwyw

¢Exponencial Negativa, e−

y2

2σ2 Coseno,Pm

j=1 aj cos¡jwyw

¢Uniforme, e−

yσ Coseno,

Pmj=1 aj cos

¡jwyw

¢onde m é o total de termos da série e

aj

= 0 se o termo j de cos

¡jwyw

¢nao e usado no modelo ou

e estimado pela funçao de maxima verosimilhança

De acordo com o critério de informação de Akaike, AIC 9, é possível constatar

que a função metade da normal10 é a que melhor se ajusta aos dados acima

apresentados, Quadro 3.3.

Quadro 3.3: Critério de Informaccão de AkaikeFunção de detecção AIC Função chave

Metade da Normal 744.83 k (y) = e− y2

2A(1)2

Exponencial Negativa 772.60 k (y) = e−y

A(1)

Uniforme 930.24 k (y) = 1W

Utilizando a função metade da normal como função de detecção sem ajusta-

mento de termos e tendo que Distance define µ∗ =R w0g³x|θ´dx, no Quadro 3.4

estão apresentados : NTL, p∗2 e µ∗.

9AIC = −2lnL+2p. L é a função de máxima verosimilhança e p é o número de parâmetrosexistentes.10A função metade da normal é dada por g (y) = e−

y2

2σ2 onde σ é o parâmetro que a define.

68

Quadro 3.4: Estimadores de Trajecto Linear-Metade da Normal sem ajustamento de termosParâmetro Estimação SE CV IC 95%

µ∗ 7.6410 0.3934 0.0515 [6.9038; 8.4570]

p∗2 0.3820 0.0197 0.0515 [0.3452; 0.4228]

NTL 529.00 46.122 0.0872 [445.00; 628.00]

Apesar da função metade da normal ser a que melhor se ajusta aos dados

apresentados no Quadro 3.2, a população é subreestimada com um enviesamento

relativo de 6.87%. A Figura 3.8 mostra que à medida que afastamos da linha

L há cada vez menos latas observadas e as latas que se encontram sobre a linha

são observadas com probabilidade 1, como já era de se esperar. Há uma grande

concentração de latas na faixa compreendidade entre 4 a 10 metros da linha L.

Figura 3.8: Dados das distâncias de latas de cervejas castanhas obtidas atraves da experiênciade Otto,1982.

Para exemplificar o modelo de captura-recaptura, vou utilizar parte da infor-

mação dos dados de Otto apresentado no Quadro 3.2.

A dimensão da população das latas de cervejas é 495. Do programa Distance

sei que p2 é 0.38, por parece razoavel considerar que p2 = 0.4 e sem perda de

generalidade, vou supor que p1 = 0.3. Atraves do programa Maple foi possível

69

gerar uma binomial, Bin (N, p1), para o cálculo de n1 (Apêndice C- Quadro 5.1).

O Quadro 3.5 apresenta os resultados obtidos do programa PopSize para 149

indivíduos marcados na primeira captura e 202 na recaptura. Para o cálculo das

variâncias de p1 e p2, utilizei respectivamente as expressões 3.16 e 3.17.

Quadro 3.5: Estimação de Lincoln-Petersen ( PopSize)p1 0.2970

se(p1) 0.0321

p2 0.4027

se(p2) 0.0401

se(NLP ) 41.964

A população é sobreestimada, pois para uma população real de dimensão 495

o estimador de Lincoln-Petersen é 501.63¡= 149×202

60

¢. O enviesamento deve-se ao

facto de as latas de cerveja se encontrarem agrupadas em dimensões diferentes

e a uma possível falta de visão por parte do observador. Os grupos com maior

número de latas são detectados facilmentemente pelo observador.

Salvo o caso em queN = 495, os restantes foram estimado atraves do programa

PopSize11 utilizando 1000 simulações.

Quadro 3.6: Comparação entre o estimador de Lincoln - Petersen e o de Chapman.N 1a captura 2a captura NLP %BIAS N∗

LP %BIAS200 60 79 225.7 0.1285 220.8 0.1040

1000 300 499 1108.9 0.1089 1097.5 0.0975

10000 3004 4993 10900.4 0.0900 10905.2 0.0905

No Quadro 3.6 verifica-se que o método de Lincoln-Petersen é mais eficaz para

populações grandes; quanto maior é população menor é o envisamento. Para

11PopSize - Copyright 1998 by Robert P. Gengron. Version 1.0.www.iup.edu/~rgendron/software.htmlx)

70

populações pequenas, verifica-se que o estimador de Chapman é mais eficáz face

ao de Lincoln-Petersen. Apesar da variância do estimador de Chapam ser menor,

para populações grandes o enviesamento de ambos os estimadores é praticamente

igual.

Da teoria sabe-se que é possível estimar o parâmetro g0 utilizando a informação

dos dois modelos: modelo de Lincoln-Petersen e trajectos lineares.

Tendo em conta que p2 = 0.4 e p1 = 0.3, através do método de Monte Carlo

obteve-se que n11 é 60 (ver rotina do Quadro 5.2 no Apêndice C). Utilizando a

função de máxima verosimilhança completa, 3.27, noMaple foi possível estimar

g0 e os restantes parâmetros p1 e θ, consultar Apêndice C:

ng0 ≈ 1.05, p1 ≈ 0.3, θ ≈ 77.11

o

Quadro 3.7: Estimação de g0SE(g0) 0.1241

IC 95% [0.793,1.279]

como pode verificar-se, g0 > 1, pelo que o estimador da população do modelo

combinado deve coincidir com NLP . Temos que

p2³θ´≈ g0

R 200

e−x2

θ dx

20

¯¯θ=77.11,g0=1.05

≈ 0.4

71

e

p = p1 + p2³θ´− p1p2

³θ´

= 0.3 + 0.4− 0.3× 0.4

= 0.58

e portanto

NMC =n

p=291

0.58= 501.7

Pode considerarar-se que NMC coincide com NLP , pois as pequenas diferenças

devem-se às aproximações do programa utilizado, Maple. O parâmetro g0 pode

também ser estimado através da razão entre NTL e NLP :

g0 =NTL

NLP

=529.00

501.63≈ 1.05

Apesar de g0 ser maior do que 1, o que não tem importância sobre o ponto de

vista biológico, a teoria continua sendo válida.

72

4. Simulação

Como já se referiu atrás, muitas vezes para melhor se conhecer a realidade recorre-

se a construção de modelos. Um estudo preciso e rigoroso de um fenómeno pode

ser custoso ou mesmo impossível de se realizar. Contudo para se ter alguma

garantia da robustez do modelo é essencial fazer estudos sobre esse. É sobretudo

necessário conhecer o comportamento do modelo mediante um conjunto de dados e

parâmetros diferentes. Para um melhor conhecimento do modelo recorre-se então

a simulações do mesmo, utilizando métodos numéricos por via computacional.

O Método de Monte Carlo é muito conveniente para tratamento destes

modelos.

O objectivo da simulação é encontrar estimativas para os parâmetros g0, p1

e θ. Primeiro será analisado o caso em que a função de verosimilhança não é

restringida para depois, com base nesses resultados estudar o caso restringido.

Para tal, consideraremos a função de verosimilhança dada por 3.27 sugeito a:

0 < g0 < 1 (4.1)

73

e

0 < p1, p2 < 1 (4.2)

Método Monte Carlo

O método de Monte Carlo é um método de simulação que resolve problemas

através de meios numéricos gerando variáveis aleatórias.

A geração de amostras aleatórias processa-se em duas fases distintas, uma

de gerar variáveis aleatórias uniformes no intervalo [0, 1] e outra transforma-as

noutras, também aleatórias mas seguindo uma outra distribuição.

No método de Monte Carlo para estimar um parâmetro θ consideram-se var-

iáveis aleatórias X tais que a esperança matemática deste seja exactamente θ.

Gera-se então ns20 amostras, todas com dimensão k, obtendo-se assim matrizes

ns linhas por k colunas, Tabela 4.1. Assim, dos ns amostras obtêm-se as re-

spectivas X1,X2, · · · ,Xns variáveis independentes e idênticas X a cuja a média

aritmética

X =

Pnsi=1 Xi

ns(4.3)

é ainda uma variável aleatória de esperança , com variância21

20ns é um número suficentemente grande, que corresponde ao total de simulaões feitas.21A variância definida por ( 4.2) é a empírica corrigida, mais a frente será definida a

assimptótica.

74

V ar (X) =

Pnsi=1

¡xi − X

¢2ns− 1 (4.4)

inversamente ao número de simulações feitas.

Quadro 4.1: Método de Monte Carlo⇓

a11 a12 · · · a1i · · · a1(k−1) a1ka21 a22 · · · a2i · · · a2(k−1) a2k...

......

......

ans1 a2ns · · · ansi · · · ans(k−1) ansk

Parâmetros a estimar

Atendendo a 3.27 e que LLP = L1LPL2LP , o Lema de Chapman garante-nos que

N = np, consultar o apêndice B, é uma estimativa válida. Entretanto para se obter

p (= p1 + p2 (θ)− p1p2 (θ)) é necessário estimar p1 e p2 (θ).

Portanto, para se ter uma estimativa da população N basta estimar p1 e p2 (θ),

pois n (= n10 + n01 + n11) é conhecido.

O parâmetro p2(θ)

Vejamos como obter uma estimativa de p2 (θ). A probabilidade de um animal

ser detectado é dada em função dos parâmetros, que definem a função detecção.

Uma vez que a função de detecção se define como g (x|θ) = g0 × g∗ (x|σ) é certoque p2 (θ) depende sempre do parâmetro g0 e de outros que definem g∗ (x|σ∗) .Aqui, serão considerados apenas os casos em a função detecção e a normal ou

75

exponencial negativa, ambas truncadas em [0, w]. Tanto para um caso como para

o outro a função detecção depende apenas do parâmetro σ. O vector parâmetro

que define p2 (θ) é então dado por θ = (g0, σ).

Os parâmetros g0, p1 e σ

O parâmetro σ (que define a função detecção e por conseguinte p2), g0 e p1 são

estimados mediante ao método de máxima verosimilhança utilizando a expressão

3.27. Da resolução numérica dum sistema de três equações, em que a cada equação

corresponde a derivada parcial em ordem a g0, p1 e σ respectivamente, obtém-se

uma estimativa para cada um dos parâmetros.

Entretanto, para gerar amostras de números aleatórios que traduzem as distân-

cias xi (i = 1, 2, · · · , n2) é necessário definir um valor para σ do qual se pretende

estimar.

Vejamos então como calcular σ para o caso particular em que a função detecção

é a exponencial negativa . Por hipótese g0 = 1, p2(θ) = 0.4 e w = 20.

Seja

g (x|θ) = g0 × g∗ (x|σ) = e−σx, 0 < x ≤ w

temos então que

p2 (θ) =

R w0g (x|θ) dxw

=

R w0g0 × g∗ (x|σ) dx

w

=

R 200

e−σxdx20

=1

20

·−e

−σx

σ

¸200

76

=1

20

µ1

σ− e−σ20

σ

¶=

1

σ20

¡1− e−σ20

¢

isto é

0.4 =1

σ20

¡1− e−σ20

¢, σ > 0 (4.5)

⇔ e−σ20 + 8σ − 1 = 0

Uma vez resolvida (por métodos numéricos22) a equação 4.5 obtém-se um valor

de sigma, que neste caso é aproximadamente 0.1116.

Procedimentos do método

O primeiro passo a ser dado é a definição dos parâmetros hipóteses do modelo.

Há que se estipular valores para:

• ns (numero de simulações);

• N (tamanho da população) e w;

• p1 e p2;

• e em consequência de p2 obtem-se um valor para σ.

De seguida, o objectivo é obter n2 (= n01 + n11). Para tal gera-se uma multi-

nomial com parâmetros N , p1 e p2.

À semelhança do sistema de urna, geram-se números aleatórios U seguindo

uma distribuição uniformes em (0, 1) (U (0, 1)) e de acordo com a probabilidade

22No programa Maple a equação 4.5 é resolvida utilizando o comando fsolve.

77

de cada acontecimento, estes são distribuídos na respectiva urna, Figura 4.1. No

fim do ciclo tem-se n10, n01, n11 e n00.

Figura 4.1: Gerar uma multinomial pelo sistema de urnas

A partir do ciclo apresentado na Figura 4.2 obtém-se n2, definindo assim o

número necessário de distancias a gerar. As n2 distancias seguem uma determi-

nada distribuição de probabilidades.

Para gerar variáveis duma distribuição normal truncada utilizou-se o seguinte

pacote predefinido peloMaple:

stats[random,normald[0, sigma]](1)

dos quais são considerados apenas os que estiverem no intervalo [0, w].

O caso em que a função de detecção é a exponencial negativa com parâmetro23

θ , i.e. quando se tem

23θ define-se á custa do parâmetro p2.

78

Figura 4.2: Determinação de n2. A = p1(1 − p2), B = p1(1 − p2) + (1 − p1)p2,C = p1(1− p2) + (1− p1)p2 + p1p2.

g (x|θ) = e−θx (4.6)

e

f (x) =g (x|θ)

µ=

e−θxR w0e−θxdx

=e−θx

1wθ(1− e−wθ)

79

0

0.2

0.4

0.6

0.8

1

5 10 15 20x

Figura 4.3: Gráfico da função detecção da Normal truncada em [0, 20]. g (x) = e−x2

σ , com

σ = 9.04296162.

considerou-se uma variável contínua X, com função densidade de probabilidade

definida em 4.6 e a função de distribuição invertível

F (x) =Z x

−∞f (t) dt

Defina-se, por transformação da variável X numa nova variável Y ,

Y = F (x) = 1

/θ 1/θ (1− e−wθ)

¡1− e−xθ

¢=1− e−xθ

1− e−wθ

onde, F é a função de distribuição acima definida.

80

Figura 4.4: Transformação de x = G−1 (y)

As funções distribuição, H (y), e densidade, h (y), da nova variável vêm dadaspor :

H (y) = P (Y < y) = P£X < x = F−1 (y)¤ = F £F−1 (y)¤ = y, y [0, 1]

e

h (y) =dH (y)dy

= 1, y [0, 1]

Ora a forma destas funções implica que

Y y U (0, 1)

A conclusão a que se chega é, portanto, que se uma variável X tem uma

determinada distribuição com função densidade f (x) e a função de distribuição

F (x), então a variável Y = F (x) transformada segue uma distribuição U (0, 1).

81

Inversamente, se uma variável Y segue uma distribuição U (0, 1), então a var-

iável

X = F−1 (y)

⇔ X = −1θln

µ1

1− y (1− e−θw)

¶

segue uma distribuição com função densidade de probabilidade f (x) e a função

de distribuição F (x). Este é o resultado no qual se fundamenta a geração deamostras aleatórias provenientes de populações contínuas com funções de dis-

tribuição invertíveis.

Comparação e avaliação da performance dos estimadores

Posto isto, encontramo-nos em condições de aplicar o método de Monte Carlo

para avaliar as propriedades dos estimadores de máxima verosimilhança para os

parâmetros acima referidos.

Primeiro vejamos o caso mais simples em que só é considerado a restrinção

4.2 para a função de maxima verosimilhança completa. Portanto o parâmetro g0

é livre.

Supondo que

• g0 = 1 ;

• a população tem dimensão 150 ou 500;

• p1 e p2 tomam os seguintes valores: 0.2 e 0.4;

82

• a função de detecção pode ser a normal ou a exponencial negativa, ambastruncada em [0, 20], mas apenas o caso da normal truncada sera analisado.

Quadro 4.2: Comparação entre os estimadores de CH, LP e TL com o estimador de MC,

quando a função detecção é a normal truncada%BIASp2 = 0.2 p2 = 0.4

p1 N LP TL MC LP TL MC0.2 150 9.26 0.91 0.66 1.72 1.63 0.53

500 2.08 0.19 0.11 0.58 0.98 0.110.4 150 0.55 0.50 0.68 2.59 0.93 0.98

500 0.30 0.05 0.10 0.09 1.10 0.63

EQMp2 = 0.2 p2 = 0.4

p1 N LP TL MC LP TL MC0.2 150 85.28 35.09 5.52 39.52 23.11 4.85

500 111.50 59.67 10.96 56.95 35.04 8.310.4 150 36.85 32.26 4.82 17.61 23.14 4.50

500 54.34 65.40 7.87 29.37 41.70 7.34

Dos resultados da simulação apresentados no Quadro 4.2 conclui-se que:

• ao contrário dos outros modelos, em todos os casos, o modelo combinado é

o mais preciso, sendo mais preciso para populações pequenas e quando p2 é

grande, 0.4.

• para o par (p1, p2) = (0.4, 0.4) o enviesamento é menor, sendo maior em

todos os modelos para amostras de tamanho 150 e curiosamente o en-

viesamento é praticamente nulo para (p1, p2, N) = (0.4, 0.2, 500) quando

o método utilizado é o trajecto linear;

83

• para p1 e p2 pequenos, isto é, quando a probabilidade de um individuo

ser detectado na primeira ou na segunda é baixa o enviesamento é muito

elevado;

Quando não há restrinções, os três parâmetros apresentam distribuições em

forma de um sino, distribuição normal.

,590,571

,552,533

,514,495

,476,457

,438,419

,400,381

,362,343

,324,305

,286,267

,248,229

,210

120

100

80

60

40

20

04,90

4,524,14

3,763,38

3,002,62

2,241,86

1,481,10

100

80

60

40

20

0

a) p1 b)θ

Figura 4.5: O gráfico da esquerda diz respeito ao parâmetro θ e o da direita a p1 para 500simulações com N=150, p1 = 0.4 e p2 = 0.2.

Temos que a esperança de g0 é 1.02 e os valores de g0 estão situados entre

0.5915 e 1.4512.

Agora, acrescentando a restrinção 4.1 ao modelo é de esperar que a função de

distrubuição do parâmetro g0 fosse semelhante ao gráfigo ilustrado na Figura 4.7.

Para o caso restringido espera-se que uma estimativa de g0 seja quanto muito 1,

podendo ser mesmo igual a 1. Tendo em conta que para o caso nao restringido

o gráfico de g0 é analoga a da função normal, para o caso em que g0 < 1 até

84

1 o gráfico deve ser muito parecido e os restantes casos em que g0 > 1 devem

concentrar em redor do valor 1.

1,91,71,51,31,1,9,7,5,3,1

120

100

80

60

40

20

0

Figura 4.6: Distribuição de g0, para 500 simulações com N=150, p1 = 0.4 e p2 = 0.2.

Na tentativa de estimar g0 encontrei várias dificuldades. Apesar de a função

de verosimilhança ser continua em g0, para valores de g0 muito próximos de um a

função de verosmilhança é practicamente constante, Figura 4.8. Ora, isso causa

vários transtorno sob o ponto de vista computacional. O facto de haver pouca

diferenças faz com queMaple entra num loop.

Fixando g0 = 1 temos que p1 mantem-se com os mesmo valores que obtidos

no caso em que g0 é não restringido, e θ varia inversamente proporcional a g0. A

simulação assinalada no quadro 4.3 mostra que de facto a estimativa de θ aumenta

quando g0 é restringido face ao caso não restringido.

85

Figura 4.7: Ilustração do gráfico do parâmetro g0 caso a função de verosimilhança seja re-stringida a g0<1.

Quadro 4.3: Comparação de estimativas de teta para o caso em que g0 é livre e g0=10 < g0 < 2 g0 = 1

⇒

σ g0 p13.2783.1963.4443.5792.800

0.7141.0981.0190.9811.178

0.3730.3800.4400.3530.446

σ p1

2.7963.2063.3553.4342.885

0.3730.3800.4400.3530.446

Figura 4.8: Gráfico da função de verosimilhança do modelo combinado com p1=0.4, p2=0.2,

θ=20.37, N=150 e a função de detecção é a normal truncada em [0, 20] .

86

5. Conclusão

Um dos objectivos do trabalho era obter estimador para o tamanho da população

através da combincão do modelo de Lincoln-Petersen com o método de Trajecto

Linear utilizando o método de máxima verosimilhança restringida. Neste sentido

mostrei como é que ambos os métodos se processam. Utilizei, ainda o método de

máxima verosimilhança para mostrar que sob determinados pressupostos um bom

estimador para a população será NLP =n2p2para o método de Lincoln-Petersen

e NTL =n2

p2(θ)para o método de Trajecto Linear, onde θ é um estimador do

parâmetro θ que define a função de detecção g (x|θ).No modelo combinado g0 deixa de ser um pressuposto critico e é estimado, no

caso de g0 < 1, à custa dos dois modelos acima mencionados e pelo método de

máxima verosimilhança

g0 =NTL

NLP

bem como os parâmetros: p1 e θ e consequentemente Nmc.

As propriedades dos estimadores são avaliados mediante ao uso da técnica

de simulação Monte Carlo e se apresenta um exemplo ilustrativo para melhor

87

entendimento dos conceitos.

Através do exemplo prático pude verificar que a nivel teórico a igualdade g0 =

NTL

NLPé válida mesmo quando g0 > 1.

A partir de simulações foi possível conhecer a distribuição dos parâmetros

g0, p1 e θ para o caso em que g0 não é restringido. Entretanto, para o caso re-

stringido, algumas vezes não foi possível estimar g0 e consequentemente os outros

dois parâmetros: θ e p1.

Para além da definição do método adequado para situações específicas e das

aplicações a outras áreas, este constitui um bom desafio para os demais interes-

sados neste tipo de metodologia.

No futuro tentarei desenvolver um procedimento para obter estimativas do

pârametro da função de verosimilhança completa restringida.

Cabe-me sinceramente manifestar a alegria laboriosa e que sinto findo este

trabalho de fim de curso, o qual não foi só despertando, em mim, muito mais

interesse sobre este assunto, à medida que fui pesquisando como também me

serviu para aprofundar conhecimentos.

88

Apêndices

Apêndice A (Teoremas)

• Na passagem de 3.3 para 3.5, L1LP obtém-se dividindo 3.3 por L2LP , isto é:

LLP (N, p1, p2|n10, n01, n11, (N − n10 − n01 − n11))

L2LP (p1, p2|n10, n01, n11)=

=

¡N

n10 n01 n11

¢[p1 (1− p2)]

n10 [(1− p1) p2]n01 [p1p2]

n11 [(1− p1) (1− p2)]N−n¡

nn10 n01 n11

¢ hp1(1−p2)p

in10 h (1−p1)p2p

in01 hp1p2p

in11

=

µN

n

¶[(1− p1) (1− p2)]

N−nh1p

in10 h1p

in01 h1p

in11=

µN

n

¶pn10+n01+n11 (1− p1 − p2 + p1p2)

N−n10−n01−n11

=

µN

n

¶pn (1− p)N−n

= L1LP (N, p|n)

¥

Também de uma forma análoga pode-se obter L2LP à custa de 3.3 e L1LP .

Lema 14 (Chapman - 1951). Para qualquer p ( [0, 1]) dado,

N = np(maior inteiro menor ou igual a n

p) maximiza L (N, p), onde L (N, p|n) =¡

Nn

¢pn (1− p)N−n.

89

Se p = nNpara algum inteiro N ,

então N e N − 1 ambos maximizam L (N, p). Por outro lado N é o único

máximo.

(Sanathan, 1972, pag. 144)

• Estimar N:

> lnL:=ln(((N!)/(n!*(N-n)!))*(p^n)*((1-p)^(N-n)));

lnL := ln

ÃN !pn (1− p)N−n

n! (N − n)!

!

> ans1:=simplify(diff(lnL, N));

ans1 := ψ(N + 1)− ψ(N − n+ 1) + ln(1− p)

> ans2 :=simplify(diff(lnL,p)) ;

ans2 :=−n+ pN

p(−1 + p)

> ans3 :=solve( ans1 =0, ans2 =0, N,p) ;

ans3 := p = p,N =n

p

90

Nota 15. ψ(x) = ∂∂xlnΓ (x) =

∂∂x

Γ(x)

Γ(x)e Γ (x) =

R∞0

tz−1e−tdt.

Apêndice B (Cálculos auxiliares)

• Estimar p1 e p2 ( de L1LP )

>lnL:=ln(((n10+n01+n12)!/(n10!*n01!*n12!))*(((p1*(1-p2))/(p1+p2-p1*p2))

^n10)*

((((1-p1)*p2)/(p1+p2-p1*p2))^n01)*(((p1*p2)/(p1+p2-p1*p2))^n12));

lnL := ln

³(n10+n01+n12)!∗(p1∗(1−p2)

p1+p2−p1p2

ń10 ³ (1−p1)∗p2p1+p2−p1p2

ń01 ³p1p2

p1+p2−p1p2

ń11n10!n01!n11!

> ans1:=simplify(diff(lnL,p1));

ans1 :=−n10p2 + n10p2p1 + n01p1− n11p2 + n11p2p1

(1− p1)p1(−p1 − p2 + p1p2)

> ans2:=simplify(diff(lnL,p2));

ans2 :=n10p2 − n01p1 + n01p1p2 − n11p1 + n11p2p1

p2(1− p2)(−p1 − p2 + p1p2)

> ans3:=solve(ans1=0,ans2=0,p1,p2);

91

ans3 := p1 = n11n01 + n11

, p2 =n11

n11 + n10

onde n1 = n10 + n11 e n2 = n01 + n11, portanto:

p1 =n11n2

e p2 =n11n1

• Variância de p2 (θ):

Atendendo que :

- g (x|θ) = e−θx;

- lnL (·) =Qn2i=1 ln

g(xi)R w0 g(x)dx

= −Pn2i=1 θxi − n2 ln (µ) + n2 ln (θ);

- p2³θ´=(1−e−θw)

wθ.

∂

∂θlnL (·) = −

n2Xi=1

xi − n2we−θw

1− e−θw+

n2θ

∂2

∂θ2lnL (·) =

(n2w)2 e−θw

(1− e−θw)2− n2

θ2

Apêndice C (Simulações)

• Estimação de NMC utilizando os dados de Otto

92

>x := vector(202,[0.11, 2.18, 2.19, 3.51, 3.75, 4.05, 4.09, 4.1, 5.16, 8.42, 0.93, 0.93, 1.11,

1.11, 1.33, 1.33, 1.69, 1.69, 2.31, 2.31, 4.15, 4.15, 4.26, 4.26, 4.35, 4.35, 5.24, 5.24, 5.28, 5.28,

5.48, 5.48, 7.2, 7.2, 7.31, 7.31, 17.01, 17.01, 0.88, 0.88, 0.88, 0.88, 1.77, 1.77, 1.77, 1.77, 3.35,

3.35, 3.35, 3.35, 4.35, 4.35, 4.35, 4.35, 8.97, 8.97, 8.97, 8.97, 9.58, 9.58, 9.58, 9.58, 9.61, 9.61,

9.61, 9.61, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.14, 0.26, 0.26, 0.26, 0.26, 0.26, 0.26, 0.26,

0.26, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 0.74, 1.12, 1.12,

1.12, 1.12, 1.12, 1.12, 1.12, 1.12, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.68, 2.91, 2.91, 2.91 ,

2.91, 2.91, 2.91, 2.91, 2.91, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 4.13, 5.58, 5.58, 5.58, 5.58,

5.58, 5.58, 5.58, 5.58, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 7.27, 7.27, 7.27, 7.27, 7.27,

7.27, 7.27, 7.27, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.63, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9, 7.9,

8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.35, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 8.51, 9.69,

9.69, 9.69, 9.69, 9.69, 9.69, 9.69, 9.69, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79, 11.79]):

>n10:=89.0:n01:=142.0:n11:=60.0:n2:=n11+n01;n:=n10+n01+n11:w:=20;n1:=n10+n11:

> p2:=(g0/w)*(int(exp(-((u^2)/teta)),u=0..w)):p:=p1+p2-p1*p2:

>odeN:=ln(495!) - (ln(n!)+ln((495-n)!)) + n*ln(p) + (495-n)*ln(1-p) + ln(n!) - (ln(n11!)

+ ln(n10!) + ln(n01!)) + n10*(ln(p1) + ln(1-p2) - ln(p)) + n01*(ln(p2) + ln(1-p1) - ln(p))

+ n11*(ln(p1) + ln(p2) - ln(p)) + n2*ln(1/(int(exp(-((u^2)/teta)),u=0..w))) + sum(ln(exp(-

(((x[i])^2)/teta))),i=1..n2):

>ans1N:=diff(odeN,g0):ans2N:=diff(odeN,teta):ans3N:=diff(odeN,p1):

>ans4N:=fsolve(ans1N=0,ans2N=0,ans3N=0,g0,teta,p1,g0=0.5..1.2,p1=0.1..0.5);

ans4N := g0 = 1.050090732, teta = 77.11151483, p1 = .3010101010

93

• PROGRAMA MODCOMB

O programa tem como objetivo estimar o tamanho da população usando o método de monte

carlo em conjunto com o método de máxima verosimilhança utilizando os seguintes estimadores:

Lincoln Petersen,Chapman, Trajecto Linear e por fim o do Modelo Combinado.

Depois de definidos os demais parâmetros que definem os modelos, incluindo o número de

simulações, estimam-se e comparam-se os diferentes estimadores.

INPUT

> numsim:=1000 ; # Declaração do total de simulações

> seed:=123; # Semente

> with(stats);

> N:=150; # Tamanho da população

> p1:=0.4; # Probabilidade de um animal ser capturado

> p2:=0.2; # Probabilidade de um animal ser avistados

> w:=20; # Metade da distância da largura da área de trajecto linear de comprimento L

Declaração das variavéis

> unif:= vector(200): n1:= matrix (numsim,1): n2:= matrix (numsim,1): n00:= matrix

(numsim,1): n11:= matrix(numsim,1): n01: = matrix (numsim,1): n10: = matrix (num-

sim,1): nlp: = matrix (numsim,1): n10lp:= matrix (numsim,1): n01lp:= matrix (numsim,1):

n11lp:= matrix (numsim,1): n1lp:= matrix (numsim,1): n2lp:= matrix (numsim,1): nch:= ma-

trix (numsim,1): nch: = matrix (numsim,1): nw: = matrix (numsim,1): ans4Ncm: = matrix

(numsim,1): anst:= matrix (numsim,1): Ntlest:= matrix (numsim,1): tetaest:= matrix (num-

sim,1): mutl:= matrix (numsim,1): pwest:= matrix (numsim,1): p2tl= matrix (numsim,1):

94

teta= matrix (numsim,1): g0cm:= matrix (numsim,1): pcm:= matrix (numsim,1): tcm:= ma-

trix (numsim,1):tcm1:= matrix (numsim,1):

> ode1mc:=matrix(numsim,1):ans1Ncm:=matrix(numsim,1): ans2Ncm:=matrix(numsim,1):

ans3Ncm:=matrix(numsim,1): ans4Ncm:=matrix(numsim,1):Nmc:=matrix(numsim,1):

Inicialização das variavéis: n11, n10, n01 e n00;

> n00:= matrix (numsim,1,0): n11:= matrix (numsim,1,0): n01: =matrix (numsim,1,0):

n10:= matrix (numsim,1,0): a:= matrix (numsim,1,1):

Cálculo dos parâmetros da função de detecção

θ ( parâmetro da função detecção normal truncada em [0, w])

> p2FL:=(g01/w)*(int(exp(-((u^2)/teta)),u=0..w)): aN:=fsolve(p2FL=p2,teta):

> sigma:=sqrt(aN/2);

Definição de p2; e consequentemente p;

> p2:=(g0/w)*(int(exp(-((z^2)/teta)),z=0..w)):p:=p1+p2-p1*p2:

INÍCIO DO CICLO GERAL PARA APLICAÇÃO DO MÉTODO DE MONTE CARLO

> for j from 1 to numsim do

Este ciclo gera uma multinomial, onde N é a população e n11, n10, n01 e n00 são

variavéis

> for k from 1 to N do

> unif[k]:=stats[random,uniform[0,1]](1):

> if (unif[k] > (p11*(1-p21)+p21*(1-p11)+p11*p21)) then n00[j,1]:=n00[j,1]+a[j,1] fi;

95

> if ((unif[k] >(p11*(1-p21)+p21*(1-p11))) and (unif[k] < (p11*(1-p21) + p21*(1-p11)

+p11*p21))) then n11[j,1]:=a[j,1]+n11[j,1] fi;

> if ((unif[k] > (p11*(1-p21))) and (unif[k] < (p11*(1-p21)+p21*(1-p11)))) then n01[j,1]:=

a[j,1]+n01[j,1] fi;

> if unif[k] < p11*(1-p21) then n10[j,1]:=a[j,1]+n10[j,1] fi;

> od;

Cálculo de n1, n2 e n

> n1[j,1]:=n11[j,1]+n10[j,1];n2[j,1]:=n11[j,1]+n01[j,1];

> nw[j,1]:=n10[j,1]+n01[j,1]+n11[j,1];

Este ciclo gera as n2; distancias ( xi ) que seguem uma normal truncada em [ 0,

w]. Vai gerando xi, tal que esse seja normal e serão escolhidos apenas os que

forem positivos e menores do que w até obter um total de n2

> Xinorm0w1:=vector(200):Xinorm0w:=vector(n2[j,1]):cout:=0;

> for y from 1 to 200 do

> Xinorm0w1[y]:=abs(stats[random,normald[0,sigma]](1)):

> od:

> for p from 1 while cout<n2[j,1] do

> if Xinorm0w1[p]<w then

> Xinorm0w[p]:=Xinorm0w1[p] :

> cout:=cout+1;

> else

> Xinorm0w[p]:=Xinorm0w1[p+1]:

> cout:=cout+1;

96

> fi:

> od:

Função de Maxima Verosimilhança ( lnFMV)

Caso Modelo Combinado

>ode1mc[j,1]:=ln(Np!)-(ln(nw[j,1]!)+ln((Np-nw[j,1])!))+ nw[j,1]*ln(pw)+(Np-nw[j,1])*ln(1-

pw)+ln(nw[j,1]!)- (ln(n11[j,1]!)+ln(n10[j,1]!)+ln(n01[j,1]!))+n10[j,1]*(ln(p1)+ln(1-p2)-ln(pw))+

n01[j,1]*(ln(p2)+ln(1-p1)-ln(pw)) +n11[j,1]*(ln(p1)+ln(p2)-ln(pw))+n2[j,1]*ln(1/(int(exp(-((m^2)

/teta)),m=0..w)))+ sum(ln(exp(-(((Xinorm0w[h])^2)/teta))),h=1..n2[j,1]):

Caso Trajecto Linear

> ode1tl:=n2[j,1]*ln(1/(int(exp(-((mn^2)/teta1)),mn=0..w))) +sum(ln(exp(-(( (Xinorm0w

[hn])^2) /teta1))),hn=1..n2[j,1]):

Aplicação do Método de Máxima Verosimilhança

>ans1Ncm[j,1]:=diff(ode1mc[j,1],g0):ans2Ncm[j,1]:=diff(ode1mc[j,1],teta):ans3Ncm[j,1]:=diff(

ode1mc[j,1],p1): ans4Ncm[j,1]:=fsolve(ans1Ncm[j,1]=0,ans2Ncm[j,1]=0,ans3Ncm[j,1]=0,g0,

teta,p1,g0=0..3,p1=0..1);ans1tl:=diff(ode1tl,teta1): anstl[j,1]:=fsolve(ans1tl=0,teta1);

p2 é definido em função do parâmetro σ ou θ conforme o caso:

> p2mc[j,1]:=simplify(eval((g0/w)*(int(exp(-((o^2)/teta)),o=0..w)),ans4Ncm[j,1]));

> p2tl[j,1]:=(1/w)*(int(exp(-((q^2)/anstl[j,1])),q=0..w));

> pwest[j,1]:=eval(p1+p2mc[j,1]-p1*p2mc[j,1],ans4Ncm[j,1]);

Estimação do Modelo Combinado

97

> Nmc[j,1]:=nw[j,1]/pwest[j,1]:

> Ntlest[j,1]:=simplify(nw[j,1]/pwest[j,1]):

Estimação do Trajecto Linear

> Ntlwest[j,1]:=n2[j,1]/p2tl[j,1]:

> g0cm[j,1]:=eval(g0,ans4Ncm[j,1]):

> pcm[j,1]:=eval(p1,ans4Ncm[j,1]):

> tcm[j,1]:=evalf(eval(sqrt(teta/2),ans4Ncm[j,1]),5):

>tcm1[j,1]:=eval(teta1,teta1=anstl[j,1]):

> od:

COMPILAÇÃO E APRESENTAÇÃO DOS RESULTADOS

>n10lpest:=sum(n10[su,1],su=1..numsim)/numsim: n01lpest:=sum(n01[sq,1],sq=1..numsim)/

numsim: n11lpest:=sum(n11[sr,1],sr=1..numsim)/numsim:

> NLP:=sum(Nlpest[we,1],we=1..numsim)/numsim;

> NLPC:=sum(Nlpcest[wq,1],wq=1..numsim)/numsim;

> Nest:=sum(Nmc[s,1],s=1..numsim)/numsim;

> Ntlest:=sum(Ntlwest[sn,1],sn=1..numsim)/numsim;

> varnlp:=sum(((Nlpest[kr,1]-NLP)^2),kr=1..numsim)/(numsim-1):senlp:=sqrt(varnlp):

> varnlpc:=sum(((Nlpcest[dr,1]-NLPC)^2),dr=1..numsim)/(numsim-1):senlpc:=sqrt(varnlpc):

> varNTL:=sum(((Ntlwest[ar,1]-Ntlest)^2),ar=1..numsim)/(numsim-1):seNtl:=sqrt(varNTL);

> varNMC:=sum(((Nmc[hr,1]-Nest)^2),hr=1..numsim)/(numsim-1):seN:=sqrt(varNMC);

> g0cmest:=sum(g0cm[e,1],e=1..numsim)/numsim;

> g0p:=Ntlest/NLP;

98

> pbiasmc:=((abs(Nest-Np))/Np)*100;pbiastl:=((abs(Ntlest-Np))/Np)*100;pbiaslp:= ((abs(NLP-

Np))/Np)*100; pbiaslpc:=((abs(NLPC-Np))/Np)*100;

> biasmc:=(abs(Nest-Np)):biastl:=(abs(Ntlest-Np)):biaslp:=(abs(NLP-Np)):biaslpc:= (abs(NLPC-

Np)):

> ICmc:=[Nest-1.96*seN,Nest+1.96*seN];ICtl:=[Ntlest-1.96*seNtl,Ntlest+1.96*seNtl]; IClp:=[NLP-

1.96*senlp,NLP+1.96*senlp];IClpc:=[NLPC-1.96*senlpc,NLPC+1.96*senlpc]; ICg0mc:=[g0cmest-

1.96*seg0,g0cmest+1.96*seg0];

> eficitl:=sqrt(varNTL+biastl^2);eficilp:=sqrt(varnlp+biaslp^2); eficilpc:=sqrt(varnlpc +bi-

aslpc^2); eficimc:=sqrt(varNMC+biasmc^2);

99

• Rotinas para simular n1 e n11.

Quadro 5.1: Rotina binomial para o calculo de n1>n1:=matrix(1000,1,0):n00:=matrix(1000,1,0):

>a:=matrix(1000,1,1):p1:=0.3;p2:=0.5:

>for j from 1 to 1000 do

>for k from 1 to 495 do

>unif[k]:=stats[random,uniform[0,1]](1):

> if (unif[k] < (p1)) then n1[j,1]:=a[j,1]+n1[j,1] fi:

>if (unif[k] > (p1)) then n00[j,1]:=a[j,1]+n00[j,1]fi:

> od:od:

> n1est:=evalf(sum(n1[e,1],e=1..1000)/1000,5);

> n1se:=sqrt((sum((n1[c,1]-n1est)^2,c=1..1000))/999);

Quadro 5.2: Rotina binomial para o calculo de n11>n11:=matrix(1000,1,0):n00:=matrix(1000,1,0):

>a:=matrix(1000,1,1):p1:=0.3:p2:=0.5:

>for j from 1 to 1000 do

>for k from 1 to 495 do

>unif[k]:=stats[random,uniform[0,1]](1):

> if (unif[k] < (p1*p2)) then n11[j,1]:=a[j,1]+n11[j,1] fi:

>if (unif[k] > (p1*p2)) then n00[j,1]:=a[j,1]+n00[j,1]fi:

> od:od:

> n11est:=evalf(sum(n11[e,1],e=1..1000)/1000,5);

> n11se:=sqrt((sum((n11[c,1]-n1est)^2,c=1..1000))/999);

100

Bibliografia

[1] Alldredge, J. R. e Gates, C. E. (1985).“Line transect estimators for left trun-

cated distributions”. Biometrics, 41, Pag. 275-80.

[2] Alpízar-Jara, R. e Pollock, K.H. (1996). “A combination line transect and

capture-recapture sampling model for multiple observers in aerial surveys”.

Journal Env. Ecol. Stat. 3(4):311-327, www.home.uevora.pt/~alpizar.

[3] Alpízar-Jara, R. e Pollock, K.H. (1999). “Combining line transect capture-

recapture for mark-resighting studies”. Marine Mammal Survey and Assess-

ment Methods, ISBN 90 5809 043 4, www.home.uevora.pt/~alpizar.

[4] Begon, M. (1989). Ecología animal-Modelos de cuantificación de poblaciones.

Editorial trillas.

[5] Begon, M. (1979). Investigating Animal Abundance: capture-recapture for

biologists. Edward Arnold, England.

[6] Brownie, C., Anderson, D.R., Burnham, K.P. and Robson, D.S. (1985). Sta-

tistical inference from band recovery data—a handbook. U. S. Department

of Interior, Fish and Wildlife Service Resource Publication 156. 305 pp,

www.cnr.colostate.edu/~gwhite/software.html.

101

[7] Buckland, S. T., Anderson, D.R., Burnham, K.P. e Laake, J.L. (1993).

Distance sampling: Estimating Abundance of Biological Populations. Chap-

man&Hall, London, www.ruwpa.st.and.ac.uk/distancebook/.

[8] Burnham, Kenneth P. et al (1980). Estimation of density from line transect

sample of biological populations. Wildlife Monographs.

[9] Burnham, K. P. et al (1987). Design and analisis methods for fish surbival

expreriments basead on realease-recapture. American Fisheries Society Mono-

graph 5, Betheasda,www.cnr.colostate.edu/~gwhite/software.html.

[10] Casella, G. e R. L. Berger (1990). Statistical inference. Duxbury, California.

[11] “Constrained Maximum Likelihood”. http://faculty.washington.edu

[12] Cormen, T. et al.. Introduction to algorithims. The MIT Press, Mas-

sachusetts.

[13] Dias, J. R. (1979).Aplicação do método de Monte Carlo ao cálculo dos valores

de . Barbosa&Xavier LDA, Evora.

[14] Efron, B. e D.V. Hinkley (1978). “Assessing the accuracy of the maxi-

mum likelihood estimator: Observed versus expected Fisher information”.

Biometrika, Vol. 65, n.o4. Pag.457-87.

[15] Guimarães, R. C. (1997). Estatística. Ed. revista. McGraw-Hill, Portugal.

[16] Krebs, C. J. (1994). Ecology-The experimental Analysis of Distribution and

Abundance. Fourth ed. Harper Collins, New York. Pag.9-11

102

[17] Murteira, B. J. F. Probabilidades e estatísticas. vol. I e II ,2aEd. Revista

McGraw - Hill, Portugal, Dezembro de 1996.

[18] Otis, D. L., K. P. Burnham, G. C. White, and D. R. Anderson. Statistical in-

ference from capture data on closed animal populations. Wildlife Monographs

62, 1978, 135 pp, www.cnr.colostate.edu/~gwhite/software.html.

[19] Pina, H. Métodos numéricos. McGraw - Hill, Portugal, 1995.

[20] Sanathan, L. (1972). “The Annals of Mathematical Statistics”. Vol. 43, No1,

Pag. 142-152.

[21] Seber, G. A. F. (1982). The estimation of animal abundance and related

parameters. Macmillan, New York.

[22] White, G. C., D. R. Anderson, K. P. Burnham, and D. L. Otis. (1982).

Capture-recapture and removal methods for sampling closed populations. Los

Alamos National Laboratory LA-8787-NERP.

103

Documents

Estimadores de Máxima Verosimilhança