44
TEORIA DE ESTIMAÇÃO MANUEL RAMÓN VARGAS AVILA COPPE-UFRJ ABRIL 2013

Teoria de estimação

Embed Size (px)

Citation preview

Page 1: Teoria de estimação

TEORIA DE ESTIMAÇÃO

MANUEL RAMÓN VARGAS AVILACOPPE-UFRJABRIL 2013

Page 2: Teoria de estimação

4.2 PROPRIEDADES DOS ESTIMADORES

Page 3: Teoria de estimação

A qualidade se baseia no erro de estimação.

erro de estimação se define como: 𝜃෨= 𝜃− 𝜃

Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador.

Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão, usam-se critérios menos demandantes na estimação do erro.

1. Tendência e consistência: Tendência de um estimador = valor do estimador - verdadeiro valor do parâmetro a estimar.

É desejável que um estimador seja não tendencioso ou centrado, isto é, que sua tendência seja nula. O valor esperado do estimador coincide com o parâmetro de interesse isto se mostra:

Introdução

Page 4: Teoria de estimação

1. Tendência e consistência

Eൣ �𝜃෨൧= 𝐸ሾ𝜃ሿ− 𝐸 �𝜃൧= 0

Eሾ𝜃ሿ= 𝐸[𝜃] Esta definição se aplica para parâmetros aleatórios. Em caso contrário aplica-se

𝐸 �𝜃|𝜃൧= 𝜃

Vício: 𝑏= 𝐸[𝜃෨] o b = 𝐸 �𝜃|𝜃൧ Se a zero quando o número de medições cresce infinitamente, o estimador se denomina assintoticamente não viciado.

Page 5: Teoria de estimação

1. Tendência e consistência

Consistência: um estimador é consistente se, na medida em que o tamanho da amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se a variância converge a zero.

lim𝑛→∞ 𝐸 �𝜃൧= 𝜃

lim𝑛→∞ 𝑉𝑎𝑟(𝜃) = 0 Exemplo 4.3

Em efeito, si uma amostra X=(X1,X2,...,Xn)t provem de una população de média μ, isto é:

para qualquer i=1...n

A média aritmética é igual a:

Page 6: Teoria de estimação

1. Tendência e consistência

Por exemplo, caso se deseje estimar a média de uma população, a média aritmética da amostra é um estimador não viciado da mesma, já que o seu valor esperado é igual à média da população.

Agora ao calcular sua variância

𝐸[ሺ𝑋ത− 𝜇ሻ2] = 1𝑁2 𝐸{𝑁𝑗=1 [𝑥ሺ𝑗ሻ− 𝜇2]} = 1𝑁2 ∗𝑁∗𝜎2 = 𝜎2𝑁

Se N >> a infinito a variância se aproxima a 0.

Page 7: Teoria de estimação

2. Erro quadrático médio:

Tenta-se achar aquele estimador que possua em média o menor erro de estimação.

Geralmente 𝐿൫𝜃෨൯= (𝜃 − 𝜃)2

O critério de erro está definido por 𝜀= 𝐸{ 𝐿൫𝜃෨൯} para aleatórios ou 𝜀= 𝐸൛ 𝐿൫𝜃෨൯ห𝜃} para determinísticos. 𝜀= 𝐸{(𝜃 − 𝜃)2}

Esta se pode decompor da seguinte forma:

𝜀= 𝐸ቄ൫𝜃 − 𝜃൯2ቅ= 𝐸൛𝜃2 − 2∗𝜃 ∗𝜃+ 𝜃2ൟ= 𝐸൫𝜃2൯− 2∗𝜃∗𝐸൫𝜃൯+ 𝜃2

𝜀൫𝜃൯= ቄ𝐸൫𝜃2൯− 𝐸൫𝜃൯2ቅ+ {𝐸൫𝜃൯2 − 2∗𝜃∗𝐸൫𝜃൯+ 𝜃2}

𝜀൫𝜃൯= 𝑉𝑎𝑟൛൫𝜃൯ൟ+ 𝑏2

Page 8: Teoria de estimação

2. Erro quadrático médio:

Em termos da estimação do erro 𝜃෨ 𝜀൫ 𝜃෨൯= 𝐸{ ൫𝜃෨− 𝑏൯2} + 𝑏2

Primer termo é a variância da estimação do erro 𝜃෨. Por tanto o erro quadrático médio mede tanto a variância, como o vicio de um estimador 𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio coincide com a variância do estimador.

Matriz de covariância da estimação do erro -> medida útil da qualidade de um estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais

𝐶𝜃෩= 𝐸൛ 𝜃෨∗ 𝜃෨𝑇ൟ= 𝐸{൫𝜃− 𝜃൯∗ ൫𝜃− 𝜃൯𝑇}

O erro quadrático médio se aplica a toda medida do erro escalar para todos os parâmetros estimados.

Page 9: Teoria de estimação

3. Eficiência

Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟൫𝜃1൯< 𝑉𝑎𝑟(𝜃2). Um estimador é chamado eficiente se usa otimamente a informação contida nas medições.

IMPORTANTE: existe um limite inferior para a matriz de covariância de erro de qualquer estimador baseado em medições disponíveis.

Este limite está dado pelo teorema de Cramer Rao do limite inferior, o qual prove um limite inferior para um parâmetro determinístico desconhecido.

Page 10: Teoria de estimação

3. Eficiência

Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos dados de medições x, então a matriz covariância de erro no estimador está delimitada inferiormente pela inversa da matriz de informação de Fisher J. 𝐸{൫𝜃− 𝜃൯∗ ൫𝜃− 𝜃൯𝑇|𝜃} ≥ 𝐽−1

Onde 𝐽= 𝐸൜ቂ𝑑𝑑𝜃 𝑙𝑛𝑝ሺ𝑥𝑇ȁ0𝜃ሻቃቂ𝑑𝑑𝜃 𝑙𝑛𝑝ሺ𝑥𝑇ȁ0𝜃ሻቃ𝑇ฬ𝜃ൠ Assume-se que 𝐽−1existe. As derivadas parciais devem existir e ser absolutamente integráveis.

O estimador deve ser não viciado para que se cumpra o teorema anterior.

Não pode ser aplicado a todas as distribuições. Também pode acontecer que não exista nenhum estimador que

alcance o limite inferior.

Page 11: Teoria de estimação

4. Robustez

Insensibilidade a erros de medição, e aos erros na especificação dos modelos paramétricos.

Quando os critérios de otimização crescem muito rápido, geralmente tem pobre robustez, porque uns poucos grandes erros individuais correspondentes aos valores atípicos nos dados podem quase exclusivamente determinar o valor do critério do erro. No caso de estimação da media, por exemplo, se pode utilizar a mediana das medições em lugar da média. Isto corresponde a utilizar o valor absoluto da função de otimização e resulta em um estimador significativamente robusto: o valor atípico não tem nenhuma influência.

Page 12: Teoria de estimação

4.3 Robustez

“O estimador é um estimador robusto do parâmetro se o não cumprimento dos supostos de partida nos que se baseia a estimação (normalmente, atribuir ao população um determinado tipo de função de distribuição que, em realidade, no é a correta), não altera de maneira significativa os resultados que este proporciona.”

Page 13: Teoria de estimação

4.3 MÉTODO DOS MOMENTOS

Page 14: Teoria de estimação

Método dos Momentos

Este método com frequência conduz a estimadores computacionalmente simples, pero tem algumas debilidades teóricas.

Vamos supor agora que há medições escalares T estatisticamente independentes ou amostras de dados x(1), x(2),….,x(T) com uma distribuição de probabilidade comum p(x|ѳ) caracterizada pelo parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2,…., 𝜃𝑚)𝑇.

𝛼𝑗 = 𝐸൛𝑥𝑗ห𝜃ൟ= න 𝑥𝑗𝑝ሺ𝑥ȁ0𝜃ሻ𝑑𝑥∞−∞ , 𝑗= 1,2,……

Onde 𝛼𝑗é o momento no ponto j, os parâmetros 𝜃 são constantes (desconhecidas). Os momentos 𝛼𝑗são funções dos parâmetros 𝜃.

Page 15: Teoria de estimação

Método dos MomentosPor outro lado, podem-se estimar os respectivos momentos diretamente desde as medidas, isto se conhece como momento amostral:

𝑑𝑗 = 1𝑇 [𝑥ሺ𝑖ሻ]𝑗𝑇𝑖=1

“A ideia básica por trás do método dos momentos é igualar os momentos teóricos 𝛼𝑗 com os estimados 𝑑𝑗.”

𝛼𝑗ሺ𝜃ሻ= 𝛼𝑗ሺ 𝜃1, 𝜃2,…., 𝜃𝑚ሻ= 𝑑𝑗

Se a equação anterior tem uma solução aceitável, o respectivo estimador é chamado estimador de momentos e é denotado por 𝜃𝑀𝑀.

Alternativamente se pode utilizar a teoria central dos momentos

𝜇𝑗 = 𝐸{ሺ𝑥− 𝛼1ሻ𝑗|𝜃}

Page 16: Teoria de estimação

Método dos MomentosE a respectiva estimação amostral central de momentos

𝑠𝑗 = 1𝑇− 1 [𝑥𝑇𝑖=1 ሺ𝑖ሻ− 𝑑1]𝑗

𝜇𝑗ሺ 𝜃1, 𝜃2,…., 𝜃𝑚ሻ= 𝑠𝑗, 𝑗= 1,2,…,𝑚

Exemplo 4.4

Assuma agora que x(1),x(2),….,x(T) são amostras independentes e identicamente distribuídas desde uma variável aleatória x tendo a pdf

𝑝ሺ𝑥ȁ0𝜃ሻ= 1𝜃2 exp [−ሺ𝑥−𝜃1ሻ𝜃2 ] Onde 𝜃1 < 𝑥< ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro 𝜃 = (𝜃1,𝜃2)𝑇usando o método dos momentos.

Page 17: Teoria de estimação

Método dos MomentosPara fazer isto primeiro se calculam os momentos teóricos

𝛼1 = 𝐸ሼ𝑥ȁ0𝜃ሽ=න𝑥𝜃2 expቈ−ሺ𝑥− 𝜃1ሻ𝜃2 𝑑𝑥=∞

𝜃1 𝜃1 + 𝜃2

𝛼2 = 𝐸ሼ𝑥2ȁ0𝜃ሽ= න𝑥2𝜃2 expቈ−ሺ𝑥− 𝜃1ሻ𝜃2 𝑑𝑥=∞

𝜃1 (𝜃1 + 𝜃2)2 + 𝜃22

Para obter os estimadores igualamos a 𝑑1 y 𝑑2

𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2 + 𝜃22 = 𝑑2

Resolvendo as duas equações:

𝜃1,𝑀𝑀= 𝑑1 − (𝑑2 − 𝑑12)1 2ൣ�

𝜃2,𝑀𝑀= (𝑑2 − 𝑑12)1 2ൣ� o 𝜃2,𝑀𝑀= −(𝑑2 − 𝑑12)1 2ൣ�

A segunda solução é rejeitada por que 𝜃2deve ser positivo.

Page 18: Teoria de estimação

Método dos Momentos“Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos respectivos momentos teóricos 𝛼𝑗. De forma semelhante, os momentos centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro momento central 𝜇𝑗.”

Uma desvantagem é que podem ser ineficientes. Não se podem fazer afirmações sobre o vicio e a consistência das estimações dadas pelo método de momentos.

Page 19: Teoria de estimação

4.4 MÉTODO DOS MÍNIMOS QUADRADOS

Page 20: Teoria de estimação

Método dos Mínimos Quadrados Método linear de mínimos quadrados:

O vector de dados 𝑥𝑇 é assumido como: 𝑥𝑇 = 𝐻𝜃+ 𝑣𝑇 4.35 𝜃 = vector de parâmetros, 𝑣𝑇 = componentes são os erros de medição desconhecidos 𝑣ሺ𝑗ሻ,𝑗= 1,…,𝑇. A matriz de observação H é assumida como conhecida. T é o número de medições e m número de parâmetros desconhecidos, assuma 𝑇≥ 𝑚. Adicionalmente, a matriz H tem rango máximo m.

Se m=T, 𝑣𝑇 = 0 e tem uma única solução 𝑥𝑇𝐻−1 = 𝜃; Se m > T tem soluções infinitas. Medições são ruidosas ou contem erros -> recomenda-se T > m.

Se T > m a equação não tem solução para 𝑣𝑇 = 0 (erros de medição 𝑣𝑇 são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que minimize os efeitos do erro.

Page 21: Teoria de estimação

Método dos Mínimos Quadrados

𝜀𝐿𝑆 = 12ԡ𝑣𝑇ԡ2 = 12ሺ𝑥𝑇 − 𝐻𝜃ሻ𝑇(𝑥𝑇− 𝐻𝜃) 4.36

𝜀𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do erro 𝜃− 𝜃

Minimizando 𝜀𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para determinar a estimação de mínimos quadrados 𝜃𝐿𝑆de 𝜃

ሺ𝐻𝑇𝐻ሻ𝜃𝐿𝑆 = 𝐻𝑇∗𝑥𝑇

𝜃𝐿𝑆 = ሺ𝐻𝑇∗𝑥𝑇ሻሺ𝐻𝑇𝐻ሻ−1 = 𝐻+𝑥𝑇 4.38

Por conveniência matemática, considerando o critério de os mínimos quadrados.

𝐻+= pseudo inversa de H (assumindo H com máximo rango m, e filas > colunas T>m)

Assumindo erro médio 𝐸ሼ𝑣𝑇ሽ= 0 -> estimador de mínimos quadrados é não viciado 𝐸൛𝜃𝐿𝑆ห𝜃ൟ= 𝜃

Page 22: Teoria de estimação

Método dos Mínimos QuadradosExemplo 4.5

Modelo linear para uma curva 𝑦ሺ𝑡ሻ= σ 𝑎𝑖∅𝑖(𝑡)𝑚𝑖=1 + 𝑣(𝑡) ; ∅𝑖(𝑡), i=1,2,…,m,

Assuma que estão disponíveis as medidas 𝑦ሺ𝑡1ሻ,𝑦ሺ𝑡2ሻ,…,𝑦ሺ𝑡𝑇ሻ Fazendo analogia com a equação de 𝑥𝑇. Onde o vector de parâmetros: 𝜃 = ሾ𝑎1,𝑎2,…,𝑎𝑚ሿ𝑇 Vector de dados: 𝑥𝑇 = [𝑦ሺ𝑡1ሻ,𝑦ሺ𝑡2ሻ,…,𝑦ሺ𝑡𝑇ሻ]𝑇 Vector 𝑣𝑇 = [𝑣ሺ𝑡1ሻ,𝑣ሺ𝑡2ሻ,…,𝑣ሺ𝑡𝑇ሻ]𝑇

Matriz de observação: 𝐻= ∅1(𝑡1) ∅2(𝑡1) ∅𝑚(𝑡1)∅1(𝑡2) ∅2(𝑡2) ∅𝑚(𝑡2)∅1(𝑡𝑇) ∅2(𝑡𝑇) ∅𝑚(𝑡𝑇)

Inserindo os valores numéricos em 𝑥𝑇 e H e computando o método dos mínimos quadrados estimar 𝑎𝑖𝐿𝑆

Page 23: Teoria de estimação

Método dos Mínimos QuadradosAs funções bases ∅𝑖ሺ𝑡ሻ são escolhidas para satisfazer as condiciones de ortogonalidade

∅𝑗(𝑡𝑖)∅𝑘(𝑡𝑖)𝑇𝑖=1 = ൜

1,𝑗= 𝑘0,𝑗≠ 𝑘

Isto representa as condições dos elementos de H, agora 𝐻𝑇𝐻= 𝐼. Isto simplifica a equação a 𝜃𝐿𝑆 = ሺ𝐻𝑇∗𝑥𝑇ሻ. Escrevendo esta equação para cada componente de 𝜃𝐿𝑆 é obtida uma estimação mínima quadrada do parâmetro 𝑎𝑖

𝑎ො��𝑖,𝐿𝑠 = ∅𝑖൫𝑡𝑗൯𝑦൫𝑡𝑗൯, 𝑖 = 1,…,𝑚𝑇𝑗=1

Page 24: Teoria de estimação

Método dos Mínimos Quadrados Estimadores de mínimos quadrados não lineais y generalizados

Mínimos quadrados generalizados: os mínimos quadrados pode ser generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e positiva. 𝜀𝑊𝐿𝑆 = ሺ𝑥𝑇− 𝐻𝜃ሻ𝑇𝑊(𝑥𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância 𝑊= 𝐶𝑣−1

Generalizando 𝜃𝑊𝐿𝑆 = ൫𝐻𝑇𝐶𝑣−1𝑥𝑇൯൫𝐻𝑇𝐶𝑣−1𝐻൯−1 (4.46) Estimador

gauss-markov ou o melhor estimador linear no viciado (BLUE) .

Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se 𝐶𝑣 = 𝜎2𝐼.

Aplica quando a medida do erro v(j) tem média igual a zero e é mutuamente independente e identicamente distribuída com a variância 𝜎2 ou também se não temos um conhecimento prévio da matriz de covariância 𝐶𝑣.

Page 25: Teoria de estimação

Método dos Mínimos Quadrados

Mínimos quadrados não lineares: 4.35 não é adequada para descrever a dependência entre 𝜃 y as medidas 𝑥𝑇. Por conseguinte, considera-se o seguinte modelo não linear: 𝑥𝑇 = 𝑓ሺ𝜃ሻ+ 𝑣𝑇

Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓ሺ𝜃ሻ é assumido como uma função escalar conhecida pelos componentes de 𝜃.

O critério 𝜀𝑁𝑊𝐿𝑆 é definido como : 𝜀𝑁𝐿𝑆 = ԡ𝑣𝑇ԡ2 = σ 𝑣(𝑗)2𝑗 -> 𝜀𝑁𝐿𝑆 = [𝑥𝑇− 𝑓ሺ𝜃ሻ]𝑇[𝑥𝑇− 𝑓ሺ𝜃ሻ]

Estimadores de mínimos quadrados não lineais y generalizados

O estimador não linear de mínimos quadrados 𝜃𝑁𝐿𝑆 é o valor de 𝜃 que minimiza 𝜀𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente, então deve-se usar métodos numéricos iterativos para encontrar o mínimo.

Page 26: Teoria de estimação

4.5 MÉTODO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Page 27: Teoria de estimação

Método de máxima verosimilitud (likelihood)O estimador de máxima verosimilitud (ML) assume que os parâmetros desconhecidos 𝜃 são constantes ou não há informação previa disponível sobre eles. O estimador ML tem muitas propriedades de optimização assintóticas que fazem que seja uma opção desejável especialmente quando o número de amostras é grande.

O estimador de máxima verosimilitud 𝜃𝑀𝐿 do parâmetro de vector 𝜃 é selecionado para ser o valor que maximize a função de verosimilitud 𝑝ሺ𝑥𝑇ȁ0𝜃ሻ= 𝑝(𝑥ሺ1ሻ,𝑥ሺ2ሻ,…,𝑥ሺ𝑇ሻ|𝜃) das medidas x(1),x(2),…,x(T).

Devido a que muitas funções de densidade contem uma função exponencial, é mais conveniente tratar com o log pela função de verosimilitud ln 𝑝(𝑥𝑇|𝜃).

Page 28: Teoria de estimação

Método de máxima verosimilitud (likelihood)Equação de verosimilitud:

𝛿𝛿𝜃 ln𝑝ሺ𝑥𝑇ȁ0𝜃ሻ|𝜃=𝜃 𝑀𝐿 = 0 4.50.

Solução=> estimador de máxima verosimilitud

A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a função de verosimilitud. Se a função é complexa, são obtidos muitos máximos y mínimos locais, se deve escolher o valor 𝜃𝑀𝐿 que corresponde ao máximo absoluto.

Geralmente o método ML se aplica a observações x estatisticamente independentes. Logo, a função de verosimilitud é igual a:

𝑝ሺ𝑥𝑇ȁ0𝜃ሻ= �� 𝑝(𝑥ሺ𝑗ሻ|𝜃)𝑇𝑗=1

Observe que tomando o logaritmo, o produto se desacopla na suma dos logaritmos σ ln𝑝(𝑥(𝑗)|𝜃)𝑗

Page 29: Teoria de estimação

Método de máxima verosimilitud (likelihood)Na prática, a carga computacional pode ser proibitiva -> usar aproximações para simplificar as equações de verosimilitud o de alguns métodos de estimação subótimos.

Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma variável escalar aleatória x com distribuição gaussiana com média µ e variância 𝜎2. Usando a função de verosimilitud pode ser escrita:

𝑝ሺ𝑥𝑇ȁ0𝜇,𝜎2ሻ= ሺ2𝜋𝜎2ሻ−𝑇 2ൣ�exp (− 12𝜎2 ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2)𝑇𝑗=1

Ou, ln𝑝ሺ𝑥𝑇ȁ0𝜇,𝜎2ሻ= lnቂሺ2𝜋𝜎2ሻ−𝑇 2ൣ�exp (− 12𝜎2 σ ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2)𝑇𝑗=1 ቃ

ln𝑝ሺ𝑥𝑇ȁ0𝜇,𝜎2ሻ= −𝑇2lnሺ2𝜋𝜎2ሻ− 12𝜎2 ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2𝑇𝑗=1

Ao derivar a função o primeiro termo é zero por que não depende de 𝜇

𝛿𝛿𝜇ln𝑝ሺ𝑥𝑇ȁ0𝜇Ƹ𝑀𝐿,𝜎ො��2𝑀𝐿ሻ= 1𝜎ො��2𝑀𝐿 ሾ𝑥ሺ𝑗ሻ− 𝜇Ƹ𝑀𝐿ሿ𝑇

𝑗=1 = 0

Page 30: Teoria de estimação

Método de máxima verosimilitud (likelihood)σ ሾ𝑥ሺ𝑗ሻሿ𝑇𝑗=1 − 𝑇𝜇Ƹ𝑀𝐿 = 0 ; 𝜇Ƹ𝑀𝐿 = 1𝑇σ ሾ𝑥ሺ𝑗ሻሿ𝑇𝑗=1

Para calcular 𝜎2𝑀𝐿 ln𝑝ሺ𝑥𝑇ȁ0𝜇,𝜎2ሻ= −𝑇2lnሺ2𝜋ሻ− 𝑇2lnሺ𝜎2ሻ− 12𝜎2 ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2𝑇

𝑗=1

Resolvendo a derivada o primeiro termo é 0

𝛿𝛿𝜎2 ln𝑝ሺ𝑥𝑇ȁ0𝜇Ƹ𝑀𝐿,𝜎ො��2𝑀𝐿ሻ= − 𝑇2𝜎ො��2𝑀𝐿+ 12൬1𝜎ො��2𝑀𝐿൰2 ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2𝑇

𝑗=1 = 0

Assim, 𝜎ො��2𝑀𝐿 = 1𝑇σ ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ2𝑇𝑗=1

Este último é um estimador viciado pela variância 𝜎2(assintoticamente não viciado por ser pequeno), enquanto que a média amostral 𝜇Ƹ𝑀𝐿 é um estimador não viciado pela média 𝜇.

Page 31: Teoria de estimação

Método de máxima verosimilitud (likelihood)Propriedades do estimador de máxima verosimilitud:

1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao como uma igualdade, este se pode determinar utilizando o método de máxima verosimilitud.

2. O estimador de máxima verosimilitud 𝜃𝑀𝐿é consistente. 3. O estimador de máxima verosimilitud é assintoticamente eficiente.

Isto significa que se alcança assintóticamente o limite inferior de Cramer-Rao para a estimação do erro

Page 32: Teoria de estimação

Método de máxima verosimilitud (likelihood)Exemplo 4.7:

Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável aleatória Gaussiana a derivada do log de a função de verosimilitud foi determinada anteriormente 𝛿𝛿𝜇ln𝑝ሺ𝑥𝑇ȁ0𝜇,𝜎2ሻ= 1𝜎2 ሾ𝑥ሺ𝑗ሻ− 𝜇ሿ𝑇

𝑗=1

Calculamos a informação Fisher

Considerando x(j) como independentes

Page 33: Teoria de estimação

Método de máxima verosimilitud (likelihood)

Partindo de 𝐸{൫𝜃− 𝜃൯|𝜃} ≥ 𝐼−1

O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer estimador não viciado 𝜇Ƹ pela média de densidade gausiana é:

𝐸ሼሺ𝜇− 𝜇Ƹሻȁ0𝜇ሽ≥ 𝐼−1 = 𝜎2𝑇

A média amostral satisfaz a desigualdade de Cramer-Rao e é um estimador eficiente para medições gaussianas independentes.

Page 34: Teoria de estimação

Método de máxima verosimilitud (likelihood)

O algoritmo de máxima expectativa (EM) permite o tratamento de problemas complexos de máxima verosimilitud que tem vários parâmetros e funções de alta não linearidade.

A desvantagem do EM é que pode permanecer travado em um máximo local ou sofrer de problemas de singularidade. Em contexto com métodos ICA o algoritmo EM tem sido utilizado para estimar densidades desconhecidas de fontes de sinales.

O algoritmo EM (Expectation Maximization) começa adivinhando os parâmetros das distribuições e os usa para calcular as probabilidades de que cada objeto pertença a um cluster e usa essas probabilidades para calcular de novo os parâmetros das probabilidades, até convergir. O cálculo das probabilidades é a parte de expectation. A etapa de calcular os valores dos parâmetros das distribuições, é maximization.

Page 35: Teoria de estimação

4.6 ESTIMAÇÃO BAYESIANA

Page 36: Teoria de estimação

Estimação BayesianaOs métodos anteriores assumem 𝜃 = constantes determinísticas. Neste método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é modelada usando a função de densidade de probabilidade previa 𝑝𝜃(𝜃), esta se assume como conhecida. Na prática não há nenhuma informação importante do parâmetro, mas pode assumir alguma forma útil da densidade previa.

A essência é a densidade posterior 𝑝𝜃|𝑥(𝜃|𝑥𝑇) dos parâmetros 𝜃 conhecendo os dados 𝑥𝑇, basicamente a densidade posterior contem toda a informação relevante dos parâmetros 𝜽.

Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar mediante dos métodos critério de erro quadrático médio ou escolher o máximo da densidade posterior.

Page 37: Teoria de estimação

Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros

aleatórios 𝜃𝑀𝑆𝐸 é selecionado minimizando 𝜀𝑀𝑆𝐸 = 𝐸ቄ൫𝜃− 𝜃൯2ቅ com respeito ao

estimador 𝜃.

Teorema 4.2:

Assumir que os parâmetros 𝜃 e as observações 𝑥𝑇 tem um conjunto de função de densidade de probabilidade 𝑝𝜃,𝑥(𝜃,𝑥𝑇) .

𝜃𝑀𝑆𝐸 = 𝐸ሼ𝜃|𝑥𝑇ሽ 4.67 𝜀𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado só com respeito a 𝜃, e depois respeito à medição do vector x: 𝜀𝑀𝑆𝐸 = 𝐸ቄ൫𝜃− 𝜃൯2

ቅ= 𝐸𝑥൜𝐸ቄ൫𝜃− 𝜃൯2|𝑥𝑇ቅൠ 𝐸ቄ൫𝜃− 𝜃൯2|𝑥𝑇ቅ= 𝜃𝑇𝜃 − 2𝜃𝑇𝐸ሼ𝜃|𝑥𝑇ሽ+ 𝐸ሼ𝜃𝑇𝜃|𝑥𝑇ሽ

Page 38: Teoria de estimação

Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros

aleatórios

Observando que 𝜃 é uma função das observações 𝑥𝑇, de modo que ele pode ser tratado como um vector não aleatório quando se calcula o valor esperado condicional. Derivando a equação anterior em relação a 𝜃 o resultado é

2𝜃𝑀𝑆𝐸 − 2𝐸ሼ𝜃|𝑥𝑇ሽ= 0

𝜃𝑀𝑆𝐸 = 𝐸ሼ𝜃|𝑥𝑇ሽ 𝐸{𝜃𝑀𝑆𝐸} = 𝐸𝑥൛ 𝐸ሼ𝜃|𝑥𝑇ሽൟ= 𝐸{𝜃}

Este resultado é válido para todas as distribuições nas quais o conjunto de distribuição 𝑝𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de ponderação é adicionada ao critério.

Page 39: Teoria de estimação

Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros

aleatórios Na prática este cálculo é difícil de fazer devido a que só se conhece o se assume a distribuição previa 𝑝𝜃(𝜃) e a distribuição condicional das observações 𝑝𝑥|𝜃(𝑥|𝜃) dado el parâmetro 𝜃.

Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade

posterior de Bayes: 𝑝𝜃|𝑥ሺ𝜃ȁ0𝑥ሻ= 𝑝𝑥|𝜃(𝑥𝑇|𝜃)𝑝𝜃(𝜃)𝑝𝑥(𝑥𝑇) 4.71

Onde 𝑝𝑥ሺ𝑥𝑇ሻ= 𝑝𝑥|𝜃ሺ𝑥𝑇ȁ0𝜃ሻ𝑝𝜃ሺ𝜃ሻ𝑑𝜃∞−∞ 4.72

Só em casos especiais pode-se obter analiticamente o valor de 4.67, por exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados 𝜃 = 𝐿𝑥𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.

Page 40: Teoria de estimação

Estimação Bayesiana Filtro Wiener

Considere o seguimento de um problema de filtro linear.

𝑧= [𝑧1,𝑧2,…,𝑧𝑚]𝑇 𝑤= [𝑤1,𝑤2,…,𝑤𝑚]𝑇

Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖,𝑖 = 1,…,𝑚 operando linearmente em z, a saída do filtro é: 𝑦= 𝑤𝑇𝑧

No filtro Wiener, a meta é determinar o filtro linear que minimize o erro quadrático médio.

Page 41: Teoria de estimação

Estimação Bayesiana Filtro Wiener

𝜀𝑀𝑆𝐸 = 𝐸ሼሺ𝑦− 𝑑ሻ2ሽ Entre a resposta desejada d e a saída Y do filtro. Calculando: 𝜀𝑀𝑆𝐸 = 𝐸ሼሺ𝑤𝑇𝑧− 𝑑ሻ2ሽ= 𝑤𝑇𝐸ሼ𝑧𝑧𝑇ሽ𝑤− 2𝑤𝑇𝐸{𝑧𝑑} + 𝐸{𝑑2} 𝜀𝑀𝑆𝐸 = 𝑤𝑇𝑅𝑧𝑤− 2𝑤𝑇𝑟𝑧𝑑 + 𝐸{𝑑2}

Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre o vector dados z e a resposta desejada d. Minimizando o erro quadrático médio com relação a w provê a solução ideal do filtro Wiener 𝑤ො��𝑀𝑆𝐸 =𝑅𝑧−1𝑟𝑧𝑑. El filtro Wiener é usualmente calculado diretamente resolvendo a equação linear. 𝑅𝑧𝑤ො��𝑀𝑆𝐸 = 𝑟𝑧𝑑

Na prática 𝑅𝑧 e 𝑟𝑧𝑑 são desconhecidos.

Page 42: Teoria de estimação

Estimação Bayesiana Estimador Máximo a posteriori (MAP)

O estimador MAP 𝜃𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃 que maximiza a densidade posterior 𝑝𝜃|𝑥(𝜃|𝑥𝑇) de 𝜃dadas las medidas 𝑥𝑇. O estimador MAP pode ser interpretado como o valor mais provável do vector de parâmetro 𝜃para los dados disponíveis 𝑥𝑇. Partindo de 4.72 como não depende do parâmetro 𝜃 e normalizando 4.71 𝑝𝜃|𝑥ሺ𝜃ȁ0𝑥ሻ= 𝑝𝑥|𝜃(𝑥𝑇|𝜃)𝑝𝜃(𝜃)

Para encontrar o estimador MAP é suficiente com encontrar o valor de 𝜃 que maximiza 4.71. O estimador MAP 𝜃𝑀𝐴𝑃se pode encontrar resolvendo a equação logarítmica de verosimilitud 𝛿𝛿𝜃ln𝑝(𝜃,𝑥𝑇) = 𝛿𝛿𝜃ln𝑝( 𝑥𝑇ȁ0𝜃ሻ+ 𝛿𝛿𝜃ln𝑝(𝜃) = 0

Page 43: Teoria de estimação

Estimação BayesianaSe a densidade 𝑝ሺ𝜃ሻ é uniforme para valores de 𝜃 para os quais 𝑝(𝑥𝑇|𝜃) é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos. Isto acontece quando não se dispõe de informação preliminar dos parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o estimador MAP e o ML são diferentes.

Exemplo 4.8

Assuma que tem T observações independentes x(1),…,x(T), sendo x uma quantidade escalar aleatória com distribuição guassiana, tendo por média 𝜇𝑥 e variância 𝜎2𝑥. O 𝜇𝑥 é uma variável aleatória gaussiana com média igual a zero e variância 𝜎2𝜇. Se assume que as variâncias são conhecidas.

Da equação de verosimilitud para estimadores MAP :

𝜇Ƹ𝑀𝐴𝑃 = 𝜎2𝜇𝜎2𝑥 + 𝑇𝜎2𝜇 𝑥(𝑗)𝑇𝑗=1

Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar 𝜎2𝜇tendendo a infinito, refletindo a incerteza de 𝜇

Page 44: Teoria de estimação

Estimação Bayesiana𝜇Ƹ𝑀𝐴𝑃 = 1𝑇 𝑥(𝑗)𝑇

𝑗=1

O estimador MAP tende à média amostral, coincidindo com o ML. Se T tende a infinito se obtêm o mesmo resultado, isto demostra que a influencia da informação preliminar decresce com o aumento das medições.

Se 𝜎2𝑥 ≫𝜎2𝜇, o numero de amostras T cresceria muito até que o MAP se aproxime ao valor limite. Em caso contrario o MAP convergiria rapidamente.

O método de MAP tem vantagem sobre o método de ML devido a que considera a informação previa dos parâmetros, porém é computacionalmente mais difícil de determinar devido a um segundo termo que aparece na equação de probabilidade. Por outra parte, tanto o ML e o MAP se obtêm das equações de probabilidade, evitando as integrações geralmente difíceis necessárias no cálculo da média mínima do estimador quadrado. O MAP apresenta bons resultados na prática.