Upload
nguyenthuy
View
213
Download
0
Embed Size (px)
Citation preview
Reconhecimento de padrões(etapas)
• Obtenção dos dados (imagens, vídeos, sinais)– Pré-processamento– Segmentação
• Extração de características
• Classificação
Obs.: ler capítulo 2 de Duda e Hart
Classificação• Reconhecimento de Padrões visa interpretar uma
informação (imagem por exemplo) através de um mapeamento (classificação) que relaciona objetos (conteúdo da imagem) com classes (significado do conteúdo).
• A classificação assume que objetos com características (forma, cor, textura) semelhantes pertencem a uma mesma classe (i.e., estão associados a um mesmo significado ou obedecem um mesmo padrão de características). Por isso essa classificação é denominada de reconhecimento de padrões.
Classificação• A escolha de um classificador depende não
somente do problema em questão, mas principalmente do conhecimento que se têm das informações (classes, rotulações, densidade de probabilidade, etc).
• Existem casos desde onde o modelo é conhecido, casos onde a distribuição de probabilidade é desconhecido e até aqueles que não se sabe nem quantas e quais classes existem.
Classificação
• Começaremos a estudar os classificadores Bayesianos considerando o caso ideal, onde se conhece a priori a estrutura fundamental de probabilidade das categorias.
• Embora este tipo de situação raramente ocorra na prática, isso nos permite determinar qual o classificador ideal (Bayesiano) que podemos comparar outros métodos.
Classificação
• Em alguns problemas, isto nos permite prever o erro que teremos ao generalizar para outros padrões.
• A Capítulo 3 de Duda e Hart (Maximum Likelihood and Bayesian Parameter Estimation) é dedicado aos casos quando a estrutura de probabilidade em relação às categorias não é conhecida.
Classificação
• Outros métodos tentam estimar uma função que separa as classes e o problema passa a ser o de encontrar os parâmetros dessa função, seja ela linear (Capítulo 5 de Duda e Hart) ou não.
• Nos casos onde não são conhecidos os rótulos das classes ou mesmo a quantidade de classes, algoritmos de agrupamento (clustering) são utilizados para classificação (Capítulo 10 de Duda e Hart).
ClassificaçãoTeoria de decisão Bayesiana
• Supondo que somos forçados a tomar uma decisão sobre qual o próximo peixe irá aparecer na esteira sem vermos ele.
• Faremos isso sem assumir qualquer risco de classificação incorreta e a única informação que temos é o valor das probabilidades anteriores.
• Se uma decisão deve ser tomada, é lógico usarmos a seguinte regra: decidir por ω1 se P(ω1) > P(ω2) e decidir por ω2 caso contrário.
ClassificaçãoTeoria de decisão Bayesiana
• Se P(ω1) é maior que P(ω2), nossa decisão em favor de ω1 ganhará sempre.
• Se P(ω1) = P(ω2) temos 50% de chance de escolher qualquer um deles.
• Tendo mais classes (tipos de peixes), a probabilidade de acertar a classe/tipo cairá bastante. Neste caso fica estranho usar somente esta suposição para "adivinhar" quais os próximos peixes.
ClassificaçãoTeoria de decisão Bayesiana
• Na maioria dos casos, não somos solicitados a tomar decisões com tão pouca informação.
• No nosso exemplo, poderíamos, por exemplo, usar uma medida de "claridade" (brilho) para melhorar a nossa classificação.
• Peixes diferentes irão produzir diferentes leituras de brilho e expressaremos essa variabilidade em termos probabilísticos.
ClassificaçãoTeoria de decisão Bayesiana
• Se considerarmos x como sendo uma variável aleatória contínua com distribuição condicional, expressamos como P(x | ω1).– Ou seja, sabemos a priori as probabilidades de ter
brilho x dado que é da classe ω1. também chamada de densidade de probabilidade para x condicional a ω1.
– A diferença entre P(x|ω1) and P(x|ω2) descreve a diferença de brilho entre as populações de robalo e salmão.
Teorema de Bayes• Em teoria da probabilidade o Teorema de Bayes
mostra a relação entre uma probabilidade condicional e a sua inversa, como por exemplo, a probabilidade de uma hipótese dada a observação de uma evidência e a probabilidade da evidência dada pela hipótese.
• Esse teorema representa uma das primeiras tentativas de modelar de forma matemática a inferência estatística, feita por Thomas Bayes.
Teorema de Bayes• O teorema de Bayes permite calcular a seguinte
probabilidade:
• Onde: P(A) e P(B) são as probabilidades a priori de A e B; P(B|A) e P(A|B) são as probabilidades a posteriori de B condicional a A e de A condicional a B respectivamente.
P ( A∣B)=P (B∣A)⋅P ( A)
P ( B)
Inferência Bayesiana• Descreve as incertezas de forma probabilística:
onde: H é uma hipótese dada uma evidência E.
P (H∣E )=P (E∣H )⋅P ( H )
P (E )
Exemplo• Em uma caixa, temos maçãs e peras distribuídas
igualmente, ou seja, 50% de cada um dos tipos;
• 60% das frutas são vermelhas e 40% verdes;
• Das maçãs, 75% são vermelhas e 25% são verdes;
• Ao se pegar uma fruta aleatoriamente e constatar que é vermelha, qual a probabilidade de ser maçã?
Exemplo• Em uma caixa, temos maçãs e peras distribuídas
igualmente, ou seja, 50% de cada um dos tipos;
• 60% das frutas são vermelhas e 40% verdes;
• Das maçãs, 75% são vermelhas e 25% são verdes;
• Ao se pegar uma fruta aleatoriamente e constatar que é vermelha, qual a probabilidade de ser maçã?
P ( M∣V )=P (V ∣M )⋅P ( M )
P (V )=
0.75⋅0.50.6
=0.625
Exemplo
maçã pera total
vermelho 75 45 120
verde 25 55 80
total 100 100 200
P ( Maçã∣Vermelho)=75/120=0.625
ClassificaçãoTeoria de decisão Bayesiana
• Para reconhecimento de padrões, as decisões do classificador levam em conta as probabilidades a posteriori de ocorrência de cada classe w
i (i = 1, 2,..., c), mediante uma
observação (característica) x de um dado objeto da base de dados Z.
ClassificaçãoTeoria de decisão Bayesiana
onde P(x|wi) é a densidade de probabilidade
condicionada à classe wi, P(w
i) é a probabilidade a
priori de wi, e P(x) é a densidade de probabilidade de x.
P (w i∣x )=P ( x∣wi)⋅P (wi)
P ( x)
ClassificaçãoTeoria de decisão Bayesiana
é o histograma normalizado de x com dimensão n (scatterogram) e P(x|w
i) é o
histograma normalizado de x dentro da classe w
i.
P ( x)=∑i=1
c
P ( x∣wi)⋅P (wi)
ClassificaçãoTeoria de decisão Bayesiana
• Um classificador Bayesiano deve, portanto, escolher a classe w
i cuja P(w
i|x) > P (w
j|x)
para todo i ≠ j, i,j = 1, 2,..., c.
• Esta escolha se baseia na probabilidade mínima de erro, o que torna o classificador de Bayes ótimo.
ClassificaçãoTeoria de decisão Bayesiana
• Sabendo que a cor da fruta é vermelha, qual a probabilidade de ser maçã? E de ser pera? P(M|V) > P(P|V) ?
• Dado o tamanho do peixe e a cor (brilho) a probabilidade de ser salmão é maior ou menor que ser robalo? P(w
i|x) > P (w
j|x)?
ClassificaçãoTeoria de decisão Bayesiana
• Para utilizar de mais do que uma característica, basta a substituição do escalar x pelo vetor de característica x, onde x pertence a um espaço euclidiano d-dimensional ℜd, chamado de espaço de características.
• Veremos agora ações que não sejam meramente uma classificação, mas também a possibilidade de rejeição, ou seja, a decisão de se recusar a tomar uma decisão em casos muito próximos. Esta indecisão é uma opção útil mas não é muito cara.
ClassificaçãoTeoria de decisão Bayesiana
• Formalmente, a função de perda afirma exatamente o custo de cada ação e é usada para converter uma determinação de probabilidade em uma decisão.
• As funções de custo nos permitem tratar situações nas quais alguns tipos de erros de classificação são mais caros que outros (muitas vezes discutiremos o caso mais simples, onde todos os erros são igualmente caros).
ClassificaçãoTeoria de decisão Bayesiana
• Seja w1,..., w
c o conjunto finito de c categorias e
α1,..., α
a o conjunto finito de a possíveis ações, a
função λ(αi|w
j) descreve a perda por ter tomado
uma ação αi quando a classe correta é w
j.
(lembrando...) P ( x)=∑i=1
c
P ( x∣w i)⋅P (w i)
ClassificaçãoTeoria de decisão Bayesiana
• Neste caso, a escolha de αi está associada a um
risco condicional médio (perda esperada):
R(αi∣x )=∑j=1
c
λ (αi∣w j)⋅P (w j∣x )
ClassificaçãoTeoria de decisão Bayesiana
• Neste caso, temos uma regra de decisãoα(x) ∈{ α
1(x), α
2(x), …, α
a(x) } com risco
global R=∫R(α(x)|x)P(x)dx, a qual escolhe α
i tal que R(αi|x) é mínimo.
– onde dx é a notação para um elemento de volume no espaço d-dimensional
ClassificaçãoTeoria de decisão Bayesiana
• Sejam w1 e w2 duas possíveis classes, e λij = λ(α
i|w
j) a
perda de escolhermos a classe wi quando a classe
verdadeira for wj. Supondo R(α
1|x) < R(α
2|x), a regra de
decisão escolhe w1. Esta escolha se baseia no fato que:
R(α1∣x)=λ11 P (w1∣x )+λ12 P (w2∣x)
R(α2∣x )=λ21 P (w1∣x)+λ22 P (w2∣x)
(λ21−λ11) P (x∣w1) P (w1)>(λ12−λ22) P (x∣w2) P (w2)
P (x∣w1)
P (x∣w2)>
λ12−λ22
λ21−λ11⋅
P (w2)
P (w1)
ClassificaçãoTeoria de decisão Bayesiana
• Sejam w1 e w2 duas possíveis classes, e λij = λ(α
i|w
j) a
perda de escolhermos a classe wi quando a classe
verdadeira for wj. Supondo R(α
1|x) < R(α
2|x), a regra de
decisão escolhe w1. Esta escolha se baseia no fato que:
R(α1∣x)=λ11 P (w1∣x )+λ12 P (w2∣x)
R(α2∣x )=λ21 P (w1∣x)+λ22 P (w2∣x)
(λ21−λ11) P (x∣w1) P (w1)>(λ12−λ22) P (x∣w2) P (w2)
P (x∣w1)
P (x∣w2)>
λ12−λ22
λ21−λ11⋅
P (w2)
P (w1)Razão de verosimilhança
Teoria de decisão BayesianaRisco mínimo
• Se λij = 1 para i ≠ j e λ
ij = 0, para i = j , então:
R(αi∣x )=∑j=1
c
λ11(α i∣w j)P (w j∣x)
R(αi∣x )=∑i≠ j
P (w j∣x )
R(αi∣x )=1−P (w i∣x )
Ou seja, decidimos por wi se P(w
i|x) > P(w
j|x), para todo j ≠ i.
Múltiplas categorias (classes)• Considerando o modelo canônico de um classificador:
• A função discriminante no classificador de Bayes é g
i(x) = P(w
i|x). No entanto, qualquer função f(g
i(x))
crescente pode substituir gi(x) sem alterar os resultados.
x
g1
g2
gc
g1(x)
g2(x)
gc(x)
Máximowi
Função discriminante• Em particular, estamos interessados na modificação f
2
para gi(x).
• Isso simplifica bastante os cálculos quando assumimos que p(x|w
i) é uma distribuição com fator exponencial (Normal,
Rayleigh, Maxwell, Gamma, Poisson,...).
•
g i=P (w i∣x)
g i=P ( x∣w i) P (wi)
P ( x)f 1(g i)=P ( x∣wi) P (w i)
f 2( g i)= ln( P (x∣w i))+ ln( P (wi))
Projeto de um classificador• O projeto do classificador envolve, portanto, estimar
p(x|wi) e P(w
i) para toda classe w
i, i=1, 2,..., c, com base
nas amostras do conjunto Z1 de treinamento.
• Os métodos se dividem em supervisionados (amostras de Z
1 são rotuladas), não-supervisionados (ignoramos o
rótulo das amostras), paramétricos (p(x|wi) tem forma
conhecida e definida por um vetor de parâmetros) e não-paramétricos (estimamos p(x|w
i) ou P(w
i|x) sem assumir
a forma ou assumimos que gi(x) tem forma conhecida
(linear, por exemplo).