of 19/19
1 PTC-5001 Reconhecimento de Padrões (aula2) 1 TEORIA DA DECISÃO BAYESIANA A teoria da decisão Bayesiana é fundamental em reconhecimento de padrões Objetivo: separar classes, mas de forma probabilística A decisão é baseada em probabilidades e nos custos envolvidos na decisão Para isso, as probabilidades devem ser conhecidas (normalmente estimadas) PTC-5001 Reconhecimento de Padrões (aula2) 2 O exemplo dos peixes poderia ser considerado como probabilístico PTC-5001 Reconhecimento de Padrões (aula2) 3 Enfoque probabilístico PTC-5001 Reconhecimento de Padrões (aula2) 4 Resumo Decisão Bayesiana por meio de exemplo Generalização da teoria Bayesiana Casos particulares Critérios para minimização do risco Funções discriminantes e superfícies de decisão Densidade normal e transformações lineares Funções discriminantes para densidade normal Erros e regiões de decisão Características discretas PTC-5001 Reconhecimento de Padrões (aula2) 5 PTC-5001 Reconhecimento de Padrões (aula2) 6 Uma primeira idéia: classificador utilizando apenas as probabilidades a priori Considerando o estado da natureza (classe) descrito pela variável aleatória Exemplo dos peixes: dois estados corvina = 1 e salmão = 2 • P(1 ) e P(2 ) probabilidades a priori (anteriores) (conhecimento anterior)

Objetivo TEORIA DA DECISÃO BAYESIANA - recpad.inforecpad.info/arquivos/aula2/aula2_2011.pdf · 1 PTC-5001 Reconhecimento de Padrões (aula2) 1 TEORIA DA DECISÃO BAYESIANA • A

  • View
    214

  • Download
    0

Embed Size (px)

Text of Objetivo TEORIA DA DECISÃO BAYESIANA - recpad.inforecpad.info/arquivos/aula2/aula2_2011.pdf · 1...

  • 1

    PTC-5001 Reconhecimento de Padres (aula2)

    1

    TEORIA DA DECISO BAYESIANA

    A teoria da deciso Bayesiana fundamental em reconhecimento de padres

    Objetivo: separar classes, mas de forma probabilstica

    A deciso baseada em probabilidades e nos custos envolvidos na deciso

    Para isso, as probabilidades devem ser conhecidas (normalmente estimadas)

    PTC-5001 Reconhecimento de Padres (aula2)

    2

    O exemplo dos peixes poderia ser considerado como probabilstico

    PTC-5001 Reconhecimento de Padres (aula2)

    3

    Enfoque probabilstico

    PTC-5001 Reconhecimento de Padres (aula2)

    4

    Resumo Deciso Bayesiana por meio de exemplo Generalizao da teoria Bayesiana Casos particulares Critrios para minimizao do risco Funes discriminantes e superfcies de deciso Densidade normal e transformaes lineares Funes discriminantes para densidade normal Erros e regies de deciso Caractersticas discretas

    PTC-5001 Reconhecimento de Padres (aula2)

    5 PTC-5001 Reconhecimento de Padres (aula2)

    6

    Uma primeira idia: classificador utilizando apenas as probabilidades a priori

    Considerando o estado da natureza (classe) descrito pela varivel aleatria Exemplo dos peixes: dois estados corvina = 1 e salmo = 2

    P(1) e P(2) probabilidades a priori (anteriores) (conhecimento anterior)

  • 2

    PTC-5001 Reconhecimento de Padres (aula2)

    7

    Classificador utilizando apenas as probabilidades a priori

    Regra de Deciso:

    Decida por 1 se P(1) > P(2), seno decida por 2

    Qual a utilidade?

    PTC-5001 Reconhecimento de Padres (aula2) 8

    Melhoria: classificador utilizando uma caracterstica (ou atributo) (feature)

    Ex.: x=luminosidade do peixe (varivel aleatria contnua)p(x|) funo densidade de probabilidade

    condicionada classe a funo densidade de probabilidade de x dado

    Exemplo dos peixes: a diferena entre p(x|1) e p(x|2) descreve a diferena de luminosidade entre as populaes de corvina e salmo

    PTC-5001 Reconhecimento de Padres (aula2)

    9

    p(x|1) e p(x|2)

    PTC-5001 Reconhecimento de Padres (aula2)

    10

    Resulta o problema

    Considere que se tem P(j) e p(x|j) para j = 1,2e se mede x (luminosidade) de um peixe

    Como esse conhecimento possibilita uma melhor classificao do peixe?

    PTC-5001 Reconhecimento de Padres (aula2)

    11

    Na verdade, queremos

    P(j|x)

    isto , a probabilidade da classe ser j,dada a luminosidade x do peixe

    PTC-5001 Reconhecimento de Padres (aula2)

    12

    Clculo de P(j|x)

    1 27 corvinas

    2 18 salmes

    x (discretizado)

    P(j,x) = P(x|j)P(j) = P(j|x)P(x)

    Resulta o ...

  • 3

    PTC-5001 Reconhecimento de Padres (aula2)

    13

    Teorema de BayesTem-se p(j,x) = P(j|x) p(x)

    p(j,x) = p(x|j) P(j) onde p(j,x) a funo densidade de probabilidade conjuntaResulta

    xpPxp

    xP jjj

    |

    |

    jj

    j Pxpxpcom

    2

    1|

    PTC-5001 Reconhecimento de Padres (aula2)

    14

    Nomenclatura Posterior

    P(j|x) = probabilidade do estado da natureza (classe) ser j, dado x

    Verossimilhanap(x|j) = verossimilhana de j em relao a x , isto ,

    a classe j para a qual p(x|j) maior, amais verossmil (para iguais P(j))

    Evidncia p(x) = apenas um fator de escala

    posterior = verossimilhana anterior / evidncia

    PTC-5001 Reconhecimento de Padres (aula2)

    15

    Considerando p(x|1) e p(x|2) ...

    PTC-5001 Reconhecimento de Padres (aula2)

    16

    Resulta P(j|x) para P(1)=2/3 e P(2)=1/3

    PTC-5001 Reconhecimento de Padres (aula2)

    17

    Como fazer a deciso por Bayes?Parece natural a regra

    Se P(1|x) > P(2|x) escolha 1Se P(2|x) > P(1|x) escolha 2

    Seno 1 ou 2

    PTC-5001 Reconhecimento de Padres (aula2)

    18

    Para justific-la, calcula-se a probabilidade de erro para um determinado x observado

    P(erro|x) = P(1|x) se decidimos por 2P(2|x) se decidimos por 1

    Considerando a regra de deciso: Escolha a classe j com maior P(j|x)

    P(erro|x) = min(P(1|x),P(2|x))

  • 4

    PTC-5001 Reconhecimento de Padres (aula2)

    19

    Qual a probabilidade mdia de erro?

    Quanto menor P(erro|x), menor P(erro)

    Como P(erro|x) = min(P(1|x),P(2|x))

    A deciso por Bayes minimiza a probabilidade de erro

    dxxpxerroPdxxerroperroP

    |,

    PTC-5001 Reconhecimento de Padres (aula2)

    20

    Outra forma da regra de deciso de Bayes

    Tem-se

    Note que p(x) apenas um fator de escalaPortanto,

    Decida por 1 se

    Seno decida por 2

    2211 || PxpPxp

    xpPxp

    xP jjj

    |

    |

    PTC-5001 Reconhecimento de Padres (aula2)

    21

    Teoria da deciso BayesianaGeneralizao

    PTC-5001 Reconhecimento de Padres (aula2)

    22

    Teoria da deciso Bayesiana(caractersticas contnuas)

    Generalizao

    Vetor de caractersticas x Rd (espao euclideano de caractersticas)

    Vrias classes {1, 2,..., c} Vrias aes {1, 2,..., a} Funo perda (i|j) descreve a perda (custo)

    de tomar a ao i quando o estado da natureza j

    PTC-5001 Reconhecimento de Padres (aula2)

    23

    Vrias classes {1, 2,..., c} e vetor x

    Bayes

    xx

    xp

    PpP jjj

    ||

    jjc

    jPppcom |)(

    1xx

    PTC-5001 Reconhecimento de Padres (aula2)

    24

    Risco

    Suponha que se observe x, que se tome a ao i, e o verdadeiro estado da natureza seja j

    perda (i|j)

    Considerando todos os estados da natureza, a perda esperada (risco) em se tomar a ao i

    o risco condicional

    xx |||1

    j

    c

    jjii PR

    x|iR

  • 5

    PTC-5001 Reconhecimento de Padres (aula2)

    25

    Risco total

    O risco total R a perda esperada para uma determinada regra de deciso

    onde (x) a funo de deciso que para cada x assume um valor 1.... aSe para cada x, escolhermos (x)= i de modo que R((x)|x) seja mnimo

    o risco total ser minimizado

    xxxx dpRR |

    PTC-5001 Reconhecimento de Padres (aula2)

    26

    Regra de deciso de Bayes (risco)

    Para minimizar o risco total, calcule R(i|x) para i=1,...,a, e ento escolha a ao i para a

    qual R(i|x) seja mnimo

    O risco total resultante chamado Risco de Bayes R*

    xx |||1

    j

    c

    jjii PR

    PTC-5001 Reconhecimento de Padres (aula2)

    27

    Teoria da deciso BayesianaCasos particulares

    PTC-5001 Reconhecimento de Padres (aula2)

    28

    Classificao em duas categorias

    Sejam as aes 1 corresponde a decidir por 12 corresponde a decidir por 2

    Considerando

    e simplificando a notao: i,j = (i|j) , resulta

    xx |||1

    j

    c

    jjii PR

    xxx ||| 22,111,11 PPR xxx ||| 22,211,22 PPR

    PTC-5001 Reconhecimento de Padres (aula2)

    29

    Classificao em duas categorias

    Regra de deciso:Escolha 1 se R(1|x) < R(2|x)

    Ou utilizando Bayes

    com 2,1- 1,1 > 0 e 1,2- 2,2 > 0

    xx || 22,22,111,11,2 PP

    222,22,1111,11,2 || PpPp xx

    PTC-5001 Reconhecimento de Padres (aula2)

    30

    Classificao em duas categorias

    Outra forma: isolando a dependncia de x em

    Decida 1 se

    onde

    a razo de verossimilhana

    1

    2

    1,11,2

    2,22,1

    2

    1

    ||

    PP

    pp

    xx

    222,22,1111,11,2 || PpPp xx

    2

    1

    ||

    xx

    pp

  • 6

    PTC-5001 Reconhecimento de Padres (aula2)

    31

    A regio do espao de x que se decide por i RiPTC-5001 Reconhecimento de Padres

    (aula2)32

    Classificao por taxa mnima de erro

    Se ao i corresponde a classificar em i ao correta i=j

    erro ij Vamos procurar a regra de deciso que

    minimiza a probabilidade de erro (taxa de erro) Para isso, deve-se calcular

    xx |||1

    j

    c

    jjii PR

    PTC-5001 Reconhecimento de Padres (aula2)

    33

    Classificao por taxa mnima de erro

    Nesse caso a funo perda de interesse chamada simtrica ou zero-um, ou seja

    i,j = 0 se i = j i,j = 1....c i,j = 1 se i j

    todos os erros tem o mesmo custo

    PTC-5001 Reconhecimento de Padres (aula2)

    34

    Classificao por taxa mnima de erro

    Calculando o risco condicional

    onde P(i|x) a probabilidade condicional que aao i seja correta

    xxxx |1||||1

    iij

    jj

    c

    jjii PPPR

    xx |1| ii PR

    PTC-5001 Reconhecimento de Padres (aula2)

    35

    Classificao por taxa mnima de erro

    Resulta a regra de deciso (Bayes)

    Decida por i se P(i|x) > P(j|x) para todo j i

    e a taxa de erro ser mnima!

    PTC-5001 Reconhecimento de Padres (aula2)

    36

    Critrios para minimizao do risco

  • 7

    PTC-5001 Reconhecimento de Padres (aula2)

    37

    Critrio Minimax

    Minimiza o mximo risco para uma faixa de probabilidades a priori

    PTC-5001 Reconhecimento de Padres (aula2)

    38

    Critrio Neyman-Pearson

    Minimiza risco total sujeito a uma restrio.

    Isso pode ocorrer quando:a) h um recurso fixo para determinada ao ib) no se pode classificar erroneamente um padro

    de estado da natureza i mais que determinadafreqnciaEx.: lei governamental pode-se errar no mximo

    1% na classificao do salmo Tem soluo analtica para distribuio gaussiana e

    algumas outras

    PTC-5001 Reconhecimento de Padres (aula2)

    39

    Classificadores, funes discriminantes e superfcies de deciso

    PTC-5001 Reconhecimento de Padres (aula2)

    40

    Classificadores, funes discriminantes e superfcies de deciso

    De um ponto de vista mais geral, pode-se considerar os classificadores de padres representados por conjuntos de

    funes discriminantes gi(x)

    de forma a atribuir um vetor x a classe i(regio Ri do espao de x) se

    gi(x) > gj(x) para todo j i

    PTC-5001 Reconhecimento de Padres (aula2)

    41

    Resulta o conceito: Classificador = mquina que calcula c funes discriminantes e escolhe a classe correspondente ao maior discriminante

    PTC-5001 Reconhecimento de Padres (aula2)

    42

    Classificador Bayesiano

    gi(x) = - R(i|x)

    onde a funo discriminante mxima corresponde ao risco mnimo

    Caso da taxa mnima de erro

    gi(x) = P(i|x)

  • 8

    PTC-5001 Reconhecimento de Padres (aula2)

    43

    A escolha da funo discriminante no nica Pode-se aplicar em gi(x) uma funo

    monotonicamente crescente f(gi(x))

    c

    jjj

    iiii

    Pp

    PpPg

    1|

    ||

    x

    xxx

    iii Ppg |xx

    iii Ppg ln|ln xx

    PTC-5001 Reconhecimento de Padres (aula2)

    44

    Regies e fronteiras de deciso

    Note queQualquer regra de deciso divide o espao de caractersticas em c regies de deciso R1...Rcseparadas por fronteiras de deciso

    PTC-5001 Reconhecimento de Padres (aula2)

    45

    Fronteiras de deciso separam as regies de deciso

    PTC-5001 Reconhecimento de Padres (aula2)

    46

    Caso de duas classes

    um classificador dicotomizador No lugar de utilizar duas funes discriminantes g1 e

    g2 e atribuir x a 1 se g1>g2, utiliza-seg(x) = g1(x) - g2(x)

    com a regra: Decida por 1 se g(x) > 0

    Seno decida por 2 O classificador calcula apenas uma funo discriminante g(x) e classifica de acordo com o sinal da funo

    PTC-5001 Reconhecimento de Padres (aula2)

    47

    Caso de duas classes

    Formas da funo discriminante para taxa mnima de erro

    xxx || 21 PPg

    2

    1

    2

    1 ln||ln

    PP

    ppg

    xxx

    PTC-5001 Reconhecimento de Padres (aula2)

    48

    Densidade normal

  • 9

    PTC-5001 Reconhecimento de Padres (aula2)

    49

    Densidade normal

    Classificador de Bayes necessita de p(x|i) e P(i)

    Densidade normal (ou gaussiana) multivarivel- Frequentemente um modelo adequado

    (teorema do limite central)- Modela situaes onde o vetor de caractersticas x

    de uma classe i contnuo e aleatoriamente corrompido a partir de um prottipo i

    - Interesse analticoPTC-5001 Reconhecimento de Padres

    (aula2)50

    Densidade normal

    Teorema do limite central

    O efeito resultante da soma de um grande nmero de perturbaes aleatrias e independentes (com qq. distribuio) resulta numa distribuio gaussiana

    PTC-5001 Reconhecimento de Padres (aula2)

    51

    Densidade normal

    Densidade de uma varivel N(,2)

    onde a mdia

    e a varincia

    dxxxpx

    dxxpxx

    222

    2

    21exp

    21

    xxp

    PTC-5001 Reconhecimento de Padres (aula2)

    52

    PTC-5001 Reconhecimento de Padres (aula2)

    53

    Densidade normal multivarivel Densidade normal para d dimenses p(x)~N(, )

    onde x = vetor coluna de d componentes = vetor mdia = matriz de covarincia (dxd)|| = determinante de e -1 = inversa de (x - )t = transposto de (x - )

    a distncia de Mahalanobis (quadrtica) xxx 12 td

    xx

    x 1

    21

    221exp

    ||2

    1 td

    p

    PTC-5001 Reconhecimento de Padres (aula2)

    54

    Matriz de covarincia

    com

    sempre simtrica e positiva semi-definida(y yT y 0)

    Vamos considerar sempre positiva definida ii a varincia de xi ij a covarincia de xi e xj (mede a correlao) Se xi e xj no so correlacionados ento ij = 0 Se todos ij = 0 p(x)= p(x1) p(x2)... p(xd)

    ii x

    xxxxxx dptt jjiiji xx

  • 10

    PTC-5001 Reconhecimento de Padres (aula2)

    55

    Alguns fatos sobre distribuio gaussiana

    completamente caracterizada pelos seus dois primeiros momentos: mdia () e covarincia ()

    As densidades marginais p(xi) , p(xi , xj) , etc.so gaussianas

    Se as componentes de x no so correlacionadas, resulta p(x)= p(x1) p(x2)... p(xd)

    ou seja, variveis aleatrias gaussianas no-correlacionadas so tambm estatisticamente independentes

    Funes lineares de variveis aleatrias gaussianas so tambm gaussianas

    PTC-5001 Reconhecimento de Padres (aula2)

    56

    Transformaes lineares

    Seja y = At x onde A uma matriz d x kSe p(x) ~N(, ) ento p(y) ~N(At, AtA)

    Particularmente, se k=1 (vetor) e fazendo A = a y=at x um escalar que representa a projeo de x em aata representa a varincia da projeo de x em a

    PTC-5001 Reconhecimento de Padres (aula2)

    57 PTC-5001 Reconhecimento de Padres (aula2)

    58

    Transformaes lineares

    Diagonalizao

    Como uma matriz real simtrica ela pode ser sempre diagonalizada por uma transformao ortonormal

    y = t x onde a matriz cujas colunas so autovetores ortonormais de (logo t = I)

    Assim, existem coordenadas nas quais as componentes de uma varivel aleatria gaussiana so estatisticamente independentes

    PTC-5001 Reconhecimento de Padres (aula2)

    59

    Transformao Whitening

    possvel transformar uma distribuio gaussiana arbitrria numa esfrica, isto , que possui uma matriz de covarincia proporcional matriz identidade I

    Se a matriz cujas colunas so autovetores ortonormais de , e a matriz diagonal dos autovalores correspondentes, ento a transformao

    resulta numa distribuio com matriz de covarincia igual a matriz identidade

    21

    Aw

    PTC-5001 Reconhecimento de Padres (aula2)

    60

    Distncia de Mahalanobis

    Amostras obtidas de uma populao gaussiana tendem a se situar num aglomerado (cluster) cujo centro determinado por e forma determinada por

    Os pontos de igual densidade de probabilidade possuem distncia de Mahalanobis d(x) constante, onde

    Basta ver em xxx 12 td

    xx

    x 1

    21

    221exp

    ||2

    1 td

    p

  • 11

    PTC-5001 Reconhecimento de Padres (aula2)

    61 PTC-5001 Reconhecimento de Padres (aula2)

    62

    Os contornos de igual densidade de probabilidade so hiperelipsides (de distncia de Mahalanobis constante)

    O volume desses hiperelipsides medem o espalhamento das amostras em relao a mdia

    Os eixos principais dos hiperelipsides so determinados pelos autovetores de (descritos por )

    Os comprimentos desses eixos so determinados pelos autovalores (de )

    PTC-5001 Reconhecimento de Padres (aula2)

    63

    Eixos principais dos hiperelipsides

    PTC-5001 Reconhecimento de Padres (aula2)

    64

    Funes discriminantes para densidade normal

    PTC-5001 Reconhecimento de Padres (aula2)

    65

    Funes discriminantes para densidade normal

    Lembre-se que a escolha da funo discriminante no nica

    c

    jjj

    iiii

    Pp

    PpPg

    1

    |

    ||

    x

    xxx

    iii Ppg |xx

    iii Ppg ln|ln xx

    PTC-5001 Reconhecimento de Padres (aula2)

    66

    Funes discriminantes para densidade normal

    Densidade normal p(x) ~N(, )

    Funo discriminante mais adequada

    Resulta

    iii Ppg ln|ln xx

    iiiitii Pdg ln||ln

    212ln

    221 1 xxx

    xx

    x 1

    21

    221exp

    ||2

    1 td

    p

  • 12

    PTC-5001 Reconhecimento de Padres (aula2)

    67

    Funes discriminantes para densidade normal

    Caso 1: i= 2 I

    Caractersticas (no correlacionadas) estatisticamente independentesCada caracterstica tem varincia 2

    matriz de covarincia 2 I

    Os pontos de igual densidade de probabilidade pertencem a superfcies hiperesfricas

    PTC-5001 Reconhecimento de Padres (aula2)

    68

    A funo

    simplifica

    com

    iii Pg ln2||||

    2

    2

    xx

    itii xxx 2||||

    iiiitii Pdg ln||ln

    212ln

    221 1 xxx

    PTC-5001 Reconhecimento de Padres (aula2)

    69

    Note que Se x estiver eqidistante de dois vetores mdia,

    ento a deciso tima ser a favor da classe que tiver maior probabilidade a priori

    Se as probabilidades a priori forem idnticas, ento a deciso tima ser a favor da classe de mdia mais prxima

    iii Pg ln2||||

    2

    2

    xx

    PTC-5001 Reconhecimento de Padres (aula2)

    70

    Desenvolvendo a expresso

    Observe que o termo quadrtico independente de i discriminante linear

    iititti Pg i ln221

    2 xxxx

    iii Pg ln2||||

    2

    2

    xx

    PTC-5001 Reconhecimento de Padres (aula2)

    71

    Discriminante linear

    ou

    wi0 o limiar (threshold, bias) da classe i

    0itii wg xwx

    ii w 21

    iitii Pw ln21

    20

    iititti Pg i ln221

    2 xxxx

    PTC-5001 Reconhecimento de Padres (aula2)

    72

    Um classificador que utiliza uma funo discriminante linear chamado de

    mquina linear

    As superfcies de deciso so hiperplanos

    resultantes de gi(x) = gj(x)

  • 13

    PTC-5001 Reconhecimento de Padres (aula2)

    73

    De gi(x)=gj(x) ou

    Resulta

    Com

    00 jtjjitii wgwg xwxxwx

    00 xxw t

    ji w

    jiji

    jiji P

    P

    x

    ln

    ||||21

    2

    2

    0

    PTC-5001 Reconhecimento de Padres (aula2)

    74

    Considerando

    Estas eq. definem um hiperplano que passa por x0 e ortogonal ao vetor

    Logo o hiperplano separando Ri e Rj ortogonal a linha que une as mdias

    Note se P(i) = P(j) resulta

    Se P(i) P(j) o ponto x0 se afasta da mdia mais provvel

    ji w

    ji x 21

    0

    00 xxw t

    ji w jiji

    jiji P

    P

    x

    ln

    ||||21

    2

    2

    0

    PTC-5001 Reconhecimento de Padres (aula2)

    75 PTC-5001 Reconhecimento de Padres (aula2)

    76

    PTC-5001 Reconhecimento de Padres (aula2)

    77

    Analisando por outro ngulo

    Note que se P(i) a mesma para todas as c classes, ento de

    resulta

    iii Pg ln2||||

    2

    2

    xx

    22

    2||||

    i

    igxx

    PTC-5001 Reconhecimento de Padres (aula2)

    78

    Classificador baseado na distncia mnima

    Para classificar um vetor caracterstica x, mea a distncia euclideana de x a cada um dos c vetores mdia,

    e atribua x classe da mdia mais prxima

    Cada vetor mdia pode ser considerado um prottipo (template) de sua classe (template matching)

    |||| ix

  • 14

    PTC-5001 Reconhecimento de Padres (aula2)

    79

    Caso 2: i=

    Matrizes de covarincias idnticas, mas arbitrrias Amostras de mesma densidade de probabilidade

    pertencem a aglomerados hiperelipsides de igual tamanho e forma, cada um deles centrado na sua mdia

    De

    Resulta iitii Pg ln21 1 xxx

    iiiitii Pdg ln||ln

    212ln

    221 1 xxx

    PTC-5001 Reconhecimento de Padres (aula2)

    80

    Expandindo

    resulta

    Com

    Como esses discriminantes so lineares, as fronteiras de deciso so tambm hiperplanos

    0itii wg xwx

    ii w1

    iitii Pw ln21 1

    0

    iti xx 1

    PTC-5001 Reconhecimento de Padres (aula2)

    81

    Assim, se as regies Ri e Rj so contguas, a fronteira entre elas

    come

    Note que o hiperplano separando Ri e Rj no em geral ortogonal a linha entre as mdias.

    Probabilidades a priori iguais x0 no ponto mdio entre as mdias seno x0 se afasta da mdia mais provvel

    00 xxw t

    ji w 1

    jij

    i

    jit

    jiji P

    P

    x

    ln121

    10

    PTC-5001 Reconhecimento de Padres (aula2)

    82

    PTC-5001 Reconhecimento de Padres (aula2)

    83

    Classificador baseado na distncia mnima

    Similarmente ao caso 1, se P(i) a mesma para todas as c classes, ento

    Para classificar um vetor caracterstica x, mea a distncia de Mahalanobis

    de x a cada um dos c vetores mdia, e atribua x classe da mdia mais prxima

    itiig xxx 121

    iti xx 1

    PTC-5001 Reconhecimento de Padres (aula2)

    84

    Caso 3: i arbitrrio Tem-se

    que pode ser escrita como (funo quadrtica)

    onde

    Portanto, as superfcies de deciso so hiperqudricas: hiperplanos, hiperesferas, hiperelipsides, hiperparabolides, hiperhiperbolides

    0itiiti wg xwxWxx1

    21 ii W iii w

    1 iiiitii Pw ln||ln21

    21 1

    0

    iiiitii Pdg ln||ln

    212ln

    221 1 xxx

  • 15

    PTC-5001 Reconhecimento de Padres (aula2)

    85

    Essas superfcies no precisam ser simplesmente conectadas

    PTC-5001 Reconhecimento de Padres (aula2)

    86

    PTC-5001 Reconhecimento de Padres (aula2)

    87 PTC-5001 Reconhecimento de Padres (aula2)

    88

    As fronteiras de deciso podem ser complexas

    PTC-5001 Reconhecimento de Padres (aula2)

    89

    Exemplo: regies de deciso para dados gaussianos de duas dimenses

    PTC-5001 Reconhecimento de Padres (aula2)

    90

    Note que

  • 16

    O ponto mdio entre a mdias est em [3 2]t, mas o vrtice da parbola est em [3 1,83]t !!!

    PTC-5001 Reconhecimento de Padres (aula2)

    91 PTC-5001 Reconhecimento de Padres (aula2)

    92

    Erros e regies de decisoLimites de erro

    PTC-5001 Reconhecimento de Padres (aula2)

    93

    Erros

    Considere um classificador Bayesiano ou outro Duas classes e duas regies R1 e R2 no-timas Existem 2 modos que o erro de classificao pode

    ocorrera) x atribudo a R2, mas a classe verdadeira 1b) x atribudo a R1, mas a classe verdadeira 2

    2112 ,, RPRPerroP xx

    PTC-5001 Reconhecimento de Padres (aula2)

    94

    Erros

    Desenvolvendo

    2112 ,, RPRPerroP xx

    221112 || PRPPRP xx

    1

    222

    11 ||RR

    dPpdPp xxxx

    PTC-5001 Reconhecimento de Padres (aula2)

    95 PTC-5001 Reconhecimento de Padres (aula2)

    96

    Erros (vrias classes)

    Mais fcil calcular P(acerto)

    Bayes escolhe regies de modo que o integrando seja mximo para todo x

    xx

    xx

    dPp

    PRPRPacertoP

    i

    c

    i Rii

    i

    c

    iii

    c

    iii

    1

    11

    |

    |,

  • 17

    PTC-5001 Reconhecimento de Padres (aula2)

    97

    Limites de erro

    No caso gaussiano, os clculos das probabilidades de erro podem ser muito complicados, especialmente para grandes dimenses, por causa da natureza descontnua das regies de deciso

    xx dPpacertoP ic

    i Rii

    1

    |

    Simplifica-se: no se utilizam os limites de integrao dependendes das fronteiras de deciso

    Assim, no caso de duas classes a integral

    pode ser aproximada de modo a fornecer o limite superior de erro

    Essas aproximaes resultam noLimite de Chernoff

    Limite de BhattacharyyaPTC-5001 Reconhecimento de Padres

    (aula2)98

    xxxxx dperroPderroperroP

    |,

    A partir de

    utilizando a desigualdade min[a,b] = 0 e 0

  • 18

    PTC-5001 Reconhecimento de Padres (aula2)

    103

    Teoria da deciso de Bayes - caractersticas discretas

    Componentes discretas de x com m valores (v1...vm) p(x|j) impulsiva

    onde

    Frmula de Bayes

    k

    jkj PP || vxxx

    xx

    xP

    PPP jjj

    || j

    c

    jj PPPcom

    1

    |xx

    x

    xxx jj Pdp ||

    PTC-5001 Reconhecimento de Padres (aula2)

    104

    Risco condicional R(i|x)

    Da mesma forma que para variveis contnuas:

    Para minimizar o risco total, escolha a ao i para o qual R(i|x) mnimo, ou seja

    * = arg i min[R(i|x)]

    PTC-5001 Reconhecimento de Padres (aula2)

    105

    Caractersticas binrias independentes Duas classes e x = (x1,....,xd)t com xi = 0 ou 1

    pi = Pr[xi = 1| 1] e qi = Pr[xi = 1| 2]

    Assumindo xi independentes, escreve-se P(x|j) como

    A razo de verossimilhana

    ii xid

    i

    xi ppP

    11

    1 1|x iix

    i

    d

    i

    xi qqP

    11

    2 1|x

    ii x

    i

    i

    xd

    i i

    i

    qp

    qp

    PP

    1

    12

    1

    11

    ||

    xx

    PTC-5001 Reconhecimento de Padres (aula2)

    106

    A partir de

    funo discriminante linear em xi

    onde

    i=1,...,d

    21

    1ln

    11ln1ln

    PP

    qpx

    qpxg

    d

    i i

    ii

    i

    ii

    x

    d

    iii wxwgou

    10x

    ii

    iii pq

    qpw

    11

    ln 2

    1

    10 ln1

    1ln

    PP

    qpw

    d

    i i

    i

    2

    1

    2

    1 ln||ln

    PP

    ppg

    xxx

    0wg t xwx

    PTC-5001 Reconhecimento de Padres (aula2)

    107

    Decide 1 se g(x)>0 e 2 se g(x) qi , ento no caso de xi=1, h uma contribuio de wi votos para 1

    Se pi < qi h uma contribuio de |wi| votos para 2

    d

    iii wxwg

    10x

    ii

    iii pq

    qpw

    11

    ln

    PTC-5001 Reconhecimento de Padres (aula2)

    108

    Os valores de x aparecem nos vrtices de um hipercubo de dimenso d

    A superfcie de deciso um hiperplano que separa os vrtices de 1 dos vrtices de 2

  • 19

    PTC-5001 Reconhecimento de Padres (aula2)

    109

    Exemplo: Dados binrios de 3 dimenses 2 classes 3 caractersticas binrias independentes probabilidades conhecidas P(1)= P(2)=0.5

    pi=0.8 e qi=0.5 para i=1,2,3

    Resulta

    3863.18.015.0

    5.018.0ln11ln

    ii

    iii qq

    ppw

    75.25.0

    5.0ln5.018.01lnln

    11ln

    3

    12

    1

    10

    i

    d

    i i

    i

    PP

    qpw

    PTC-5001 Reconhecimento de Padres (aula2)

    110

    A figura deve ser corrigida para w0 = -2.75

    PTC-5001 Reconhecimento de Padres (aula2)

    111

    O plano g(x) = 0 mostrado na figura Note que a fronteira coloca pontos com duas ou mais

    respostas sim (xi=1) na classe 1, porque essa classe tem maior probabilidade de ter qualquer caracterstica com valor 1

    Suponha que p1= p2= 0.8 , p3= 0.5 e q1= q2= q3= 0.5Resulta que x3 no fornece nenhuma informao sobre as classes (a fronteira de deciso paralela a x3)

    Note que h uma faixa de posies da fronteira que deixa as classes imutveis