51
Aprendizagem Bayesiana Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Embed Size (px)

Citation preview

Page 1: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizagem BayesianaAprendizagem Bayesiana

Francisco CarvalhoDI-UFPE

Page 2: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Métodos BayesianosMétodos Bayesianos

Fornece algoritmos práticos de aprendizagem

Aprendizagem Bayesiana ingenua

Aprendizagem de Redes Bayesianas

Combina conhecimento a priori (probabilidade a priori ou incondicional) com dados de observação

Requer probabilidades à priori

Page 3: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Teorema de BayesTeorema de Bayes

P(h): probabilidade a priori da hipótese h

P(D): probabilidade a priori dos dados de treinamento D

P(h/D): probabilidade de h dado D

P(D/h): probabilidade de D dado h

)()()/(

)/(DP

hPhDPDhP

Page 4: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Escolha de hipótesesEscolha de hipóteses

Geralmente deseja-se a hipótese mais provável observados os dados de treinamento

Hipótese de maior probabilidade a posteriori hMAP

Hipótese de máxima verossimilhança hML

)()/(maxarg)()()/(

maxarg

)/(maxarg

hPhDPDP

hPhDP

DhPh

Hh

Hh

HhMAP

)/(maxarg iHh

ML hDPhi

Page 5: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aplicação do Teorema de Bayes: Aplicação do Teorema de Bayes: Diagnóstico MédicoDiagnóstico Médico

•Seja

M=doença meningite

S= dor de cabeça

•Um Doutor sabe:

P(S/M)=0.5

P(M)=1/50000

P(S)=1/20

P(M/S)=P(S/M)P(M)

P(S)

=0,5*(1/50000)=0,002

1/20

•A probabilidade de uma pessoa ter meningite dado que ela está com dor de cabeça é 0,02% ou ainda 1 em 5000.

Page 6: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Fórmulas Básicas de ProbabilidadeFórmulas Básicas de Probabilidade

Regra do Produto: Probabilidade de uma conjunção de dois eventos A e B

Regra da Soma: Probabilidade de uma disjunção de dois eventos A e B

Teorema da Probabilidade Total: Se os eventos A1,,An

são mutuamente exclusivos e formam uma partição do evento certo

)()/()()/()( APABPBPBAPBAP

)()()()( BAPBPAPBAP

n

1iii APABPBP )()/()(

Page 7: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Teorema da Probabilidade TotalTeorema da Probabilidade Total

B1

B2

B3 B6

B5B4

A

k

kk BPBAPAP )()/()(

Page 8: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Teorema da Multiplicação de Teorema da Multiplicação de ProbabilidadesProbabilidades

Esse resultado permite calcular a probabilidade de ocorrênciasimultânea de vários eventos a partir das probabilidadescondicionais.

)()/()( 1n11n1nn1 AAPAAAPAAP

)()/()/()( 1121n1nn1 APAAPAAAPAAP

Page 9: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Algoritmo de aprendizagem da Algoritmo de aprendizagem da Probabilidade Máxima à Posteriori - MAPProbabilidade Máxima à Posteriori - MAP

1. Para cada hipótese h H, calcule a probabilidade a posteriori

2. Escolha a hipótese hMAP de maior probabilidade à posteriori

)()()/(

)/(DP

hPhDPDhP

)/(maxarg DhPhHh

MAP

Page 10: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Classificação mais provável Classificação mais provável de uma nova instânciade uma nova instância

Dada uma nova instância x, qual é a sua classificação mais provável? hMAP(x) não é a classificação mais provável

Considere,

Três hipóteses: P(h1/D) = 0.4, P(h2/D) = 0.3 e P(h3/D) = 0.3

Dada uma nova instância x, Suponha: h1(x) = +, h2(x) = - e h3(x) = -

A classificação mais provável de x: -

Page 11: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Classificador Bayesiano ÓtimoClassificador Bayesiano Ótimo

Um novo exemplo pode ser classificado como vj V, a probabilidade de que a classificação correta seja vj

Classificação Bayesiana ótima

Hh

iijj

i

DhPhvPDvP )/()/()/(

Hh

iijVv

ij

DhPhvP )/()/(maxarg

Page 12: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Classificador Bayesiano ÓtimoClassificador Bayesiano Ótimo

Exemplo. P(h1/D) = 0.4, P(-/h1) = 0, P(+/h1) = 1

P(h2/D) = 0.3, P(-/h1) = 1, P(+/h1) = 0

P(h3/D) = 0.3, P(-/h3) = 1, P(+/h1) = 0

Portanto

e

40DhPhPHh

ii

i

.)/()/(

60DhPhPHh

ii

i

.)/()/(

Hh

iijVv

ij

DhPhvP )/()/(maxarg

Page 13: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Classificador Bayesiano IngênuoClassificador Bayesiano Ingênuo

Junto com as árvores de decisão, redes neurais, vizinhos mútuos, um dos métodos de aprendizagem mais práticos

Quando usa-lo Quando disponível um conjunto de treinamento

médio ou grande Os atributos que descrevem as instâncias forem

condicionalmente independentes dada uma classificação

Aplicações de Sucesso Diagnóstico Classificação de documentos textuais

Page 14: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Classificador Bayesiano IngênuoClassificador Bayesiano Ingênuo

Suponha uma função de classificação f: X V, onde cada instância x é descrita pelos atributos {a1, , an}

O valor mais provável de f(x) é

Suposição Bayesiana Ingênua Classificador Bayesiano Ingênuo

)()/,,(maxarg),,(

)()/,,(maxarg

),,/(maxarg

jjn1Vv

n1

jjn1

Vv

n1jVv

MAP

vPvaaPaaP

vPvaaP

aavPv

j

j

j

i

jijn1 vaPvaaP )/()/,,(

i

jijVv

NB vaPvPvj

)/()(maxarg

Page 15: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Algoritmo Bayesiano IngênuoAlgoritmo Bayesiano Ingênuo

Aprendizagem_Bayesiana_Ingênua(exemplos)

Para cada vj

P’(vj) estimativa de P(vj)

Para cada valor ai de cada atributo a

P’(ai/vj) estimativa de P(ai/vj)

Classificador_Novas_Instancias(x)

xa

jijVv

NB

ij

vaPvPv )/(')('maxarg

Page 16: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Dia Tempo Temp. Humid.Dia Tempo Temp. Humid. Vento Vento JogarJogarD1 Sol Quente Alta Fraco NãoD2 So Quente Alta Forte NãoD3 Coberto Quente Alta Fraco SimD4 Chuva Normal Alta Fraco SimD5 Chuva Frio Normal

Fraco NãoD6 Chuva Frio Normal

Forte NãoD7 Coberto Frio Normal Forte SimD8 Sol Normal Alta Fraco NãoD9 Sol Frio Normal Fraco SimD10 Chuva Normal Normal Fraco Sim

D11 Sol Frio Alta Forte ?

Classificador bayesiano ingênuo: Classificador bayesiano ingênuo: exemploexemplo

P(Sim) = 5/10 = 0.5 P(Não) = 5/10 = 0.5 P(Sol/Sim) = 1/5 = 0.2 P(Sol/Não) = 3/5 = 0.6 P(Frio/Sim) = 2/5 = 0.4 P(Frio/Não) = 2/5 = 0.4 P(Alta/Sim) = 2/5 = 0.4 P(Alta/Não) = 3/5 = 0.6 P(Forte/Sim) = 1/5 = 0.2 P(Forte/Não) = 2/5 = 0.4 P(Sim)P(Sol/Sim) P(Frio/Sim) P(Alta/Sim) P(Forte/Sim) = 0.0032 P(Não)P(Sol/Não)P(Frio/Não) P(Alta/Não) P(Forte/Não) = 0.0288 Jogar_Tenis(D11) = Não

Page 17: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Algoritmo BayesianoAlgoritmo BayesianoIngênuo : DificuldadesIngênuo : Dificuldades

Suposição de independência condicional quase sempre violada

Mas funciona surpreendentemente bem

O que acontece se nenhuma das instancias classificadas como vj tiver o valor ai?

i

jijn1 vaPvaaP )/()/,,(

0)v/a('P)v('P0)v/a('Pi

jijji

Page 18: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Algoritmo BayesianoAlgoritmo BayesianoIngênuo : DificuldadesIngênuo : Dificuldades

Solução típica

Número de exemplos para os quais v = vj

Nc número de exemplos para os quais v = vj e a = ai

P é a estimativa à priori para P’(ai/vj)

M é o peso dado à priori (número de exemplos “virtuais”)

mn

pmn)v/a('P c

ji

Page 19: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Redes BayesianasRedes Bayesianas

Interesse Suposição de independência condicional muito

restritiva Mas sem esse tipo de suposição em algum nível

o problema se torna intratável

Redes Bayesianas descrevem independência condicional entre subconjuntos de variáveis Permite a combinação do conhecimento a priori

sobre a independência entre variáveis com os dados observados

Page 20: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Independência CondicionalIndependência Condicional

X é condicionalmente independente de Y dado Z se a distribuição de probabilidade de X é independente do valor de Y dado o valor de Z

Exemplo: Trovão é condicionalmente independente de Chuva, dado Relâmpago P(Trovão/ Chuva, Relâmpago) = P(Trovão/

Relâmpago) Regra do Produto:

)zZ/xX(P)zZ,yY/xX(Pz,y,x kikjiiii

)Z/X(P)Z,Y/X(P

)Z/Y(P)Z/X(P

)Z/Y(P)Z,Y/X(P)Z/Y,X(P

Page 21: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Redes BayesianasRedes Bayesianas

Tempestade Ônibus de Turismo

Fogo no Acampamento

Trovão Fogo na floresta

Raio

Page 22: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Redes BayesianasRedes Bayesianas

T,O T,O T, O T, O

FC 0.4 0.1 0.8 0.2

FC 0.6 0.9 0.2 0.8

Fogo no Acampamento

A rede representa um conjunto de asserções de independência condicional Cada nó é condicionalmente independente dos

seus não descendentes, dados os seus predecessores imediatos

Grafo acíclico direto

Page 23: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Redes BayesianasRedes Bayesianas

Representa a distribuição de probabilidade conjunta entre todas as variáveis Exemplo, P(Tempestade, , Fogo na Floresta) Em geral

Onde Predecessores(Yi) significa predecessores imediatos de Yi no grafo

A distribuição conjunta é definida pelo gafo mais os P(yi / Predecessores(Yi))

n

1iiin1 ))Y(sedecessorePr/y(P)y,,y(P

Page 24: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Redes Bayesianas: representação do Redes Bayesianas: representação do conhecimento para raciocínio com conhecimento para raciocínio com

incertezaincerteza

Representa 3 tipos de conhecimento do domínio:• relações de independência entre variáveis aleatórias (graficamente);• probabilidades a priori de algumas variáveis;• probabilidades condicionais entre variáveis dependentes.

Conhecimento representado:• pode ser aprendido a partir de exemplos• reutilizando parte dos mecanismos de raciocínio

Permite calcular eficientemente:• probabilidades a posteriori de qualquer variável aleatória(inferência);• usando para isso uma definição recursiva do teorema de Bayes.

Page 25: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Estrutura de uma rede bayesianaEstrutura de uma rede bayesiana

Cada variável aleatória (VA) é representada por um nó da rede

Cada nó (VA) recebe conexões dos nós que têm influência direta (seus pais) sobre ele. (Tarefa fácil para o especialista)

Cada nó possui uma tabela de Probabilidades Condicionais que quantifica a influência dos seus pais sobre ele. (Difícil para o especialista)

O grafo é acíclico

Page 26: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Construção (manual) de uma rede Construção (manual) de uma rede bayesianabayesiana

Escolher variáveis relevantes que descrevam o domínio;

Escolher uma ordem para as variáveis; Enquanto tiver variáveis sobrando:

• pegar uma variável e adicionar um nó na rede para ela;• criar links dos nós anteriormente inseridos que satisfaçam a

independência condicional;• definir a tabela de probabilidade condicional para a variável.

Page 27: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo simples de rede bayesiana Exemplo simples de rede bayesiana (cont.)(cont.)

Roubo Terremoto

Alarme

JohnCalls MaryCalls

P(T)

0,002

P(R)

0,001

R T P(A)

T T 0,95 T F 0,94 F T 0,29 F F 0,001

A P(J)

T 0,90F 0,05

A P(M)

T 0,70F 0,01

Page 28: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Decomposição da Probabilidade ConjuntaDecomposição da Probabilidade Conjunta

121 ,,,| nn xxxxP

121 ,,, xPxxxP n 213 ,| xxxP 12 | xxP

X1

X2

X3

Xn

Essa decomposição deixa clara a necessidade de a rede bayesiana ser um grafo acíclico

Page 29: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Tipos de conhecimentoTipos de conhecimento

Causal• Refletem a direção conhecida de causalidade no mundo:

para algumas propriedades do mundo percepções são geradas.

• ex, P(DorDeDente|Cárie), P(MaryCalls|Alarme) Diagnóstico

• Infere a presença de propriedades escondidas diretamente da percepção.

• Produzem conclusões fracas.• ex, P(Ca’rie|DorDeDente), P(Alarme|MaryCalls)

Page 30: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Ordenar nós de uma rede bayesianaOrdenar nós de uma rede bayesiana

Algoritmo de construção apresentado especifica a ordem

Raízes sempre causais, folhas sem influência causal sobre nenhuma outra variável

Se não perde:• concisão da rede• eficiência computacional (pior caso volta a distribuição de

probabilidade conjunta)

Page 31: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo de rede bayesiana Exemplo de rede bayesiana não puramente causalnão puramente causal

Vamos usar o exemplo do alarme com a seguinte ordem de inserção dos nós:• MaryCalls, JohnCalls, Alarme, Roubo e Terremoto.

Roubo

Terremoto

Alarme

JohnCalls

MaryCalls

Page 32: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo de rede bayesiana Exemplo de rede bayesiana não puramente causal (cont.)não puramente causal (cont.)

Problemas:• A figura possui duas conexões a mais;• julgamento não natural e difícil das probabilidades;

Tendo uma rede puramente causal, teríamos um número menor de conexões

Podemos piorar ainda mais a nossa configuração da rede, seguindo a seguinte ordem de criação:• MaryCalls, JohnCalls, Terremoto, Roubo e Alarme.

Page 33: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo de rede bayesiana Exemplo de rede bayesiana não puramente causal (cont.)não puramente causal (cont.)

Roubo

Terremoto

Alarme

JohnCalls

MaryCalls

Page 34: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Versatilidade das redes bayesianasVersatilidade das redes bayesianas

Redes Bayesianas oferecem 4 tipos de inferência:• Causal (da causa para o efeito)

P(JohnCalls/Roubo) = 0,86

Roubo Alarme JohnCalls

Evidência Query

• Diagnóstico (do efeito para a causa) P(Roubo/JohnCalls) = 0,016

JohnCalls Alarme Roubo

EvidênciaQuery

Page 35: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Versatilidade das redes bayesianasVersatilidade das redes bayesianas

• Intercausal (entre causas com um efeito comum) P(Roubo/Alarme) = 0,376 P(Roubo/Alarme Terremoto) = 0,373

• Mista (combinando duas ou mais das de cima) P(Alarme/JohnCalls Terremoto) = 0,03 Este é um uso simultâneo de inferência causal e diagnóstico.

Roubo Alarme Terremoto

Query Evidência

JohnCalls Alarme Terremoto

Evidência EvidênciaQuery

Page 36: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Inferência em Redes BayesianasInferência em Redes Bayesianas

Como inferir as probabilidades dos valores de uma ou mais variáveis na rede, à partir das probabilidades dos valores das outras variáveis A rede Bayesiana contém toda a informação

necessária para essa inferência Quando se trata de apenas uma variável, a

inferência é trivial No caso geral, o problema é NP hard

Na prática, pode-se alcançar-la de várias formas Métodos exatos de inferência funcionam bem

para algumas estruturas de rede Métodos de tipo Monte Carlo “simulam” a rede

aleatoriamente para obter soluções aproximadas

Page 37: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizado em redes bayesianasAprendizado em redes bayesianas

4 problemas de aprendizagem:• Estrutura conhecida, completamente observável

as tabelas de probabilidade condicionada podem ser estimadas usando o conjunto de exemplos com classificador ingênuo? de Bayes

• Estrutura desconhecida, completamente observável o problema é construir a topologia da rede. Busca no espaço de

estruturas.

• Estrutura conhecida, variáveis escondidas caso parecido com aprendizado em redes neurais

• Estrutura desconhecida, variáveis escondidas não se conhece algoritmos para este tipo de problema

Page 38: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo da tarefa de aprendizagemExemplo da tarefa de aprendizagem

Roubo Terremoto

Alarme

JohnCalls MaryCalls

P(T)0,002

P(R)0,001

R T P(A)T T ?T F ?F T ?T T ?

A P(J)T ?F ?

A P(M)T ?F ?

Page 39: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprender probabilidades com estrutura Aprender probabilidades com estrutura fixafixa

Humanos acham fácil dizer o que causa o que, mas acham difícil colocar números nos links.

Tarefa de aprendizagem• Dados:

relações de independência entre variáveis aleatórias (estrutura) probabilidades a priori das variáveis “de entrada” probabilidades a posteriori de variáveis “de saída”

• Calcular: probabilidades condicionais das variáveis dependentes

2 algoritmos principais:• gradiente ascendente de P(D|Hi) - muito parecido com

aprendizagem de pesos em redes neurais• algoritmo EM (Estimação Média)• ambos iterativos e sujeito a encontrar mínimo local

Page 40: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizagem de Redes BayesianasAprendizagem de Redes Bayesianas

Variantes da tarefa de aprendizagem A estrutura da rede pode ser conhecida ou

desconhecida O conjunto de treinamento pode fornecer valores

para todas as variáveis da rede ou para somente algumas

Se a estrutura é conhecida e todas as variáveis observadas Então é tão fácil como treinar um classificador

Bayesiano ingênuo

Page 41: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizagem de Redes BayesianasAprendizagem de Redes Bayesianas

Suponha a estrutura conhecida e variáveis parcialmente observáveis Exemplo, observa-se fogo na Floresta,

Tempestade, Ônibus de turismo, mas não Raio, Fogo no Acampamento

Problema similar o treinamento de uma rede neural com variáveis ocultas

Aprende-se a tabela de probabilidades condicionais de cada nó usando o algoritmo do gradiente ascendente

O sistema converge para a rede h que maximiza localmente P(D/h)

Page 42: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Gradiente Ascendente p/ Redes Gradiente Ascendente p/ Redes BayesianasBayesianas

Seja wijk uma entrada na tabela de probabilidade condicional para a variável Yi na rede

Wijk = P(Yi = yij/Predecessores(Yi) = lista uik de valores)

Exemplo, se Yi = Fogo no Acampamento, então uik pode ser {Tempestade = T, Ônibus de Turismo = F}

Aplicar o gradiente ascendente repetidamente1. Atualizar todos os wijk usando os dados de

treinamento D

2. Normalizar os wijk para assegurar

e

Dd ijk

ikijhijkijk w

duyPww

)/,(

1wj

ijk 1w0 ijk

Page 43: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Aprendizagem em Redes BayesianasAprendizagem em Redes Bayesianas

O algoritmo EM também pode ser usado. Repetir:1. Calcule as probabilidades das variáveis não

observadas, supondo h verdadeira2. Calcule novo wijk que maximize E[ln P(D/h)], onde

D agora inclui tanto as variáveis observadas como as probabilidades calculadas das não observadas

Quando a estrutura é desconhecida Tópico de pesquisa ativo ...

Page 44: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Sumário de Redes BayesianasSumário de Redes Bayesianas

Combina conhecimento a priori com dados observados

O impacto do conhecimento a priori (quando correto) é a redução da amostra de dados necessários

Área de pesquisa ativa Passar de variáveis Booleanas para variáveis

numéricas Distribuições em vez de tabelas Lógica de primeira ordem no lugar de

proposicional Métodos de inferência mais efetivos

Page 45: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Expectation Maximization (EM)Expectation Maximization (EM)

Quando usar: Os dados são observáveis apenas parcialmente Aprendizagem não supervisionada (Clustering,

os grupos são desconhecidos) Aprendizagem Supervisionada (alguns valores de

algumas variáveis não são observados Alguns usos

Treinamento das redes Bayesianas Clustering etc

Page 46: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Geração de Dados a partir de k Geração de Dados a partir de k GaussianasGaussianas

Cada instancia x é gerada1. Escolhendo uma das k Gaussianas com

probabilidade uniforme Gerando uma instancia aleatoriamente de

acordo com essa Gaussiana

Page 47: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

EM para a estimação de k médiasEM para a estimação de k médias

Dado Instancias de x geradas pela mistura de k

distribuições Gaussianas Médias desconhecidas <1, , k> das k

Gaussianas Não se sabe que instancia xi foi gerada por qual

Gaussiana Determine

Estimativas de Máxima Verossimilhança de <1, , k>

Considere a descrição completa de cada instancia comoyi = <xi, zi1, zi2>, onde

zij é 1 se xi for gerado pela j-ésima Gaussiana

xi observável

zij não observável

Page 48: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

EM para a estimação de k médiasEM para a estimação de k médias

EM algoritmo: Selecione aleatoriamente uma hipótese inicial h = < 1, 2>

Passo E: Calcule o valor esperado E[zij] de cada variável oculta zij, supondo válida a hipótese atual h = < 1, 2>

n

1i

2ni2

2ji2

2

1nni

jiij

x2

1

x2

1

xxp

xxpzE

exp

exp

)/(

)/(

Page 49: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

EM para a estimação de k médiasEM para a estimação de k médias

Passo M: Calcule a nova hipótese de Máxima Verossimilhança h’ = < ’1, ’2>, supondo que o valor assumido por cada variável oculta zij é o valor esperado E[zij] já calculado. Troque h = < 1, 2> por h’ = < ’1, ’2>.

Converge para um máximo de verossimilhança h local e fornece estimativas para as variáveis ocultas zij

m

1iij

m

1iiij

j

zE

xzE

Page 50: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Exemplo de aplicação bem sucedida de Exemplo de aplicação bem sucedida de redes bayesianas: PathFinderredes bayesianas: PathFinder

Sistema especialista p/ diagnóstico de doenças nós linfáticos.• PathFinder I - sistema baseado em regras sem incerteza.

• PathFinder II comparando vários métodos de representação da incerteza (teoria de crença de Dempster-Shafer, coeficientes de incerteza,etc) modelo bayesiano simplificado (todas as doenças assumidas independentes) melhor de todos (10% de erro)

• PathFinder III - modelo bayesiano melhorado com aquisição mais cuidadosa das probabilidades a priori com especialistas

• PathFinder IV - Redes Bayesianas melhor do que os especialistas cujo conhecimento foi codificado

Page 51: Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

BibliografiaBibliografia

Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach (AIMA) Prentice-Hall. Pages 436-458, 588-593

An Introduction to Baysean Networks Mitchell, T. & (1997): Machine Learning, McGraw-Hill. Cap.6 Fayyad et al. (1996): Advances in knowledge discovery and

data mining, AAAI Press/MIT Press. Cap.11 Pearl, J. (1988) Probabilistic Reasoning in Inteligent Systems