O Processo de KDD Seleção e Pré-processamento Data Mining Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados

O Processo de KDD

Seleção e Pré-processamento

Data Mining

Interpretação e Avaliação

Consolidação de dados

Conhecimento

p(x)=0.02

Warehouse

Fontes de dados

Padrões & Modelos

Dados Preparados

DadosConsolidados

SUMÁRIO - AULA1

O processo de KDD

SUMÁRIO - Aula 2

Algoritmo ID3

usando

Medida de Entropia

e

Medida de Ganho

SUMÁRIO - Aula 3

Aprendizagem Indutiva

Definição de Hipótese

Representação da Hipótese por Árvore de Decisão

Expressividade das Árvores de Decisão

Avaliação da Eficiência de um Algoritmo

SUMÁRIO - Aula 4

Problemas Apropriados

Diferença entre lógica proposicional e lógica e primeira ordem

Aplicações

Questões Práticas:- Overfitting- Atributos com valores contínuos- Dados ausentes- Atributos multivalorados

SUMÁRIO - AULA 5

- Como evitar “overfitting” - Poda da árvore

1. Abordagem do conjunto de validação e do conjunto de teste:

- Reduced-Error Pruning - Rule Post-Pruning

- Precisão de uma regra.

- Teoria da aprendizagem computacional

- número de exemplos do conjunto de treinamento.

SUMÁRIO - AULA 6

Avaliação de Hipóteses - Vamos discutir medidas para avaliar hipóteses aprendidas.

1. Ao avaliar hipóteses aprendidas estaremos interessados em estimar a precisão com que ela classificará futuros exemplos.

2. Gostaríamos de saber os erros prováveis desta estimativa de precisão.

Machine Learning - Tom M. Mitchell

X = espaço de possíveis instâncias, ou exemplos (Ex. conjunto de todas as pessoas) sobre o qual várias funções objetivos podem ser definidas (Ex. pessoas que planejam comprar novos eskis este ano). Suponha que diferentes instâncias em X possam ser encontradas com diferentes freqüências: existe alguma distribuição de probabilidade desconhecida D que define a probabilidade de encontrar cada instância em X. “D não diz nada sobre se x é um exemplo positivo ou negativo”

Nomenclatura:

A tarefa de aprendizagem consiste em aprender o conceito ou função objetivo f considerando um espaço

H de possíveis hipóteses.

Exemplos de treino da função objetivo f são fornecidos ao “aprendiz” por um “supervisor” que extrai cada

instância x independentemente, de acordo com a distribuição D. Cada instância x junto com seu valor

objetivo f(x) correto é passado ao aprendiz.

Erro Amostral e Erro Verdadeiro

1. Taxa de erro da hipótese sobre a amostra disponível de exemplos. 2. Taxa de erro da hipótese sobre o conjunto total de exemplos que ocorrem com uma certa distribuição D.

Definição: O Erro amostral da hipótese h com relaçãoa função objetivo f e a amostra de dados S é:

Sx

S xhxfn

herro ))(),((1

)(

onde n é o número de exemplos em S, e a quantidade é 1 se , e 0 caso contrário.

))(),(( xhxf)()( xhxf

Definição: O Erro Verdadeiro da hipótese h com relação afunção objetivo f e a distribuição D, é a probabilidade que h classifique errado uma instância retirada aleatoriamente de acordo com a distribuição D:

)]()([Pr)( xhxfherro

DxD

O que usualmente desejamos saber é o erro verdadeiro da hipótese, porque este é o erro que podemos esperar ao aplicar a hipótese aexemplos futuros.

Segundo Lavrac - 1999(Dissertação de Mestrado de Alan K. Gomes)

Passando uma árvore para regras e considerando as regras na forma geral:

HeadBody

ou

CabeçaCorpo

Usaremos a abreviatura:

HB

Obs: Essas regras preditivas podem ser induzidas porsistemas de aprendizado proposicional.

Medidas de avaliação de regras pretendem dar uma indicação

da força(hipotética) de associação(entre Cabeça e Corpo) expressa por uma regra.

Na tabela a seguir denota o conjunto de exemplos para os quaiso corpo da regra é verdade e denota o seu complemento, ou seja, o conjunto de exemplos para os quais o corpo da regra é falso. e referem-se similarmente à cabeça da regra. denota então .

B _B

H_H

HB BH

xX || denota a cardinalidade do conjunto X.

A frequência relativa é utilizada como uma estimativa daprobabilidade , ou seja,

xf)(XP

n

xfXP x )(

Notações:

Tabela de Contingência para uma regra R: B H

Ela avalia cada regra que faz parte da hipótese induzida.

H_H

B_B

bh_hb

hb_ __

bh

b_b

h_h n

= número de exemplos do conjunto de teste para os quais B é verdade e H é verdade.

bh_hb = número de exemplos para os quais B é verdade e H

é falso.

n = número total de exemplos.

Exemplos de Estimativas Probabilidades

n

bhfHBPBHP bh )()(

)(1)(___

BHPBHP

n

bh

n

hbBHPHBPBP

___

)()()(

n

bh

n

hbBHPHBPBP

____________

)()()(

Medidas de Avaliação de Regras Utilizam o conjunto de teste

Todas as medidas de avaliação de regras consideradas abaixo estãodefinidas em termos de estimativas de probabilidade, que sãofrequências relativas procedentes da tabela.

Definição 1. Precisão: )|()( BHPHBAcc

b

hb

f

f

BP

HBPBHP

b

hb )(

)()|(

A precisão de uma regra é uma medida do quanto uma regra éespecífica para o problema.A definição acima está dentro do framework proposto em(Lavrac et al., 1999). Mede a fração de exemplos predito positivos que são verdadeirospositivos. Quanto maior o valor dessa medida, mais precisamente a regra cobre corretamente os exemplos de sua classe.

Definição 2. Erro: )|()(1)(__

BHPRAccRErr Quanto maior o erro menos precisamente a regra cobre corretamenteos exemplos da sua classe.

Outras medidas são:

Confiança negativa, Sensitividade e Especificidade, Cobertura e Suporte,Novidade, Satisfação.

Pode-se definir essas mesmas medidas como sendo relativas,usando um peso.

Exemplo para o Conceito Objetivo: Viajar

Considerando as regras da Tabela 3.6 (ver cópia),a precisão e o erro delas resulta em:

321, RRR e

0.0)0.12

2)(

0.0)(0.13

3)(

2.0)8.05

4)(

3

22

1

3

1

Err(R

Err(R

RAcc

RErrRAcc

RAcc

Matriz de Confusão

O termo matriz de confusão refere-se ao classificador, enquanto a tabela de contigência refere-se a uma única regra. Ambos os conceitos são semelhantes mas, no primeiro caso é considerada a hipótese induzida (classificador), enquanto no segundo, somente cada regra que faz parte da hipótese induzida.

A matriz de confusão mostra o número de classificações corretas em oposição às classificações preditas para cada classe.

Matriz de Confusão para problemas de Classificação Binária

Classe Preditos como C+Preditos como C- Precisão da

ClassePrecisãoTotal

C+

C-

Verdadeiros positivos

Falsos positivos

Falsos negativos

Verdadeiros negativos

np

p

FT

T

np

n

TF

T

n

TT np

npnp TFFTn

Onde:

pT nF

pF nT

pT é o número de exemplos corretamente classificados como positivos, é o número de exemplos erroneamente classificados como positivos e similarmente se definem os outros. .

pF

Matriz de Confusão

Quatro situações podem ocorrer:

1. O exemplo pertence à classe C+ e é predito pelo classificador como pertencente à classe C+. Neste caso, o exemplo é um verdadeiro positivo.2. O exemplo pertence à classe C- e é predito pelo classificadorcomo pertencente à classe C-. Neste caso, o exemplo é umverdadeiro negativo.3. O exemplo pertence à classe C- e é predito pelo classificador como pertencente à classe C+. Neste caso, o exemplo é um falso positivo.4. O exemplo pertence à classe C+ e é predito pelo classificadorcomo pertencente à classe C-. Neste caso, o exemplo é umfalso negativo.

No exemplo considerado(ver cópia), a hipótese (classificador) induzidapelo C4.5 rules consiste do conjunto de 5 regras ilustrada na Tabela3.4(ver copia), mais a regra defaut CLASS=go, que é utilizadapara classificar exemplos que não são cobertos pelas cinco regras anteriores.

Matriz de Confusão

Classes

Preditos como “go”

C1

C2

Tp=8

Fp=1

Fn=1

Tn=5

Preditos como “dont go”

Precisãoda Classe

Precisão Total

8/(8+1)

5/(1+6)

(8+5)/15=0.87

Obs: A precisão do classificador(ou da hipótese) é 0.87.

Documents

O Processo de KDD Seleção e Pré-processamento Data Mining Interpretação e Avaliação Consolidação de dados Conhecimento p(x)=0.02 Warehouse Fontes de dados