Upload
internet
View
125
Download
4
Embed Size (px)
Citation preview
O Processo de KDD
Seleção e Pré-processamento
Data Mining
Interpretação e Avaliação
Consolidação de dados
Conhecimento
p(x)=0.02
Warehouse
Fontes de dados
Padrões & Modelos
Dados Preparados
DadosConsolidados
SUMÁRIO - AULA1
O processo de KDD
SUMÁRIO - Aula 2
Algoritmo ID3
usando
Medida de Entropia
e
Medida de Ganho
SUMÁRIO - Aula 3
Aprendizagem Indutiva
Definição de Hipótese
Representação da Hipótese por Árvore de Decisão
Expressividade das Árvores de Decisão
Avaliação da Eficiência de um Algoritmo
SUMÁRIO - Aula 4
Problemas Apropriados
Diferença entre lógica proposicional e lógica e primeira ordem
Aplicações
Questões Práticas:- Overfitting- Atributos com valores contínuos- Dados ausentes- Atributos multivalorados
SUMÁRIO - AULA 5
- Como evitar “overfitting” - Poda da árvore
1. Abordagem do conjunto de validação e do conjunto de teste:
- Reduced-Error Pruning - Rule Post-Pruning
- Precisão de uma regra.
- Teoria da aprendizagem computacional
- número de exemplos do conjunto de treinamento.
SUMÁRIO - AULA 6
Avaliação de Hipóteses - Vamos discutir medidas para avaliar hipóteses aprendidas.
1. Ao avaliar hipóteses aprendidas estaremos interessados em estimar a precisão com que ela classificará futuros exemplos.
2. Gostaríamos de saber os erros prováveis desta estimativa de precisão.
Machine Learning - Tom M. Mitchell
X = espaço de possíveis instâncias, ou exemplos (Ex. conjunto de todas as pessoas) sobre o qual várias funções objetivos podem ser definidas (Ex. pessoas que planejam comprar novos eskis este ano). Suponha que diferentes instâncias em X possam ser encontradas com diferentes freqüências: existe alguma distribuição de probabilidade desconhecida D que define a probabilidade de encontrar cada instância em X. “D não diz nada sobre se x é um exemplo positivo ou negativo”
Nomenclatura:
A tarefa de aprendizagem consiste em aprender o conceito ou função objetivo f considerando um espaço
H de possíveis hipóteses.
Exemplos de treino da função objetivo f são fornecidos ao “aprendiz” por um “supervisor” que extrai cada
instância x independentemente, de acordo com a distribuição D. Cada instância x junto com seu valor
objetivo f(x) correto é passado ao aprendiz.
Erro Amostral e Erro Verdadeiro
1. Taxa de erro da hipótese sobre a amostra disponível de exemplos. 2. Taxa de erro da hipótese sobre o conjunto total de exemplos que ocorrem com uma certa distribuição D.
Definição: O Erro amostral da hipótese h com relaçãoa função objetivo f e a amostra de dados S é:
Sx
S xhxfn
herro ))(),((1
)(
onde n é o número de exemplos em S, e a quantidade é 1 se , e 0 caso contrário.
))(),(( xhxf)()( xhxf
Definição: O Erro Verdadeiro da hipótese h com relação afunção objetivo f e a distribuição D, é a probabilidade que h classifique errado uma instância retirada aleatoriamente de acordo com a distribuição D:
)]()([Pr)( xhxfherro
DxD
O que usualmente desejamos saber é o erro verdadeiro da hipótese, porque este é o erro que podemos esperar ao aplicar a hipótese aexemplos futuros.
Segundo Lavrac - 1999(Dissertação de Mestrado de Alan K. Gomes)
Passando uma árvore para regras e considerando as regras na forma geral:
HeadBody
ou
CabeçaCorpo
Usaremos a abreviatura:
HB
Obs: Essas regras preditivas podem ser induzidas porsistemas de aprendizado proposicional.
Medidas de avaliação de regras pretendem dar uma indicação
da força(hipotética) de associação(entre Cabeça e Corpo) expressa por uma regra.
Na tabela a seguir denota o conjunto de exemplos para os quaiso corpo da regra é verdade e denota o seu complemento, ou seja, o conjunto de exemplos para os quais o corpo da regra é falso. e referem-se similarmente à cabeça da regra. denota então .
B _B
H_H
HB BH
xX || denota a cardinalidade do conjunto X.
A frequência relativa é utilizada como uma estimativa daprobabilidade , ou seja,
xf)(XP
n
xfXP x )(
Notações:
Tabela de Contingência para uma regra R: B H
Ela avalia cada regra que faz parte da hipótese induzida.
H_H
B_B
bh_hb
hb_ __
bh
b_b
h_h n
= número de exemplos do conjunto de teste para os quais B é verdade e H é verdade.
bh_hb = número de exemplos para os quais B é verdade e H
é falso.
n = número total de exemplos.
Exemplos de Estimativas Probabilidades
n
bhfHBPBHP bh )()(
)(1)(___
BHPBHP
n
bh
n
hbBHPHBPBP
___
)()()(
n
bh
n
hbBHPHBPBP
____________
)()()(
Medidas de Avaliação de Regras Utilizam o conjunto de teste
Todas as medidas de avaliação de regras consideradas abaixo estãodefinidas em termos de estimativas de probabilidade, que sãofrequências relativas procedentes da tabela.
Definição 1. Precisão: )|()( BHPHBAcc
b
hb
f
f
BP
HBPBHP
b
hb )(
)()|(
A precisão de uma regra é uma medida do quanto uma regra éespecífica para o problema.A definição acima está dentro do framework proposto em(Lavrac et al., 1999). Mede a fração de exemplos predito positivos que são verdadeirospositivos. Quanto maior o valor dessa medida, mais precisamente a regra cobre corretamente os exemplos de sua classe.
Definição 2. Erro: )|()(1)(__
BHPRAccRErr Quanto maior o erro menos precisamente a regra cobre corretamenteos exemplos da sua classe.
Outras medidas são:
Confiança negativa, Sensitividade e Especificidade, Cobertura e Suporte,Novidade, Satisfação.
Pode-se definir essas mesmas medidas como sendo relativas,usando um peso.
Exemplo para o Conceito Objetivo: Viajar
Considerando as regras da Tabela 3.6 (ver cópia),a precisão e o erro delas resulta em:
321, RRR e
0.0)0.12
2)(
0.0)(0.13
3)(
2.0)8.05
4)(
3
22
1
3
1
Err(R
Err(R
RAcc
RErrRAcc
RAcc
Matriz de Confusão
O termo matriz de confusão refere-se ao classificador, enquanto a tabela de contigência refere-se a uma única regra. Ambos os conceitos são semelhantes mas, no primeiro caso é considerada a hipótese induzida (classificador), enquanto no segundo, somente cada regra que faz parte da hipótese induzida.
A matriz de confusão mostra o número de classificações corretas em oposição às classificações preditas para cada classe.
Matriz de Confusão para problemas de Classificação Binária
Classe Preditos como C+Preditos como C- Precisão da
ClassePrecisãoTotal
C+
C-
Verdadeiros positivos
Falsos positivos
Falsos negativos
Verdadeiros negativos
np
p
FT
T
np
n
TF
T
n
TT np
npnp TFFTn
Onde:
pT nF
pF nT
pT é o número de exemplos corretamente classificados como positivos, é o número de exemplos erroneamente classificados como positivos e similarmente se definem os outros. .
pF
Matriz de Confusão
Quatro situações podem ocorrer:
1. O exemplo pertence à classe C+ e é predito pelo classificador como pertencente à classe C+. Neste caso, o exemplo é um verdadeiro positivo.2. O exemplo pertence à classe C- e é predito pelo classificadorcomo pertencente à classe C-. Neste caso, o exemplo é umverdadeiro negativo.3. O exemplo pertence à classe C- e é predito pelo classificador como pertencente à classe C+. Neste caso, o exemplo é um falso positivo.4. O exemplo pertence à classe C+ e é predito pelo classificadorcomo pertencente à classe C-. Neste caso, o exemplo é umfalso negativo.
No exemplo considerado(ver cópia), a hipótese (classificador) induzidapelo C4.5 rules consiste do conjunto de 5 regras ilustrada na Tabela3.4(ver copia), mais a regra defaut CLASS=go, que é utilizadapara classificar exemplos que não são cobertos pelas cinco regras anteriores.
Matriz de Confusão
Classes
Preditos como “go”
C1
C2
Tp=8
Fp=1
Fn=1
Tn=5
Preditos como “dont go”
Precisãoda Classe
Precisão Total
8/(8+1)
5/(1+6)
(8+5)/15=0.87
Obs: A precisão do classificador(ou da hipótese) é 0.87.