Exercícios sobre classificação
Mineração de dados
O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?
cor altura forma local Classe
preto 32,5 largo Rua Canindé, 123 A
marrom 22,3 Rua Borges, 456/304 C
marrom 15,7 estreito Rua Chaves, 132 B
amarelo 31,4 estreito Rua Napoleão, 45/101 C
… … … … …
O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 C
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 C
… … … … …
O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 B
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 A
… … … … …
O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 B
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 A
… … … … …
Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C) e
a classe X.
Sabendo que:
– Entropia (S) = - (p+ log2 p+ + p- log2 p-)
– Ganho (S, A) = Entropia (S) - ((|Sv| / |S|) * Entropia (Sv)), ondeSv = subconjunto de S para um valor do atributo At
|Sv| = número de elementos de Sv
|S| = número de elementos de S
a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?
b) Qual o Ganho de Informação para cada um dos atributos?
(log2 1=0, log2 0,5=-1, log2 0,25=-2 , log2 0,75=-0,415, log2 0,333=-1,585,
log2 0,667=-0,585)
c) Face a este resultado, qual seria a árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?
Dada a árvore de decisão abaixo, que regras seriam geradas pelo algoritmo C4.5?
Considerando os dados de treino abaixo e o algoritmo C4.5, quais seriam os intervalos de decisão considerados para o atributo Peso?
Peso Idade Sexo Classe
70 jovem Masc 2
80 adulto Masc 2
60 adulto Fem 1
75 jovem Masc 2
35 criança Fem 1
85 adulto Masc 2
50 criança Masc 1
Peso Classe
35 1
50 1
60 1
70 2
75 2
80 2
85 2Peso <= 65 e peso > 65
Qual a árvore de decisão gerada?
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que
P( E1 |H ).P( E2 | H)... .P(En | H).P(H )
P( E1 ).P( E2)... .P(En)P(H|E)=
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo e k=1.
Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo, k=3, e a seguinte tabela de distâncias para o atributo Z1:
A B C
A 0
B 1 0
C 2 0,5 0
lágrimas astigma-tismo
pressão prescrição LENTES
normal sim normal hipermetr. NÃO
normal não normal miopia GELAT.
normal sim normal miopia DURA
reduzida sim alta miopia NÃO
reduzida não normal hipermetr. NÃO
normal não alta hipermetr. NÃO
normal não alta miopia GELAT.
normal sim normal miopia DURA
normal sim alta hipermetr. NÃO
normal sim alta miopia GELAT.
normal sim normal miopia. DURA
lágrimas
3 4
2
1
normal reduzida
astigmat.
sim não
prescrição
miopia hipermetr.
1. Complete a árvore de decisão colocando no lugar dos números das folhas, a classe, de forma a minimizar os erros de classificação.
2. Faça a matriz de confusão correspondente.