Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira

George Darmiton da Cunha Cavalcanti (Orientador)

2

Introdução Aprendizado supervisionado

Algoritmo de Aprendizagem

T

Conhecimento

Classificador

x

3

Motivação Melhora em desempenho Remoção de:

Dados ruidosos Dados irrelevantes

4

Definição Técnicas de Redução

5

Características I Representação dos dados Direção da busca Pontos de borda ou centrais Função de dissimilaridade Números de vizinhos

6

Características II Estratégias de avaliação:

Capacidade de redução Melhora em desempenho Precisão em generalização Tolerância a ruídos Desempenho Capacidade de aprendizagem incremental

7

Técnicas I Condensed Nearest Neighbor Rule (CNN) Reduced Nearest Neighbor Rule (RNN) Edited Nearest Neighbor Rule (ENN) Repeated Nearest Neighbor Rule (RENN) All-KNN Instance-Based Learning Algorithm 1 e 2

(IB2 e IB3)

8

Técnicas II Decremental Reduction Optimization

Procedures (DROP1, DROP2, DROP3, DROP4 e DROP5)

Decremental Encoding Length (DEL)

9

CNN

1. Adicione uma instância aleatória de T em S2. Enquanto houver modificação no conjunto S3. Para as demais instâncias t em T4. Se classe(t) ≠ classe(vizinhos de t em S)5. Adicione t ao subconjunto S

10

DROP1 I Definição

Associados k+1 Vizinhos de X: Y, W, Z e V

X

Y

W

ZV

Listas de AssociadosY W Z V ...X X X X ...

... ... ... ... ...

11

DROP1 II1. Seja S = T2. Para cada instância s em S3. Encontre, e guarde, os k+1 vizinhos mais próximos de s4. Adicione s à lista de associados de cada um de seus vizinhos5. Para cada instância s em S6. Seja x = número de associados de s classificados corretamente incluindo s7. Seja y = número de associados de s classificados corretamente excluindo s8. Se (y – x) ≥ 09. Remova s de S10. Para cada associado a de s11. Encontre um novo vizinho para a12. Adicione a à lista de associados do novo vizinho13. Para cada vizinho n de s14. Remova s da lista de associados de n

12

Experimentos I 10 bases de dados

Australian, Breast Cancer, CRX, Glass, Hepatitis, Ionosphere, Iris, Liver, Pima Diabetes e Wine

ten-fold cross validation Classificador KNN, com k = 3

13

Experimentos II Medidas de distância

Euclidiana Simple Adaptative Distance Heterogeneous Value Difference Metric

(HVDM)

14

Resultados I Distância Euclidiana

Precisão (%) Redução (%) Tempo (s)Média Média Média

KNN 82,63 ± 3,02 84,62 ± 3,44 83,62 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 78,04 ± 4,39 85,20 ± 3,78 81,62 CNN 37,77 ± 0,98 25,77 ± 0,62 31,77 CNN 0,031 ± 0,003 0,183 ± 0,016 0,107RNN 76,79 ± 2,60 84,91 ± 3,79 80,85 RNN 36,56 ± 1,25 25,83 ± 0,59 31,19 RNN 0,081 ± 0,011 0,452 ± 0,134 0,267ENN 83,33 ± 3,92 83,19 ± 3,46 83,26 ENN 81,72 ± 0,75 84,87 ± 0,52 83,30 ENN 0,032 ± 0,002 0,271 ± 0,002 0,152RENN 83,33 ± 3,92 83,19 ± 3,46 83,26 RENN 81,72 ± 0,75 84,87 ± 0,52 83,30 RENN 0,060 ± 0,000 0,501 ± 0,004 0,281

83,96 ± 4,60 84,04 ± 3,32 84,00 87,81 ± 0,41 90,06 ± 0,37 88,94 0,063 ± 0,002 0,546 ± 0,017 0,305IB2 72,83 ± 4,45 85,48 ± 2,94 79,16 IB2 25,88 ± 0,97 19,15 ± 0,87 22,51 IB2 0,004 ± 0,003 0,035 ± 0,004 0,020IB3 78,08 ± 2,71 83,19 ± 4,64 80,64 IB3 10,39 ± 1,45 9,43 ± 2,82 9,91 IB3 0,069 ± 0,008 1,319 ± 0,298 0,694DEL 82,63 ± 4,06 84,33 ± 3,03 83,48 DEL 86,81 ± 0,60 92,47 ± 0,31 89,64 DEL 0,129 ± 0,004 1,240 ± 0,026 0,685DROP1 82,63 ± 3,02 83,45 ± 3,37 83,04 DROP1 9,75 ± 0,51 6,49 ± 0,39 8,12 DROP1 0,169 ± 0,003 1,398 ± 0,043 0,784DROP2 84,50 ± 4,35 85,48 ± 2,55 84,99 DROP2 16,78 ± 1,24 11,08 ± 0,70 13,93 DROP2 0,225 ± 0,008 3,350 ± 0,057 1,788DROP3 81,96 ± 2,95 85,47 ± 1,58 83,71 DROP3 12,26 ± 0,83 6,49 ± 0,42 9,37 DROP3 0,292 ± 0,007 4,864 ± 0,058 2,578DROP4 80,58 ± 3,53 88,02 ± 2,42 84,30 DROP4 11,76 ± 0,83 8,67 ± 0,51 10,22 DROP4 0,293 ± 0,008 4,166 ± 0,050 2,230DROP5 85,17 ± 4,14 87,18 ± 2,04 86,17 DROP5 12,12 ± 0,97 9,18 ± 0,64 10,65 DROP5 0,408 ± 0,010 5,549 ± 0,104 2,979Média 81,18 84,84 83,01 Média 43,67 41,03 42,35 Média 0,133 1,705 0,919

Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere

All-KNN All-KNN All-KNN

15

Resultados II Distância Adaptativa






16

Resultados III Distância HVDM






17

Resultados IV Média Geral (HVDM)

Precisão (%) Armazenamento (%)KNN 82,45 100,00CNN 81,46 35,17RNN 80,91 35,32ENN 82,25 82,64RENN 82,25 82,64

82,70 90,51IB2 78,46 24,70IB3 77,04 13,69DEL 81,68 67,53DROP1 77,14 12,28DROP2 82,10 19,13DROP3 80,67 12,53DROP4 81,57 14,14DROP5 79,63 14,43Média 80,74 43,19

All-KNN

18

Resultados V Média Geral (Euclidiana)

Gráfico (tempo de execução)KNN

CNN

RNN

ENN

RENN

All-KNN

IB2

IB3

DEL

DROP1

DROP2

DROP3

DROP4

DROP5

0.000 0.500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 4.500 5.000

Tempo (s)

19

Resultados VI Medidas de Distância (Precisão)

Australian

Breast Cancer

CRX

Glass

Hepatitis

Ionosphere

Iris

Liver

Pima Diabetes

Wine

60.00

70.00

80.00

90.00

100.00

EuclidianaAdaptativaHVDM

Bases de Dados

Pre

cisã

o

CRX Iris Pima Diabetes MédiaEuclidiana 82,85 95,04 83,80 64,32 81,16 84,88 94,67 63,92 70,21 70,38 79,12Adaptativa 82,31 95,49 82,21 63,75 77,20 87,28 94,83 64,17 70,00 68,89 78,61

HVDM 79,54 92,50 80,16 64,23 78,82 85,02 92,80 61,00 71,29 94,91 80,03

Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine

20

Resultados VII Medidas de Distância (Armazenamento)

Australian

Breast Cancer

CRX

Glass

Hepatitis

Ionosphere

Iris

Liver

Pima Diabetes

Wine

25.00

30.00

35.00

40.00

45.00

50.00

EuclidianaAdaptativaHVDM

Bases de Dados

Arm

azen

amen

to (%

)

CRX Iris Pima Diabetes MédiaEuclidiana 38,79 33,19 38,69 39,87 37,31 34,87 30,06 43,60 39,55 34,38 37,03Adaptativa 37,82 32,35 38,66 41,21 36,49 36,79 36,76 43,44 38,42 35,23 37,72

HVDM 36,36 32,87 36,18 39,37 36,51 35,49 30,14 45,77 40,85 28,66 36,22

Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine

21

Conclusão I CNN e RNN

Melhor relação: precisão x redução x tempo ENN, RENN e All-KNN

Ótimos filtros IB2 e IB3

Boa redução DEL

Redução tímida porém boa precisão

22

Conclusão II DROP1

Melhor taxa de redução DROP2-5

Melhor relação: precisão x redução

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira

George Darmiton da Cunha Cavalcanti (Orientador)

Documents

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)