23
Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

Embed Size (px)

Citation preview

Page 1: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira

George Darmiton da Cunha Cavalcanti (Orientador)

Page 2: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

2

Introdução Aprendizado supervisionado

Algoritmo de Aprendizagem

T

Conhecimento

Classificador

x

Page 3: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

3

Motivação Melhora em desempenho Remoção de:

Dados ruidosos Dados irrelevantes

Page 4: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

4

Definição Técnicas de Redução

Page 5: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

5

Características I Representação dos dados Direção da busca Pontos de borda ou centrais Função de dissimilaridade Números de vizinhos

Page 6: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

6

Características II Estratégias de avaliação:

Capacidade de redução Melhora em desempenho Precisão em generalização Tolerância a ruídos Desempenho Capacidade de aprendizagem incremental

Page 7: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

7

Técnicas I Condensed Nearest Neighbor Rule (CNN) Reduced Nearest Neighbor Rule (RNN) Edited Nearest Neighbor Rule (ENN) Repeated Nearest Neighbor Rule (RENN) All-KNN Instance-Based Learning Algorithm 1 e 2

(IB2 e IB3)

Page 8: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

8

Técnicas II Decremental Reduction Optimization

Procedures (DROP1, DROP2, DROP3, DROP4 e DROP5)

Decremental Encoding Length (DEL)

Page 9: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

9

CNN

1. Adicione uma instância aleatória de T em S2. Enquanto houver modificação no conjunto S3. Para as demais instâncias t em T4. Se classe(t) ≠ classe(vizinhos de t em S)5. Adicione t ao subconjunto S

Page 10: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

10

DROP1 I Definição

Associados k+1 Vizinhos de X: Y, W, Z e V

X

Y

W

ZV

Listas de AssociadosY W Z V ...X X X X ...

... ... ... ... ...

Page 11: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

11

DROP1 II1. Seja S = T2. Para cada instância s em S3. Encontre, e guarde, os k+1 vizinhos mais próximos de s4. Adicione s à lista de associados de cada um de seus vizinhos5. Para cada instância s em S6. Seja x = número de associados de s classificados corretamente incluindo s7. Seja y = número de associados de s classificados corretamente excluindo s8. Se (y – x) ≥ 09. Remova s de S10. Para cada associado a de s11. Encontre um novo vizinho para a12. Adicione a à lista de associados do novo vizinho13. Para cada vizinho n de s14. Remova s da lista de associados de n

Page 12: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

12

Experimentos I 10 bases de dados

Australian, Breast Cancer, CRX, Glass, Hepatitis, Ionosphere, Iris, Liver, Pima Diabetes e Wine

ten-fold cross validation Classificador KNN, com k = 3

Page 13: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

13

Experimentos II Medidas de distância

Euclidiana Simple Adaptative Distance Heterogeneous Value Difference Metric

(HVDM)

Page 14: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

14

Resultados I Distância Euclidiana

Precisão (%) Redução (%) Tempo (s)Média Média Média

KNN 82,63 ± 3,02 84,62 ± 3,44 83,62 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 78,04 ± 4,39 85,20 ± 3,78 81,62 CNN 37,77 ± 0,98 25,77 ± 0,62 31,77 CNN 0,031 ± 0,003 0,183 ± 0,016 0,107RNN 76,79 ± 2,60 84,91 ± 3,79 80,85 RNN 36,56 ± 1,25 25,83 ± 0,59 31,19 RNN 0,081 ± 0,011 0,452 ± 0,134 0,267ENN 83,33 ± 3,92 83,19 ± 3,46 83,26 ENN 81,72 ± 0,75 84,87 ± 0,52 83,30 ENN 0,032 ± 0,002 0,271 ± 0,002 0,152RENN 83,33 ± 3,92 83,19 ± 3,46 83,26 RENN 81,72 ± 0,75 84,87 ± 0,52 83,30 RENN 0,060 ± 0,000 0,501 ± 0,004 0,281

83,96 ± 4,60 84,04 ± 3,32 84,00 87,81 ± 0,41 90,06 ± 0,37 88,94 0,063 ± 0,002 0,546 ± 0,017 0,305IB2 72,83 ± 4,45 85,48 ± 2,94 79,16 IB2 25,88 ± 0,97 19,15 ± 0,87 22,51 IB2 0,004 ± 0,003 0,035 ± 0,004 0,020IB3 78,08 ± 2,71 83,19 ± 4,64 80,64 IB3 10,39 ± 1,45 9,43 ± 2,82 9,91 IB3 0,069 ± 0,008 1,319 ± 0,298 0,694DEL 82,63 ± 4,06 84,33 ± 3,03 83,48 DEL 86,81 ± 0,60 92,47 ± 0,31 89,64 DEL 0,129 ± 0,004 1,240 ± 0,026 0,685DROP1 82,63 ± 3,02 83,45 ± 3,37 83,04 DROP1 9,75 ± 0,51 6,49 ± 0,39 8,12 DROP1 0,169 ± 0,003 1,398 ± 0,043 0,784DROP2 84,50 ± 4,35 85,48 ± 2,55 84,99 DROP2 16,78 ± 1,24 11,08 ± 0,70 13,93 DROP2 0,225 ± 0,008 3,350 ± 0,057 1,788DROP3 81,96 ± 2,95 85,47 ± 1,58 83,71 DROP3 12,26 ± 0,83 6,49 ± 0,42 9,37 DROP3 0,292 ± 0,007 4,864 ± 0,058 2,578DROP4 80,58 ± 3,53 88,02 ± 2,42 84,30 DROP4 11,76 ± 0,83 8,67 ± 0,51 10,22 DROP4 0,293 ± 0,008 4,166 ± 0,050 2,230DROP5 85,17 ± 4,14 87,18 ± 2,04 86,17 DROP5 12,12 ± 0,97 9,18 ± 0,64 10,65 DROP5 0,408 ± 0,010 5,549 ± 0,104 2,979Média 81,18 84,84 83,01 Média 43,67 41,03 42,35 Média 0,133 1,705 0,919

Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere

All-KNN All-KNN All-KNN

Page 15: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

15

Resultados II Distância Adaptativa

Precisão (%) Redução (%) Tempo (s)Média Média Média

KNN 80,63 ± 2,63 93,16 ± 1,68 86,89 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 80,00 ± 4,41 92,58 ± 2,05 86,29 CNN 38,14 ± 1,12 17,60 ± 0,76 27,87 CNN 0,204 ± 0,008 0,634 ± 0,057 0,419RNN 78,54 ± 4,93 93,72 ± 1,88 86,13 RNN 37,06 ± 0,97 16,37 ± 0,51 26,71 RNN 0,583 ± 0,103 1,565 ± 0,239 1,074ENN 79,33 ± 5,35 92,59 ± 2,54 85,96 ENN 82,29 ± 0,50 95,44 ± 0,25 88,87 ENN 0,177 ± 0,002 1,465 ± 0,033 0,821RENN 79,33 ± 5,35 92,59 ± 2,54 85,96 RENN 82,29 ± 0,50 95,44 ± 0,25 88,87 RENN 0,298 ± 0,003 2,678 ± 0,056 1,488

80,58 ± 4,32 92,59 ± 2,36 86,59 88,89 ± 0,60 94,21 ± 0,47 91,55 0,571 ± 0,013 5,582 ± 0,223 3,077IB2 76,79 ± 4,34 92,30 ± 2,03 84,55 IB2 23,44 ± 1,04 14,37 ± 0,57 18,91 IB2 0,032 ± 0,005 0,178 ± 0,014 0,105IB3 70,88 ± 6,37 89,75 ± 1,20 80,31 IB3 11,11 ± 1,05 13,04 ± 0,61 12,08 IB3 0,950 ± 0,187 6,272 ± 0,514 3,611DEL 78,17 ± 4,13 93,44 ± 1,36 85,81 DEL 89,39 ± 0,99 97,47 ± 0,22 93,43 DEL 0,845 ± 0,038 5,810 ± 0,196 3,328DROP1 76,25 ± 7,01 76,37 ± 6,82 76,31 DROP1 8,61 ± 1,24 6,55 ± 0,40 7,58 DROP1 1,915 ± 0,019 26,512 ± 0,181 14,214DROP2 83,83 ± 3,16 87,17 ± 4,22 85,50 DROP2 14,55 ± 1,10 12,25 ± 0,48 13,40 DROP2 2,406 ± 0,043 33,753 ± 0,387 18,080DROP3 75,00 ± 7,35 79,22 ± 3,65 77,11 DROP3 8,10 ± 0,77 11,33 ± 0,37 9,72 DROP3 2,184 ± 0,036 33,300 ± 0,279 17,742DROP4 78,08 ± 2,20 90,03 ± 2,45 84,06 DROP4 10,11 ± 0,98 10,83 ± 0,47 10,47 DROP4 1,967 ± 0,024 30,974 ± 0,352 16,471DROP5 78,08 ± 3,46 87,74 ± 3,99 82,91 DROP5 9,82 ± 1,22 12,44 ± 0,68 11,13 DROP5 2,218 ± 0,045 28,593 ± 0,349 15,406Média 78,25 89,52 83,88 Média 43,13 42,67 42,90 Média 1,025 12,665 6,845

Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere

All-KNN All-KNN All-KNN

Page 16: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

16

Resultados III Distância HVDM

Precisão (%) Redução (%) Tempo (s)Média Média Média

KNN 81,38 ± 3,39 84,60 ± 3,39 82,99 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 79,33 ± 3,36 85,47 ± 3,12 82,40 CNN 36,63 ± 0,66 25,70 ± 0,66 31,17 CNN 0,215 ± 0,016 0,265 ± 0,019 0,240RNN 80,00 ± 2,77 84,91 ± 2,84 82,46 RNN 37,05 ± 1,99 25,77 ± 0,85 31,41 RNN 0,657 ± 0,152 0,544 ± 0,151 0,601ENN 83,29 ± 2,94 81,18 ± 3,04 82,24 ENN 81,73 ± 1,43 84,24 ± 0,48 82,98 ENN 0,242 ± 0,003 0,368 ± 0,005 0,305RENN 83,29 ± 2,94 81,18 ± 3,04 82,24 RENN 81,73 ± 1,43 84,24 ± 0,48 82,98 RENN 0,437 ± 0,003 0,666 ± 0,011 0,552

83,33 ± 3,89 83,17 ± 2,67 83,25 89,89 ± 0,56 90,35 ± 0,37 90,12 0,484 ± 0,004 1,140 ± 0,046 0,812IB2 75,00 ± 5,29 84,89 ± 2,45 79,94 IB2 24,01 ± 0,83 19,28 ± 0,65 21,65 IB2 0,032 ± 0,003 0,053 ± 0,003 0,043IB3 36,67 ± 13,70 88,88 ± 3,12 62,77 IB3 4,80 ± 2,14 16,56 ± 0,52 10,68 IB3 0,657 ± 0,116 1,309 ± 0,188 0,983DEL 80,08 ± 3,43 84,32 ± 3,59 82,20 DEL 88,96 ± 0,95 92,78 ± 0,22 90,87 DEL 0,610 ± 0,014 1,731 ± 0,019 1,171DROP1 80,04 ± 4,91 85,75 ± 3,70 82,89 DROP1 8,39 ± 1,09 6,58 ± 0,37 7,49 DROP1 0,817 ± 0,017 2,509 ± 0,044 1,663DROP2 83,29 ± 3,34 89,17 ± 2,11 86,23 DROP2 14,41 ± 1,29 11,65 ± 0,49 13,03 DROP2 1,082 ± 0,037 4,368 ± 0,056 2,725DROP3 81,96 ± 4,59 82,63 ± 2,16 82,29 DROP3 9,68 ± 1,82 7,06 ± 0,52 8,37 DROP3 1,222 ± 0,035 5,200 ± 0,086 3,211DROP4 84,54 ± 2,67 85,75 ± 3,02 85,14 DROP4 9,90 ± 1,73 9,12 ± 0,37 9,51 DROP4 1,435 ± 0,010 5,157 ± 0,097 3,296DROP5 82,08 ± 5,10 87,17 ± 2,55 84,63 DROP5 12,26 ± 1,75 10,03 ± 0,49 11,15 DROP5 2,200 ± 0,153 7,700 ± 0,115 4,950Média 78,16 84,93 81,55 Média 42,82 41,67 42,24 Média 0,721 2,215 1,468

Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere

All-KNN All-KNN All-KNN

Page 17: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

17

Resultados IV Média Geral (HVDM)

Precisão (%) Armazenamento (%)KNN 82,45 100,00CNN 81,46 35,17RNN 80,91 35,32ENN 82,25 82,64RENN 82,25 82,64

82,70 90,51IB2 78,46 24,70IB3 77,04 13,69DEL 81,68 67,53DROP1 77,14 12,28DROP2 82,10 19,13DROP3 80,67 12,53DROP4 81,57 14,14DROP5 79,63 14,43Média 80,74 43,19

All-KNN

Page 18: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

18

Resultados V Média Geral (Euclidiana)

Gráfico (tempo de execução)KNN

CNN

RNN

ENN

RENN

All-KNN

IB2

IB3

DEL

DROP1

DROP2

DROP3

DROP4

DROP5

0.000 0.500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 4.500 5.000

Tempo (s)

Page 19: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

19

Resultados VI Medidas de Distância (Precisão)

Australian

Breast Cancer

CRX

Glass

Hepatitis

Ionosphere

Iris

Liver

Pima Diabetes

Wine

60.00

70.00

80.00

90.00

100.00

EuclidianaAdaptativaHVDM

Bases de Dados

Pre

cisã

o

CRX Iris Pima Diabetes MédiaEuclidiana 82,85 95,04 83,80 64,32 81,16 84,88 94,67 63,92 70,21 70,38 79,12Adaptativa 82,31 95,49 82,21 63,75 77,20 87,28 94,83 64,17 70,00 68,89 78,61

HVDM 79,54 92,50 80,16 64,23 78,82 85,02 92,80 61,00 71,29 94,91 80,03

Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine

Page 20: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

20

Resultados VII Medidas de Distância (Armazenamento)

Australian

Breast Cancer

CRX

Glass

Hepatitis

Ionosphere

Iris

Liver

Pima Diabetes

Wine

25.00

30.00

35.00

40.00

45.00

50.00

EuclidianaAdaptativaHVDM

Bases de Dados

Arm

azen

amen

to (%

)

CRX Iris Pima Diabetes MédiaEuclidiana 38,79 33,19 38,69 39,87 37,31 34,87 30,06 43,60 39,55 34,38 37,03Adaptativa 37,82 32,35 38,66 41,21 36,49 36,79 36,76 43,44 38,42 35,23 37,72

HVDM 36,36 32,87 36,18 39,37 36,51 35,49 30,14 45,77 40,85 28,66 36,22

Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine

Page 21: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

21

Conclusão I CNN e RNN

Melhor relação: precisão x redução x tempo ENN, RENN e All-KNN

Ótimos filtros IB2 e IB3

Boa redução DEL

Redução tímida porém boa precisão

Page 22: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

22

Conclusão II DROP1

Melhor taxa de redução DROP2-5

Melhor relação: precisão x redução

Page 23: Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)

Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira

George Darmiton da Cunha Cavalcanti (Orientador)