Upload
judite-nobre-alencar
View
214
Download
1
Embed Size (px)
Citation preview
Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira
George Darmiton da Cunha Cavalcanti (Orientador)
2
Introdução Aprendizado supervisionado
Algoritmo de Aprendizagem
T
Conhecimento
Classificador
x
3
Motivação Melhora em desempenho Remoção de:
Dados ruidosos Dados irrelevantes
4
Definição Técnicas de Redução
5
Características I Representação dos dados Direção da busca Pontos de borda ou centrais Função de dissimilaridade Números de vizinhos
6
Características II Estratégias de avaliação:
Capacidade de redução Melhora em desempenho Precisão em generalização Tolerância a ruídos Desempenho Capacidade de aprendizagem incremental
7
Técnicas I Condensed Nearest Neighbor Rule (CNN) Reduced Nearest Neighbor Rule (RNN) Edited Nearest Neighbor Rule (ENN) Repeated Nearest Neighbor Rule (RENN) All-KNN Instance-Based Learning Algorithm 1 e 2
(IB2 e IB3)
8
Técnicas II Decremental Reduction Optimization
Procedures (DROP1, DROP2, DROP3, DROP4 e DROP5)
Decremental Encoding Length (DEL)
9
CNN
1. Adicione uma instância aleatória de T em S2. Enquanto houver modificação no conjunto S3. Para as demais instâncias t em T4. Se classe(t) ≠ classe(vizinhos de t em S)5. Adicione t ao subconjunto S
10
DROP1 I Definição
Associados k+1 Vizinhos de X: Y, W, Z e V
X
Y
W
ZV
Listas de AssociadosY W Z V ...X X X X ...
... ... ... ... ...
11
DROP1 II1. Seja S = T2. Para cada instância s em S3. Encontre, e guarde, os k+1 vizinhos mais próximos de s4. Adicione s à lista de associados de cada um de seus vizinhos5. Para cada instância s em S6. Seja x = número de associados de s classificados corretamente incluindo s7. Seja y = número de associados de s classificados corretamente excluindo s8. Se (y – x) ≥ 09. Remova s de S10. Para cada associado a de s11. Encontre um novo vizinho para a12. Adicione a à lista de associados do novo vizinho13. Para cada vizinho n de s14. Remova s da lista de associados de n
12
Experimentos I 10 bases de dados
Australian, Breast Cancer, CRX, Glass, Hepatitis, Ionosphere, Iris, Liver, Pima Diabetes e Wine
ten-fold cross validation Classificador KNN, com k = 3
13
Experimentos II Medidas de distância
Euclidiana Simple Adaptative Distance Heterogeneous Value Difference Metric
(HVDM)
14
Resultados I Distância Euclidiana
Precisão (%) Redução (%) Tempo (s)Média Média Média
KNN 82,63 ± 3,02 84,62 ± 3,44 83,62 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 78,04 ± 4,39 85,20 ± 3,78 81,62 CNN 37,77 ± 0,98 25,77 ± 0,62 31,77 CNN 0,031 ± 0,003 0,183 ± 0,016 0,107RNN 76,79 ± 2,60 84,91 ± 3,79 80,85 RNN 36,56 ± 1,25 25,83 ± 0,59 31,19 RNN 0,081 ± 0,011 0,452 ± 0,134 0,267ENN 83,33 ± 3,92 83,19 ± 3,46 83,26 ENN 81,72 ± 0,75 84,87 ± 0,52 83,30 ENN 0,032 ± 0,002 0,271 ± 0,002 0,152RENN 83,33 ± 3,92 83,19 ± 3,46 83,26 RENN 81,72 ± 0,75 84,87 ± 0,52 83,30 RENN 0,060 ± 0,000 0,501 ± 0,004 0,281
83,96 ± 4,60 84,04 ± 3,32 84,00 87,81 ± 0,41 90,06 ± 0,37 88,94 0,063 ± 0,002 0,546 ± 0,017 0,305IB2 72,83 ± 4,45 85,48 ± 2,94 79,16 IB2 25,88 ± 0,97 19,15 ± 0,87 22,51 IB2 0,004 ± 0,003 0,035 ± 0,004 0,020IB3 78,08 ± 2,71 83,19 ± 4,64 80,64 IB3 10,39 ± 1,45 9,43 ± 2,82 9,91 IB3 0,069 ± 0,008 1,319 ± 0,298 0,694DEL 82,63 ± 4,06 84,33 ± 3,03 83,48 DEL 86,81 ± 0,60 92,47 ± 0,31 89,64 DEL 0,129 ± 0,004 1,240 ± 0,026 0,685DROP1 82,63 ± 3,02 83,45 ± 3,37 83,04 DROP1 9,75 ± 0,51 6,49 ± 0,39 8,12 DROP1 0,169 ± 0,003 1,398 ± 0,043 0,784DROP2 84,50 ± 4,35 85,48 ± 2,55 84,99 DROP2 16,78 ± 1,24 11,08 ± 0,70 13,93 DROP2 0,225 ± 0,008 3,350 ± 0,057 1,788DROP3 81,96 ± 2,95 85,47 ± 1,58 83,71 DROP3 12,26 ± 0,83 6,49 ± 0,42 9,37 DROP3 0,292 ± 0,007 4,864 ± 0,058 2,578DROP4 80,58 ± 3,53 88,02 ± 2,42 84,30 DROP4 11,76 ± 0,83 8,67 ± 0,51 10,22 DROP4 0,293 ± 0,008 4,166 ± 0,050 2,230DROP5 85,17 ± 4,14 87,18 ± 2,04 86,17 DROP5 12,12 ± 0,97 9,18 ± 0,64 10,65 DROP5 0,408 ± 0,010 5,549 ± 0,104 2,979Média 81,18 84,84 83,01 Média 43,67 41,03 42,35 Média 0,133 1,705 0,919
Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere
All-KNN All-KNN All-KNN
15
Resultados II Distância Adaptativa
Precisão (%) Redução (%) Tempo (s)Média Média Média
KNN 80,63 ± 2,63 93,16 ± 1,68 86,89 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 80,00 ± 4,41 92,58 ± 2,05 86,29 CNN 38,14 ± 1,12 17,60 ± 0,76 27,87 CNN 0,204 ± 0,008 0,634 ± 0,057 0,419RNN 78,54 ± 4,93 93,72 ± 1,88 86,13 RNN 37,06 ± 0,97 16,37 ± 0,51 26,71 RNN 0,583 ± 0,103 1,565 ± 0,239 1,074ENN 79,33 ± 5,35 92,59 ± 2,54 85,96 ENN 82,29 ± 0,50 95,44 ± 0,25 88,87 ENN 0,177 ± 0,002 1,465 ± 0,033 0,821RENN 79,33 ± 5,35 92,59 ± 2,54 85,96 RENN 82,29 ± 0,50 95,44 ± 0,25 88,87 RENN 0,298 ± 0,003 2,678 ± 0,056 1,488
80,58 ± 4,32 92,59 ± 2,36 86,59 88,89 ± 0,60 94,21 ± 0,47 91,55 0,571 ± 0,013 5,582 ± 0,223 3,077IB2 76,79 ± 4,34 92,30 ± 2,03 84,55 IB2 23,44 ± 1,04 14,37 ± 0,57 18,91 IB2 0,032 ± 0,005 0,178 ± 0,014 0,105IB3 70,88 ± 6,37 89,75 ± 1,20 80,31 IB3 11,11 ± 1,05 13,04 ± 0,61 12,08 IB3 0,950 ± 0,187 6,272 ± 0,514 3,611DEL 78,17 ± 4,13 93,44 ± 1,36 85,81 DEL 89,39 ± 0,99 97,47 ± 0,22 93,43 DEL 0,845 ± 0,038 5,810 ± 0,196 3,328DROP1 76,25 ± 7,01 76,37 ± 6,82 76,31 DROP1 8,61 ± 1,24 6,55 ± 0,40 7,58 DROP1 1,915 ± 0,019 26,512 ± 0,181 14,214DROP2 83,83 ± 3,16 87,17 ± 4,22 85,50 DROP2 14,55 ± 1,10 12,25 ± 0,48 13,40 DROP2 2,406 ± 0,043 33,753 ± 0,387 18,080DROP3 75,00 ± 7,35 79,22 ± 3,65 77,11 DROP3 8,10 ± 0,77 11,33 ± 0,37 9,72 DROP3 2,184 ± 0,036 33,300 ± 0,279 17,742DROP4 78,08 ± 2,20 90,03 ± 2,45 84,06 DROP4 10,11 ± 0,98 10,83 ± 0,47 10,47 DROP4 1,967 ± 0,024 30,974 ± 0,352 16,471DROP5 78,08 ± 3,46 87,74 ± 3,99 82,91 DROP5 9,82 ± 1,22 12,44 ± 0,68 11,13 DROP5 2,218 ± 0,045 28,593 ± 0,349 15,406Média 78,25 89,52 83,88 Média 43,13 42,67 42,90 Média 1,025 12,665 6,845
Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere
All-KNN All-KNN All-KNN
16
Resultados III Distância HVDM
Precisão (%) Redução (%) Tempo (s)Média Média Média
KNN 81,38 ± 3,39 84,60 ± 3,39 82,99 KNN 100,00 ± 0,00 100,00 ± 0,00 100,00 KNN 0,000 ± 0,000 0,000 ± 0,000 0,000CNN 79,33 ± 3,36 85,47 ± 3,12 82,40 CNN 36,63 ± 0,66 25,70 ± 0,66 31,17 CNN 0,215 ± 0,016 0,265 ± 0,019 0,240RNN 80,00 ± 2,77 84,91 ± 2,84 82,46 RNN 37,05 ± 1,99 25,77 ± 0,85 31,41 RNN 0,657 ± 0,152 0,544 ± 0,151 0,601ENN 83,29 ± 2,94 81,18 ± 3,04 82,24 ENN 81,73 ± 1,43 84,24 ± 0,48 82,98 ENN 0,242 ± 0,003 0,368 ± 0,005 0,305RENN 83,29 ± 2,94 81,18 ± 3,04 82,24 RENN 81,73 ± 1,43 84,24 ± 0,48 82,98 RENN 0,437 ± 0,003 0,666 ± 0,011 0,552
83,33 ± 3,89 83,17 ± 2,67 83,25 89,89 ± 0,56 90,35 ± 0,37 90,12 0,484 ± 0,004 1,140 ± 0,046 0,812IB2 75,00 ± 5,29 84,89 ± 2,45 79,94 IB2 24,01 ± 0,83 19,28 ± 0,65 21,65 IB2 0,032 ± 0,003 0,053 ± 0,003 0,043IB3 36,67 ± 13,70 88,88 ± 3,12 62,77 IB3 4,80 ± 2,14 16,56 ± 0,52 10,68 IB3 0,657 ± 0,116 1,309 ± 0,188 0,983DEL 80,08 ± 3,43 84,32 ± 3,59 82,20 DEL 88,96 ± 0,95 92,78 ± 0,22 90,87 DEL 0,610 ± 0,014 1,731 ± 0,019 1,171DROP1 80,04 ± 4,91 85,75 ± 3,70 82,89 DROP1 8,39 ± 1,09 6,58 ± 0,37 7,49 DROP1 0,817 ± 0,017 2,509 ± 0,044 1,663DROP2 83,29 ± 3,34 89,17 ± 2,11 86,23 DROP2 14,41 ± 1,29 11,65 ± 0,49 13,03 DROP2 1,082 ± 0,037 4,368 ± 0,056 2,725DROP3 81,96 ± 4,59 82,63 ± 2,16 82,29 DROP3 9,68 ± 1,82 7,06 ± 0,52 8,37 DROP3 1,222 ± 0,035 5,200 ± 0,086 3,211DROP4 84,54 ± 2,67 85,75 ± 3,02 85,14 DROP4 9,90 ± 1,73 9,12 ± 0,37 9,51 DROP4 1,435 ± 0,010 5,157 ± 0,097 3,296DROP5 82,08 ± 5,10 87,17 ± 2,55 84,63 DROP5 12,26 ± 1,75 10,03 ± 0,49 11,15 DROP5 2,200 ± 0,153 7,700 ± 0,115 4,950Média 78,16 84,93 81,55 Média 42,82 41,67 42,24 Média 0,721 2,215 1,468
Hepatitis Ionosphere Hepatitis Ionosphere Hepatitis Ionosphere
All-KNN All-KNN All-KNN
17
Resultados IV Média Geral (HVDM)
Precisão (%) Armazenamento (%)KNN 82,45 100,00CNN 81,46 35,17RNN 80,91 35,32ENN 82,25 82,64RENN 82,25 82,64
82,70 90,51IB2 78,46 24,70IB3 77,04 13,69DEL 81,68 67,53DROP1 77,14 12,28DROP2 82,10 19,13DROP3 80,67 12,53DROP4 81,57 14,14DROP5 79,63 14,43Média 80,74 43,19
All-KNN
18
Resultados V Média Geral (Euclidiana)
Gráfico (tempo de execução)KNN
CNN
RNN
ENN
RENN
All-KNN
IB2
IB3
DEL
DROP1
DROP2
DROP3
DROP4
DROP5
0.000 0.500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 4.500 5.000
Tempo (s)
19
Resultados VI Medidas de Distância (Precisão)
Australian
Breast Cancer
CRX
Glass
Hepatitis
Ionosphere
Iris
Liver
Pima Diabetes
Wine
60.00
70.00
80.00
90.00
100.00
EuclidianaAdaptativaHVDM
Bases de Dados
Pre
cisã
o
CRX Iris Pima Diabetes MédiaEuclidiana 82,85 95,04 83,80 64,32 81,16 84,88 94,67 63,92 70,21 70,38 79,12Adaptativa 82,31 95,49 82,21 63,75 77,20 87,28 94,83 64,17 70,00 68,89 78,61
HVDM 79,54 92,50 80,16 64,23 78,82 85,02 92,80 61,00 71,29 94,91 80,03
Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine
20
Resultados VII Medidas de Distância (Armazenamento)
Australian
Breast Cancer
CRX
Glass
Hepatitis
Ionosphere
Iris
Liver
Pima Diabetes
Wine
25.00
30.00
35.00
40.00
45.00
50.00
EuclidianaAdaptativaHVDM
Bases de Dados
Arm
azen
amen
to (%
)
CRX Iris Pima Diabetes MédiaEuclidiana 38,79 33,19 38,69 39,87 37,31 34,87 30,06 43,60 39,55 34,38 37,03Adaptativa 37,82 32,35 38,66 41,21 36,49 36,79 36,76 43,44 38,42 35,23 37,72
HVDM 36,36 32,87 36,18 39,37 36,51 35,49 30,14 45,77 40,85 28,66 36,22
Australian Breast Cancer Glass Hepatitis Ionosphere Liver Wine
21
Conclusão I CNN e RNN
Melhor relação: precisão x redução x tempo ENN, RENN e All-KNN
Ótimos filtros IB2 e IB3
Boa redução DEL
Redução tímida porém boa precisão
22
Conclusão II DROP1
Melhor taxa de redução DROP2-5
Melhor relação: precisão x redução
Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de ReduçãoCesar Lima Pereira
George Darmiton da Cunha Cavalcanti (Orientador)