View
219
Download
1
Category
Preview:
Citation preview
Software Weka
Waikato 2004, Witten & Frank 2000
Ferramenta
• algoritmos de – preparação de dados– aprendizagem de máquina (mineração) – validação de resultados
• /public/soft/linux/weka-3-4/– Java –jar weka.jar– Selecione Explorer– copie os arquivos no dir
/public/soft/linux/weka-3-4/data$ para sua area
Interface e Funcionalidades
• (A) Open File, Open URL, Open DB• (B) No botão filter é possível efetuar
sucessivas filtragens de atributos e instâncias na base de dados previamente carregada – Seleção– Discretização– Normalização– Amostragem
Formato arff (header)% 1. Title: Iris Plants Database%% 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)% (c) Date: July, 1988 % @RELATION iris
@ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
Laboratório 1
• Abra o arquivo weather.nominal.arff
Perguntas
• Números de instancias, exemplos, registros??
• Atributos ???• Quais os valores que o atributo
temperatura pode ter ??• Repita o processo para outra base.
Editando bases
• Abra a base weather.nominal.arff• Clique em Editar• Responda
– Qual é o valor da classe para a instância 8?– Algum atributo possui valor não ?
• Abra a base iris e responda– Quantos atributos nominais e numericos a
base possui ??
Aplicar filtros
• Weka possui vários filtros• Remover atributos• Escolha Choose... Remove ...
Save..Name• Abra o arquivo weather.nominal.arff• Remova todos as instâncias com valor de
atributo humidity high• Volte aos dados originais
Painel de Visualização
• Abra a base iris.arff (medidas de flores)• Utilize o menu Visualize para selecionar
algumas instâncias e remover outras.
Classificação• Observe a saida dos diferentes tipos de classificadores.=== Classifier model (full training set) ===J48 pruned tree------------------outlook = sunny| humidity = high: no (3.0)| humidity = normal: yes (2.0)outlook = overcast: yes (4.0)outlook = rainy| windy = TRUE: no (2.0)| windy = FALSE: yes (3.0)Number of Leaves
Responda
• Utilizando a base weather• Como seria classificada a seguinte
instância ???
• outlook = sunny, temperature = cool, humidity = high, windy = TRUE
Modo de Testar
• Use training set: Usa toda a base para teste
• Cross-validation: Divide a base em folds (disjuntos)
• Percentage split: Divide a base uma percentagem para treinamento e outra para teste.
Criando bases de teste
• Escreva uma base de teste e teste com ela
Como são classificadas as instâncias ?? Como fica a matriz de confusão ??
Visualize as instâncias
• Visualize cada instâncias e responda quais foram classificadas erroneamente ???
Recommended