Upload
manoel-amaro
View
855
Download
3
Embed Size (px)
DESCRIPTION
Citation preview
Ferramentas para Mineração de DadosManoel de Albuquerque Lira Amaro
quinta-feira, 6 de dezembro de 12
Agenda• Introdução
• Weka
• Interface Gráfica
• Arquivos ARFF
• Ferramentas para ARFF
• Exemplos
• Mahout
• Introdução ao Mahout
• Conclusão/Referências
quinta-feira, 6 de dezembro de 12
Introdução
• Softwares:
• Weka
• Mahout
• OpenSource
• Utilizados pela academia
quinta-feira, 6 de dezembro de 12
Weka
• Software de aprendizagem de máquina
• Pré-processamento
• Mineração de Dados
• Escrito em JAVA
quinta-feira, 6 de dezembro de 12
Weka
• Algoritmos de:
• Classificação
• Clusterização
• Regras de Associação
• Permite
• Seleção de Atributos
• Visualização de Dados
quinta-feira, 6 de dezembro de 12
Interface
quinta-feira, 6 de dezembro de 12
Interface
• Simple CLI
• Command Line Interface
• Simples e útil
• Para sistemas sem interface gráfica
• java weka.associations.Appriori -t veiculos.arff
quinta-feira, 6 de dezembro de 12
Explorer
quinta-feira, 6 de dezembro de 12
Entrada de dados
Arquivo ARFFPor uma URLBanco de Dados JDBC
quinta-feira, 6 de dezembro de 12
Arquivo ARFF
• Arquivo de texto com todos os dados, precedido de um cabeçalho
• Semelhante ao CSV
• O cabeçalho define a estrutura dos dados
• Nome, domínio, tipo, etc.
quinta-feira, 6 de dezembro de 12
Arquivo ARFF
• Cabeçalho
• Dados
quinta-feira, 6 de dezembro de 12
Arquivo ARFF
• @relation
• nome do arquivo
• @attribute [nome] [tipo|{valores}]
• Declaração de atributos
• Colunas de uma tabela
quinta-feira, 6 de dezembro de 12
Arquivo ARFF
• @data
• Segue a sequência definida pelos atributos
• Linhas de uma tabela
quinta-feira, 6 de dezembro de 12
Ferramentas para ARFF
• Formato pouco utilizado
• Ferramentas para conversão
• CSV > ARFF (online)
• http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php
quinta-feira, 6 de dezembro de 12
Ferramentas para ARFF
• Programa em JAVA para conversão
• API do Weka
• Fácil adaptação para outras fontes de dados
quinta-feira, 6 de dezembro de 12
Exemplo 1
• ARFF
• Venda de veículos
• Atributos
• idade, renda, carro
quinta-feira, 6 de dezembro de 12
Exemplo 1
• Classificação
• Base de dados precisa conter:
• Um ou mais atributos preditivos;
• Idade e Renda
• Um atributo especial, denominado atributo classe (ou atributo alvo).
• Carro
quinta-feira, 6 de dezembro de 12
Exemplo 1
quinta-feira, 6 de dezembro de 12
Exemplo 1
quinta-feira, 6 de dezembro de 12
Exemplo 1
quinta-feira, 6 de dezembro de 12
Exemplo 1- Resultados
quinta-feira, 6 de dezembro de 12
Exemplo 2
• Dataset de vendas do supermercado
• Carrinho de compras
• Departamentos do supermercado
quinta-feira, 6 de dezembro de 12
Exemplo 2
• Uso de um algoritmo de associação
• Descobrir relações entre os departamentos, a partir do histórico de compras dos clientes.
quinta-feira, 6 de dezembro de 12
Exemplo 2
quinta-feira, 6 de dezembro de 12
Weka
• Software bem didático
• Alguns papers utilizaram para mineração de dados reais
• Permite integração a aplicações JAVA via API (não tão simples assim)
• Independente de plataforma
• Atualizações frequentes
quinta-feira, 6 de dezembro de 12
Apache Mahout
• Biblioteca para Aprendizagem de Máquina
• Licença OpenSource
• Escalável
• Paradigma Map/Reduce
• Plataforma Hadoop
quinta-feira, 6 de dezembro de 12
Hadoop
quinta-feira, 6 de dezembro de 12
Referências
• http://www.cs.waikato.ac.nz/ml/weka/
• http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf
• http://mahout.apache.org/
• http://hadoop.apache.org/
quinta-feira, 6 de dezembro de 12