Upload
internet
View
129
Download
0
Embed Size (px)
Citation preview
Artefatos Artefatos para a InteligênciaInteligência
Descoberta de Conhecimento Descoberta de Conhecimento em Banco de Dados:em Banco de Dados:Fundamentos, Ferramentas e Fundamentos, Ferramentas e AplicaçõesAplicações
Prof. Edilson Ferneda([email protected])
ERIN’2010
DCBDDCBD 2
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AgendaCONTEXTUALIZAÇÃO
Inteligência Organizacional
METODOLOGIAS CRISP-DM Modelagem do conhecimento
FERRAMENTAS WEKA
APLICAÇÕES xxx
DCBDDCBD 3
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalAprendizagem Organizacional
Habilidade de uma empresa aprender e rapidamente traduzir em ações o conhecimento como um meio eficaz de atingir vantagem competitiva
O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo
Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da
organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.
DCBDDCBD 4
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalCiclo do conhecimento
Potencial de apoio a decisões estratégicas
Dado
Informação
Decisão
Realidade
Conhecimento
COLETAPapel, arquivos,
bases de dados operacionais, ...
ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart,
OLAP, consultas, relatórios, ...
DESCOBERTA DE CONHECIMENTOProjeto de busca de padões,
Data Mining, Estatística, ...
COMPREENSÃO, ANÁLISE, SÍNTESE Técnicas de visualização, ...
AÇÃO
DCBDDCBD 5
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalContexto de organizações no mundo competitivo (O modelo das 5 forças de Porter)
DCBDDCBD 6
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalDefinição
“Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios”
Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing “BI” DCBD
Tecnologia daInformação
GestãoNegócio
InteligênciaOrganizacional
DCBDDCBD 7
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?
Database Marketing (“Marketing de precisão”) Ajuda a melhorar os contatos futuros e assegura um planejamento mais
realista do marketing Usa canais e meios de comunicação de marketing para:
Ampliar a ajuda na busca do público-alvo da empresa Estimular a demanda de seu público Estar perto do público, registrando e mantendo uma memória
eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação
DCBDDCBD 8
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?
CRM (Customer Relationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das
necessidades dos clientes atuais e potenciais Envolve ...
... a captura dos dados dos clientes ao longo de toda a empresa ... a consolidação em um banco de dados central ... a análise e distribuição dos resultados da análise para todos os
pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa
Engloba ... ... conceitos, métricas, processos, soluções, gestão de canais e
estratégias ... ferramentas das áreas de marketing, vendas e serviços
DCBDDCBD 9
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalPara que sistemas de IO?
Balanced Scorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações
num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica
Empresas podem adotar esta metodologia para ... Esclarecer e obter consenso em relação à estratégia Comunicar a estratégia a toda a organização Alinhar as metas departamentais e pessoais à estratégia corporativa Associar objetivos estratégicos metas de longo prazo orçamentos
anuais Identificar e alinhar as iniciativas estratégicas Realizar revisões estratégicas periódicas e sistemáticas Obter feedback p/aprofundar o conhecimento da estratégia e
aperfeiçoá-la
DCBDDCBD 10
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalSistemas de Suporte à Decisão
Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de
armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação
“Estamos nos afogando em dados, mas carentes de conhecimento!”
Excesso de dados nas Organizações DisseminaçãoDisseminação de sistemas de informação
(aplicações) EficiênciaEficiência para coletar e armazenar grandes
volumes de dados
Excesso de dados nas Organizações DisseminaçãoDisseminação de sistemas de informação
(aplicações) EficiênciaEficiência para coletar e armazenar grandes
volumes de dadosDificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios
Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios
Sistemas de
Suporte à Decisão
DCBDDCBD 11
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalSistemas de Suporte à Decisão
... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso, ...)
Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses
(criação de cenários) Procuram relações de
causa/efeito Transformam os registros
obtidos em informação útil para o conhecimento empresarial
DCBDDCBD 12
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalOnde está o conhecimento das Organizações?
Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar
Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações,
requisitos, códigos, especificações, mensagens, ...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita
Conhecimento explícito (“informação”) Bases de Dados, documentos, correspondências, arquivos, livros, filmes,
textos, planilhas, ..
DCBDDCBD 13
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalOnde está o conhecimento das Organizações?
Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas
capazes de simular o processo de decisão do ser humano Representação do conhecimento
Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão, ...)
Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem
Agrupamento - Clustering (Não supervisionados) Classificação (Supervisionados) Associação ...
if ... then ...
DCBDDCBD 14
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Inteligência OrganizacionalInteligência OrganizacionalExplicitação do conhecimento
“Processo de articulação do conhecimento tácito em conceitos explícitos.
O tácito se torna explícito expresso na forma de metáforas, analogias, conceitos, hipóteses ou modelos.” (Nonaka & Takeuchi)
Engenharia do conhecimento CommonKADS
Descoberta de conhecimento(Reconhecimento de padrões)
Fayyad CRISP-DM
Modeloorganizacional
ModeloTarefas
ModeloAgentes
ModeloConhecimento
ModeloComunicação
ModeloProjeto
Elicitação de“conhecimento”
DCBDDCBD 15
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMIntrodução
CRISP-DM = Cross Industry Standard Process for Data Mining Projeto que padroniza conceitos e técnicas na busca de informações em
banco de dados Surgiu a partir da experiência de três empresas pioneiras no setor
(1996): DaimlerChrysler - Aplica análises de data mining em seus negócios NCR - Provê soluções de datawarehouse SPSS - Disponibiliza soluções baseadas no processo de mineração de
dados Padroniza os passos do processo de descoberta de conhecimento e sua
aplicação em diferentes mercados, independente do segmento Agiliza grandes projetos de DCBD, com mais eficiência e com menor
custo Pode ser usada por qualquer analista de informações, tendo como base
qualquer software de DM Manual disponível em www.crisp-dm.org
DCBDDCBD 16
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMFases
Compreensão do problema Compreensão dos dados Preparação dos dados Modelagem Avaliação Aplicação (Deployment)
DCBDDCBD 17
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMCompreensão do problema
1.1 - Objetivos do negócio Plano de fundo Objetivos do negócio Critério de sucesso do negócio
1.2 - Avaliação da situação Inventário de recursos Exigências, suposições e limitações Riscos e contingências Terminologia Custos e benefícios
1.3 - Objetivos do data mining (DCBD) Objetivos do data mining Critério do sucesso do data mining
1.4 - Plano de projeto Plano de projeto Avaliação inicial de ferramentas e técnicas
DCBDDCBD 18
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMEntendimento dos dados
2.1 - Coleta inicial dos dados Relatório da coleta inicial dos dados
2.2 - Descrição dos dados Relatório da descrição dos dados
2.3 - Exploração de dados Relatos da exploração de dados
2.4 - Verificação da qualidade dos dados Relatório de qualidade dos dados
DCBDDCBD 19
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMPreparação dos dados
3.1 - Seleção dos dados Racionalização para inclusão/exclusão
3.2 - Limpeza dos dados Relatório da limpeza de dados
3.3 -Construção dos dados Atributos derivados Registros gerados
3.4 - Integração dos dados Dados combinados
3.5 - Formatação dos dados Dados reformatados
DCBDDCBD 20
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMModelagem
4.1 - Seleção da técnica de modelagem Técnica de modelagem
4.2 - Geração do design de teste Design de teste
4.3 - Construção do modelo Ajustes de parâmetros Modelos Descrição dos modelos
4.4 - Avaliação do modelo (Acurácia e generalidade do modelo) Avaliação do modelo (Validação cruzada, taxas de erro, etc) Avaliação do modelo revisado
DCBDDCBD 21
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMAvaliação do modelo
5.1 - Avaliar resultados Avaliação dos resultados do data mining a respeito
dos critérios do sucesso do negócio Modelos aprovados
5.2 - Processo de revisão Revisão do processo
5.3 - Determinação dos próximos passos Lista das ações possíveis Decisão
DCBDDCBD 22
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
CRISP-DMCRISP-DMAplicação (Deployment)
6.1 - Planejamento da implantação Plano de implantação
6.2 - Planejamento do monitoramento e manutenção Plano de monitoramento e manutenção
6.3 - Produção do relatório final Relatório final Apresentação final
6.4 - Revisão o projeto Documentação de
experiências Exemplos:♦Estruturação de Call Center com televendas♦Marketing de precisão baseado em segmentação de mercado♦Refinamento de perfis de clientes♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc).♦Gestão epidemiológica♦Gestão de Ciência & Tecnologia♦Avaliação do cumprimento de objetivos
Exemplos:♦Estruturação de Call Center com televendas♦Marketing de precisão baseado em segmentação de mercado♦Refinamento de perfis de clientes♦Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc).♦Gestão epidemiológica♦Gestão de Ciência & Tecnologia♦Avaliação do cumprimento de objetivos
DCBDDCBD 23
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoObjetivo: construção de uma “base de conhecimento” ...
Modeloorganizacional
ModeloTarefas
ModeloAgentes
ModeloConhecimento
ModeloComunicação
ModeloProjeto
IF ... THEN ...
IF ... THEN ...IF ... THEN ...
IF ... THEN ...
Base de Conhecimento
DCBDDCBD 24
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Método empírico
Reconhecimento
de Padrões
Engenharia do Conhecimento
Método analítico
Sistemas de
Suporte
à Decisão
Modelagem do conhecimentoModelagem do conhecimento... no contexto organizacional
Experiências
Regras de negócio
Bases de dados
Código de sistemas
DW
Documentos
Textos
Especificações
Requisitos
Gravações
IO
GC
INTERNEINTERNETT
Data Mart
OLAP
InteligênInteligênciacia
CompetitiCompetitivava
Coleta/Busca, Captura, ...
Base de Conhecimento
Planilhas
Filmes
Livros
Casos
Rotinas
Observações
Benchmarking, Monitoramento, Head-hunting, ...
DCBDDCBD 25
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoData Mining
Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações
Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações
abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que
podem ajudar uma organização a ter sucesso É um processo iterativo!
DCBDDCBD 26
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoData Mining
Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de
validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo
A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados
Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados
semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma
Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real
Existem sempre circunstâncias que podem levar a modelos incorretos
BD
Treino
Teste
Mineração Modelo
Teste
Acurácia
BD3
Treinamento Teste
BD1 BD2
BD2 BD3 BD1
Ac
Ac1
BD1 BD3 BD2 Ac2
Ac3
DCBDDCBD 27
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoData Mining
Tecnologias de suporte
if ... then ...
Dado
Informação
Conhecimento
DW
OLAP
DM DM
DCBDDCBD 28
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoData Mining
O que Data Mining pode fazer Data Mining permite
Confirmar relações empíricas Descobrir padrões novos e úteis
Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas
Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio!
O que Data Mining NÃO pode fazer Não se pode prescindir de conhecer o negócio, compreender os dados
disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a
organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas
e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez – deve-se saber a priori o
tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa
ferramenta para melhorarem o seu trabalho!
DCBDDCBD 29
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoData Mining
Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo
que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita
Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para
guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para
fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining
Atividades preditivas
Atividades descritivas
Classificação Regressão ClusteringRegras de associação
SumarizaçãoSériestemporais
DCBDDCBD 30
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoAtividades preditivas
Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso
pertence Utilizado para compreender os dados existentes e para prever a classe de novas
instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados
(casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma
experiência em que uma amostra de uma base de dados é testada no mundo real Regressão
Funciona como a classificação, tendo como saída um valor numérico (variável contínua)
No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear No entanto, a maioria dos problemas reais não são projeções lineares,
demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais
Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros
Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados), ...
DCBDDCBD 31
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoAtividades descritivas
Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por
quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio
Associações Identifica co-ocorrência de valores que caracterizam os casos
Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado
Descobrem regras do tipo:Se o item A é parte de um evento,
então em x% das vezes (fator de confiança) o item B também é parte do evento
Sequenciamento Funciona como a associação, mas os itens relacionados ocorrem em tempos
diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é
preciso garantir a a origem única de cada sequência Por exemplo, em análise de logs, é preciso associar cada clickstream a um único
ator
DCBDDCBD 32
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Análise Estatística Árvores de Decisão (ID3 e suas derivações, ...) Redes Neurais (MLP, ...) Agrupamento (K-médias, ...) Associação (Apriori, ...) ...
DCBDDCBD 33
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos
dados Data Mining se serve da Estatística para descoberta de padrões, cálculo
de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas
Técnicas baseadas em modelos lineares e não-lineares Amostragem Avaliação de hipóteses e do conhecimento obtido Modelo bayesiano Análise multivariada
DCBDDCBD 34
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Classificação
CONHECIMENTODO DOMÍNIO
CONHECIMENTODO DOMÍNIO
Especificação do problema
Aprendizado de máquina
X1 X2 ... Xm Y
T1 x11 x12 ... x1m Y1
T2 x21 x22 ... x2m Y2...
.
.
....
.
.
....
.
.
.Tn x1n x2n xnm Yn
Variáveis independentes(atributos)
Variável dependente
(classe)
Especialista
Dados brutos
Classificador
Avaliação
DCBDDCBD 35
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão
R1: Se R 1000 Então Não rentávelR2: Se 1000 < R < 10.000 E D 100 Então Não rentávelR3: Se 1000 < R < 10.000 E 100 < D < 10.000 Então RentávelR4: Se 1000 < R < 10.000 E D 10.000 Então Não rentável
R6: Se R 10.000 E D 20.000 Então Não rentável
R5: Se R 10.000 E D < 20.000 Então Rentável
Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão
Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo
o
o
xxo
o
oo
x
o o
x
o
o
o
o
o
ox
o
xxx
Renda
Dívida
R1
R2
R3
R4
R5
R6
1000 10000
100
10000
20000
DCBDDCBD 36
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão
a1 X1a4
X2
a3
a2
X2X2
X1
<a1 >a1
<a3 >a3
<a4 >a4
>a2<a2
Nó
X1
Raiz
Regra
DCBDDCBD 37
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão
Árvore “pensada”
DCBDDCBD 38
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão Ganho de informação
carro outroscarona
+: {E10}–: {E5, E6}
+: {E1, E7, E11}–: {E3, E9}
+: {E2, E4, E12}–: {E8}
NãoSimNãoSimNãoOutrosPoucoE6
NãoNãoSimSimSimOutrosSimE5
SimNãoSimSimSimOutrosNãoE10
NãoSimNãoNãoNãoCaronaPoucoE8
SimSimSimSimNãoCaronaNãoE12
SimNãoSimNãoNãoCaronaPoucoE4
SimSimSimNãoNãoCaronaPoucoE2
NãoNãoSimSimNãoCarroSimE9
NãoSimSimSimNãoCarroSimE3
SimSimSimSimNãoCarroNãoE11
SimSimSimNãoSimCarroPoucoE7
SimSimNãoSimSimCarroPoucoE1
Vai pra balada?
FomeSairÁlcoolUCBTranspo
rteSono
Transporte?
DCBDDCBD 39
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão Ganho de informação
SimSimSimSimNãoCaronaNãoE12
SimSimSimSimNãoCarroNãoE11
SimNãoSimSimSimOutrosNãoE10
NãoNãoSimSimNãoCarroSimE9
NãoNãoSimSimSimOutrosSimE5
NãoSimSimSimNãoCarroSimE3
NãoSimNãoNãoNãoCaronaPoucoE8
NãoSimNãoSimNãoOutrosPoucoE6
SimSimSimNãoSimCarroPoucoE7
SimNãoSimNãoNãoCaronaPoucoE4
SimSimSimNãoNãoCaronaPoucoE2
SimSimNãoSimSimCarroPoucoE1
Vai pra balada?
FomeSairÁlcoolUCBTranspo
rteSono
sim nãopouco
+: {E10, E11, E12}–: {}
+: {}–: {E3, E5, E9}
+: {E1, E2, E4, E7}–: {E6, E8}
Sono?
DCBDDCBD 40
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Árvores de Decisão
Árvore calculada
DCBDDCBD 41
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na
estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência
DCBDDCBD 42
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Redes Neurais Artificiais
DCBDDCBD 43
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Redes Neurais Artificiais
Iniciar todas as conexões com wi = 0 (ou aleatórios)Repita
Para cada padrão de treinamento (X, d)faça
Calcular a saída ySe (d y)então atualizar pesos
até o erro ser aceitável
Iniciar todas as conexões com wi = 0 (ou aleatórios)Repita
Para cada padrão de treinamento (X, d)faça
Calcular a saída ySe (d y)então atualizar pesos
até o erro ser aceitável
Classe B
Classe A
Classe B
Classe A
Modelos lineares Modelos não lineares
DCBDDCBD 44
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na
similaridade entre eles Utilizado para encontrar padrões inesperados nos dados
Mamífero
Ovíparo
Aquático
DCBDDCBD 45
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Clustering - Técnica de aprendizado não-supervisionado, ou seja, quando
não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são
similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:
DCBDDCBD 46
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Métricas de similaridade
A distância é o método mais natural para dados numéricos Valores pequenos indicam maior similaridade Não generaliza muito bem para dados não numéricos (Qual a distância
entre “masculino” e “feminino”?) Métricas de Distância mais comuns
Hamming - Usada para dados categóricos
Euclidiana - Usada para dados numéricos
Normalização As distâncias são freqüentemente normalizadas dividindo a distância
de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo
Assim, a distância para cada atributo é normalizada para o intervalo [0,1]
21
21211 ,1
,0),(
vvse
vvsevvdist
DCBDDCBD 47
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Passos para se fazer um agrupamento
Passo 1: Escolha aleatória de clusters e cálculo dos centróides (círculos maiores)
Passo 2: Atribua cada ponto ao centróide mais próximo
Passo 3: Recalcule centróides (neste exemplo, a solução é agora estável)
DCBDDCBD 48
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo
DCBDDCBD 49
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 2)
DCBDDCBD 50
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 3)
DCBDDCBD 51
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 4)
DCBDDCBD 52
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 5)
DCBDDCBD 53
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 6)
DCBDDCBD 54
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 7)
DCBDDCBD 55
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 8)
DCBDDCBD 56
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 9)
DCBDDCBD 57
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Agrupamento Exemplo (K = 10)
DCBDDCBD 58
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Associação Notoriedade em DCBD pela descoberta da relação compra de fraldas
cerveja Mas o que fazer? Colocar as fraldas junto com as cervejas para facilitar
a venda? Colocá-las distantes para obrigar o cliente a ‘passear’ por outras gôndolas?
Decisões cabem ao especialista em marketing, baseado na sua experiência
Regras de associação ou regras associativas:{X1, X2, ..., Xn} Y
Se todos os itens X1, X2, ..., Xn estão numa transação, então há uma boa chance de se encontrar também Y
DCBDDCBD 59
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Associação O algoritmo Apriori
DCBDDCBD 60
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Associação O algoritmo Apriori
Exemplo: Suporte mínimo: 0,3
{leite} {café}{cerveja} {pão}{manteiga}{arroz} {feijão}
{café,pão}{pão,manteiga}{café,manteiga}
{café,pão,manteiga}
3 5 5
3 3 4
3
DCBDDCBD 61
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Associação O algoritmo Apriori
Exemplo: Suporte mínimo: 0,3
Conjunto de regras
- Conjunto de itens: {café, manteiga, pão}
Se café, manteiga Então pão [conf = 1,0]
Se café, pão Então manteiga [conf = 1,0]
Se manteiga, pão Então café [conf = 0,75]
Se café Então manteiga, pão [conf = 1,0]
Se manteiga Então café, pão [conf = 0,6]
Se pão Então café, manteiga [conf = 0,6]
- Conjunto de itens: {café, pão}
Se café Então pão [conf = 1,0]
Se pão Então café [conf = 0,6]- Conjunto de itens: {café, manteiga}
Se café Então manteiga [conf = 1,0]
Se manteiga Então café [conf = 0,6]- Conjunto de itens: {pão, manteiga}
Se pão Então manteiga [conf = 0,8]
Se manteiga Então pão [conf = 0,8]
DCBDDCBD 62
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Modelagem do conhecimentoModelagem do conhecimentoTécnicas
Associação O algoritmo Apriori
Exemplo: Suporte mínimo: 0,3
Conjunto de regras- Padrões descobertos, minsup = 0,3 e minconf = 0,8:
Se café Então pão [conf = 1,0]Se café Então manteiga [conf = 1,0]Se pão Então manteiga [conf = 0,8]Se manteiga Então pão [conf = 0,8]Se café, manteiga Então pão [conf = 1,0]Se café, pão Então manteiga [conf = 1,0]Se café Então manteiga, pão [conf = 1,0]
DCBDDCBD 63
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
FerramentasFerramentas
Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo
PolyAnalyst Classificação, regressão, regras de associação, clustering, sumarização e modelagem de dependência
Megaputer Intelligence www.megaputer.com
Pacote
Magnum Opus Regras de associação Rule Quest www.rulequest.com
Específico
XpertRule Miner Classificação, regras de associação e clustering
Attar Software Ltd. www.attar.com
Pacote
DataMite Regras de associação Dr. Philip Vasey através do LPA Prolog Específico
Microsoft Data Analyzer 2002 Classificação e clustering
Microsoft Corp. www.microsoft.com
Pacote
Oracle 9i Data Mining Classificação e regras de associação
Oracle Corp. www.oracle.com
Pacote
Darwin Classificação, regressão e clustering Oracle Corp. www.oracle.com
Pacote
Data-Miner Software Kit Classificação e regressão
Data-Miner Pty LTd www-data-miner.com
Específico
DCBDDCBD 64
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
FerramentasFerramentas
Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo
MineSet Classificação, regressão, regras de associação e clustering
Silicon Graphics Inc. www.sgi.com
Pacote
WEKA Classificação, regressão e regras de associação
University of Waikato www.cs.waikato.ac.nz
Pacote
Intelligent Miner Regras de associação, padrões seqüenciais, classificação, clustering, sumarização e modelagem de dependência
IBM Corp. www.ibm.com
Pacote
MLC++ Classificação, regressão e clustering Silicon Graphics Inc. www.sgi.com/ tech/ mlc
Biblioteca
See5 Classificação Rule Quest www.rulequest.com
Específico
Cubist Regressão Rule Quest www.rulequest.com
Específico
Clementine Classificação, regras de associação, clustering e padrões seqüenciais
SPSS Inc. www.spss.com
Pacote
DCBDDCBD 65
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKASoftware de Aprendizagem de Máquina/Data Mining escrito em Java (GNU Public License)Usado para pesquisa, educação e aplicaçõesComplementa o livro “Data Mining - Practical Machine Learning Tools and Techniques” de Ian W. Witten & Eibe FrankPrincipais características:
Conjunto abrangente de ferramentas para pré-processamento de dados, algoritmos de aprendizagem e métodos de avaliação
Interface Gráfica (visualização de dados) Ambiente para comparação de algoritmos de aprendizagem
Versões: WEKA 3.3: É a que vamos utilizar para a a apresentação WEKA 3.4: Versão compatível com o livro (2ª Edição) WEKA 3.6: Versão estável atual WEKA 3.7: “Developpment Version”
DCBDDCBD 66
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAEntrada de dados
WEKA só manipula arquivos “planos”
@relation heart-disease-simplified
@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}
@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...
Arquivo no formato .arf
Atributo numéricoAtributo nominal
DCBDDCBD 67
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAAbertura
DCBDDCBD 68
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAAbertura
Simple CLI Antiga interface em linha de comando
Explorer Principal interface gráfica do WEKA Dá acesso a todas as funcionalidades por meio de
seleção de menus e fornecimento de parâmetros Experimenter
Permite a realização de experimentos em larga escala com diversas configurações de parâmetros
Pode rodar em ambientes de grid KnowledgeFlow
Permite executar um conjuto de ações em uma sequência controlada
DCBDDCBD 69
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAPré-processamento
Dados podem ser importados de um arquivo em diversos formatos: ARFF CSV com os nomes das variáveis na primeira linha (pode ser gerado pelo
EXCEL) C4.5 (sistema de Quinlan) – 2 arquivos, um com nomes e outro com dados binary – formato gerado pelo Java para compactar grandes arquivos de
dados Dados podem também ser lidos de uma URL ou de um banco de dados
SQL (usando JDBC) Ferramentas de pré-processamento no WEKA são chamadas “filters” WEKA contém filtros para:
Discretização Normalização Amostragem Seleção de atributos Transformação Combinação de atributos …
DCBDDCBD 70
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 71
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 72
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 73
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 74
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 75
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 76
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 77
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 78
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 79
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 80
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 81
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 82
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAConstrução de “classificadores”
Classificadoes no WEKA são modelos para predição nominal ou de quantidades numéricas (sic)
Incluem: Árvores e listas de decisão Classificadores baseados em instâncias “Support Vector Machines” (Método baseado em aprendizagem
estatística) Redes neurais (Multi-Layer Perceptrons, …) Regressão logística (Método estatístico de predição de valores de variáveis
categóricas) Redes bayesianas (Método probabilístico) … Ferramentas para melhoria do desenpenho dos classificadores (Meta-
classificadores)
DCBDDCBD 83
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 84
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 85
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 86
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 87
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 88
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 89
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 90
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 91
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 92
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 93
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 94
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 95
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 96
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 97
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 98
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 99
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 100
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 101
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 102
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.
DCBDDCBD 103
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.
DCBDDCBD 104
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 105
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 106
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 107
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 108
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 109
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicaçõesQuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.
DCBDDCBD 110
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 111
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 112
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 113
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 114
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.
DCBDDCBD 115
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 116
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
QuickTime™ and a TIFF (LZW) decompressor are needed to see this picture.
DCBDDCBD 117
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 118
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 119
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 120
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 121
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 122
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 123
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAAgrupamento de dados
WEKA contém “agrupadores” para encontrar grupos de instâncias similares em um conjunto de dados
Métodos implementados: k-Means EM Cobweb X-means FarthestFirst
Agrupamentos podem ser visualizados e comparados a agrupamentos “verdadeiros” (se existir)
DCBDDCBD 124
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 125
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 126
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 127
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 128
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 129
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 130
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 131
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 132
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 133
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 134
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAAssociação
WEKA contém uma implementação do algoritmo Apriori para aprendizagem de regras de associação
Só trabalha com dados discretos Pode identificar dependências estatísticas entre grupos de atributos:
leite, manteiga pão (com confiança 0.9 e suporte 4) Apriori pode computar todas as regras com um suporte mínimo e uma
certa confiança
DCBDDCBD 135
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 136
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 137
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 138
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 139
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKASeleção de atributos
Painel que pode ser usado para investigar quais (subconjunto de) atributos são os mais preditivos
Seus métodos contêm um método de busca e um método de avaliação WEKA disponibiliza combinações (semi-)arbitrárias desses métodos
DCBDDCBD 140
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 141
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 142
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 143
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 144
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 145
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 146
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
WEKAWEKAVisualozação de dados
Bastante útil na prática: Por exemplo, ajuda a determinar a dificuldade do problema de
aprendizagem WEKA pode visualizar atributos simples (1-d) e pares de atributos (2-d) Valores de classe codificados por cores Opção de “Jitter” para lidar com atributos nominais (e detectar pontos de
dados “escondidos”) Função “Zoom-in”
DCBDDCBD 147
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 148
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 149
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 150
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 151
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 152
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
DCBDDCBD 153
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesMercado
Pode ser utilizada para controlar custos ou para aumentar lucros Exemplos:
Gestão da relação com os clientes: determinando os que podem ir para a concorrência, pode-se agir para retê-los (é geralmente bem mais barato reter um cliente do que adquirir um novo)
Marketing: identificando bons candidatos para ofertas e catálogos, pode-se reduzir despesas e aumentar as vendas
Data Mining de sucesso Mais importante que a escolha de qualquer algoritmo são
Capacidade do construtor do modelo e a forma como um programa suporta o processo de construção do modelo!
O grau em que a ferramenta de data mining suporta a exploração interativa dos dados
Essa interação é mais eficiente quando os componentes seguintes são bem integrados:
Boas ferramentas de visualização para compreender os dados e interpretar os resultados
Algoritmos para a construção dos modelos Duas chaves para o sucesso:
Formular corretamente o problema que se quer resolver Utilizar os dados corretos
DCBDDCBD 154
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesAnálise e gerenciamento de mercado
Marketing de precisão Gerenciamento de relações com consumidores Análise de cestas de mercado Vendas cruzadas Segmentação de mercado
Análise e gerenciamento de risco Previsões retenção de clientes controle de qualidade análise de competitividade
Análise e gerenciamento de fraudes
DCBDDCBD 155
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesAnálise e gerenciamento de mercado
Marketing de precisão Transações com cartões de crédito, cartões de fidelidade, cupons de
desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes
Marketing dirigido Encontra grupos de clientes “modelo” que compartilham as mesma
características: interesses, salário, hábitos de consumo, ... Determinação de padrões de compra ao longo do tempo
Conversão de conta simples para conjunta, casamento, ... Análise de vendas cruzadas
Associações e correlações entre vendas de produtos Predição baseada na informação de associações
Perfil do consumidor Tipos de consumidores que compram quais produtos (agrupamento ou
classificação) Identificação dos requisitos dos clientes
Identifcação dos melhores produtos para os diferentes clientes Uso de predição para encontrar quais fatores atrairão os consumidores
DCBDDCBD 156
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesAnálise corporativa e gerenciamento de risco
Planejamento financeiro e avaliação de crédito Análise e previsão de fluxo de caixa Análise contingente para avaliação de crédito Análise seccional e temporal (razão financeira, análise de tendência, etc.)
Planejamento de recursos Sumarização e comparação de recursos e gastos
Competição Monitoramento de competidores e mercado Agrupamento de clientes em classes e procedimentos de preços baseados
em classes Estratégias para fixação de preços em mercado competitivo
DCBDDCBD 157
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesDetecção e gerenciamento de fraudes
Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc
Uso de dados históricos para construir modelos do comportamento fraudulento e uso de data mining para identificar instâncias similares
Exemplos Seguros de automóveis – Detecção de grupos de pessoas que forjam acidentes Lavagem de dinheiro – Detecção de transações suspeitas de dinheiro (US
Treasury's Financial Crimes Enforcement Network) Seguros médicos – Detecção de pacientes ”profissionais” e grupos de doutores
coniventes Detecção de tratamento médico inapropriado
(A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados - economia de AD$ 1 milhão /ano)
Detecção de fraudes telefônicas – Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios
A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária
Venda a varejo – Analistas estimam que 38% das perdas são devidas a empregados desonestos
DCBDDCBD 158
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesOutras aplicações
Esportes IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas,
bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat;
Astronomia JPL e o Observatório do Monte Palomar descobriram 22 quasars com o
auxílio de data mining Internet
IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, para descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc.
DCBDDCBD 159
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
AplicaçõesAplicaçõesTendênciasTendências
Tecnologias de suporte ao Data Mining
Data Mining em bases de dados relacionais
Bases de dados heterogêneas,distribuídas ou legadas
TextoMultimídia
WebMetadados
Informação geo-referenciada
...
DCBDDCBD 160
Fundamentos, ferramentas e aplicaçõesFundamentos, ferramentas e aplicações
Artefatos Artefatos para apara a InteligênciaInteligência
ContatosEmail: [email protected],brTelefone UCB: (61) 3448-7159Celular: (61) 9618-6192