43
The The CRISP- CRISP- DM DM Process Process Model Model Rodrigo Cunha Rodrigo Cunha

The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Embed Size (px)

Citation preview

Page 1: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

The The CRISP-CRISP-DM DM Process Process ModelModel

Rodrigo CunhaRodrigo Cunha

Page 2: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

O que é CRISP-DM?

• Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).

Page 3: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Metodologias em Data Mining

Fonte: http://www.kdnuggets.com/polls/

CRoss Industry Standard Process for Data Mining

CRISP-DM

Source: http://www.crisp-dm.org/

http://www.crisp-dm.org/

Page 4: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Phases

Generic Tasks

Specialized Tasks

Process Instances

Mapping

CRISPProcess Model

CRISPProcess

Níveis do CRISP-DM

Page 5: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 6: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Processo de Descoberta do Processo de Descoberta do Conhecimento [Fayyad 96]Conhecimento [Fayyad 96]

Preprocessing

DataSources

TargetData

TransformedData

PreprocessedData

Patterns /Models

Knowledge

Selection

Interpretation/Evaluation

Transformation

Data Mining

Page 7: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

CRISP-DM X KDDCRISP-DM X KDD

Preprocessing

DataSources

TargetData

TransformedData

PreprocessedData

Patterns /Models

Knowledge

Selection

Interpretation/Evaluation

Transformation

Data Mining

2. Business Understanding

3. Data Understanding

4.2 Clean Data

4.1 Select Data

4.3 Construct Data

5. Modeling

6. Evaluation 7. Deployment

Page 8: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Exemplo: Projeto Exemplo: Projeto Mineração de Dados Mineração de Dados Utilizando CRISP-DMUtilizando CRISP-DM

Page 9: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Objetivo do Projeto

Descrever todo o processo de desenvolvimento da solução

do projeto: Mineração de dados para a diagnóstico de falhas.

Apresentar a metodologia de desenvolvimento de soluções

padrão em mineração de dados chamada CRISP-DM

Page 10: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Sistema de Telecomunicações da Chesf

SDH-AlcatelSDH-Alcatel

Page 11: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 1 no projeto de DM Business Understanding:

– Definição dos objetivos do negócio• Detectar as falhas do sistema, a partir do histórico das ocorrências

e da condição dos alarmes de sinalização de problemas nos sistemas.

• Extrair conhecimento dos dados através de regras para o melhor entendimento das circunstâncias que resultam em falhas.

– Descrever os critérios de resultados para que o projeto seja considerado um sucesso, assim como a forma de medir.

• Auxílio para a definição de políticas de manutenção

• Uniformidade no padrão de qualidade do serviço (livre de fadiga, stress, desgaste emocional)

• Redução do tempo de resposta às consultas

Page 12: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 1 no projeto de DM (cont)Business Understanding:

– Avaliar situação atual do cliente.

• Recursos Disponíveis– Dados em um data warehouse (ORACLE)

• Suposições e Restrições– Alarme Crítico = Falha

– SDH – Alcatel

Page 13: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 1 no projeto de DM (cont) Business Understanding:

– Determinar os riscos

• Demanda do especialista do domínio

• Qualidade dos dados

• Recebimento dos dados

Page 14: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 1 no projeto de DM (cont) Business Understanding:

– Determinar tarefas de mineração de dados

• Classificação de padrões

• Regras de classificação

Page 15: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 1 no projeto de DM (cont) Business Understanding:

– Fazer Plano do Projeto• Etapa 1:

– Levantamento da situação atual do problema de falhas• Etapa 2:

– Análise preliminar dos dados sobre as ocorrências de falhas de equipamentos

• Etapa 3:– Preparação dos dados– Modelagem dos dados– Extração de Regras do conhecimento adquirido

• Etapa 4:– Interação com especialista do domínio– Homologação dos resultados

• Etapa 5:– Implantação do protótipo

Page 16: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 17: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 2 no projeto de DM Data Understanding

– Coletar dados iniciais

• Dados referentes aos alarmes na rede de telecomunicações SDH - Alcatel foram disponibilizados em arquivos textos mensais nos 14 meses de dez/2001 a jan/2003.

• Junção dos dados em uma única tabela. (ACCESS).

• Apenas 1 ano fev2002 a jan2003

Page 18: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 2 no projeto de DM Data Understanding

– Descrever os dados• 491.127 alarmes • 75934 (15,46%) são alarmes críticos (falhas).

Campo NOME DO CAMPO

1 EQUIPAMENTO 2 ALARME 3 MODULO 4 LOCAL 5 NOME LOCAL 6 GERENCI A 7 SEVERIDA 8 DATAALARME 9 DATANORM

10 ROTA

Page 19: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 2 no projeto de DMData Understanding

Descrever os dados

Tipo de alarmes Freqüência Percentual

CRITICAL 75934 15,5 %

MAJOR 234780 47,8 %

MINOR 147797 30,1 %

WARNING 32616 6,6 %

Page 20: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 2 no projeto de DMData Understanding

Verificar qualidade dos dados– Boa qualidade dos dados– 0% de missings– 0% de outliers

Page 21: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 22: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 3 no projeto de DM

• Data Preparation:

– Preparar os dados para importação no software de DM.

– Derivar campos calculados (se necessário)– Integrar bases de dados externas (IBGE,

Correios, etc.)– Limpeza dos dados: outliers e missings.– Codificar campos em: irrelevante, categórico e

numérico.

Page 23: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 3 no projeto de DM• Data preparation:

– Campos Calculados:

• QTD WARNING => Quantidade de alarmes warnings desde o último alarme crítico.

• QTD MAJOR => Quantidade de alarmes major desde o último alarme crítico

• QTD MINOR => Quantidade de alarmes minor desde o último alarme crítico

Page 24: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 3 no projeto de DM• Data preparation:

– Pré-Processamento:

– 5 (cinco) atributos relevantes – 3 natureza numérica

• Normalização [0...1]– 2 natureza categórica

• Transformação 1 de n– Variável de saída

• ‘WARNING’ para ‘Não-FALHA’• ‘MINOR’ para ‘Não-FALHA’• ‘MAJOR’ para ‘Não-FALHA’• ‘CRITICO’ para ‘FALHA’

Page 25: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 26: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 4 no projeto de DM• Modeling:

– Selecionar as técnicas de modelagem• Redes Neurais• Regras de Classificação

– Catalogar parâmetros utilizados– 50% para treinamento, – 25% para validação – 25% para teste– Retornar ao Data Preparation– Software: Tanagra

Page 27: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Tanagra O que é?

• Autor: Ricco RAKOTOMALALA

• Universidade de Lyon - FRANCE

• Tanagra é uma ferramenta free para mineração de

dados

• open source project

• DELPHI (versão 6.0)

Page 28: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Tanagra

Page 29: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Vantagens

• Ferramenta gráfica

• Modular (Componentes)

• Alta produtividade

• Código Aberto

• Integra algoritmos de terceiros

• Muito Eficiente!Muito Eficiente!

Page 30: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Desvantagens

• Help deficiente

• Muitos BUGS

• Pré-Processamento e Preparação dos

Dados

Page 31: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 4 no projeto de DMModeling:

Rede Neural:Arquitetura MLP

Algoritmo: Backpropagation

Camadas Escondidas: 1

Neurônios Escondidos: 2, 4, 8 e 20

Taxa de Aprendizado: 0,1, 0,01 e 0,001

Número de iterações: 100, 1000 e 10000

Problema: Diagnóstico de Falhas

Número de Entradas: 16

Número de Saídas 2

Padrões de Treinamento

50%

Padrões de Validação 25%

Padrões de Teste 25%

Regras de Classificação:

• Regras com abrangência maior que 5%

Page 32: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 33: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 5 no projeto de DMEvaluation – Rede Neural:

Falha Alarme Total Clas.Falha 18011 3563 21574 Clas.Alarme 972 100235 101207 Total 18983 103798 122781

Erro I = 3.4% (Classificar como falha quando na verdade é apenas alarme).

Erro II = 5.1% (Classificar como alarme quando na verdade é uma falha).

Erro Geral = 3.7% (classificação errônea)

Page 34: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 5 no projeto de DMEvaluation - Regras de Classificação:

• SE LOCAL = "XINGO MARGEM ESQUERD"

ENTÃO FALHA EM 41.45%, REPRESENTANDO 6.9% DA MASSA.

• SE LOCAL = "ANGELIM (REPETIDORA)"ENTÃO FALHA EM 38.35%, REPRESENTANDO 8.2% DA MASSA.

• SE QTDWARNI = "DE 0 ATÉ 1"ENTÃO FALHA EM 23.30%, REPRESENTANDO 12% DA MASSA.

Regras que caracterizam situações de falhas:

Page 35: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 5 no projeto de DMEvaluation - Regras de Classificação:

• SE LOCAL = "RECIFE - COS"

ENTÃO FALHA EM 00.95%, REPRESENTANDO 25.54% DA MASSA.

• SE LOCAL = "USINA DE SOBRADINHO"ENTÃO FALHA EM 01.58%, REPRESENTANDO 11.69% DA MASSA.

• SE QTDMINOR = "DE 1 ATÉ 2"ENTÃO FALHA EM 01.63%, REPRESENTANDO 15.60% DA MASSA.

Regras que caracterizam situações de alarmes:

Page 36: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Businessunderstanding

Dataunderstanding

Datapreparation

Modelling

Evaluation

DeploymentData

Fluxo do Processo: CRISP-DMFluxo do Processo: CRISP-DM

Page 37: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Fase 6 no projeto de DMDeployment

• Entrega do produto do projeto de mineração de dados.

– Software em produção (on-line)– Software analítico (off-line)– Relatório com um resumo das etapas do

processo CRISP-DM.– Treinamento e Apresentação para o Usuário

Page 38: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Resumo das Ferramentas Utilizadas

Nome Função Fabricante Fase

Excel Planilha Microsoft Avaliação de desempenho

ORACLE DISCOVERY Data Warehouse ORACLE Entendendo os

dados

Access Banco de Dados Microsoft Entendendo os dados

Word Editor de texto Microsoft Entendendo o negócio

Oxedit Manipulação de grandes arquivos texto. OX Entendendo os

dados

TANAGRA Mineração de Dados Universidade de Lyon Modelagem

SPSS Manipulação de dados SPSS Preparação dos dados

Page 39: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Conclusões• Necessidade de uma ferramenta de mineração de dados

completa.• Apresentação metodologia CRISP-DM em um problema prático

de mineração de dados.– Formalização– Replicação

• Bom poder de classificação da rede neural (poderia ser colocado em produção)

• Regras extraem conhecimento para tomada de decisão do especialista (off-line)

Page 40: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Trabalhos Futuros• Utilização de outros algoritmos de aprendizagem

– KNN– Regressão Logística– Análise Discriminante

• Apresentação dos artefatos gerados em cada uma das fases do CRISP-DM.

Page 41: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Referência Bibliográfica• Han, J., Kamber M. (2001) Data Mining: Concepts and

techniques. Morgan Kaufman Publishers, San Francisco, CA.

• Witten, I., Frank, E. (2000) Data Mining: Pratical Machine Learning Tools and Techniques with Java Implementations. San Diego, California: Academic Press.

• FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview : in Fayyad, Piatetsky-Shapiro, Smyth and Uthurusamy, 1996.

Page 42: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Referência Bibliográfica

• Página do Tanagra - http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

• Página do CRISP-DM – www.crisp-dm.org

• REINARTZ, T.; WIRTH, R.; CLINTON, J.; KHABAZA, T.; HEJLESEN, J.; CHAPMAN, P.; KERBER, R. The current CRISP-DM process model for data mining. Berlin: Technical University., 1998.

Page 43: The CRISP- DM Process Model Rodrigo Cunha. O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de

Perguntas?Perguntas?