Upload
internet
View
105
Download
0
Embed Size (px)
Citation preview
Data warehouse
Disciplina: Mineração de Dados
PARTE I:Suporte à decisão e DW
Novo ambiente de negócios
Ambiente operacional X Informacional
Fundamentos de Data warehouse
Arquitetura de Data Warehouse
Novo Ambiente de Negócios
Competição Global
Mais e mais qualidade requerida
Achatamento da hierarquia nas empresas
A chave para o sucesso Alta qualidade
Baixo Custo
Flexibilidade
Agilidade
Organizações Inteligentes
A INFORMAÇÃO está no centro de todaorganização inteligente !
Tomada de Decisão
Tomar a ação apropriada considerando-se níveis de risco e incerteza assumidos
Suporte à Decisão Produção e distribuição de Informação
Útil para gerentes, executivos e analistas do conhecimento.
Análises: O que aconteceria se ... Quanto ... Quando ...
Algumas Questões Fundamentais
Tecnologia é um meio para atingir um fim, não um fim em si mesma: a tecnologia apenas capacita a vantagem nos negócios
O sucesso no emprego de novas estratégias de negócio requer tecnologia de Suporte à Decisão
O sucesso na implementação requer abordagens e métodos distintosdos utilizados nos ambientes operacionais da empresa
Realidade dos BD corporativos
Sales Marketing Finance RatesCustomer
Service MIS
Demographics General Ledger Product Planning Promotions
Product Info
Competitive Info
Market Data
AccountingPurchasing
Contracts
O que queremos?
Sales Marketing Finance Rates/Regulatory
CustomerService
MIS
Product Data
Customer Data
Sales Data
Market Data
G/L Data
Revenue Data
External Data
Informação! Agilidade
Flexibilidade
Uma única versão da verdade
Mas, de que forma?
Com :
Como obter a informação necessária?
Dados dos ClientesDados dos Clientes Dados de ComprasDados de Compras
Comentários e Comentários e Reclamações de ClientesReclamações de Clientes
Dados de Dados de Levantamentos Levantamentos
Pedidos de ServiçoPedidos de Serviço
Dados de Dados de ProdutosProdutosDisponíveisDisponíveis
Ambiente de AplicaçõesOperacionais Dão suporte às
funções associadas à execução do negócio da empresa: sistemas
administrativos controle de estoque sistemas de
expedição etc
Suporte à Decisão Dão suporte às
funções associadas à concepção do negócio da empresa
Ambiente Operacional Tipo de processamento: OLTP
Processamento de Transação On-line baseado em transações voltado para velocidade e automação de
funções “repetitivas” mantém usualmente situação corrente atualizações e consultas em grande número
trabalha com alto nível de detalhe
Ambiente de suporte à decisão (analítico)
Tipo de processamento: OLAP
“Pequeno” número de consultas “variáveis” Necessidade de ver o dado sob diferentes
perspectivas: aplicações dinâmicas Operações de agregação e cruzamentos Atualização quase inexistente, apenas novas
inserções Dados Históricos são relevantes Consistência é fundamental
Requisitos de ambientes operacionais e analíticos
Sistemas Operacionais Tempo de Resposta Segurança Recuperação de Falhas Muitos usuários concorrentes
Sistemas Analíticos ou “Informacionais” Flexibilidade, facilidade de navegação Consultas complexas, não antecipadas Gerenciamento de enormes volumes de dados ‘(VLDBs) Necessidade de examinar o dado em diferentes níveis de detalhe Necessidade de acesso a dados provenientes de fontes de dados
diversas
Características Bancos de dados Operacionais
BDs para análise
Objetivo Operações diárias do negócio Analisar o negócio Uso Operacional Informativo Tipo de processamento
Processo de Transação On-line OLTP
OLAP – Processo On-line Analítico
Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta Número de usuários Milhares Centenas Tipo de usuário Operadores Comunidade gerencial Interação do usuário Somente pré-definida Pré-definida e ad-hoc Condições dos dados
Dados operacionais Dados Analíticos
Volume Megabytes – gigabytes Gigabytes – terabytes Histórico 60 a 90 dias 5 a 10 anos Granularidade Detalhados Detalhados e resumidos Redundância Não ocorre Ocorre Características BD operacionais Data Warehouse Estrutura Estática Variável Manutenção desejada
Mínima Constante
Acesso a registros Dezenas Milhares Atualização Contínua (tempo real) Periódica (em batch) Integridade Transação A cada atualização Número de índices Poucos/simples Muitos/complexos Intenção dos índices Localizar um registro Aperfeiçoar consultas
SSD: Resposta competitiva ao mercado
“Quantos clientes da
seguradora já tiveram sinistros no último ano e
também aumentaram o
valor do seguro?
Pedido à área de
Sistemas
Execução
Criação de
Relatório
Suporte à Decisão “Tradicional”
Sistemas Operacionais
Frente de LojaEstoquesCompras...Contabilidade
Informações Gerenciais
Conjunto de Relatórios
VendasPosição do Estoque...
Base de Dados Comum
Forte Acoplamento entre Sistemas Operacionais e Gerenciais
Suporte à Decisão “Tradicional”Ambiente OperacionalAmbiente Operacional Analista do negócioAnalista do negócio
Dados não estão adequados para suporte à Dados não estão adequados para suporte à decisão decisão
Sistemas de suporte à decisão desenvolvidos Sistemas de suporte à decisão desenvolvidos ad-hocad-hoc
Analista do Negócio vira “Programador” Analista do Negócio vira “Programador” Longo tempo de espera Longo tempo de espera
Porque um ambiente de Data Warehouse?
Integrar dados de múltiplas fontes
Facilitar o processo de análise sem impacto para o ambiente de dados operacionais
Obter informação de qualidade
Atender diferentes tipos de usuários finais
Flexibilidade e agilidade para atender novas análises
BDs Operacionais
DW
Aplicação SD
Ferramenta OLAP
Aplicação DBMKT
Data Warehouse - Definição Processos, ferramentas e recursos para gerenciar e disponibilisar informações de negócios precisas e inteligíveis para que indivíduos possam tomar decisõesefetivas. (IBM)
Um ambiente para adequadamente organizar, gerenciare disponibilisar informações oriundas de fontes diversas,fornecendo um visão única de parte ou de todo o negóciocom o objetivo de dar suporte a operações analíticas.
Data Warehouse de acordo com Bill Inmon
“A Data Warehouse is a
subject-oriented, integrated,
time-variant, non-
volatile
collection of data in support of management’s decision-making process.”
Orientado a assunto
DATA WAREHOUSE
MATERIAL
PRODUÇÃO
VENDAS
Sistema Operacionalcontrole de estoquecontrole de pedidoscontas a pagar e a receber
Integrado
Não volátil
Variável ao Tempo
Granularidade
Data Warehouse de acordo com Bill Inmon
Sistemas Operativos Integração
eTransformação
- Integração- Granularidade- Transferência de Dados - Alimentação do Metadados
- Informações- Decisões Gerenciais- Decisões de Longo Prazo- Análises Históricas- Análises de Tendências- Análises Integradas
- Coletar dados detalhados- Editar dados- Interação imediata cliente- Entrada de Dados
DataWarehouse
A Fábrica de Informações
Arquitetura do Ambiente de DW (proposta por Orr)
Arquitetura Genérica 1/5 Camada de BDs Operacionais e Fontes
Externas Camada de Acesso a Informações Camada de Metadados (dicionário de dados) Camada de Gerenciamento de Processos Camada de Transporte Camada de DW Camada de Gerenciamento de Replicação
Arquitetura Genérica 2/5
Camada de BDs Operacionais e Fontes externas Dados das bases operacionais junto com
dados provenientes de fontes externas
Camada de Acesso à Informação Representa as ferramentas que o usuário
utiliza no dia a dia. Ou ferramentas sofisticadas como de visualização e mineração de dados
Arquitetura Genérica 3/5
Camada de Acesso aos DadosLigação entre as ferramentas de acesso à
informação e os BDs operacionais. Comunica com diferentes SGBDs e sistemas de arquivos. "Acesso universal de dados"
Camada de MetadadosInformações sobre os dados. Desde dados
sobre visões dos usuários até dados sobre os BD oper.
Arquitetura Genérica 4/5
Camada de Gerenciamento de ProcessosControle de tarefas para construir e manter as
informações do dicionário de dados e do DW.Manter consistência do DW
Camada de TransporteGerencia transporte de informações pelo
ambiente de redes. Usada para isolar aplicações operacionais ou informacionais.
Arquitetura Genérica 5/5Camada do Data Warehouse
Dados usados para fins "informacionais". Em alguns casos o DW é apenas uma visão lógica ou virtual dos dados.
Camada de Gerenciamento de ReplicaçãoProcessos para selecionar, editar, resumir e carregar o
DW e as correspondentes informações de acesso a partir das bases operacionais e fontes externas. Envolve programas de análise da qualidade de dados e filtros que identificam padrões nos dados operacionais.
Arquitetura Genérica de um Data Warehouse
Fontes deDados
Extração deDados
Transformaçãode Dados
Dados noWarehouse
WarehouseWarehouse
Dados Dimensionais
MartMart
MartMart
MartMart
Sistemas de Acesso
AdministraçãoAdministração
Metadata produzido em todas as etapasMetadata produzido em todas as etapas
Qual a estratégia correta?
O Data Warehouse Corporativo
Data Warehouses Departamentais
Data Warehouses Funcionais Marketing, Financeiro, Administrativo, etc.
Data Warehouses para projetos especiais
...
Data Mart - Conceito“Um subconjunto lógico do Data Warehouse, geralmente visto como um data warehouse setorial.” (Kimball)
Uma perspectiva top-down considera que um DW completo, centralizado deva ser desenvolvido antes que partes dele, sumariadas, possam ser derivadas na forma de Data Marts.
Uma perspectiva botton-up, considera que um DW possa sercomposto a partir de Data Marts previamente desenvolvidos.
Arquitetura de Dados Existem 3 abordagens:
DW centralizado: um DW integrado. Maximiza o poder de processamento disponível.
Arquitetura federativa: distribuindo a informação por função.
Arquitetura em camadas: dados altamente resumidos em um servidor, dados resumidos em nível intermediário em um segundo servidor e os dados mais detalhados em um terceiro servidor.
Os dados da 1a. Camada podem ser otimizados para carga pesada de usuários e baixo volume de dados enquanto as outras camadas são mais adequadas para processar grande volume de dados.
MóduloAtualização
Arquitetura de Três Camadas em DW
Bases de Dados dos Sistemas Transacionais
MódulosExtração e
Atualização
Contab Faturam. Folha
Data Warehouse
dic.RH
Data MartRH
Dic.
MóduloAtualização Marketing
Data MartMKTDic.
DWFerramenta
Consulta
Analistas de Negócio
DMFerramenta
Consulta
Executivos e gerentes
DMFerramenta
Consulta
Primeira - inclui os dados operacionais da empresa, que alimentam o Data Warehouse Segunda - o Data Warehouse - é um grande depósito de dados históricos detalhadosTerceira - composta pelos Data Marts - é otimizada para consultas de cada comunidade de usuários
MarketingFinanças
Vendas
LogísticaEtc.
RH
dic.
O Mito Para serem úteis os Data Warehouse
devem possuir grande abrangência, com dados de variadas fontes abrangendo os diversos aspectos da Empresa.
Pré-requisito : empresa totalmente informatizada e integrada
Implicação : projetos extremamente complexos e com alta probabilidade de insucesso.
A Realidade
Projetos Evolutivos Enfocar inicialmente nos aspectos mais
críticos Aproveitar a estrutura operacional
disponível Retorno mais rápido Acúmulo de experiência : menor risco e
menor custo
Abordagem Corrente
Desenvolver incrementalmente
Abordagem por estágios para o DW
corporativo:
seguro
gerenciável
experimental
recomendado
Abordagem corrente Estratégia
Visão Integrada Dividir para conquistar Errar pequeno
Desenvolver incrementalmente Planejamento Top-Down Desenvolvimento Botton-Up, um DM de cada vez,
resultados devem ser atingidos em pequenos ciclos (ex.: a cada 3 meses)
Cada Data Mart deve ser encarado de forma evolutiva complexidade do modelo, volume de dados, investimentos
Desafio Garantir a coerência entre os vários Data Marts
Data Warehouse de acordo com Kimball
Sistemas Operativos
Integração &
Transformação
ODS
- Dados a nível de transação- Modelo dimensional
Data Marts Integrados
Marketing
Vendas
Finanças
Produção
R.H.
...
DW = Operational Data Store + Data Marts Integrados
Transporte de Dados (Data Staging)
Extração Coleta de dados nos sistemas existentes Operação demorada e complexa Muitas vezes, desenvolvimento ad-hoc
Transformação fundamental para clareza e integração recodificação de categorias: (m/f, male/female to M/F) alterações e uniformização de unidades de medida, nomes de
campos, datas
Limpeza fundamental para qualidade da informação extraída
Carga e Realimentação trade-off (muito frequente é caro, pouco significa dados “velhos”)
ODS (Operational Data Store) De acordo com Inmon:
depósito volátil, temporário de dados correntes detalhados
De acordo com Kimball: depósito histórico, frequentemente alimentado,
de dados detalhados e integrados, constituindo-se no nível atômico do ambiente de DW
Componentes Potenciais do Ambiente de DW
1. Repositório de Metadados
2. Ferramentas de Projeto CASE3. Ferramentas de Extração,
Transformação e Carga (ETL)4. Ferramentas para Qualidade e
Limpeza5. Ferramentas para Replicação6. Provedores de Interfaces de BD
ODBC/OLE7. Ferramentas de Gateway para
BD Legados8. Bancos de Dados Relacioanais
9. Bancos de Dados Não-Relacionais Legados
10 Ferramentas ROLAP 11. Ferramentas de Relatório e
Consulta 12. Ferramentas de Data Mining 13. Ferramentas de Data
Warehouse14. Ferramentas de Consolidação
de Data Warehouses15. Pacotes de Aplicação para Data
Warehouse
todos eles manipulando/gerando metadados.
Algumas questões críticas em DW
Diversidade de abordagens Falta de uma metodologia consolidada Diversidade de ferramentas Transporte de dados ambiente
operacionalDW Gerência e manutenção de metadados