Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
O processo de Descoberta de Conhecimento
em Bases de Dados (DCBD) apoiando a Análise
de Risco Agropecuário na Cadeia do Leite
Universidade Federal de São CarlosCentro de Ciências Exatas e de TecnologiaDepartamento de Computação
Walter Coelho Pereira de Magalhães JuniorMarilde Terezinha Prado Santos
PPGCC/DCSetembro/ 2009
2/27
Organização desta apresentação Introdução
Risco
Risco aplicado a alimentos
Análise de Risco
Análise de Risco aplicada ao MAPA
Características das massas de dados a serem utilizadas
Impactos no processo de Descoberta de Conhecimento em Bases de Dados
Métodos de regressão
Atividades em desenvolvimento no projeto
Referências
3/27
IntroduçãoO agronegócio constitui o maior negócio brasileiro (MAPA 2007): Gera um Produto Interno Bruto (PIB) na ordem de 524 bilhões de reais – equivalente a
34% PIB nacional 40% das exportações – aproximadamente 40 bilhões de reais 37% dos empregos no país Coloca o setor agropecuário como principal sustentador da balança comercial nacional Transforma o país em uma das maiores potências agropecuárias do planeta
O agronegócio do leite e seus derivados (CABRAL, 2008) 6 º produtor mundial: 27 bilhões de litros anuais A frente de setores importantes: siderurgia e têxtil Movimenta anualmente 65 bilhões de reais 1,3 milhões de produtores A indústria de laticínios é a mais importante no setor de alimentos no Brasil
O desempenho do leite brasileiro torna-se particularmente significativo tendo em vista que aprodução agropecuária, em todas as suas escalas e naturezas, está sujeita às diversas incertezasinerentes aos sistemas biológicos: aspectos ambientais, de manejo, econômicos, etc., as quaissão potencializadas pelo crescente trânsito nacional e internacional de insumos, sementes,animais, vegetais, seus produtos e subprodutos (BONNET, 2007).
4/27
IntroduçãoContexto das incertezas Quando não são corretamente identificadas e tratadas => processos, projeto ficam nas mãos
do destino...
Os elementos são intrinsecamente incertos e somente serão verdadeiramente conhecidos no futuro...
Estimativas confiáveis não são facilmente obtidas sem o uso de um ferramental adequado
Existem métodos, técnicas e ferramentas que permitem analisar e modelar as incertezas, conhecidas como análise e gerência de risco
Entre as disciplinas que compõem a gerência de riscos em processos ou projetos, a análise de risco é uma das mais difíceis
Posturas face às incertezas: Postura reativa (“apagando incêndios”)– a partir de um planejamento baseado em um
cenário considerado “mais provável”, vai-se tratando os fatores de risco a medida que vão acontecendo.
=> Grande estresse na equipe e grande consumo de energia em situações que, muitas vezes, a pequeno planejamento e custo adicional, teriam seu impacto eliminado ou substancialmente reduzido
Postura preditiva e pró-ativa – adota o planejamento e acompanhamento como ferramentas racionais e econômicas para enfrentar as incertezas inerentes aos processos
5/27
IntroduçãoExiste uma necessidade mundial de mitigação das incertezas e determinação de
variabilidades, particularmente com relação ao agronegócio do leite...
Neste contexto, a análise de Risco constitui poderosa ferramenta a ser aplicada visandominimizar os danos ao agronegócio, de forma a: diminuir as incertezas associadas aos mais diversos processos gerar informações dinâmicas otimizando a tomada de decisão requerida nestes processos facilitar a promoção de ajustes dinâmicos para otimização contínua destes processos
Paralelamente, os modelos para controle de alimentos atualmente adotados no paísapresentam comportamento tipicamente reativo e defensivo, em detrimento a umadesejável abordagem pró-ativa e preditiva permitida pela Análise de Risco
“As frequentes frustrações da população e autoridades em relação às questões de qualidadee segurança dos alimentos, associadas ao forte desperdício de capital intelectual, temporale financeiro, são reflexos de um “modus operandi” inadequado, tipicamente corrigindoproblemas à medida que são detectados (BONNET, 2007)”
6/27
Introdução
A adequada qualidade e segurança de alimentos, como o leite:
Jamais pode ser garantida apenas por análises laboratoriais de produtos acabados postos àvenda => conceito errôneo frequentemente observado no país.
Deve ser realizada na origem e ao longo de todo o continuum produtivo, por meio decontroles sistemáticos, preventivos e pró-ativos, segundo a implantação dos autocontroles,ou seja, as Boas Práticas Agropecuárias (BPA), Boas Práticas de Fabricação (BPF) e osistema de Análise de Perigos Pontos Críticos de Controle (APPCC)
No entendimento do especialista:
Dados Informações Inteligência
7/27
Risco“Excetuando a imutabilidade das leis fundamentais do universo, a única coisa realmente
previsível é que tudo se modifica no decorrer do tempo...”
“Nunca existiu tão pouco espaço para erros como nos dias de hoje...”
Fator de risco é qualquer evento que possa prejudicar, parcial ou totalmente, as chances de sucesso de um projeto ou processo, ou seja, realizar o que foi proposto dentro do prazo e fluxo de caixa estabelecidos
Risco é a probabilidade de um fator de risco assumir um valor que possa prejudicar parcialmente ou totalmente as chances de sucesso de um projeto
Falar sobre risco, consiste em identificar: Os fatores (de risco) que possam comprometer o sucesso do projeto A probabilidade destes fatores assumirem valores que possam prejudicar parcialmente ou
totalmente o projeto As consequências caso estes fatores assumam os valores prejudiciais
Risco refere a eventos cuja realização é incerta Eventos cuja realização é certa => empregamos bom senso em nossa análise Eventos cuja realização é incerta => requer conhecimento, método, técnicas e disciplina
8/27
Risco aplicado a alimentosCom relação aos alimentos, os analistas de riscos fazem referência a perigos...
Perigo: agente biológico, químico ou físico presente no alimento capaz de provocar efeitosadversos à saúde
Perigo biológico: bactérias que causam doenças (patógenos) Perigo químico: pesticidas, droga veterinárias (antibiótico, carrapaticidas, hormônios,..),
toxinas Perigo físicos: prego, caco de vidro, pedra, pau, plástico,...
Risco está em função da probabilidade de efeitos adversos a saúde e à severidade dos efeitoscausado por perigos no alimento
Base legal
Nacionalmente, a aplicação da Análise de Risco está contemplada no Decreto 5741/2106, que regulamenta a Lei 9712/98 e disciplina o capítulo de defesa agropecuária da Lei 8171 (Lei Agrícola).
No âmbito internacional, a aplicação da Análise de Risco é disciplinada pela comissão do CODEX ALIMENTARIUS/FAO/OMS, pela OIE (Organização Internacional de Epizoitias) e pela IPPC (Convenção Internacional de Proteção de Plantas).
9/27
Análise de Risco
Gerência de risco
Conjunto de atividades (processo) que procuram maximizar os impactos positivos e minimizar os impactos negativos de fatores de risco, mantendo-os em uma faixa de variabilidade e incerteza aceitáveis
Formado por dois sub-processos: na fase de planejamento envolve a “análise de risco” e na fase de execução o “controle de risco”
Processo de Gerência de Risco
Sub-processo Análise de Risco Sub-processo Controle de Risco
Início Análise de Risco Monitoração
Executar contingências
Final
Evento ocorreu ?
10/27
Análise de Risco
Análise de risco ou percepção da existência de riscos consiste em um conjunto de quatro atividades básicas (ALENCAR, 2006)
Identificação dos fatores de risco
Avaliação de seus impactos (nos objetivos do processo ou projeto) e probabilidades
Elaboração dos planos de contenção e contingência
Plano de contenção são ações ou procedimentos que objetivam eliminar ou reduzir as chances dos fatores de risco prejudicarem o projeto
Plano de contingência são ações ou procedimentos que objetivam minimizar o impacto sobre o projeto, caso, inevitavelmente, um ou mais fatores de risco assumam valores prejudiciais ao projeto
Estes planos devem ser realizados em desejável “compreensão perfeita do universo que abrange o projeto...” => necessidade do especialista
Redefinição do planejamento do projeto
11/27
Análise de Risco – visão agropecuária
Monitoramento
Inspeção Doméstica
Regulamento Político e Padrão
Revisão Pré-mercado
Nutrição
Educação
Assistência Técnica
Consumidor
Seguro
Indústria
Competitiva
Identificação e Tratamento dos Fatores
Base Científica
Objetivos
(bem definidos)
Comunicação
de Riscos
Controle
de Riscos
Análise
de Riscos
12/27
Análise de Risco aplicada ao MAPAUma entre as possíveis aplicações ao MAPA poderia, por exemplo, envolver os resultados de análises de
pesquisa de resíduos e/ou contaminantes no leite
Resíduos: antibióticos, carrapaticidas, hormônios, promotores de crescimento, .., etc. Contaminantes: metais pesados (chumbo, cadmio, arsenio, mercurio,..), micotoxinas
Exemplo de análise de risco em dados discretos (enumeráveis): contagem de coliformes fecais (CF)Distribuição binomial: B (n,p)
A estimativa do risco ao amostrarmos um laticínio e encontrarmos valores de CF acima do permitido é de 60%,isto é, a probabilidade de encontrarmos um laticínio “não conforme” de acordo com o parâmetro CF
Desvio associado à porcentagem 60% é de 15% (0.15492) aproximado: σ = √ P (1-P) / n
Intervalo de risco para um Desvio Padrão: 45 até 75 %
Amostra de Leite
(2 Laticínios por região)
Contagem ≤ 20 >20
1 10 (-)
2 30 (+)
3 34 (+)
4 25 (+)
5 22 (+)
6 78 (+)
7 12 (-)
8 23 (+)
9 10 (-)
10 0 (-)
Resultado 04 06
Valor limite (LMR ou Ponto de corte) fixado pelo especialista
Trabalho rápido ( 10/dia :: 1000/mês)
Gastar pouco
13/27
Análise de Risco aplicada ao MAPA
Exemplo de análise de risco em dados contínuos (assumir qualquer valor em intervalo contínuo):
Medição de promotores de crescimento no leite.
No exemplo abaixo, para que o leite esteja fisiologicamente dentro dos padrões em relação aporcentagem de promotores, deve ter uma média (μ) de 22% e um desvio (σ) de 2
σ = √ (xi – μ) / n
22 ± 2 25
x N (μ, σ2) => Z = (x – μ) / σ => Z N (0, 1) :: Tabela Normal Z ou Normal padrão
Qual é o risco de coletarmos uma amostra de leite de um mercado em São Carlos-SP e encontramosmais do que 25% de promotores de crescimento ? P (x > 25) = ?
Solução: P ((x- μ)/ σ > 25 – μ / σ) = P (Z > (25-22)/2) = P (Z > 1.5) = 0.5 – P(Z <= 1.5) = 0.5 – 0.4332 = 0,0668 7%
Resposta: A estimativa do risco de encontrar na amostra mais que 25% de promotores no leite é de 7%
Amostras Medição
01 20
02 28
03 23
04 20
05 21
06 27
. . . . . .
. . . . . .
100 23
P(x > 25)
14/27
Análise de Risco aplicada ao MAPA
Desenvolvimento matemático – um exemplo didático inicial
O exemplo abaixo considera um vetor “de risco” simples, no tempo, como modelo gerador deuma série de dados, considerando, por exemplo, os atributos ponderados frequência,intensidade, local, ..., n
Rcalc = ∫0
TEDT = (α f + β i + γ l + ... + δn + TI) DT
intervalos definidos pelo especialista:f = [0,1] , i = [0,Conc Max], l = [0,1,2,3]
variáveis:Frequencia (f) = Número de ocorrências / Tempo observado (definido)Intensidade (i) = 1 ppl / kg ou litro (partes por litro ou quilograma)Local da detecção (l) = Ordenha, pasteurização, refrigeração, ...Termo independente (TI) = Valor de risco mínimo independente às variáveisDiferencial de tempo (DT)
Níveis de severidade da medição realizada, após:
1- Ordenha2- Pasteurização3- Resfriamento
Resíduos /
Contaminantes
2006 2007 2008 2009 . . . . Ao longo
dos anos
Promotores 7% 5% 5% 5% . . . . (5.5%)
Coliformes 60% 20% 10% 5% . . . . (22.5%)
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
15/27
Análise de Risco aplicada ao MAPA
Rcalc
Série Histórica
Rtoler (Risco tolerado definido pelo especialista)
26
1, 2,..,k (desvio padrão)21
T (anos/horas/segundos/...)
Espero acertar em 95% que a curva irá operar com Rcalc entre 21 e 26 ...
Mantendo parâmetros iguais qual chance desta curva se verificar no futuro ?
Qual a variável determinante? Qual é a sua participação? Qual seu valor no futuro? , etc...
Apresentar, adicionalmente, informações estratégicas importantes à tomada de decisão descobertasdurante a etapa de mineração de dados...
Incerteza associada à medida
16/27
Características das massas de dados a serem utilizadas
A Embrapa Gado de Leite participa efetivamente em projeto de sensores ligados à pecuária leiteira.
Além da característica inovadora, justifica-se a adoção de sensores aplicados aos processos de produção leiteira, devido aos seguintes fortes atrativos:
Especificidade
Exatidão (precisão)
Agilidade
Capacidade de automação dos procedimentos de coleta e armazenamento de dados
Adicionalmente, em função da tecnologia alcançada e do tipo de sensor empregado consegue-se trabalhar com os dados apresentando: Precisão superior a algumas modernas (e extremamente caras) técnicas laboratoriais mundiais
=> Maior acurácia dos resultados, maior conhecimento, melhor contribuição científica
Precisão inferior (menor granularidade) a algumas técnicas laboratoriais ordinariamente utilizadas => Economia de capital financeiro, intelectual e temporal
Exemplo: Consegue-se evitar análises laboratoriais em cerca de 90% das amostras
A análise de risco associada aos resultados de análises de pesquisa de resíduos e/ou contaminantes no leite, pode beneficiar-se destas características...
Pode influenciar positivamente os algorítmos de classificação, predição, regressão
17/27
Características das massas de dados a serem utilizadas
O laboratório de Qualidade do Leite –LQL, da Embrapa Gado de Leite desenvolve inúmeros tipos de pesquisa e análises no leite, englobando produtores, fazendas, indústrias, laticínios, cooperativas da região sudeste
O Ministério da Agricultura, Pecuária e Abastecimento – MAPA concentra ao longo dos anos, dados específicos do Plano Nacional de Controle de Resíduos e Contaminantes –PNCRC, originados de diversos produtores de leite, associações diversas, laboratórios credenciados, em diversas regiões do país. As análises são realizadas de forma inovadora e diversificada envolvendo inúmeros analitos, sendo orientadas por assessores internos e externos (CODEX ALIMENTARIUS/FAO - Food And Agricultural Organization Of TheUnited Nations)
Em ordem prioritária ao interesse do projeto, temos:
Base de dados do Plano Nacional de Controle de Resíduos e Contaminantes – PNCRC -Ministério da Agricultura Política => dados confidenciais => restrições à liberação de dados
Base de dados formada por sensores – Embrapa Gado de Leite Inovação => segredo profissional => patentes => restrições à liberação de dados
Base de Dados do Laboratório de Qualidade do Leite – LQR – Embrapa Gado de Leite Disponibilidade imediata a partir de 2005
18/27
Impactos na Descoberta de Conhecimento em Bases de Dados
Descoberta de Conhecimento em bases de Dados – DCBD
Compreende-se a Descoberta de Conhecimento em Bases de Dados (DCBD) como a integração entre as áreas de estatística, inteligência artificial (redes neurais e sistemas simbólicos) e banco de dados
A computação encontra-se diretamente aplicada em todas as etapas do processo DCBD, participando não somente na execução de algoritmos para identificação de padrões e tendências, mas auxiliando no desenvolvimento do conjunto de métodos, técnicas e ferramentas resultantes.
Encontram-se no âmbito da DCBD as atividades de coleta, limpeza e redução de dados, seleção de parâmetros para a execução de algoritmos visando a identificação de padrões, além da representação e processamento do conhecimento.
Apresentando-se como sequência linear de etapas, o processo de DCBD, em verdade, engloba a execução interativa entre as mesmas. Neste processo, pode-se avançar nas etapas e, posteriormente, retornar a uma etapa qualquer que já tenha sido executada, sempre de acordo com as entradas e respostas fornecidas pelo usuário (Prado, 2001).
19/27
Impactos na Descoberta de Conhecimento em Bases de Dados
Etapas do processo DCBD mais fortemente impactadas devido a adoção da massade dados gerada pelo MAPA e/ou sensores aplicados à cadeia produtiva do leite
20/27
Impactos na Descoberta de Conhecimento em Bases de Dados
Análise inicial dos impactos para as bases de dados – Sensores e MAPA
A utilização da massa de dados gerada a partir de sensores, de acordo com ascaracterísticas previamente analisadas, deverá acarretar impactos no processo DCBDincidam, principalmente, sobre as etapas de Limpeza, Transformação e Mineração deDados, quais sejam:
Em função das características de maior automação e precisão (detalhamento)oferecidas pelos dados originados a partir da tecnologia de sensores, espera-se que asmesmas possam otimizar a etapa de limpeza e transformação, e adicionalmente,impactar positivamente a etapa de mineração de dados, possibilitando promover ummodelo classificatório preditivo básico (ou estendido) melhor ajustado
Em função da variabilidade observada nos tipos de dados envolvidos em umaanálise de risco, quais sejam, atributos discretos, atributos contínuos, mistos, etc.,espera-se implementar adaptações principalmente nos algorítimos de regressãodurante a etapa de mineração de dados
Esta segunda observação aplica-se diretamente tanto à massa de dados mantidapelo PNCRC em leite – MAPA , como à massa de dados gerada por sensores
21/27
Métodos de regressãoRegressão é uma técnica de modelagem preditiva dos dados onde a variável alvo a ser avaliada écontínua
D = {(xi,yi) | i = 1,2,...,n}
O objetivo é encontrar uma função alvo, modelo ou mapeamento que possa ajustar os dados deentrada (atributos xi),com um erro mínimo, em uma saída de valores contínuos (yi)
Se a resposta representa uma função linear dos atributos a regressão é dita linear
Os modelos preditivos supervisionados em mineração de dados, incluem os modelos declassificação e regressão, os quais desempenham um papel chave no processo DCBD. Essesmodelos que têm potencial para revelar estruturas ocultas.
Modelos de classificação usam variável alvo (resposta) categóricaQueremos aproximar a probabilidade de associar uma classe a uma função das
variáveis de entradaModelos de regressão usam variáveis alvo contínuas e binárias (yes/no)
Queremos aproximar a função de regressão
variável alvo, resposta, destino, dependente
(contínua)
variáveis explicativas, regressoras, entradas,
independentes ouatributos da observação(discretos ou contínuos)
22/27
Métodos de regressão
Esquema de trabalho inicial para abordar grandes massas de dados disjuntas – MAPA
Durante o processo de modelagem, sabe-se que os dados completos oferecem uma oportunidadede aprender e encontrar uma solução que identifica padrões essenciais, os quais não sãoplenamente detectados em dados de amostras...
Estratégia em função da complexidade dos dados
Monitorar cuidadosamente a variável a ser predita e os preditores em dados detreinamento (training datasets) => identificar padrões nestes Após, o modelo geral será ajustado e validado com dados completos de forma a medir suacapacidade em generalizar o que aprendeu
Resumidamente: Determinar quais variáveis predictoras estão associadas à variável resposta Determinar a forma de relacionamento entre variáveis predictoras e variável resposta Estimar o modelo preditivo melhor adaptado Estimar os parâmetros do modelo e seus intervalos de confiança Testar as hipóteses sobre os parâmetros Estimar a predição para novos casos
23/27
Métodos de regressão
Modelos preditivos supervisionados
O principal objetivo da modelagem preditiva é modelar o relacionamento (associação) entre asvárias variáveis predictoras e a variável resposta
Na maioria das situações, modelos preditivos fornecem apenas aproximações úteis paraencontrar o verdadeiro modelo desconhecido, mas se o modelo for cuidadosamente formulado apartir de um grande e representativo banco de dados, pode fornecer uma excelente equaçãopreditiva
Técnicas aplicadas
MLR : Multiple linear regression
Descreve a associação entre preditoras e resposta por meio de uma equação linear Técnica mais utilizada em todas as disciplinas Principal limitação conceitual é que somente pode-se verificar relacionamentos e nunca ter certeza sobre o mecanismo causal
“Relação de regressão não implica em relações de causa e efeito”
Quando o resultado (ou classe) é numérico e todas os preditores são numéricos, a técnica de regressão linear deve ser naturalmente considerada: Expressar a classe como uma combinaçãolinear de atributos com pesos calculados a partir dos dados de treinamento
24/27
Métodos de regressão
BLR : Binary logistic regression
Descreve a associação entre preditoras e resposta usando uma função logística não-linear Regressão logística é uma técnica de modelagem amplamente utilizada em aplicações demineração de dados. Difere basicamente da regressão linear (e outras) pelo fato da variávelexplicativa ser categórica Vantagem : Permite a construção de modelos mais complexos comparativamente aos modelos lineares de forma que as interações entre os preditores contínuos e categóricos podem ser exploradas Principal limitação: a confiabilidade das estimativas diminui quando apenas poucos casos para cada combinação de variáveis observadas (xi) estão disponíveis
No software SAS (SAS Institute Incorporation) as macros REGDIAG e LOGISTIC são utilizadaspara implementar MLR e BLR
Muitos outros métodos, a serem estudados, estão disponíveis na literatura estatística e poderãoser usados para modelagem não-linear, incluindo polynomial regression, k-nearest neighborregression, kernel regression e discriminant analysis
WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. 2. ed. San Francisco: Morgan Kaufmann, 2005.
25/27
Atividades em desenvolvimento no projeto
Solicitando formalmente o acesso aos dados brutos do PNCRC em Leite – MAPA
Aguardando o início do curso sobre análise de risco agropecuário no MAPA, ministrado por membro assessor da FAO (Food And Agricultural Organization OfThe United Nations), Período 23/11/2009 a 27/11/2009
Objetivo: estudar as diversas técnicas empregadas pelo MAPA, realizar direto contato com usuário
Realizando reuniões periódicas com estatístico contratado pelo MAPA, visandomelhor compreender alguns tipos de técnicas utilizadas em análises laboratoriaispara os analitos em estudo
Iniciando estudos práticos sobre o software Weka, com base em seu livro texto, focando os algorítmos de mineração relacionados à classificação e regressão
Buscando o diferencial técnico (novidade) que permita a aprovação desta propostano departamento de computação da UFSCar
26/27
Referências
ALENCAR, A. J.; SCHMITZ, E. A. Análise de Risco em Gerência de Projetos.Rio de Janeiro: Brasport, 2006. 196 p.
BONNET, M.; SILVA, A.E.. Núcleo de Análise de Risco Agropecuário: Projeto NARAGRO. Brasília, DF: Secretaria de Defesa Agropecuária / MAPA, 2007.
CABRAL, J. R. A.; VALENTE, M. E. R. Rastreabilidade na indústria de laticínios: relatório parcial. Viçosa: UFV, 2008. 50 p. (Projeto final de curso).
CHAKRABART, S. et al. Data Mining Know it all. Burlington, MA: Morgan Kaufmann, 2009.460 p.
PRADO, H. A. Orpheo: uma estrutura de trabalho para integração dos paradigmas de aprendizado supervisionado e não-supervisionado. 2001. 154 f. Tese (Doutorado) – Universidade Federal do Rio Grande do Sul, Porto Alegre, RS.
TAN P.; STEINBACH M.;KUMAR V. Introdução ao Data Mining Mineração de Dados. Rio de janeiro: Ciência Moderna, 2009. 900 p.
WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. 2. ed. San Francisco: Morgan Kaufmann, 2005. 525 p.