UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade ([email protected])[email protected] Jacques Robin ([email protected])[email protected] Mineração de Exceções

UFPE-CIN 20021

SeminárioSeminário

Erivan A. Andrade ([email protected])

Jacques Robin ([email protected])

Mineração de Exceções

mailto:[email protected]

mailto:[email protected]

UFPE-CIN 20022

Roteiro

Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

UFPE-CIN 20023

Motivação: definição O que é outlier?

É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado

Equivalente a exceções Causa dos outliers: o que é esse mecanismo?

Erro de medidaComportamento diferente do padrãoDilema: “o ruído de uns é o sinal dos outros”

Mineração de outliers Detecção e análise de outliers

UFPE-CIN 20024

Motivação: aplicações práticas Detecção de Fraudes Comportamento de gastos de consumidores Em análises médicas (resultados não esperados de

tratamentos ) Pesquisa farmacêutica Marketing Coaching (hey Felipão, Romário é um outlier! ) Etc.

UFPE-CIN 20025

Técnicas de Mineração de Exceções

Classes de técnicas: Semi-automático:

Visualização Automático

Baseados em Clustering

Baseado em Estatística

Baseado em Desvio

Baseado em Distância

Características desejáveisEscalável para alta

dimensionalidade Interpretabilidade dos

resultadosComputacionalmente

eficienteDá importância ao

comportamento local dos dados

Ordenação dos outliers

UFPE-CIN 20026

Roteiro

Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

UFPE-CIN 20027

Mineração de exceção baseada em agrupamento

Idéia: Formar grupos de dados Dados que não se encaixam em nenhum

grupos são considerados exceções

Inserir figura exemplo aqui

UFPE-CIN 20028

Mineração de exceção baseada em agrupamento

VantagensReutiliza vasto

leque de métodos de agrupamentos

Não requer conhecimento prévio de distribuição

LimitaçõesO que se busca é

otimizar os agrupamentos, não a detecção de exceções

O que é exceção para uma configuração pode não ser para outra

UFPE-CIN 20029

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

UFPE-CIN 200210

Mineração de Outliers Baseada em Estatística

Assume distribuição ou modelo probabilístico para um conjunto de dados Ex: distribuição normal

Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhidoSe um objeto for significativamente maior ou

menor que o modelo escolhido ele é uma exceção O TD examina 2 hipóteses:

Uma hipótese de trabalho Uma hipótese alternativa

UFPE-CIN 200211

Mineração de Outliers Baseada em Estatística

Vantagens: Pode ser avaliado o nível

de significância de uma exceção

Usa métodos estatístico consolidados ao longo dos tempos

Limitações: O modelo escolhido

influencia a identificação dos Outliers

Testa aberração ao longo de apenas uma única dimensão

Dificuldade na escolha de uma distribuição

UFPE-CIN 200212

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências

UFPE-CIN 200213

Mineração de Outliers Baseada em Desvio

Não usa métodos estatísticos nem medidas de distância

Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões

Exceções são equivalentes a Desvios de comportamento

UFPE-CIN 200214

Mineração de Outliers Baseada em Densidade de Distribuição

Características Divide o espaço de dados em classe equi-depth Cada classe contém uma fração f=1/ dos registros Diferentes localidades dos dados são densas com respeito

a diferentes subconjuntos de atributos Observa a densidade de distribuição da projeção dos

dados Gera projeções dos dados sobre k dimensões Identifica nessas projeções, regiões de densidade

anormalmente baixa Pontos nessas regiões são considerados outliers Suporta dados com alta dimensionalidade

UFPE-CIN 200215


Ideia

UFPE-CIN 200216


O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então:Fração esperadaDesvio padrãoCoeficiente de dispersão de um cubo D

n(D) número de pontos em um cubo k-dimensional N número de pontos no conjunto de dados

S(D)<0 indica cubos com numero de pontos significativamente abaixo do esperado

)1.(. kk ffN

kfN.

)1.(..)()(

kk

k

ffNfNDnDS

UFPE-CIN 200217


Busca necessária para gerar as projeções Busca exaustiva: garante encontrar todas a exceções

mas com complexidade alta Busca genética com função de seleção, crossover e

mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções

Comparativo de resultado

UFPE-CIN 200218

Mineração de Outliers em Cubos OLAP

Exploração dirigida a hipótese O usuário interativamente busca por regiões de anomalias As regiões de anomalias representam áreas de interesse A busca das anomalias é feita com o uso das operações de

cubo OLAP Dril-down, roll-up, seleção

Problemas da exploração dirigida a hipótese Espaço de busca muito grande As anomalias podem estar em níveis inferiores ao ponto de

partida da análise Grande quantidade de agregados

UFPE-CIN 200219


Exploração dirigida a descoberta O usuário busca por anomalias guiado por indicadores

pré-computados Os indicadores permitem a observação de padrões

anormais em qualquer nível de agregação Muito útil, especialmente, para grande numero de

dimensões Um valor é uma exceção se ele difere significativamente

do seu valor antecipado Valor calculado por um modelo estatístico Considera o contexto da posição da célula no cubo Combina as tendências ao longo das diferentes dimensões a

que uma célula pertence

UFPE-CIN 200220


Exploração dirigida a descoberta Definição de exceção (yijk – ŷijk)/ ijk > ( = 2.5)

Cálculo do valor antecipado ŷijk

Onde γ = l+...+ (média ao longo de todas as dimensões)

γirAr = l+...+ir+...+ - γ(média ao longo de uma dimensão)

γirisArAs = l+...+ir+...+ is+...+ - γir

Ar - γisAs – γ (Média ao longo de duas

dimensões)

e((γ + γγ + γii

AA + γ + γjjBB + γ + γkk

CC + γ + γijijABAB + γ + γjkjk

BCBC + γ + γikikACAC))

ŷijk =ŷijk =

UFPE-CIN 200221


Exploração dirigida a descobertaEquação iterativa para cálculo do (desvio padrão)

(yyijkijk - ŷŷijkijk)2

(ŷŷijkijk)log ŷŷijkijk

log ŷŷijkijk 0

2ijk = (ŷŷijkijk)

Onde é calculado por

UFPE-CIN 200222


Os indicadores dão o grau de surpresa do valor da célula

Os indicadores são 3:SelfExp: valor surpresa da célula em relação a outras

células no mesmo nível de agregação InExp: Grau de surpresa em algum nível abaixo desta

célulaPathExp: grau de surpresa para cada caminho de

drill-down a partir da célula.

Exploração dirigida a descoberta

UFPE-CIN 200223


Exploração dirigida a descoberta (Exemplo)

Destacar Exceções

UFPE-CIN 200224



Exceção de Caminho

UFPE-CIN 200225



Drill-Down por produto (PathExp)

UFPE-CIN 200226



Drill-Drown para Diet-S (InExp)

UFPE-CIN 200227



UFPE-CIN 200228

Roteiro


UFPE-CIN 200229

Mineração de Outliers Baseada em Distância: Dk(p)

Busca Resolver limitações do estatístico Um outlier é determinado baseado na distancia

Dk(p) Dk(p)= distância de p ao seu k-esimo vizinho Evita suposição sobre distribuição dos dados Menor custo computacional Pode, ás vezes, convergir para os métodos

estatísticos Desvantagem

Não é escalável para mais que 5 dimensões

UFPE-CIN 200230

Detecção de Outliers Baseada em Distâncias: Dk(p)

Algoritmo Loop aninhado Para cada ponto p no conjunto de dados calcula

Dk(p) Para calcular cada Dk(p) varre todos os dados Mantém uma lista de k vizinhos mais próximo

para cada ponto p Os n pontos com maior valor de Dk(p) são os n

outliers Para melhorar a eficiência pode-se considerar

blocos de pontos ao invés de pontos individuais

UFPE-CIN 200231


Algoritmo baseado em índice O uso de estruturas de índices espaciais pode

diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo)

É possível podar sub-arvores cujos nós não podem conter outlierA cada passo guarda-se os n outliers

encontradosDnmin menor Dk entre os outlierDk(p)< Dnmin P não pode ser um outlier

UFPE-CIN 200232


Algoritmo Baseado em partições Detecta os n outliers mais fortes

Os outliers são ordenados pela distância Dk(p) Baseia se na distância dos vizinhos mais próximos O conjunto de dados é divididos em partições por

meio de algoritmos de agrupamento Poda partições que não são candidatas a conter

outlierAcelera a identificação pois diminui a quantidade

de pontos

UFPE-CIN 200233

Detecção de Outliers Baseada em Distâncias : Dk(p)

Algoritmo Baseado em partições (passos) Gerar partições

Através de clustering Calcular limites Dk para os pontos em cada partição

P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partição P

Identificar partições candidatas a conter exceções P.upperminDkDist=min{Pi.lower:1 i l} Pi.lower>Pj.lower>..>Pl.lower e o número de pontos seja

pelo menos n Computar exceções com os pontos nas partições candidatas

P.neighbors denota as partições vizinhas de P a uma distância de P.upper

UFPE-CIN 200234


Algoritmo Baseado em partições (passos)

O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas

UFPE-CIN 200235


Algoritmo Baseado em partições

UFPE-CIN 200236


Comparativo de desempenho

UFPE-CIN 200237


Comparativo de desempenho

UFPE-CIN 200238

Roteiro


UFPE-CIN 200239

Conclusões

Mineração de exceçõesÉ de grande interesseÉ custosa computacionalmente,

principalmente para grande quantidade de dimensões

Necessita de métodos robustos

UFPE-CIN 200240

Referências Data Mining: concepts and techniques, de Han, J. &

Kamber, M., 2001, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de

Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division

Efficient Algoritms for Mining Outliers from Data sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000

Outlier Detection for High Dimensional Data. Charu C. Aggarwal e Philip S. Yu. 2001

UFPE-CIN 200241

Visão de Outliers

UFPE-CIN 200242

Comparativo: Força bruta x algorotimo Evolutivo

Documents

UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade ([email protected])[email protected] Jacques Robin ([email protected])[email protected] Mineração de Exceções