Upload
rebeca-lusco
View
227
Download
1
Embed Size (px)
Citation preview
UFPE-CIN 20021
SeminárioSeminário
Erivan A. Andrade ([email protected])
Jacques Robin ([email protected])
Mineração de Exceções
UFPE-CIN 20022
Roteiro
Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências
UFPE-CIN 20023
Motivação: definição O que é outlier?
É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado
Equivalente a exceções Causa dos outliers: o que é esse mecanismo?
Erro de medidaComportamento diferente do padrãoDilema: “o ruído de uns é o sinal dos outros”
Mineração de outliers Detecção e análise de outliers
UFPE-CIN 20024
Motivação: aplicações práticas Detecção de Fraudes Comportamento de gastos de consumidores Em análises médicas (resultados não esperados de
tratamentos ) Pesquisa farmacêutica Marketing Coaching (hey Felipão, Romário é um outlier! ) Etc.
UFPE-CIN 20025
Técnicas de Mineração de Exceções
Classes de técnicas: Semi-automático:
Visualização Automático
Baseados em Clustering
Baseado em Estatística
Baseado em Desvio
Baseado em Distância
Características desejáveisEscalável para alta
dimensionalidade Interpretabilidade dos
resultadosComputacionalmente
eficienteDá importância ao
comportamento local dos dados
Ordenação dos outliers
UFPE-CIN 20026
Roteiro
Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências
UFPE-CIN 20027
Mineração de exceção baseada em agrupamento
Idéia: Formar grupos de dados Dados que não se encaixam em nenhum
grupos são considerados exceções
Inserir figura exemplo aqui
UFPE-CIN 20028
Mineração de exceção baseada em agrupamento
VantagensReutiliza vasto
leque de métodos de agrupamentos
Não requer conhecimento prévio de distribuição
LimitaçõesO que se busca é
otimizar os agrupamentos, não a detecção de exceções
O que é exceção para uma configuração pode não ser para outra
UFPE-CIN 20029
Roteiro
Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências
UFPE-CIN 200210
Mineração de Outliers Baseada em Estatística
Assume distribuição ou modelo probabilístico para um conjunto de dados Ex: distribuição normal
Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhidoSe um objeto for significativamente maior ou
menor que o modelo escolhido ele é uma exceção O TD examina 2 hipóteses:
Uma hipótese de trabalho Uma hipótese alternativa
UFPE-CIN 200211
Mineração de Outliers Baseada em Estatística
Vantagens: Pode ser avaliado o nível
de significância de uma exceção
Usa métodos estatístico consolidados ao longo dos tempos
Limitações: O modelo escolhido
influencia a identificação dos Outliers
Testa aberração ao longo de apenas uma única dimensão
Dificuldade na escolha de uma distribuição
UFPE-CIN 200212
Roteiro
Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências
UFPE-CIN 200213
Mineração de Outliers Baseada em Desvio
Não usa métodos estatísticos nem medidas de distância
Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões
Exceções são equivalentes a Desvios de comportamento
UFPE-CIN 200214
Mineração de Outliers Baseada em Densidade de Distribuição
Características Divide o espaço de dados em classe equi-depth Cada classe contém uma fração f=1/ dos registros Diferentes localidades dos dados são densas com respeito
a diferentes subconjuntos de atributos Observa a densidade de distribuição da projeção dos
dados Gera projeções dos dados sobre k dimensões Identifica nessas projeções, regiões de densidade
anormalmente baixa Pontos nessas regiões são considerados outliers Suporta dados com alta dimensionalidade
UFPE-CIN 200215
Mineração de Outliers Baseada em Densidade de Distribuição
Ideia
UFPE-CIN 200216
Mineração de Outliers Baseada em Densidade de Distribuição
O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então:Fração esperadaDesvio padrãoCoeficiente de dispersão de um cubo D
n(D) número de pontos em um cubo k-dimensional N número de pontos no conjunto de dados
S(D)<0 indica cubos com numero de pontos significativamente abaixo do esperado
)1.(. kk ffN
kfN.
)1.(..)()(
kk
k
ffNfNDnDS
UFPE-CIN 200217
Mineração de Outliers Baseada em Densidade de Distribuição
Busca necessária para gerar as projeções Busca exaustiva: garante encontrar todas a exceções
mas com complexidade alta Busca genética com função de seleção, crossover e
mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções
Comparativo de resultado
UFPE-CIN 200218
Mineração de Outliers em Cubos OLAP
Exploração dirigida a hipótese O usuário interativamente busca por regiões de anomalias As regiões de anomalias representam áreas de interesse A busca das anomalias é feita com o uso das operações de
cubo OLAP Dril-down, roll-up, seleção
Problemas da exploração dirigida a hipótese Espaço de busca muito grande As anomalias podem estar em níveis inferiores ao ponto de
partida da análise Grande quantidade de agregados
UFPE-CIN 200219
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta O usuário busca por anomalias guiado por indicadores
pré-computados Os indicadores permitem a observação de padrões
anormais em qualquer nível de agregação Muito útil, especialmente, para grande numero de
dimensões Um valor é uma exceção se ele difere significativamente
do seu valor antecipado Valor calculado por um modelo estatístico Considera o contexto da posição da célula no cubo Combina as tendências ao longo das diferentes dimensões a
que uma célula pertence
UFPE-CIN 200220
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta Definição de exceção (yijk – ŷijk)/ ijk > ( = 2.5)
Cálculo do valor antecipado ŷijk
Onde γ = l+...+ (média ao longo de todas as dimensões)
γirAr = l+...+ir+...+ - γ(média ao longo de uma dimensão)
γirisArAs = l+...+ir+...+ is+...+ - γir
Ar - γisAs – γ (Média ao longo de duas
dimensões)
e((γ + γγ + γii
AA + γ + γjjBB + γ + γkk
CC + γ + γijijABAB + γ + γjkjk
BCBC + γ + γikikACAC))
ŷijk =ŷijk =
UFPE-CIN 200221
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descobertaEquação iterativa para cálculo do (desvio padrão)
(yyijkijk - ŷŷijkijk)2
(ŷŷijkijk)log ŷŷijkijk
log ŷŷijkijk 0
2ijk = (ŷŷijkijk)
Onde é calculado por
UFPE-CIN 200222
Mineração de Outliers em Cubos OLAP
Os indicadores dão o grau de surpresa do valor da célula
Os indicadores são 3:SelfExp: valor surpresa da célula em relação a outras
células no mesmo nível de agregação InExp: Grau de surpresa em algum nível abaixo desta
célulaPathExp: grau de surpresa para cada caminho de
drill-down a partir da célula.
Exploração dirigida a descoberta
UFPE-CIN 200223
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Destacar Exceções
UFPE-CIN 200224
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Exceção de Caminho
UFPE-CIN 200225
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Down por produto (PathExp)
UFPE-CIN 200226
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Drown para Diet-S (InExp)
UFPE-CIN 200227
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
UFPE-CIN 200228
Roteiro
Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências
UFPE-CIN 200229
Mineração de Outliers Baseada em Distância: Dk(p)
Busca Resolver limitações do estatístico Um outlier é determinado baseado na distancia
Dk(p) Dk(p)= distância de p ao seu k-esimo vizinho Evita suposição sobre distribuição dos dados Menor custo computacional Pode, ás vezes, convergir para os métodos
estatísticos Desvantagem
Não é escalável para mais que 5 dimensões
UFPE-CIN 200230
Detecção de Outliers Baseada em Distâncias: Dk(p)
Algoritmo Loop aninhado Para cada ponto p no conjunto de dados calcula
Dk(p) Para calcular cada Dk(p) varre todos os dados Mantém uma lista de k vizinhos mais próximo
para cada ponto p Os n pontos com maior valor de Dk(p) são os n
outliers Para melhorar a eficiência pode-se considerar
blocos de pontos ao invés de pontos individuais
UFPE-CIN 200231
Detecção de Outliers Baseada em Distâncias: Dk(p)
Algoritmo baseado em índice O uso de estruturas de índices espaciais pode
diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo)
É possível podar sub-arvores cujos nós não podem conter outlierA cada passo guarda-se os n outliers
encontradosDnmin menor Dk entre os outlierDk(p)< Dnmin P não pode ser um outlier
UFPE-CIN 200232
Detecção de Outliers Baseada em Distâncias: Dk(p)
Algoritmo Baseado em partições Detecta os n outliers mais fortes
Os outliers são ordenados pela distância Dk(p) Baseia se na distância dos vizinhos mais próximos O conjunto de dados é divididos em partições por
meio de algoritmos de agrupamento Poda partições que não são candidatas a conter
outlierAcelera a identificação pois diminui a quantidade
de pontos
UFPE-CIN 200233
Detecção de Outliers Baseada em Distâncias : Dk(p)
Algoritmo Baseado em partições (passos) Gerar partições
Através de clustering Calcular limites Dk para os pontos em cada partição
P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partição P
Identificar partições candidatas a conter exceções P.upperminDkDist=min{Pi.lower:1 i l} Pi.lower>Pj.lower>..>Pl.lower e o número de pontos seja
pelo menos n Computar exceções com os pontos nas partições candidatas
P.neighbors denota as partições vizinhas de P a uma distância de P.upper
UFPE-CIN 200234
Detecção de Outliers Baseada em Distâncias : Dk(p)
Algoritmo Baseado em partições (passos)
O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas
UFPE-CIN 200235
Detecção de Outliers Baseada em Distâncias : Dk(p)
Algoritmo Baseado em partições
UFPE-CIN 200236
Detecção de Outliers Baseada em Distâncias : Dk(p)
Comparativo de desempenho
UFPE-CIN 200237
Detecção de Outliers Baseada em Distâncias : Dk(p)
Comparativo de desempenho
UFPE-CIN 200238
Roteiro
Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências
UFPE-CIN 200239
Conclusões
Mineração de exceçõesÉ de grande interesseÉ custosa computacionalmente,
principalmente para grande quantidade de dimensões
Necessita de métodos robustos
UFPE-CIN 200240
Referências Data Mining: concepts and techniques, de Han, J. &
Kamber, M., 2001, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de
Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division
Efficient Algoritms for Mining Outliers from Data sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000
Outlier Detection for High Dimensional Data. Charu C. Aggarwal e Philip S. Yu. 2001
UFPE-CIN 200241
Visão de Outliers
UFPE-CIN 200242
Comparativo: Força bruta x algorotimo Evolutivo