View
139
Download
0
Category
Preview:
Citation preview
Universidade de Brasília– UnBMestrado Profissional em Computação Aplicada
Tiago Pereira HillermanDr. Rommel Novaes CarvalhoDr. Ana Carla Bittencourt Reis
Setembro 2015
Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means
2
Introdução / Contexto
MetodologiaEntendimento do Negócio
Entendimento e Preparação dos Dados
Modelagem e Avaliação
Implementação Conclusões e Aplicações
Futuras
Agenda
3
Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas• Procedimentos / materiais / medicamentos desnecessários• Despesas com serviços não prestados
• Volume de registros• Regras de negócio para cada procedimento• Ausência de análise comportamental de
cobranças de prestadores
IntroduçãoCONTEXTO
4
Objetivo PrincipalDetectar cobranças excessivas oriundas de prestadores de serviços assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada
5
Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
EF
1.Centróides
iniciais aleatórios
C1
C2
C3
2.Vinculação de pontos mais
próximos
3.Atualização
de centróides
4.Nova
vinculação
FC1
C2
C3A
B
C
D
EF
C1
C2
C3A
C1
C2
C3A
B
C
D
E
D
EF
B
C
A
B
C
D
EF
Lloyd (1957), Hartigan and Wong (1975)
6
A
Alternativa: Método do “cotovelo” / (Soma de erros)
AC1
C2
D
E
F
B
C
C3D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)
7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliadaOperadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:Pessoas Jurídicas: Hospitais, clínicas, laboratórios(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
8
Conjunto de dados inicial
Variáveis iniciais
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00
Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00
Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio
10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros
< 1% de registros
Máx. = 93 consultas por dia
11
Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia?~ 15 mins. por consulta08 horas por dia (x) 60mins = 480 mins.480/15 = 32 consultas por dia
18 prestadores Valor
envolvido: R$ 600.000,00
12
Limite
Cobrança incorreta, porém justificável
Entendimento do negócio – Problemas!
Falsos Positivos
13
Falsos Negativos
Entendimento do negócio – Problemas!
Limite
Limite
14
Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas em um único dia
Volume: Qtde. de pacientes atendidos no mês
Entendimento do negócio – Novas variáveis
15
Preparação dos dados – Novas variáveis
Variáveis iniciais
16
Novas variáveis
Alerta Frequência
Volume
Preparação dos dados – Novas variáveis
Variáveis iniciais
17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes
da média(Média + (6 * Desv.Padrão)) = 10.6 consultas
por diaNovo subconjunto: ~2.000 registros
18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)Qtde. de registros e prestadores em cada cluster
20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster
21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03
22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)
23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas
Setembro 2015
Obrigado!
Tiago Pereira HillermanMPCA UnB – Computação Aplicada, Universidade de Brasíliat_hillerman@yahoo.com.br / 61 9339 0000
25
26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.
27
Média, desvio padrão
Recommended