Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consultas Médicas ...

Preview:

Citation preview

Universidade de Brasília– UnBMestrado Profissional em Computação Aplicada

Tiago Pereira HillermanDr. Rommel Novaes CarvalhoDr. Ana Carla Bittencourt Reis

Setembro 2015

Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means

2

Introdução / Contexto

MetodologiaEntendimento do Negócio

Entendimento e Preparação dos Dados

Modelagem e Avaliação

Implementação Conclusões e Aplicações

Futuras

Agenda

3

Aumento de custos de saúde

~10 – 20% do PIB (Brasil / EUA)

Dificuldades em avaliar dados de cobranças

Inconsistências, Desperdícios e Abusos

Estimativa: 10-15% das despesas, dependendo do país

• Cobranças excessivas• Procedimentos / materiais / medicamentos desnecessários• Despesas com serviços não prestados

• Volume de registros• Regras de negócio para cada procedimento• Ausência de análise comportamental de

cobranças de prestadores

IntroduçãoCONTEXTO

4

Objetivo PrincipalDetectar cobranças excessivas oriundas de prestadores de serviços assistenciais

• Foco: Consultas médicas

• Hipótese: “Dia impossível”

Metodologia

CRISP-DM

Fonte: CHAPMAN et. al., 2000

Detecção de anomalias

Clusterização K-means

Abordagem não supervisionada

5

Clusterização - K-Means

Agrupamento de objetos por semelhança (distância)

A

Exemplo: 3 Clusters (K = centróides)

B

C

D

EF

1.Centróides

iniciais aleatórios

C1

C2

C3

2.Vinculação de pontos mais

próximos

3.Atualização

de centróides

4.Nova

vinculação

FC1

C2

C3A

B

C

D

EF

C1

C2

C3A

C1

C2

C3A

B

C

D

E

D

EF

B

C

A

B

C

D

EF

Lloyd (1957), Hartigan and Wong (1975)

6

A

Alternativa: Método do “cotovelo” / (Soma de erros)

AC1

C2

D

E

F

B

C

C3D

E

F

B

C

C1

C2

“Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters

Menor erro = “melhor” representação

K = 2 K = 3

Definindo o número de agrupamentos (clusters)

7

Entendimento do Negócio

Possível abuso: Serviços não prestados – “dia impossível”

Ausência de controles:

Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação)

Qtde. de pacientes por prestador, por dia

Comportamento de prestadores em relação aos pares

Instituição avaliadaOperadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões

Rede de Prestadores:Pessoas Jurídicas: Hospitais, clínicas, laboratórios(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas

8

Conjunto de dados inicial

Variáveis iniciais

Entendimento e Preparação dos Dados (1 de 3)

~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00

Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo

9

Entendimento e Preparação dos Dados (2 de 3)

Conjunto de dados inicial

Variáveis iniciais

~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00

Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo

Manipulação: R Studio

10

Entendimento e Preparação dos Dados (3 de 3)

Distribuição de “Qtde. de consultas por dia”

~99% de registros

< 1% de registros

Máx. = 93 consultas por dia

11

Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia?~ 15 mins. por consulta08 horas por dia (x) 60mins = 480 mins.480/15 = 32 consultas por dia

18 prestadores Valor

envolvido: R$ 600.000,00

12

Limite

Cobrança incorreta, porém justificável

Entendimento do negócio – Problemas!

Falsos Positivos

13

Falsos Negativos

Entendimento do negócio – Problemas!

Limite

Limite

14

Frequência: Qtde. de dias com atendimentos no mês

Alerta: Qtde. de visitas distintas em um único dia

Volume: Qtde. de pacientes atendidos no mês

Entendimento do negócio – Novas variáveis

15

Preparação dos dados – Novas variáveis

Variáveis iniciais

16

Novas variáveis

Alerta Frequência

Volume

Preparação dos dados – Novas variáveis

Variáveis iniciais

17

Modelagem – Novas Variáveis

Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes

da média(Média + (6 * Desv.Padrão)) = 10.6 consultas

por diaNovo subconjunto: ~2.000 registros

18

Modelagem – Clusterização do Novo Subconjunto via K-Means (i)

19

Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)Qtde. de registros e prestadores em cada cluster

20

Evaluation – Means and S.D. for variables in each cluster

Qtde. de registros e prestadores em cada cluster

Análise: Média e D.P. de cada variável, em cada cluster

21

Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04

Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03

22

Implantação – Resultados / Conclusões (i)

Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas

Necessário verificar novos prestadores (54)

23

Suspeitos confirmados = monitoramento / possível descredenciamento

Implantação – Resultados / Conclusões (ii)

Vantagens / Trabalhos Futuros

• Sem necessidade de estabelecer limites por procedimentos

• Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento)

• Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema)

• Expansão para outros procedimentos e tipos de prestador

Confirmação por meio de análise de guias físicias e entrevistas

Setembro 2015

Obrigado!

Tiago Pereira HillermanMPCA UnB – Computação Aplicada, Universidade de Brasíliat_hillerman@yahoo.com.br / 61 9339 0000

25

26

Definindo o número de clusters

Métricas NbClust

• Índices de eficiência para cada n número de clusters

Exemplos:

Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster

Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters.

É utilizada como indicador a média do conjunto de agrupamentos.

27

Média, desvio padrão

Recommended