Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
FUNDAÇÃO GETULIO VARGAS
ESCOLA DE ECONOMIA DE SÃO PAULO
MELISSA FORTI
TÉCNICAS DE MACHINE LEARNING APLICADAS NARECUPERAÇÃO DE CRÉDITO DO MERCADO
BRASILEIRO
SÃO PAULO2018
MELISSA FORTI
Técnicas de Machine Learning aplicadas na recuperação decrédito do mercado brasileiro
Dissertação apresentada à Escola de Economiade São Paulo da Fundação Getulio Vargas, comoparte dos requisitos para a obtenção do título deMestre em Economia.
Orientador: Prof. Dr. João Luiz Chela
São Paulo
2018
Forti, Melissa. Técnicas de machine learning aplicadas na recuperação de crédito do mercado brasileiro / Melissa Forti. - 2018. 74 f. Orientador: João Luiz Chela Dissertação (MPFE) - Escola de Economia de São Paulo. 1. Administração de crédito. 2. Cobrança de contas. 3. Créditos – Modelos matemáticos. I. Chela, João Luiz. II. Dissertação (MPFE) - Escola de Economia de São Paulo. III. Título.
CDU 336.77
Ficha catalográfica elaborada por: Raphael Figueiredo Xavier CRB SP-009987/O
Biblioteca Karl A. Boedecker da Fundação Getulio Vargas - SP
AGRADECIMENTOS
Agradeço à Deus por ser luz nos momentos de escuridão.
Agradeço à minha família por ser meu porto seguro, me apoiar nos momentos maisdifíceis e me incentivar a seguir meu caminho.
Ao meu irmão Rodrigo por acreditar, confiar e, acima de tudo, me guiar nos momentosmais incertos.
Ao Banco Bradesco e os envolvidos Alessandro, Julian, Julio, Karen e Marcelo pelaoportunidade de crescimento e por confiarem em meu potencial.
Ao meu orientador João Chela pela atenção e orientação ao longo desses meses.
Aos professores Priscilla e Gustavo por serem grandes mentores e orientadores.
Aos amigos por me apoiarem e entenderem minha ausência ao longo desses anos deestudo.
Aos amigos Akira e Paulo, por serem meus grandes incentivadores pela busca de conhe-cimento.
RESUMO
A necessidade de conhecer o cliente sempre foi um diferencial para o mercado e nestes últimosanos vivenciamos um crescimento exponencial de informações e técnicas que promovem aavaliação para todas as fases do ciclo de crédito, desde a prospecção até a recuperação de dívidas.Nesse contexto, as empresas estão investindo cada vez mais em métodos de Machine Learning
para que possam extrair o máximo de informações e assim terem processos mais assertivos erentáveis. No entanto, essas técnicas possuem ainda alguma desconfiança no ambiente financeiro.Diante desse contexto, o objetivo desse trabalho foi aplicar as técnicas de Machine Learning:
Random Forest, Support Vector Machine e Gradient Boosting para um banco de dados realde cobrança, a fim de identificar os clientes mais propensos a quitar suas dívidas (Collection
Score) e comparar a acurácia e interpretação desses modelos com a metodologia tradicional deRegressão Logística. A principal contribuição desse trabalho está relacionada com a comparaçãodas técnicas em um cenário de recuperação de crédito considerando as principais características,vantagens e desvantagens.
Palavras-chaves: Collection score. Modelos de cobrança. Ciclo de crédito. Recuperação de dí-vidas. Regressão logística. Gradient boosting. Random forest. Support vector machine. Machine
learning.
ABSTRACT
The need to know the customer has always been a differential for the market, and in currentlyyears we have experienced an exponential growth of information and techniques that promotethis evaluation for all phases of the credit cycle, from prospecting to debt recovery. In this context,companies are increasingly investing in Machine Learning methods, so that they can extract themaximum information and thus have more assertive and profitable processes. However, thesemodels still have a lot of distrust in the financial environment. Given this need and uncertainty, theobjective of this work was to apply the Machine Learning techniques: Random Forest, SupportVector Machine and Gradient Boosting to a real collection database in order to identify therecover clients (Collection Score) and to compare the accuracy and interpretation of these modelswith the classical logistic regression methodology. The main contribution of this work is relatedto the comparison of the techniques and if they are suitable for this application, considering itsmain characteristics, pros and cons.
Key-words:Collection score.Credit cycle. Logistic regression. Gradient boosting. Random forest.Support vector machine. Machine learning.
LISTA DE FIGURAS
Figura 1 – Ciclo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Figura 2 – Ciclo de Collection Score . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Figura 3 – Desenvolvimento Collection Score . . . . . . . . . . . . . . . . . . . . . . 18Figura 4 – Curva Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Figura 5 – Método Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Figura 6 – Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Figura 7 – Hiperplano ótimo separando os dados com máxima margem . . . . . . . . 26Figura 8 – Teste de K-S - Avaliação de qualidade de ajuste . . . . . . . . . . . . . . . 31Figura 9 – Teste de K-S - Avaliação de difenrença entre amostras . . . . . . . . . . . . 32Figura 10 – Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 11 – Ordenação de escore - Ponto a Ponto . . . . . . . . . . . . . . . . . . . . . 34Figura 12 – Distribuição de registros e evento por safra . . . . . . . . . . . . . . . . . . 37Figura 13 – Exemplo do relatório para avaliação de categorias . . . . . . . . . . . . . 38Figura 14 – Estabilidade das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Figura 15 – Regressão Logística - Resultado das simulações . . . . . . . . . . . . . . . 41Figura 16 – Gradient Boosting - Resultado das simulações . . . . . . . . . . . . . . . 42Figura 17 – Random Forest- Resultado das simulações . . . . . . . . . . . . . . . . . . 44Figura 18 – Support Vector Machine - Resultado das simulações . . . . . . . . . . . . . 45Figura 19 – Variáveis - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . 46Figura 20 – Métricas - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . 47Figura 21 – Variáveis - Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . 49Figura 22 – Métricas - Gradient Boosting x Regressão Logística . . . . . . . . . . . . . 50Figura 23 – Ponto a Ponto - Comparação entre Regressão Logística e Gradient Boosting 51Figura 24 – Variáveis - Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . 53Figura 25 – Métricas - Random Forest x Regressão Logística . . . . . . . . . . . . . . . 54Figura 26 – Ponto a Ponto - Comparação entre Regressão Logística e Random Forest . . 55Figura 27 – Variáveis - Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 57Figura 28 – Métricas - Support Vector Machine x Regressão Logística . . . . . . . . . . 58Figura 29 – Ponto a Ponto - Comparação entre Regressão Logística e Support Vector
Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Figura 30 – Ponto a Ponto - Comparação das metodologias . . . . . . . . . . . . . . . 61
LISTA DE TABELAS
Tabela 1 – Valores referenciais de K-S para acurácia . . . . . . . . . . . . . . . . . . . 32Tabela 2 – Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Tabela 3 – Ordenação de escore - Pontos de Corte . . . . . . . . . . . . . . . . . . . . 34Tabela 4 – Valores referenciais de IV . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Tabela 5 – Valores referenciais de PSI . . . . . . . . . . . . . . . . . . . . . . . . . . 36Tabela 6 – Estabilidade - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . 47Tabela 7 – Pontos de corte - Regressão Logística . . . . . . . . . . . . . . . . . . . . 48Tabela 8 – Estabilidade - Gradient Boosting x Regressão Logística . . . . . . . . . . . 50Tabela 9 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e
Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Tabela 10 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Gradient
Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Tabela 11 – Estabilidade - Random Forest x Regressão Logística . . . . . . . . . . . . . 54Tabela 12 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e
Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Tabela 13 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Random
Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Tabela 14 – Estabilidade - Support Vector Machine x Regressão Logística . . . . . . . . 58Tabela 15 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e
Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Tabela 16 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Support
Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60Tabela 17 – Simulação Financeira - Comparação das metodologias . . . . . . . . . . . 61
LISTA DE ABREVIATURAS E SIGLAS
DEV Base de Desenvolvimento ou treinamento
K-S Teste de Kolmogorov-Smirnov
PSI Population Stability index - Índice de estabilidade populacional.
OOS Out-Of-Sample Amostra de Teste, fora do treinamento.
OOT Out-Of-Time Amostra fora do Tempo, amostra de meses que não participa-ram do treinamento, normalmente é um período após o desenvolvimento.
OOV Out-Of-Validation Amostra de Validação, fora do treinamento.
WOE Weight of Evidence Peso de evidência
AUROC Area under Receiver operating characteristic Área da curva ROC.
ML Machine Learning.
SVM Support Vector Machine.
RL Regressão Logística.
RF Random Forest.
ODDS Razão de chances.
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . 13
3 REVISÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.1 Ciclo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Collection Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.3.1 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4.1 Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.5 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5.1 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5.2 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.6 Métricas de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.6.1 Teste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . 303.6.2 Curva AUROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6.3 Coeficiente GINI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.4 Análise de ordenação de score . . . . . . . . . . . . . . . . . . . . . . . . 333.6.5 Valor da informação (IV) e Peso de evidência (WOE). . . . . . . . . . . . . 343.6.6 Índice de estabilidade populacional (PSI) . . . . . . . . . . . . . . . . . . . 35
4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.0.1 Avalição dos dados fornecidos . . . . . . . . . . . . . . . . . . . . . . . . 374.0.2 Tratamento de dados – Categorização . . . . . . . . . . . . . . . . . . . . 384.0.3 Amostragem de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.1 Metodologia Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . 394.2 Metodologia Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Metodologia Randon Forest . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Metodologia Support Vector Machine . . . . . . . . . . . . . . . . . . . . 45
5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 Metodologia Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . 465.2 Metodologia Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . 495.3 Metodologia Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Metodologia Support Vector Machine . . . . . . . . . . . . . . . . . . . . 575.5 Avaliação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
APÊNDICE A – MÉTRICAS . . . . . . . . . . . . . . . . . . . . . . . 66
APÊNDICE B – MODELOS DESENVOLVIDOS . . . . . . . . . . . . 68
11
1 INTRODUÇÃO
A necessidade de conhecer o cliente sempre foi um diferencial para o mercado e nestesúltimos anos vivenciamos um crescimento exponencial de informações e técnicas que promovema avaliação de risco dos clientes. O processo de descobrimento de informações também conhecidopor Data Mining, pode ser aplicado em todo o ciclo de crédito do cliente, desde a prospecção atéa recuperação de uma dívida.
A motivação para a aplicação das técnicas de Machine Learning pode ser explicada pelanecessidade de conhecer o cliente através de informações comportamentais como hábito depagamento, dados cadastrais e informações de consumo, determinando o risco (probabilidade ouclassificação) de aquele cliente ser adimplente ou inadimplente, recuperado ou não recuperado.
A evolução tecnológica tanto de hardware como de software também é motivo paraa aplicação de técnicas mais sofisticadas, pois devido à alta complexidade e volumetria dainformações, novas técnicas de exploração são necessárias para a extração de conhecimento, porexemplo, de dados transacionais e dados web.
A diferenciação e classificação correta dos clientes é um diferencial competitivo. Em-presas que possuem melhores processos de classificação, conseguem maximizar seus lucros e,com isto, ofertar melhores preços. Sendo assim, o uso de técnicas mais sofisticadas tornou-se umdiferencial competitivo.
A estabilidade em momentos de crise pode gerar perdas menores que a esperada e,conforme observado, o aumento de índices de desemprego IBGE (2016) nos últimos anos,a necessidade de uma melhor na governança de riscos se tornou uma ferramenta de grandeimportância.
Diante destas motivações e necessidades, modelos de previsão mais robustos e assertivosde Credit Score, Behavior Score e Collection Score estão entre os assuntos mais discutidos nosúltimos anos. Esses modelos auxiliam na classificação entre bons e maus clientes em diversossegmentos como na concessão de crédito, manutenção de crédito e até nos processos de cobrança.
Altman e Saunders (1997) destacou o uso de regressão linear e análise de discriminantecomo as mais dominantes nas décadas de 70 e 90 para o desenvolvimento desses modelos. Hande Henley (1997) fazem referência a vários métodos para desenvolver modelos de classificaçãoe, de acordo, com Wang et al (2005) diversas pesquisas têm identificado que a utilização deoutras técnicas de Machine Learning na avaliação do risco de crédito pode apresentar resultadoscompetitivos com os métodos tradicionais como a Regressão Logística.
Nesse contexto, as empresas estão investindo cada vez mais em métodos de Machine
Learning para que possam extrair o máximo de informações e terem processos mais assertivos e
Capítulo 1. Introdução 12
rentáveis, no entanto, esses modelos possuem ainda alguma desconfiança no ambiente financeiro.
Diante desse cenário, o objetivo desse trabalho é aplicar diferentes técnicas de Machine
Learning como Random Forest, Support Vector Machine e Gradient Boosting a fim de identificaros clientes mais propensos a quitar suas dívidas (Collection Score) no mercado brasileiro ecomparar a acurácia e interpretação desses modelos com a metodologia tradicional de RegressãoLogística.
A principal contribuição desse trabalho está relacionada com a aplicação de metodologiasatuais de Machine Learning em um banco de dados real brasileiro de cobrança, pois verificou-seque a recuperação de crédito gera retornos financeiros bastante positivos devido as ações quepodem ser tomadas como, por exemplo, uma melhor abordagem em canais de cobrança. Noentanto, ainda é uma ação pouco explorada, pois os agentes bancários trabalham mais focadosna prevenção da inadimplência. Além disso, esse trabalho contribui com a verificação de quaismetodologias são promissoras tanto na parte preditiva, quanto na parte de interpretação dosresultados em um ambiente corporativo.
A presente dissertação está organizada em 6 capítulos. Seguido à introdução apresentadaneste capítulo inicial, o capítulo dois traz uma revisão de literatura sobre os principais estudosrelacionados aos modelos de Collection Score e as técnicas de Machine Learning. No capítulotrês, a revisão teórica com todo o insumo necessário para entender e aplicar as metodologiasapresentadas. No capítulo quatro, a base de dados e as definições utilizadas para a construção dosmodelos. Os resultados são expostos no capítulo cinco. Por fim, no capítulo seis são apresentadasas conclusões e sugestões para estudos futuros.
13
2 REVISÃO DA LITERATURA
Os modelos estatísticos de Collection Score são desenvolvidos com uma variável de-pendente, que neste trabalho é a marcação dos clientes que honraram ou não suas dívidas evariáveis independentes relacionadas as características e comportamentos passados dos clientes.A metodologia utilizada é igualmente conhecida uma técnica de classificação, na qual tambémé utilizada para o desenvolvimento de modelos de predição como Credit Score e Behavior
Score. Devido a esse fato, buscou-se na literatura todas as abordagens e técnicas utilizadas paraclassificar os clientes independente do seu ciclo de crédito.
A história do Credit Score começou com a publicação de 1941 de Durand (1941) no qualestudou a distinção entre bons e maus empréstimos por 37 firmas. Altman e Saunders (1997)revisaram 20 anos de história de Credit Score e observaram que entre as décadas de 70 e 90as técnicas estatísticas de classificação que dominavam eram a Regressão Logística e AnáliseDiscriminante. No entanto, essas técnicas não são utilizadas somente para crédito, mas paraclassificar diversos segmentos. Altman (1968) utilizou técnicas de classificação para preverfalência de empresas, Martin (1977) usou Regressão Logística para prever falhas bancárias eWest (1985) utilizou para calcular a probabilidade de um banco se tornar problemático.
Apesar da Regressão Logística ser amplamente utilizada como técnica de classificação ese tornar um método clássico para prever probabilidades, os critérios que precisam ser assumidoscomo, por exemplo, a não multicolinearidade, fizeram com que pesquisadores começassem a seinteressar por outras metodologias e, diante nesse cenário, surgiu o interesse de aplicar outrastécnicas de Machine Learning para resolução de problemas e compará-los com o poder preditivoda técnica de Regressão Logística.
Tam e Kiang (1992) estudaram o uso de redes neurais em um banco de dados de bancosque faliram no Texas nos anos de 1985-1987 e compararam com as técnicas de RegressãoLogística, KNN (Vizinho mais próximo) e árvore de decisão, quanto ao poder preditivo a técnicade redes neutrais teve resultados melhores, mas não foi possível estudar a contribuição dasvariáveis de entrada no modelo final.
Baesens et al. (2003) estudou a performance de acurácia dos algoritmos de classificaçãoRegressão Logística, KNN, Redes Neurais, árvore de decisão e Support Vector Machine em 8bancos de dados de Credit Score e concluiu que os modelos clássicos têm performance menorquando comparado com outros modelos de Machine Learning.
Twala (2009) investigou o comportamento de 5 classificadores como Redes Neurais,árvores de decisão, Naive Bayes, KNN e Regressão Logística em 5 bancos de dados diferentes afim de comparar o poder preditivo quando há ruído nos dados.
O método de Support Vector Machine (SVM) sugerido por Cortes e Vapnik (1995) é
Capítulo 2. Revisão da literatura 14
uma das técnicas de Machine Learning que Bellotti e Crook (2013) compararam a performancecom mais 4 métodos contra as técnicas de Regressão Logística e Análise Discriminante paraCredit Score e encontraram que SVM foi mais sucedido em classificar clientes que entraram ounão em atraso em cartão de crédito. No entanto, os dados de estudo eram de apenas 3 meses eassim não podendo concluir se a técnica tem bom poder preditivo em períodos mais distantes,por isso, sugeriram estudo sobre a performance dos modelos ao longo do tempo a fim de avaliara robustez dos métodos.
Doumpos e Zopounidis (2007) explorou o uso de Regressão Logística, Análise Discrimi-nante, Árvores de Regressão e SVM combinados no desenvolvimento de modelos para risco decrédito e observou que a combinação de técnicas é mais eficiente do que a utilização de técnicasindividuais.
Apesar da comparação de muitos métodos de classificação e artigos sobre o assunto,Kruppa et al (2013) aplicou os métodos de Machine Learning, usando Random Forest e KNN porserem computacionalmente rápidos, simples de implantar em uma base de dados de pagamentosde empréstimos e ainda sim o método Random Forest obteve uma acurácia maior quandocomparado com a Regressão Logística afinada.
De acordo com Tollenaar et al. (2013), como o método clássico não consegue manipularautomaticamente a não linearidade e os ruídos dos dados, esse acaba perdendo poder preditivoquando comparado a outras técnicas de classificação de Machine Learning.
No entanto, além da acurácia, a compreensão do modelo é de extrema importância nosdomínios de concessão de crédito, pois a negação de crédito muitas vezes precisa ser justificadapara clientes e órgãos públicos, e como as técnicas mais conhecidas atualmente de Machine
Learning são conhecidas como “Black-Box”, essas acabam sendo vistas com suspeita e ceticismode acordo com Khandani et al.(2010).
Diante desse cenário, Chen e Cheng (2013) aplicou modelos híbridos de ML em proble-mas de classificação de rating de crédito com a expertise dos autores para a tomada de decisão decrédito para que assim houvesse maior compressão dos modelos encontrados e estes superaramos modelos estudados.
A metodologia de Random Forest encontrada em Breiman (2001) é uma das técnicas deML também conhecida como Decision Forest e de acordo com Abellan e Mantas (2014) é umadas técnicas de mais rápida execução e fácil interpretação.
Dentro do mesmo âmbito de Decision Forest, pode ser encontrada também a metodologiade Gradient Boosting estudada por Friedman (2002), na qual possui, de acordo com Florez-Lopezet al. (2015) maior grau de dificuldade de compressão a medida que as partições aumentam.
A interpretação e acurácia são inversamente proporcionais, pois tanto maior a compressãodos modelos e das variáveis de entrada menor é a precisão de acordo com Chen e Cheng (2013),por isso Florez-Lopez et al. (2015) testaram a proposta de aplicar ao conjunto de dados de risco
Capítulo 2. Revisão da literatura 15
de crédito alemão do repositório UCI as metodologias usuais como a Regressão Logística, SVMe Redes Neurais e os métodos conjuntos de Random Forest e Gradient Boosting contra um novomodelo, no qual tentou balancear previsão e compreensão.
Os resultados revelaram que os métodos de Random Forest e Gradient Boosting supe-raram todos os modelos testaram em termos de taxa de precisão. No entanto, o novo métodoapresentou melhor resultado em termos de número de regras, número dos recursos e se mostramaté melhor em precisão do que o modelo tradicional como Regressão Logística.
Na literatura brasileira foi observado o uso de Análise de Sobrevivência e RegressãoLogística para o desenvolvimento dos modelos de Collection Score e ambas as técnicas não sediferenciaram em discriminação, mas em termos de estratégia a técnica de Análise de Sobrevi-vência obteve resultados melhores de acordo com Machado (2016).
Além disso, Souza (2000) observou o ganho da utilização dos modelos de Collection
Score (pouco explorado na época) e concluiu que com o desenvolvimento das técnicas estatísticas,as instituições avançariam no uso desses modelos para um melhor gerenciamento de crédito.
Diante desse cenário e diferente do que já foi abordado em outros estudos, essa disserta-ção propõe o desenvolvimento de um modelo de Collection Score, pouco explorado nos estudosreferenciados, com a aplicação das técnicas de: Regressão Logística, Support Vector Machine,Random Forest e Gradient Boosting. Após o desenvolvimento observando a particularidade decada técnica, serão avaliadas e comparadas a acurácia, a compressão das técnicas e seu impactopara monitoramento e implantação.
Os principais conceitos teóricos e premissas utilizados na construção desse modelo sãoabordados no próximo capítulo.
16
3 REVISÃO TEÓRICA
Nesse capítulo será descrito o que é o ciclo de cobrança e em qual fase do ciclo de créditoestá inserido, o porquê e quando utilizar o modelo de Collection Score.
Será descrito também as técnicas utilizadas no processo de desenvolvimento do modelo,tais como Gradient Boosting, Random Forest, Support Vector Machine e Regressão Logística,bem como as medidas de desempenho e comparação entre as metodologias como K-S, ROC eanálise de ordenação de escore.
3.1 Ciclo de Crédito
A expressão crédito ao consumidor pode ser entendida como uma forma de comércio,no qual uma pessoa física obtém dinheiro, bens ou serviços e compromete-se a pagar por issofuturamente acrescendo ao valor original um prêmio (juros) (SANTOS, 2000).
O risco do crédito pode ser definido como a probabilidade de perda de um empréstimofinanceiro e, por isso, as empresas utilizam métodos subjetivos e/ou quantitativos para obter umadecisão mais confiável dessa perda. Devido a esse fato, surge o ciclo de crédito, o qual buscamedir o risco dos clientes em fases de relacionamento.
O modelo de prospecção é a primeira fase do ciclo de crédito, a qual as empresas buscamo perfil adequado dos clientes para ofertar determinado produto. A segunda fase é a aplicaçãodo Credit Score para os novos solicitantes de crédito e a terceira fase é a aplicação do Behavior
Score para os já clientes, a fim de estimar o risco através do comportamento passado de crédito efazer uma manutenção de conta mais rentável.
A última fase e, estudada nessa dissertação, é a fase de cobrança. A qual será detalhadano item abaixo todo o processo de desenvolvimento do modelo para recuperação de dívidas.
Figura 1 – Ciclo de Crédito
Fonte: Elaboração própria
Capítulo 3. Revisão Teórica 17
3.2 Collection Score
Collecion Score é um grupo de modelos de predição que tem como objetivo classificaros clientes inadimplentes em termos de quitação de dívidas, ou seja, classificar os clientesentre a menor e maior probabilidade de recuperação de dívidas, tendo como seu principalobjetivo a recuperação financeira e a redução de custos operacionais com o processo de cobrança.Considerando o ciclo de crédito (Figura 1), os modelos de Collection Score são a última fase dociclo, uma vez que o cliente já passou pela prospecção, concessão do crédito e manutenção dacarteira.
Por se tratar da última fase do ciclo de crédito, e considerando que a instituição possuabons modelos de prospecção e admissão, espera-se que a parcela de clientes que se torneinadimplentes seja baixa. No entanto, após os clientes se tornarem inadimplentes o modelo deCollection Score, segundo Sicsú (2010), é utilizado como instrumento para orientar as estratégiasde cobrança e o seu uso não só melhora o relacionamento com o cliente como reduz os custosde cobrança e a previsão de perdas. O processo de Collection Score, pode ser subdividido emalgumas classes de modelos, no qual pode citar como principais, os descritos na Figura 2:
Figura 2 – Ciclo de Collection Score
Fonte: Elaboração própria
• Cobrança Preventiva (Early Collection) : Modelo utilizado para identificar potenciaisclientes que podem entrar em atraso. É uma ferramenta, na qual a empresa pode enviarlembretes de aviso de vencimento para os clientes de maior risco, ou até mesmo avaliar ascaracterísticas do crédito tomado e propor novos produtos para evitar a inadimplência.
Capítulo 3. Revisão Teórica 18
• Modelo de Alto Cura (Self Cure) : São modelos para identificar o pagamento espontâneode uma dívida, normalmente até 15 dias de atraso. O objetivo desta ferramenta é evitar oatrito com clientes adimplentes, mas que esqueceram de pagar suas dívidas e que com umlembrete honraram o débito. Esta é uma importante ferramenta para a redução de custoscom cobrança.
• Modelo de Cobrança (Collection Score) : São os principais modelos de cobrança, nosquais são utilizados para identificar as chances de o cliente quitar suas dívidas e tambémpara melhor adequar a régua e severidade de cobrança. Normalmente são aplicados entre15 e 180 dias de atraso.
• Modelo De Write-OFF (Recovery Score): São modelos que já são aplicados para os clientesque já possuem 100% de suas dívidas provisionadas. O objetivo é identificar clientes queestariam dispostos, normalmente com a aplicação de um desconto na dívida, de quitar seudébito.
• Modelos de melhor momento de contato (Best Time to call) : São modelos de suporte,para identificar o melhor tipo de contato, por exemplo: e-mail, telefone, carta, ou o melhorhorário para contato. Podem ser utilizados em todo o ciclo de cobrança.
• Modelos de renegociação: São modelos para prever as chances de um cliente aceitar umarenegociação da dívida ou de previsão de quebra de contrato de renegociação.
• Cessão de Carteira : São modelos para precificação de carteiras em dívidas que auxiliamno processo de cessão. Como esta ferramenta é possível determinar o percentual derecuperação da carteira e seu valor de venda.
Para esta dissertação será desenvolvido um modelo de Colection Score, por se tratar declientes com atrasos curtos e médios.
Para o desenvolvimento do Collection Score faz-se necessário variáveis de comporta-mento passado dos clientes, conhecidas como variáveis independentes, nas quais são modeladasa fim de classificar os clientes em termos de quitação de suas dívidas (variável dependente).
Figura 3 – Desenvolvimento Collection Score
Fonte: Elaboração própria
Capítulo 3. Revisão Teórica 19
3.3 Regressão
O aprendizado pelo método de regressão se fundamenta na previsão de Yi a partir doconhecimento de xi. A análise de regressão pode ser descrita com algumas técnicas, por exemplo,logística e linear, utilizadas para estimar as relações entre as variáveis. Segundo Casella e Berger(2002), quando refere-se a regressão que é linear é o mesmo que dizer que aproximadamente aexpectância condicional de Y , dado X = x, é uma função linear de x. Resumidamente,
E(Yi|xi) = α +βxi (1)
Para uma amostra de n indivíduos, os pares de (xi,yi) para i = 1,2,3...n, satisfaz aseguinte equação:
Yi = α +βxi + ei (2)
no qual ei é o erro aleatório da variável Yi que não pôde ser explicada pelo comportamento davariável xi.
As diferenças entre os valores estimados e reais dos parâmetros α e β pode ser minimi-zada, minimizando os erros aleatórios e, para o caso da regressão linear, utiliza-se o método dosmínimos quadrados.
No entanto, a regressão linear simples não é a melhor técnica para quando a variáveldependente (Yi) é uma variável dicotômica (quando assume os valores de sucesso ou fracasso emum evento), para resolver esse problema a técnica estatística utilizada é a Regressão Logística,que tem como objetivo modelar a relação logística da variável resposta dicotômica com as demaisvariáveis explicativas.
Como o objetivo dessa dissertação é classificar os clientes entre os que quitam suasdívidas ou não, será utilizado a técnica de Regressão Logística para obter essa classificação,pois é o método atualmente mais utilizado no mercado financeiro, possuindo bastante robustez,estabilidade de informações e capacidade de interpretação dos parâmetros ajustados.
3.3.1 Regressão Logística
Como dito anteriormente, para estimação de eventos de classificação binária, no qualassume o valor 1 para sucesso e 0 caso contrário, o método mais apropriado dentro das técnicasde regressão é a Regressão Logística.
Para analisar π(x), na qual é uma função de distribuição de probabilidade quando x variaem uma reta real, tomam-se o vetor xt = (x1,x2, ...,xn) e Y uma variável dependente binária.Portanto,
Pr(Y = 1|x) = π(x) (3)
na qual é a probabilidade de sucesso dado o vetor de variáveis independentes.
Capítulo 3. Revisão Teórica 20
No entanto, como π(x) pode variar fora dos valores de zero e um, é necessário a transfor-mação logística, pois a representação simples considerando todos os valores de x não é adequadojá que seria um exemplo de regressão linear simples.
Devido a isso, a transformação logística de forma linear, conforme Sicsú (2010), édescrita por:
Z = ln[
π(x)1−π(x)
]= β0 +β1x1 + ...+βnxn (4)
a qual é equivalente a,
π(x) =ez
1+ ez (5)
A aplicação do logaritmo natural da razão de chances é conhecido como logit nosmodelos de Regressão Logística e permite analisar a variável dependente binária de melhorforma.
A relação entre π(x) e a função logit Z pode ser vista na figura abaixo:
Figura 4 – Curva Logística
Fonte: Baseado em Sicsú (2010)
A estimação dos parâmetros da regressão logística não pode ser feita por mínimosquadrados devido a variável dependente ser binária, devido a isso, utiliza-se a estimação demáxima verossimilhança. A probabilidade para quando yi = 1 é igual a Pr(yi = 1|xi) = π(xi)
e para yi = 0 tem-se Pr(yi = 1|xi) = 1−π(xi), com isso a maneira equivalente de expressar acontribuição de cada indivíduo na função de verossimilhança é dada por:
Li = π(xi)yi[1−π(xi)]
(1−yi), (6)
para os valores de yi = 1 ou 0 para todo i variando de (1,..,n).
Como as observações são independentes, a função de verossimilhança pode ser descritacomo:
L =B
∏b=1
π(xi)yi[1−π(xi)]
(1−yi) (7)
Para encontrar o ponto máximo da função de verossimilhança, é necessário o uso demétodos iterativos como, por exemplo, Newton-Raphson o qual gera inicialmente valores
Capítulo 3. Revisão Teórica 21
arbitrários como modelo inicial e avaliando os erros de previsão gera-se uma sequência desoluções até convergirem para a solução que maximiza a função.
Pode ser utilizado um método de seleção de variáveis para o qual definirá a fórmula finalde escoragem. Esse método é necessário porque a inclusão de muitas variáveis no modelo podenão contribuir para uma melhora de discriminação significante. O método mais utilizado e, usadonessa dissertação, é o algoritmo de Stepwise.
O método é feito de forma interativa, adicionando e excluindo variáveis a partir de umcritério de seleção, nesse caso um teste F, conforme Alves (2013).
Figura 5 – Método Stepwise
Fonte: Baseado em Alves (2013)
Além disso, nem todas as variáveis estudadas são utilizadas no modelo final de regressão,pois uma das etapas de desenvolvimento do modelo se faz necessário o estudo da correlação devariáveis para não ocasionar o problema de multicolinearidade. Nessa dissertação, a medida deassociação utilizada entre duas variáveis numa escala categórica foi o coeficiente de Cramer.
V =
√χ2/n
min(k−1,r−1), (8)
no qual k indica o número de colunas e r o número de linhas e χ2 é derivado do teste qui-quadradode Pearson, mais detalhes ver (CRAMÉR, 1946).
Capítulo 3. Revisão Teórica 22
A correlação de Cramer varia entre 0 a 1, no qual para valores de V próximos a zero hápouca associação entre as variáveis testadas, enquanto que para valores próximos a 1 há fortecorrelação entre as variáveis e por isso foram excluídas da análise.
A análise dos coeficientes do modelo é bastante simples, já que os coeficientes indicam avariação da probabilidade de ocorrência de um evento, conforme varia uma unidade das variáveisindependentes. Quando maior for o valor do coeficiente, maior é o poder de predição da variávelindependente sobre a probabilidade de ocorrência do evento.
Uma maneira usual de interpretar os coeficientes do modelo logístico é utilizar a razãode chances também conhecido como Odds Ratio. Essa razão é uma medida relativa de efeito decomparação entre os eventos de sucesso e fracasso.
ODDS =π(1)/[1−π(1)]π(0)/[1−π(0)]
(9)
Se a ODDS apresentar um valor igual a 1, a variável estudada em questão não apresentadiferença entre sucesso e fracasso, para valores < 1 há indício de mais fracasso que sucesso, casocontrário, há mais indício de sucesso que fracasso.
Apesar da base do modelo logístico ser bastante teórica, os parâmetros geram bomentendimento do fenômeno estudado e pode ser utilizado variáveis categóricas e contínuas naestimação, facilitando ainda mais a interpretação dos coeficientes. Além disso, fornece bomajuste com menos parâmetros que outros modelos lineares, fazendo assim, com que a RegressãoLogística seja tão utilizada no mercado financeiro.
3.4 Ensemble
O aprendizado pelo método de ensemble, consiste em combinações de modelos maissimples e de baixo poder preditivo, para resultar em um modelo mais forte com maior acurácia.Dentro da classe de modelos Ensemble há duas técnicas comumente conhecidas como Bagging eBoosting.
Na metodologia Bagging, proposta por Breiman (2001), os classificadores são treinadosseparadamente e re-amostrados com reposição diversas vezes e em seguida agregados atravésde algum método de combinação como, por exemplo, a média de votos. Dentro da classe demétodos Bagging a técnica mais conhecida e, explorada nessa dissertação, é a Random Forest.
Igualmente a metodologia Bagging, o método Boosting, também é treinado por amostrasindividuais, no entanto o método de combinação não é a média dos votos, mas uma ponderaçãodo desempenho de cada modelo. Dentro da classe de modelos Boosting, é comumente conhecidoe, explorado nessa dissetação, o método de Gradient Boosting.
O diagrama abaixo apresenta as principais características entre estas duas técnicas:
Capítulo 3. Revisão Teórica 23
Figura 6 – Ensemble
Baseado em GROVER (2017)
Pode-se avaliar no diagrama que a principal diferença entre os conceitos de Bagging eBoosting está ligada ao seu funcionamento, no qual no processo de Bagging o treinamento édado pela combinação de modelos independentes o que pode generalizar o treinamento. Já noprocesso de Boosting, o treinamento é dado por uma combinação dos modelos, normalmentegerada por uma aplicação de um fator entre cada iteração, minimizando assim as chances degeneralização (super ajuste).
3.4.1 Gradient Boosting
O método Gradient Boosting, é uma generalização do método de Adaboost propostopor Freund et al. (1996), utilizado para a resolução de problemas de classificação e regressão.Este consiste em uma série de combinações de modelos aditivos (modelos fracos), estimadositerativamente resultando em um modelo forte. Usualmente o método de Gradient Boosting
se utiliza de modelos de árvore de decisão, porém outros tipos de modelos, como a RegressãoLogística podem ser utilizados.
Considerando a utilização de árvores de decisão para o ajuste do Gradient Boosting, oobjetivo de cada árvore de decisão ajustada é minimizar a função de perda, ou seja, minimizaro gradiente da função objetivo do modelo corrente, mas para isso podemos ter funções deperda com vantagens e desvantagens para cada tipo de problema, pode-se citar como as 3principais funções de perda : 1) Mínimos quadrados; 2) Perda de Huber; e 3) Perda Absoluta;Neste trabalho, como será explorada uma resposta binária a função de perda mais indicada é os
Capítulo 3. Revisão Teórica 24
mínimos quadrados dada por:
Perda = MSE = ∑(yi− ypi )
2 (10)
onde, yi = ith variável resposta, ypi = ith predito, L(yi,y
pi é a função de perda.
Com as iterações do algoritmo, o objetivo é que a função de perda seja minimizada parazero. Utilizando a função de gradiente descendente para a previsão, é possivel estimar os valoresque satisfazem a função de perda mínima, conforme:
ypi = yp
i +α ∗δ ∑(yi− ypi )/δyp
i (11)
tornando-seyp
i = ypi −α ∗2∗∑(yi− yp
i ) (12)
onde α é a taxa de aprendizagem e ∑(yi− ypi ) é a soma dos resíduos.
O parâmetro α comum entre os processos de Machine Learning é a taxa de aprendizagemdo algoritmo. Responsável por aplicar um coeficiente de redução nos estimadores de cadaiteração, reduzindo assim a generalização do modelo e evitando um possível super ajuste.
Definidas as principais funções do algoritmo de Gradient Boosting (funções de perdae gradiente descendente), pode-se descrever o passo a passo do funcionamento do algoritmo,conforme Friedman (2002).
1. Definição do número de iterações m = 1 até M.
2. Definição da função perda inicial
f0(x) = argminn
∑i=1
(L(yi,α))
3. Minimização dos resíduos
rim =−[
∂L(yi,F(xi)∂F(xi)
]F(x)=Fm−1(x)
para i = 1, ...,n
4. Ajuste da função anterior com os resíduos encontrados até a iteração M.
Fm(x) = Fm−1(x)+αmrm(x)
Definidas as funções e o passo a passo do algoritmo, um fator importante para a aplicaçãodo Gradient Boosting é a escolha dos hiperparâmetros, dentre dos quais pode-se destacar :
1. Número de iterações : Um número elevado de iterações pode levar a minimização sucessivados resíduos e ajustar inclusive os erros aleatórios. Devido a esse fato, a minimização dogradiente resulta em super ajuste. Para a identificação do número ideal de iterações, énecessário avaliar a performance do modelo em diferentes amostras fora do treinamento.
Capítulo 3. Revisão Teórica 25
2. Taxa de Aprendizagem: Taxa de aprendizagem do algoritmo. É o % α que será utilizadopara a redução na estimativa dos coeficientes. É responsável por reduzir as chances desuper ajuste no aprendizado.
3. Profundidade da árvore : Número de folhas que cada árvore poderá ter. Profundidadesmuito elevadas podem gerar super ajuste.
4. Número mínimo de indivíduos por nó: Um alto número pode subestimar o ajuste, gerandoum baixo ajuste e um baixo pode gerar um super ajuste.
O processo de ajuste de modelos de Gradient Boosting, deve considerar o estresse desteshiperparâmetros, para a busca dos melhores valores que se ajustam a amostra de dados emestudo. Para a amostragem dos dados de treinamento, é recomendável a utilização de amostrasde desenvolvimento, teste e validação e mais uma amostra adicional fora do tempo. Para otreinamento as técnicas de amostragem mais utilizadas são: 1) Simples, no qual o algoritmo étreinado com uma amostra de 60% e validado e testado com duas amostras de 20%. 2) Métodok-fold (validação cruzada) que consiste dividir a base de treinamento em k partes iguais onde omodelo será ajustado para cada k parte e avaliado seu desempenho nas demais.
3.4.2 Random Forest
A técnica de Random Forest, proposta por Breiman (2001), é a mais disseminada dentrodo processo de modelos Ensemble utilizando o método Bagging, pois é uma técnica disponívelem vários pacotes e de performance muitas vezes próxima aos modelos de Boosting.
A ideia principal do Random Forest é reduzir a correlação de árvores de decisão dométodo Bagging, sem aumentar muito a variância, através da seleção aleatória das variáveis deentrada, pois para cada árvore de decisão gerada independente distribuída, a média esperada de B
árvores de decisão é a mesma esperada para qualquer uma delas e, portanto, somente reduzindoa variância (FRIEDMAN; HASTIE; TIBSHIRANI, 2001).
ρσ2 +
1−ρ
Bσ
2 (13)
Algoritmo Random Forest:
1. Para b = 1 até B
i) Amostra bootstrap Zde tamanho N a partir da base de treinamento.
ii) Selecione m variáveis aleatoriamente a partir de p variáveis.
iii) Selecione a melhor variável de acordo com seu poder de discriminação da variávelde interesse.
Capítulo 3. Revisão Teórica 26
iv) Divida o nó a partir de dois nós filhos.
1. Reporte o ensemble de árvores
Para fazer a previsão em um novo ponto x utilizando regressão:
f̂ Br f (x) =
1B
B
∑b=1
Tb(x) (14)
3.5 Support Vector Machine
Support Vector Machine (SVM) é um algoritmo desenvolvido por Cortes e Vapnik (1995),com o intuito de resolver problemas de classificação de padrões. O algoritmo é fundamentadoem um problema de otimização matemática e embasado na teoria de aprendizagem estatística,buscando obter um equilíbrio entre minimizar o excesso de ajuste na amostra de treinamentoe aumentar a capacidade de generalização dos classificadores, pois quanto mais complexo foro hiperplano de decisões dessas funções no espaço de entrada dos dados, maior será o riscoestrutural (CHERKASSKY; MA, 2004).
Considerando amostras de treinamento de diferentes classes linearmente separáveis, afunção de decisão mais adequada é aquela para qual a distância entre os conjuntos é maximizada,por isso, a função de decisão em SVM é ótima.
Um hiperplano com margem máxima é considerado ótimo se consegue separar umconjunto de dados e ainda maximizar a distância entre os vetores, como pode ser observado naFigura 7 abaixo:
Figura 7 – Hiperplano ótimo separando os dados com máxima margem
Fonte: Adaptado de ABE (2005)
Assume-se que os dados do domínio em que está ocorrendo o aprendizado são geradosde forma independente e identicamente distribuídos e o erro esperado de um classificador f paraos dados de teste pode ser observado na Equação 15 abaixo:
R(α) =∫ 1
2|y− f (x,α)|dPr(x,y) (15)
Capítulo 3. Revisão Teórica 27
no qual, 12 |y− f (x,α) é uma função de custo da previsão de f (x) e para os casos de classificação,
estudado nessa dissertação, tem-se o retorno de 0 quando x é classificado corretamente e 1, casocontrário.
A distribuição de probabilidade Pr(x,y) é desconhecida dos dados de treinamentosretirados (LORENA; CARVALHO, 2007), não sendo possível computar essa equação, portantoutiliza-se a média da taxa de erro dos elementos, definido como risco empírico, dado abaixo:
Remp(α) =∫ 1
2D
D
∑i=1|yi− f (xi,α)| (16)
No entanto, a minimização apenas do risco empírico não garante uma boa capacidadede generalização, sendo assim necessário um classificador f∗ tal que R( f∗) = min f∈F , onde Fé o conjunto de funções f possíveis. Para isso, a teoria de aprendizado estatístico considera acomplexidade da classe de funções que o algoritmo de aprendizado é capaz de obter e provêdiversos limites no risco esperado de uma função de classificação.
Portanto, um limite fornecido pela TAE relaciona-se ao risco esperado de uma função aoseu risco empírico a um termo de complexidade, dado por:
R(α) = Remp( f )+
√h[log(
2Dh)+1]− log(
θ
4), (17)
no qual, h denota a dimensão Vapnik-Chervonenkis (VC), mais detalhes ver (CORTES;VAPNIK, 1995).
Através da Inequação 17 é possível afirmar a importância de se controlar a capacidadedo conjunto de funções f do qual o classificador é extraído, conforme observado em Lorena eCarvalho (2003). Pois, o risco esperado pode ser minimizado pela escolha adequada por parte doalgoritmo de aprendizado, de um classificador F que minimize o risco empírico e que pertença auma classe de funções F com baixa dimensão VC h, conforme Vapnik (2013).
3.5.1 SVMs Lineares
A formulação matemática, baseada em ABE (2005), e implementada nos algoritmosde SVM é dada por um conjunto de treinamento xi com (i = 1,2...,D) em um problema queconsiste em duas classes linearmente separáveis w1 e w2, no qual cada amostra associa-se yi = 1quando xi ∈ w1 e yi =−1 quando xi ∈ w2. Em termos gerais,
D(x) =D
∑i=1
wixi +b (18)
Capítulo 3. Revisão Teórica 28
equivalente, em termos de produto interno:
D(x) = wT x+b (19)
onde w é um vetor d-dimensional (pesos) e b um termo independente.
Suponha que os exemplos de treinamento são linearmente separáveis, isto é, satisfazemas seguintes restrições:
xi.w+b≥ 1 para yi = 1 (20)
xi.w+b≤−1 para yi =−1 (21)
Combinando as igualdades, pode-se obter:
yi(xi.w+b)−1≥ 0, i = 1,2, ...,D (22)
Considerando exemplos, nos quais se dá a igualdade na Equação 22, esses são pontossobre o hiperplano xi.w+b = 1 com normal w e distância perpendicular a origem de |1−b|
||w|| e para
o caso de xi.w+b =−1 com normal w e distância perpendicular a origem de |−1−b|||w|| .
Assim, a largura da margem possui valor 2||w|| e para maximizar os dois hiperplanos que
geram essa margem, minimiza-se ||w||2, gerando um problema de otimização quadrática sujeitoas restrições definidas como:
minw,b =12||w||2 (23)
A inclusão das restrições no problema de minimização pode ser resolvida por meio datécnica de multiplicadores de Lagrange, pois sem a mesma, a minimização seria muito trabalhosadado que w forma um produto escalar, visto na Equação 19.
A formulação lagrangeana é dada pela introdução de αi,(i = 1,2...,D) um para cadauma das restrições definidas na Equação 23 e subtraindo o resultado da função objetivo definida,obtendo:
L(α,w,β ) =12||w||2−
D
∑i=1
αi[yi(xi.w+b)−1] (24)
É necessário minimizar a Equação 24 com relação a w e β e com o resultado restantemaximizar com relação a α ≥ 0, conhecido como um problema de otimização dual.
Capítulo 3. Revisão Teórica 29
Em um ponto ótimo, as seguintes equações de ponto de cela são:
∂L∂b
= 0 e∂L∂w
= 0 (25)
Gerando respectivamente,
D
∑i=1
αiyi = 0 e w =D
∑i=1
αiyixi = 0 (26)
Substituindo esses resultados na formulação lagrangeana, maximiza-se:
maxα W (α) =D
∑i=1
αi−12
D
∑i=1
αiα jyiy j(xi · x j)
su jeito a αi ≥= 0, i = 1,2, ...DD
∑i=1
αiyi = 0
(27)
Para a resolução do problema de maximização, utiliza-se o método gradiente descentever (LORENA; CARVALHO, 2007).
Pode-se mostrar que SVM apresenta vantagens com respeito a classificadores convencio-nais, especialmente quando o número de amostras de treinamento é pequeno e a dimensionalidadedos dados é grande, devido ao fato de que os classificadores convencionais não têm mecanismospara maximizar a margem (distância entre os dois hiperplanos extremos). A maximização damargem permite aumentar a capacidade de generalização do classificador, conforme ABE(2005).
3.5.2 SVMs Não Lineares
Apesar da eficiência do algoritmo de SVM em separar linearmente os dados de trei-namento, em problemas reais dificilmente é possível separar os dados de treinamento por umhiperplano e, por isso, surge a técnica de SVM não linear.
Uma das maneiras de solucionar esses casos é mapear os dados em uma maior dimensão,conforme Lorena e Carvalho (2007), ou seja, em uma dimensão que em, por exemplo, ℜ2 sejanão linear, enquanto que em ℜ3 seja linear, ou seja, se redimensiona o espaço de característicaspara podermos utilizar um SVM linear. Para isso, utiliza-se as funções Kernel pela simplicidadeno cálculo e capacidade em gerar espaços dimensionais e essas funções podem ser polinomiais,gaussiano e sigmoidal, ver (CHAPELLE et al., 2002).
Capítulo 3. Revisão Teórica 30
3.6 Métricas de Validação
Diversos métodos e métricas podem ser utilizados para avaliar a acurácia, qualidadee estabilidade de modelos desenvolvidos. Estes indicadores são importantes para qualificar omodelo, sendo para a avaliação de sua estabilidade em comparação com diferentes amostras(desenvolvimento, teste e fora do tempo) ou para comparar modelos que classifica melhor opúblico em análise.
Nos processos de ajuste de modelos binários, que é o estudo de caso desta dissertação,as métricas comumente utilizadas são:
1. Teste de Kolmogorov-Smirnov
2. Curva AUROC
3. Coeficiente de Gini
4. Análise de ordenação de score
5. Valor da informação (IV) e Peso de evidência (WOE)
6. Índice de estabilidade populacional ( PSI)
Detalha-se, abaixo, cada uma das métricas de avaliação:
3.6.1 Teste de Kolmogorov-Smirnov
O teste de Kolmogorov–Smirnov é um teste não paramétrico, com o objetivo de comparara distância entre duas distribuições acumuladas. Ele pode ser utilizado para a comparação daseparação das distribuições de um evento binário, no caso deste trabalho clientes recuperados =0 e clientes não recuperados = 1, sendo cada uma das informações uma distribuição acumulada(FDA), ordenadas pela probabilidade ou score. Nesta aplicação, quanto maior for o resultado(indicação de maior diferença entre as distribuições), melhor está a acurácia do modelo, poisa separação dos eventos é maior. Outra possibilidade de aplicação do teste de K-S é para acomparação de distribuições em diferentes bases ou amostras, na qual a distribuição pode sera probabilidade de recuperação (probabilidade do modelo) na base de desenvolvimento e nabase de teste. Nesta aplicação, quanto menor for o resultado do teste é um indicativo que asdistribuições são similares e, neste caso, não ocorreu super ajuste ou a distribuição continuaaderente ao observado no público de desenvolvimento. A estatística de Kolmogorov–Smirnovpode ser descrita por por :
Dn,m = Max|F1,n(x)−F2,m(x)|, (28)
Capítulo 3. Revisão Teórica 31
Onde Max é a maior distância entre as distribuições F1 e F2; e F1 e F2 são as funções dedistribuição acumuladas.
Na simulação abaixo, foi aplicado o teste de K-S para uma amostra de dados, com oobjetivo de avaliar a acurácia do modelo em observação. No caso, o teste de K-S está avaliando aseparação de duas distribuições (Recuperados = 0 e não recuperados = 1). Para o cálculo do testede K-S, ambas as distribuições de recuperados e não recuperados foram acumuladas, por faixasde escore (modelo que está sendo avaliado) buscando a maior diferença entre as distribuições,conforme a Figura 8.
Figura 8 – Teste de K-S - Avaliação de qualidade de ajuste
Fonte: Elaboração própria
O ponto de maior distância entre as distribuições é de 53 pontos, portanto o resultadodo teste de K-S para esta simulação é de 53%, o que indica que o modelo possui uma ótimaseparação entre recuperados e não recuperados. O gráfico apresentado na Figura 8 apresenta adistribuição das curvas acumuladas.
Em uma segunda simulação, o teste de K-S foi aplicado para avaliar a diferença entreduas amostras de dados (desenvolvimento e teste), com o objetivo de identificar se o ajuste domodelo sofreu super ajuste ou não ou se o modelo é aderente para outras amostras. Para o cálculodo teste de K-S, ambas as distribuições de escore das diferentes amostras foram acumuladas,por faixas de escore (modelo que está sendo avaliado), buscando a maior diferença entre asdistribuições, conforme a Figura 9.
O ponto de maior distância entre as distribuições é de 3 pontos, portanto o resultadodo teste de K-S para esta simulação é de 3%, o que indica que as distribuições de score sãosimilares e que o modelo é aderente a base de teste. O gráfico apresentado na Figura 9 apresentaa distribuição das curvas acumuladas.
3.6.2 Curva AUROC
A curva ROC, segundo Fawcett (2006), é uma técnica de visualização, organização eseleção de classificadores com base em seu desempenho e nos últimos anos tem crescido seu uso
Capítulo 3. Revisão Teórica 32
Figura 9 – Teste de K-S - Avaliação de difenrença entre amostras
Fonte: Elaboração própria
Tabela 1 – Valores referenciais de K-S para acurácia
Valor de KS Credit/Collection scoring Behavioral scoringMenor que 20% Baixo Baixo
20% a 25% Baixo/aceitável Baixo25% a 30% Bom Baixo30% a 50% Muito Bom Aceitável50% a 60% Excelente Bom60% a 70% Valores Poucos Usuais Muito Bom
Maior que 70% Excelente valores pouco usuaisFonte: Baseado em Sicsú (2010)
nos algoritmos de Machine Learning devido as métricas tradicionais de acurácia não serem tãoricas em modelos de classificação.
Considera-se a distinção entre a classes atuais e a classes preditas em quatro possíveisresultados:
Tabela 2 – Matriz de confusão
Valor Previsto
Valor ObservadoPositivos Negativos
Positivos VP - Verdadeiro Positivo FP - Falso PositivoNegativos FN - Falso Negativo VN - Verdadeiro Negativo
Fonte: Elaboração própria
A sensitividade é a probabilidade de decidir se o evento em questão está presente quandode fato está presente, enquanto que a especificidade é a probabilidade de decidir se o evento emquestão não ocorre quando, de fato, não ocorre. Com isso, pode-se representar os falsos positivoscomo (1-especificidade).
A partir disso, é possível ter um teste que que seja ao mesmo tempo altamente sensívele altamente específico, pois um valor de corte fixa um par sensibilidade/especificidade. Estespares podem ser representados como valores de coordenadas ”y”e”x” dando origem ao gráfico
Capítulo 3. Revisão Teórica 33
designado por curva ROC.
Figura 10 – Exemplo de curva ROC
Fonte: Baseado em Sicsú (2010)
3.6.3 Coeficiente GINI
Como a área sobre a curva ROC varia de 0,5 a 1, é usual a utilização, segundo Thomas(2017) o coeficiente de GINI, cuja a variação é de 0 a 1, que é dado por duas vezes a área entre acurva ROC e a reta diagonal.
3.6.4 Análise de ordenação de score
Além das métricas matemáticas citadas como K-S e AUROC, uma outra prática paraa avaliação de acurácia de modelos e comparação entre duas diferentes equações é a análisede ordenação de escore e avaliação de pontos de corte. O processo consiste em uma análisenumérica e gráfica da qualidade da ordenação do modelo. Para sua construção são realizados osseguintes passos:
1. Ordenação da amostra de dados pela probabilidade ou escore, considerando a ordenaçãodo melhor para o pior, neste estudo dos indivíduos mais propensos a quitar suas dívidaspara os menos propensos.
2. Cálculo do percentual acumulado da amostra até aquele ponto e as métricas de: % doevento, % dos indivíduos bons acumulados e % dos indivíduos maus da base.
3. Construção de gráfico de dispersão, no qual: eixo x é o % de recuperação acumulado e oeixo y o % da amostra.
A Tabela 3 apresenta um exemplo de avaliação da métrica de ordenação de escore,conforme observa-se, considerando os 40% indivíduos melhores classificados, temos para oModelo 1 – 54% de não recuperação e 49% de não recuperação para o Modelo 2, quandoobservado os percentuais de acúmulo por evento tem-se para o Modelo 1 – 68% de todos
Capítulo 3. Revisão Teórica 34
indivíduos recuperados contra 80% do Modelo 2, o que indica que a ordenação do Modelo 2é bastante superior ao Modelo 1. A Figura 11 apresenta o gráfico de ordenação, ponto a pontocomparando os modelos.
Tabela 3 – Ordenação de escore - Pontos de Corte
% Não Recuperado % Não Recuperado Acumulado % Recuperado AcumuladoPonto de Corte
Modelo 01 Modelo 02 Modelo 01 Modelo 02 Modelo 01 Modelo 021% 5% 4% 0% 0% 7% 7%5% 13% 12% 1% 1% 19% 19%10% 24% 22% 4% 3% 31% 31%20% 38% 35% 11% 10% 48% 48%30% 48% 43% 20% 18% 60% 60%40% 54% 49% 30% 25% 68% 80%50% 59% 53% 41% 30% 77% 82%60% 63% 57% 52% 47% 84% 85%70% 66% 60% 64% 58% 89% 88%80% 69% 62% 76% 68% 94% 93%90% 71% 65% 88% 81% 98% 96%95% 72% 69% 95% 90% 99% 98%99% 73% 71% 100% 97% 100% 99%
100% 73% 73% 100% 100% 100% 100%Fonte: Elaboração própria
Figura 11 – Ordenação de escore - Ponto a Ponto
Fonte: Elaboração própria
3.6.5 Valor da informação (IV) e Peso de evidência (WOE).
As métricas de valor da informação e peso de evidências, são amplamente utilizadas pelomercado para avaliar o poder de discriminação de variáveis categorizadas, conforme (SICSÚ,2010). Com a aplicação destas métricas é possível comparar a capacidade de separação de
Capítulo 3. Revisão Teórica 35
cada categoria (peso de evidência) e a capacidade total de discriminação da variável (Valor dainformação). A fórmula para o cálculo do peso de evidência é dada por :
WOE = ln(%evento = 0/%evento = 1) (29)
A fórmula para o cálculo do valor da informação é dada por :
IV =IV
∑IV=1
((%evento = 0−%evento = 1)∗WOE) (30)
Foi convencionada uma tabela com valores de informação para qualificar a qualidade dediscriminação de cada variável sendo :
Tabela 4 – Valores referenciais de IV
Valor da Informação (IV) Poder de discriminação<0,02 Sem discriminação
0,02 a 0,10 Baixo poder0,10 a 0,30 Médio poder0,30 a 0,50 Alto poder
Acima de 0,50 Valor Muito Alto (possibilidade de variável futura)Fonte: Elaboração própria
Para casos onde existe uma alta oferta de variáveis para o ajuste dos modelos, é umaprática a utilização do valor de informação IV para selecionar variáveis (exclusão de variáveiscom baixo poder discriminatório), porém as variáveis com baixo IV podem ser utilizadascombinadas com outras quando não há a oferta de variáveis com alto poder de discriminação.
3.6.6 Índice de estabilidade populacional (PSI)
A estabilidade populacional é utilizada para verificar a distribuição da população entreas variáveis categóricas da amostra de desenvolvimento e monitoramento e, por fim, o modelofinal.
PSI = (ri−mi)∗ ln(
ri
mi
), (31)
no qual ri é a proporção de indivíduos no desenvolvimento e mi é a proporção na amostra demonitoramento. Para mais detalhes ver (SICSÚ, 2010).
Capítulo 3. Revisão Teórica 36
Tabela 5 – Valores referenciais de PSI
PSI Alteração<0,1 Não houve alteração
0,1 a 0,25 Possível alteraçãoAcima de 0,25 Há alteração de perfil
Fonte: Baseado em Sicsú (2010)
37
4 METODOLOGIA
Para o desenvolvimento desta dissertação, foi fornecida pela Serasa Experian umaamostra de dados para ser utilizada exclusivamente para os testes de metodologia. A amostrafornecida é referente a uma base de Collection Score, no qual o objetivo é a predição dos clientesmais propensos a quitar seus débitos em até 180 dias da data de observação, considerandoclientes com atrasos de curto e médio prazos. As informações da base de dados são protegidas enão possuem identificação (clientes).
4.0.1 Avalição dos dados fornecidos
A base fornecida para o estudo contém 147.264 registros distribuídos em 12 safras dedezembro/2015 a novembro/2016, sendo o período de dezembro/2015 a setembro/2016 paratreinamento, e de outubro e novembro de 2016 para teste fora do tempo. A base possui 101variáveis preditoras divididas em: 2 variáveis cadastrais, 65 variáveis de histórico de restriçõesativas, comportamento, regularização e tipos de restrição, 34 variáveis de comportamentohistórico e tipos de consulta ao crédito e 3 variáveis de identificação.
As safras e índices de recuperação possuem estabilidade ao longo das safras conformepode-se observar na Figura 12. Em média, cerca de 12.200 registros por safra com uma nãorecuperação de em média 73,2%.
Figura 12 – Distribuição de registros e evento por safra
Fonte: Elaboração própria
Capítulo 4. Metodologia 38
4.0.2 Tratamento de dados – Categorização
Todas as variáveis fornecidas foram categorizadas, para que no momento do ajustepossamos contar com a opção de trabalhar com a variável contínua ou categorizada. O processode categorização aplicado consiste na separação da identificação de valores nulos em umaclasse separada e na divisão da variável contínua em classes, determinadas pelo algoritmo deárvore de decisão. Após esta categorização, cada variável foi avaliada para garantir que suacategorização seja monotônica e foram realizados agrupamentos para adequação ao sentidode negócio. Para facilitar a visualização das categorizações, foi desenvolvido um relatórioReportVariveis, contendo indicadores como ODDS, WOE, IV e PSI por categoria e safra.
Figura 13 – Exemplo do relatório para avaliação de categorias
Fonte: Elaboração própria
4.0.3 Amostragem de dados
Para o desenvolvimento do estudo foi aplicada uma amostra aleatória de dados no qual:
1. Das Safras de Dezembro/2015 a setembro/2015:
a) 60% foi marcado como desenvolvimento
b) 20% foi marcado como amostra de teste
c) 20% foi marcado como fora da amostra
2. As safras de outubro e Novembro/2016 foram marcadas como amostras fora do tempo.
Capítulo 4. Metodologia 39
Para garantir a avaliação das metodologias e não possuir viés de processo de amostragem,todos os ajustes serão realizados utilizamos as mesmas marcações de amostra. Para metodologiascomo Regressão Logística e Random Forest que não oferecem suporte para o uso de amostra deteste ela será considerada como uma segunda amostra fora do tempo. Para as metodologias deGradient Boosting e Randon Forest a amostra de desenvolvimento também será balanceada em50% para cada evento.
Pode-se verificar na Figura 14 que as amostras permanecem com as mesmas característi-cas sem evidências de instabilidade e viés amostral.
Figura 14 – Estabilidade das amostras
Fonte: Elaboração própria
4.1 Metodologia Regressão Logística
Para o ajuste do modelo de Regressão Logística os seguintes passos foram realizados:
1. Preparação da base de dados:
a) Utilização das amostras padrão do estudo.
b) Para a base de treinamento foi utilizada a proporção real do evento.
c) Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização). Para o ajuste da Regressão Logística optou-se somente pela utili-zação de variáveis categorizadas, pois a metodologia exige uma alocação para osregistros nulos e para essa técnica de modelagem é considerado uma boa prática acategorização para um melhor controle das classes que estão sendo pontuadas nomodelo.
Capítulo 4. Metodologia 40
2. Ajuste Inicial / Seleção de variáveis
Para o ajuste da Regressão Logística, foi utilizado um processo de seleção Stepwise para aseleção do vetor de variáveis candidatas. Os parâmetros de entrada e saída de variáveisforam indicados a 5% de significância. Após a execução desta seleção, das 86 variáveiscandidatas, 48 foram selecionadas pelo método de Stepwise.
3. Refinamento do modelo
Com o vetor de variáveis selecionado foi iniciado o ajuste do modelo, que consiste naavaliação da significância de cada categoria (p-valor) e a interpretação de negócio paracada um dos parâmetros. Em caso de a categoria da variável não apresentar significânciaaceitável (p-valores superiores a 5%), ou parâmetro ajustado invertido em relação ainterpretação de negócio, a categorização é reavaliada, buscando uma nova configuraçãopara o ajuste (alocação da categoria com categoria mais próxima, ou remoção da variável).A utilização de variáveis correlacionadas, para o processo de ajuste de uma RegressãoLogística pode gerar problemas na estimativa dos parâmetros, portando é uma práticano processo de ajuste, avaliar a correlação entre variáveis e selecionar somente as nãocorrelatas. Como neste ajuste, somente variáveis categorizadas estão sendo utilizadas, amedida de correlação utilizada foi a correlação de Cramer (CRAMÉR, 1946). Para estadissertação, considerou-se somente as variáveis que possuíram uma correlação de Cramerinferior a 0,45.
Para o treinamento do modelo os seguintes passos foram realizados:
a) Ajuste do modelo com as primeiras 10 variáveis selecionadas pelo processo deStepwise.
b) Avaliação de correlação de Cramer e remoção de variáveis correlatas.
c) Avaliação de significância e interpretação de negócio.
Foram ajustados 4 ciclos de ajuste, considerando em cada um deles a adição das próximas10 variáveis selecionadas pelo Stepwise e reaplicando os passos descritos acima. Em cadaum dos ciclos, novos modelos foram gerados avaliando a melhor alocação das categoriase ajustes de significância, totalizando até a versão finalista 42 ajustes. Para assegurar aqualidade do modelo, após finalizado o ajuste, foi realizado uma avaliação de métricas deacurácia (K-S e AUROC) e estabilidade do modelo e variáveis por amostras e safras. Nãoforam evidenciadas instabilidades e neste caso uma correção do ajuste não foi necessária.A Figura 15 abaixo, apresenta os resultados de K-S para cada um dos ciclos realizadosaté o modelo final. O modelo selecionado é o do ciclo 04, não necessariamente o melhormodelo foi o selecionado, pois após os tratamentos de variáveis (remoção de correlação,significância e interpretação) o modelo pode perder um pouco de discriminação.
Capítulo 4. Metodologia 41
Figura 15 – Regressão Logística - Resultado das simulações
Fonte: Elaboração própria
4.2 Metodologia Gradient Boosting
Para o ajuste do modelo de Gradient Boosting os seguintes passos foram realizados:
1. Preparação da base de dados:
a) Utilização das amostras padrão do estudo.
b) Para a base de treinamento foi utilizada a amostra balanceada em 50% para cadaevento. Gerando uma base com 19.639 registros para cada evento (recuperados e nãorecuperados).
c) Tratamento de variáveis:
i. Correção de nulos: Foi aplicado uma nova marcação de nulos. Como as variáveispossuem codificação própria para os valores nulos (-1,-2,-3 e outros), eles foramconvertidos para nulos, para que o algoritmo de Gradient Boosting considere osregistros em uma classe isolada.
ii. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização) as variáveis foram categorizadas.
2. Ajuste Inicial / Seleção de variáveis
O primeiro passo é a execução do treinamento de Gradient Boosting considerando todo ovetor de variáveis (contínuo e categorizado) para identificar o potencial do ajuste, iniciandoo processo de seleção de variáveis e estresse dos super parâmetros. Nesta fase foi realizadoum ajuste considerando os parâmetros abaixo:
• Proporção de Treino: 0,5
• Número de Iterações: 100
• Taxa de aprendizagem : 0,1
• Número mínimo de registros nó : 20
Capítulo 4. Metodologia 42
Após a execução desta primeira seleção, das 186 variáveis candidatas, 92 foram seleciona-das, ou seja, possuem pelo menos uma regra que foi utilizada no algoritmo.
3. Refinamento do modelo
Com o vetor de variáveis selecionado e as mesmas parametrizações, foram realizadosajustes considerando as 20, 30 e 40 variáveis com maior importância para o algoritmo, como objetivo de simplificar a complexidade do algoritmo reduzindo o número de variáveispreditoras. O vetor de variáveis que apresentou a melhor classificação e com o menornúmero de variáveis foi considerando as 20 variáveis mais importantes.
O estrese dos super parâmetros foi iniciado alterando as proporções de treinamento, taxa deaprendizagem, número de iterações, profundidade e número de indivíduos por nó. Por fim,foram realizados 10 desenvolvimentos para a escolha do modelo final. A Figura 16 abaixoapresenta o gráfico com as métricas de K-S para cada amostra em cada um dos testes. Omodelo que gerou um melhor resultado na amostra fora do tempo, com a menor diferençaem comparação com a amostra de desenvolvimento foi considerado a melhor simulação,que no caso foi a simulação 06. O modelo final possui as seguintes parametrizações:
• Número de variáveis: TOP 20
• Proporção de Treino: 0,5
• Número de Iterações: 100
• Taxa de aprendizagem : 0,06
• Número mínimo de registros nó : 20
Figura 16 – Gradient Boosting - Resultado das simulações
Fonte: Elaboração própria
Para assegurar a qualidade do modelo, após finalizado o ajuste, foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.
Capítulo 4. Metodologia 43
4.3 Metodologia Randon Forest
Para o ajuste do modelo de randon forest os seguintes passos foram realizados:
1. Preparação da base de dados :
a) Utilização das amostras padrão do estudo.
b) Para a base de treinamento foi utilizada a amostra balanceada em 50% para cadaevento. Gerando uma base com 19.639 registros para cada evento (recuperados e nãorecuperados).
c) Tratamento de variáveis:
i. Correção de nulos: Foi aplicado uma nova marcação de nulos. Como as variáveispossuem codificação própria para os valores nulos (-1,-2,-3 e outros), eles foramconvertidos para nulos, para que o algoritmo de Random Forest considere osregistros em uma classe isolada.
ii. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização) as variáveis foram categorizadas.
2. Ajuste Inicial / Seleção de variáveis
O primeiro passo foi a execução do treinamento de Random Forest considerando todoo vetor de variáveis (contínuo e categorizado) para identificação do potencial de ajuste,iniciando o processo de seleção de variáveis e estresse dos super parâmetros. Nesta fase,foram realizados 4 ajustes sendo:
• Parâmetros Iniciais:
– Proporção de Treino: 0,7
– Proporção de Treino: 0,7
– Número de Iterações: 100
– Número de Variáveis para teste: 10
– Alpha (P-valor): 0,10
– Profundidade: 50
– Número mínimo de registros folha: 10
• Ajuste 1: Busca do número de iterações ideal, observando que com 30 iterações nãoexistia mais redução de resíduos considerável.
• Ajustes 2, 3 e 4, alterou-se os parâmetros de: Iterações: 30; número mínimo deregistros por folha para 50, e o número de variáveis para teste para 5. Com osresultados do Ajuste 4, foram removidas as variáveis que não possuem importância.
Capítulo 4. Metodologia 44
3. Refinamento do modelo
Selecionado o vetor de variáveis, iniciou-se o teste de estresse dos super parâmetros,alterando as proporções de treinamento, número de variáveis para os testes, nível dep-valor, número de iterações, profundidade e número de indivíduos por nó. Por fim, foramrealizados 15 desenvolvimentos para a escolha do modelo final. A Figura 17 abaixoapresenta o gráfico com as métricas de K-S para cada amostra em cada um dos testes, ocritério para seleção do melhor modelo foi o que gerou um melhor resultado na amostrafora do tempo e que possui estabilidade (simulação 11). A simulação 7 foi forçada para umsuper ajuste para demonstração da importância de se avaliar corretamente os parâmetros,pois nem sempre o melhor modelo na amostra de desenvolvimento é o melhor modelopara a produção.
Figura 17 – Random Forest- Resultado das simulações
Fonte: Elaboração própria
A simulação 11 foi a selecionada como ajuste final do processo de Random Forest e osseguintes parâmetros foram utilizados:
• Parâmetros Finais:
– Variáveis Utilizadas: 25
– Proporção de Treino: 0,6
– Número de Iterações: 40
– Número de Variáveis para teste: 5
– Alpha (P-valor) : 0,10
– Profundidade: 50
– Número mínimo de registros folha: 10
Para assegurar a qualidade do modelo, após finalizado o ajuste foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.
Capítulo 4. Metodologia 45
4.4 Metodologia Support Vector Machine
Para o ajuste do modelo de Support Vector Machine os seguintes passos foram realizados:
1. Preparação da base de dados:
a) Utilização das amostras padrão do estudo.
b) Para a base de treinamento foi utilizada a proporção real do evento.
c) Tratamento de variáveis:
i. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização). Para o ajuste do SVM somente variáveis categorizadas foramutilizadas, pois a metodologia exige uma alocação para os registros nulos.
2. Ajuste Inicial / Seleção de variáveis
Para o ajuste do SVM, foi utilizado um processo de seleção Stepwise para a seleção dovetor de variáveis candidatas para o treinamento. Os parâmetros de entrada e saída devariáveis foram indicados a 5% de significância. Após a execução desta seleção, das 86variáveis candidatas, 29 foram selecionadas pelo método de Stepwise.
3. Refinamento do modelo
Com o vetor de variáveis selecionado foi iniciado o estresse do parâmetro de iteraçõesutilizando a função linear. Foram realizados 3 testes considerando o vetor de variáveisselecionado pelo Stepwise, mais um teste considerando todas as 86 variáveis para avaliar adiferença de acurácia. Conforme a Figura 18 abaixo, a simulação 3 que considera o vetorde variáveis selecionado com 29 variáveis, função linear e 20 iterações apresentou a melhoracurácia com a menor complexidade. A acurácia obtida em utilizar o vetor completo de196 variáveis apesar de ser ligeiramente maior não justifica sua complexidade.
Figura 18 – Support Vector Machine - Resultado das simulações
Fonte: Elaboração própria
Para assegurar a qualidade do modelo, após finalizado o ajuste foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.
46
5 RESULTADOS
Com base no conjunto de dados fornecido, foram desenvolvidos 4 modelos preditivosutilizando as metodologias de : Regressão Logística, Gradient Boosting, Random Forest eSupport Vector Machine, conforme descritos no capitulo 4 – Metodologia. Nesta sessão serãodescritos os principais resultados de cada um dos ajustes e uma comparação com a RegressãoLogística.
5.1 Metodologia Regressão Logística
Para o ajuste do conjunto de dados fornecido, o processo de modelagem com a técnicade Regressão Logística teve um esforço de desenvolvimento de 24 horas, considerando todos ostestes e refinamentos realizados para a seleção do modelo final.
O modelo ajustado possui 16 variáveis, divididas em 4 grupos de informação (Figura19), possuindo boa distribuição, equilibrando assim diferentes características para a classificaçãodo indivíduo.
Figura 19 – Variáveis - Regressão Logística
Fonte: Elaboração própria
Avaliando os principais indicadores de acurácia utilizados pelo mercado, observa-se queo modelo ajustado possui bons resultados quando observado as amostras de treinamento, teste,validação e fora do tempo, mantendo esta característica quando observado mês a mês. Obser-vando a amostra de desenvolvimento, encontrou-se um K-S de 40,4, contra 40,2 na validação e38,2 no período fora do tempo, evidenciando a não ocorrência de super-ajuste. A estabilidade doescore também foi avaliada considerando as amostras disponíveis, também não evidenciandoproblemas de instabilidade. Quando avaliado os indicadores de PSI o maior valor encontrado foide 1% e de K-S de 5,15%, conforme Figura 20 e Tabela 06.
Capítulo 5. Resultados 47
Figura 20 – Métricas - Regressão Logística
Fonte: Elaboração própria
Tabela 6 – Estabilidade - Regressão Logística
Regressão LogisticaEstabilidade
PSI K-SDEV 0,00% 0,00%OOS 0,00% 0,71%OOT 1,40% 4,50%OOV 0,00% 0,23%
201512 1,20% 5,09%201601 1,10% 4,87%201602 0,40% 3,49%201603 0,20% 2,69%201604 0,10% 0,87%201605 0,10% 0,80%201606 0,40% 2,69%201607 1,00% 4,49%201608 1,10% 5,04%201609 1,20% 5,15%201610 1,30% 4,67%201611 1,40% 4,41%
Fonte: Elaboração própria
Capítulo 5. Resultados 48
Avaliando o poder de ordenação do escore, a Tabela 7 apresenta as simulações consi-derando 14 opções de pontos de corte, indicando a taxa de não recuperação e percentuais derecuperados e não recuperados para o corte em comparação com a população total. Por exemplo,considerando uma ação de cobrança para os 40% indivíduos melhores classificados da base dedesenvolvimento, observa-se uma taxa de não recuperação de 54%, e teríamos coberto 70% detodas as recuperações da população contra 30% das não recuperações e respectivamente para aamostra fora do tempo temos (57%,31%,68%). Ação que resulta em uma melhor distribuiçãoda carteira de cobrança, maximizando a recuperação e os custos com a operação (ação emindivíduos mais propensos a quitar seus débitos).
Tabela 7 – Pontos de corte - Regressão Logística
Desenvolvimento Fora do Tempo% Não % Não Recuperados % Recuperados % Não % Não Recuperados % RecuperadosPonto de Corte
Recuperados Acumulado Acumulado Recuperados Acumulado Acumulado1% 5% 0% 7% 8% 0% 7%5% 13% 1% 19% 16% 1% 19%
10% 24% 4% 31% 27% 4% 31%20% 38% 11% 48% 41% 12% 48%30% 48% 20% 60% 50% 21% 59%40% 54% 30% 70% 57% 31% 68%50% 59% 41% 77% 61% 42% 76%60% 63% 52% 84% 65% 53% 83%70% 66% 64% 89% 68% 65% 89%80% 69% 76% 94% 70% 76% 93%90% 71% 88% 98% 72% 89% 98%95% 72% 95% 99% 73% 95% 99%99% 73% 100% 100% 74% 100% 100%100% 73% 100% 100% 74% 100% 100%
Fonte: Elaboração própria
Uma das principais características deste método é a capacidade de interpretação dosparâmetros, permitindo assim uma avaliação detalhada da pontuação, e assim identificar asvariáveis ou classes que bonificam (clientes que recuperam suas dívidas) ou penalizam (clientesque não recuperam suas dívidas). É um método que possui um esforço de desenvolvimentoconsiderável, pois exige do analista a interpretação dos parâmetros, tratamento e construçãode iterações entre variáveis para buscar o melhor resultado. Possui implementação de baixacomplexidade, pois se trata da construção de uma única equação. São modelos que tem umtempo de vida alto, em alguns casos mantendo sua estabilidade mesmo com 4 ou 5 anos de uso.
Atualmente é o método mais utilizado no mercado de Credit Score e Collection Score,devido a possibilidade e facilidade de interpretação e sua ótima estabilidade ao longo do tempo.Para carteiras ou processos auditados por um órgão regulador, o método de Regressão Logísticaacaba sendo o mais aceito devido a estas características, que proporcionam um melhor controlee rastreabilidade do modelo.
Capítulo 5. Resultados 49
5.2 Metodologia Gradient Boosting
Para o ajuste do conjunto de dados fornecido o processo de Gradient Boosting teve umesforço de desenvolvimento de 3 horas, considerando todos os testes e refinamentos realizadospara a seleção do modelo final. No total foram ajustados 11 modelos, sendo 1 para pré-seleçãode variáveis e 10 para o refinamento.
O modelo ajustado possui 20 variáveis, divididas em 4 grupos de informação (Figura 21)e que possuem uma concentração de 50% de variáveis de restrições financeiras.
Figura 21 – Variáveis - Gradient Boosting
Fonte: Elaboração própria
Avaliando os indicadores de acurácia observa-se que a amostra de desenvolvimentoobteve um K-S de 43,1, contra 42,6 na validação e 40,7 no período fora do tempo, evidenciando anão ocorrência de super-ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observou-se o PSI máximo de 0,90% e um K-S de 3,77%, indicando que a distribuiçãoé estável.
Comparando os resultados de acurácia, o modelo ajustado pelo processo de Gradient
Boosting foi superior ao modelo de Regressão Logística em todas as amostras e safras, com umamédia de ganho de 2 pontos percentuais de K-S e 1,7 pontos percentuais de AUROC. O modelode Gradient boosting também se mostrou mais estável em comparação com o modelo logístico.A Figura 22 e Tabela 8 apresentam os resultados comparativos entre as duas metodologias.
Capítulo 5. Resultados 50
Figura 22 – Métricas - Gradient Boosting x Regressão Logística
Fonte: Elaboração própria
Tabela 8 – Estabilidade - Gradient Boosting x Regressão Logística
Regressão Logística Gradient BoostingEstabilidade
PSI K-S PSI K-SDEV 0,00% 0,00% 0,00% 0,00%OOS 0,00% 0,71% 0,00% 0,56%OOT 1,40% 4,50% 0,80% 3,46%OOV 0,00% 0,23% 0,00% 0,41%
201512 1,20% 5,09% 0,50% 2,51%201601 1,10% 4,87% 0,50% 3,26%201602 0,40% 3,49% 0,20% 1,76%201603 0,20% 2,69% 0,30% 2,32%201604 0,10% 0,87% 0,10% 1,33%201605 0,10% 0,80% 0,20% 1,52%201606 0,40% 2,69% 0,10% 1,89%201607 1,00% 4,49% 0,50% 3,61%201608 1,10% 5,04% 0,80% 3,90%201609 1,20% 5,15% 0,80% 3,09%201610 1,30% 4,67% 0,90% 3,77%201611 1,40% 4,41% 0,80% 3,14%
Fonte: Elaboração própria
Avaliou-se o poder de ordenação do escore, considerando 14 opções de pontos de corte(Tabela 9) e quando comparado a ordenação dos 2 modelos no mesmo ponto de corte (40%dos melhores) observou-se que o ajuste de Gradient Boosting possui uma melhor ordenação deescore, obtendo a redução de 1 ponto percentual da taxa de não recuperação. Observando os grá-ficos de ordenação de escore (Figura 23), ponto a ponto, verificou-se que o modelo de Gradient
Capítulo 5. Resultados 51
boosting possui ganhos considerando uma ordenação de até 80% dos melhores indivíduos, apóseste percentual a ordenação dos modelos é igual.
Tabela 9 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e GradientBoosting
Desenvolvimento Fora do tempo% Não Recuperados % Não Recuperados % Recuperados % Não Recuperados % Não Recuperados % Recuperados
Acumulado Acumulado Acumulado AcumuladoRegressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient
Ponto de Corte
Logística Boosting Logística Boosting Logística Boosting Logística Boosting Logística Boosting Logística Boosting1% 5% 4% 0% 0% 7% 7% 8% 7% 0% 0% 7% 7%5% 13% 11% 1% 1% 19% 20% 16% 15% 1% 1% 19% 20%
10% 24% 21% 4% 3% 31% 32% 27% 24% 4% 4% 31% 32%20% 38% 36% 11% 10% 48% 50% 41% 40% 12% 11% 48% 49%30% 48% 46% 20% 19% 60% 62% 50% 49% 21% 20% 59% 61%40% 54% 53% 30% 30% 70% 72% 57% 56% 31% 31% 68% 70%50% 59% 58% 41% 40% 77% 80% 61% 61% 42% 42% 76% 77%60% 63% 62% 52% 52% 84% 86% 65% 64% 53% 53% 83% 84%70% 66% 65% 64% 63% 89% 91% 68% 67% 65% 65% 89% 89%80% 69% 68% 76% 76% 94% 95% 70% 70% 76% 76% 93% 94%90% 71% 71% 88% 88% 98% 99% 72% 72% 89% 88% 98% 98%95% 72% 72% 95% 95% 99% 100% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%
Fonte: Elaboração própria
Figura 23 – Ponto a Ponto - Comparação entre Regressão Logística e Gradient Boosting
Fonte: Elaboração própria
Aplicou-se hipoteticamente um cálculo financeiro, dados não fornecidos, para avaliara diferença financeira entre as metodologias e observou-se um ganho financeiro considerávelem todas as simulações (ponto de corte a 40%), por exemplo, considerando um valor médio dedívidas de R$4.000 em uma carteira com 10.000 em cobrança, o ganho de ordenação gerado pelomodelo de Gradient Boosting seria de cerca de R$500.000 para amostra de desenvolvimento ede R$390.000 para a amostra fora do tempo.
Capítulo 5. Resultados 52
Tabela 10 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x GradientBoosting
AmostraSimulação % Não Recuperados Valores
Número de Valor Médio Regressão Gradient Recuperação RecuperaçãoGanho
Clientes da Dívida Logística Boosting Regressão Logística Gradient Boosting
Desenvolvimento
100
R$ 4,000 54% 53%
R$ 183,416 R$ 188,470 R$ 5,05410,000 R$ 18,341,561 R$ 18,847,001 R$ 505,440
500,000 R$ 917,078,052 R$ 942,350,037 R$ 25,271,9851,000,000 R$ 1,834,156,104 R$ 1,884,700,073 R$ 50,543,969
Fora do Tempo
100
R$ 4,000 57% 56%
R$ 172,846 R$ 176,746 R$ 3,90010,000 R$ 17,284,626 R$ 17,674,600 R$ 389,974
500,000 R$ 864,231,295 R$ 883,730,004 R$ 19,498,7091,000,000 R$ 1,728,462,590 R$ 1,767,460,008 R$ 38,997,418
Fonte: Elaboração própria
Uma das principais características deste método foi a capacidade de combinar variáveis,através das múltiplas iterações que realizadas para minimizar o resíduo do ajuste (processode Boosting). Devido a esta característica, diferente da regressão logística, não foi possívelinterpretar parâmetro a parâmetro e rastrear o motivo da pontuação do escore, premissa queórgãos reguladores ainda não aceitam, porém para uma carteira de cobrança (Collection Score)existe uma maior flexibilidade para está interpretação, permitindo assim a aplicação desta técnica.Os 2 pontos de atenção principais observados para esta metodologia podem ser resumidos:
1. Controle de super ajuste: Por se tratar de um algoritmo de múltiplas iterações, foramnecessários controles de validação mais rigorosos (múltiplas amostras de teste) paraassegurar a qualidade do ajuste.
2. Ambiente de implantação: Diferente da Regressão Logística, no qual o esforço de implanta-ção é relativamente baixo (desenvolvimento de uma equação), o Gradient Boosting possuiinúmeras linhas de código, devido as múltiplas iterações. Nesta dissertação, por exemplo,obteve-se 81.000 linhas de código e por isto necessitando de um ambiente automatizadopara a implantação do modelo.
Capítulo 5. Resultados 53
5.3 Metodologia Random Forest
Para o ajuste do conjunto de dados fornecido o processo de Random Forest teve umesforço de desenvolvimento de 4 horas, considerando todos os testes e refinamentos realizadospara a seleção do modelo final. No total foram ajustados 19 modelos, sendo 4 para pré-seleçãode variáveis e 15 para o refinamento.
O modelo ajustado possui 39 variáveis, divididas em 4 grupos de informação (Figura 24)e possuem uma concentração de 61% de variáveis de restrições financeiras.
Figura 24 – Variáveis - Random Forest
Fonte: Elaboração própria
Avaliando os indicadores de acurácia observou-se que a amostra de desenvolvimentoobteve um K-S de 40,6, contra 39,7 na validação e 38,7 no período fora do tempo, evidenciando anão ocorrência de super ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observamos o PSI máximo de 2,70% e um K-S de 5,81%, indicando que a distribuiçãoé estável.
Comparando os resultados de acurácia, o modelo ajustado pelo processo de Random
Forest foi superior ao modelo de Regressão Logística somente para algumas amostras e em médiaseu resultado foi igual ou inferior ao método tradicional. Com uma média de perda de 0,3 pontospercentuais de K-S e 0,3 pontos percentuais de AUROC. O modelo de Random Forest tambémapresentou ser mais instável. A Figura 25 e Tabela 11 apresentam os resultados comparativosentre as duas metodologias.
Avaliando o poder de ordenação do escore a Tabela 12 apresenta as simulações conside-rando 14 opções de pontos de corte. Quando comparado a ordenação dos modelos no mesmoponto de corte (40% dos melhores), observou-se que o ajuste de Random Forest possui a mesmaordenação que o método de Regressão. Observando os gráficos de ordenação de escore (Figura26), ponto a ponto, verificou-se que o modelo de Random Forest não possui ganhos em relação aRegressão Logística e em alguns momentos obteve ordenação inferior.
Capítulo 5. Resultados 54
Figura 25 – Métricas - Random Forest x Regressão Logística
Fonte: Elaboração própria
Tabela 11 – Estabilidade - Random Forest x Regressão Logística
Regressão Logística Random ForestEstabilidade
PSI K-S PSI K-SDEV 0.00% 0.00% 0.00% 0.00%OOS 0,00% 0,71% 0,00% 0,42%OOT 1,40% 4,50% 2,50% 5,21%OOV 0,00% 0,23% 0,00% 0,42%
201512 1,20% 5,09% 2,80% 5,52%201601 1,10% 4,87% 2,30% 5,12%201602 0,40% 3,49% 1,30% 3,78%201603 0,20% 2,69% 1,00% 3,13%201604 0,10% 0,87% 0,10% 1,43%201605 0,10% 0,80% 0,20% 1,57%201606 0,40% 2,69% 0,70% 3,17%201607 1,00% 4,49% 1,50% 5,39%201608 1,10% 5,04% 2,30% 5,75%201609 1,20% 5,15% 2,30% 5,81%201610 1,30% 4,67% 2,60% 5,48%201611 1,40% 4,41% 2,70% 4,94%
Fonte: Elaboração própria
Capítulo 5. Resultados 55
Tabela 12 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e RandomForest
Desenvolvimento Fora do tempo% Não Recuperados % Não Recuperados % Recuperados % Não Recuperados % Não Recuperados % Recuperados
Acumulado Acumulado Acumulado AcumuladoRegressão Random Regressão Random Regressão Random Regressão Random Regressão Random Regressão Random
Ponto de Corte
Logística Forest Logística Forest Logística Forest Logística Forest Logística Forest Logística Forest1% 5% 6% 0% 0% 7% 7% 8% 9% 0% 0% 7% 7%5% 13% 14% 1% 1% 19% 19% 16% 18% 1% 1% 19% 19%
10% 24% 25% 4% 4% 31% 31% 27% 28% 4% 4% 31% 30%20% 38% 39% 11% 11% 48% 48% 41% 41% 12% 11% 48% 47%30% 48% 47% 20% 20% 60% 60% 50% 50% 21% 20% 59% 59%40% 54% 54% 30% 30% 70% 70% 57% 57% 31% 31% 68% 68%50% 59% 59% 41% 41% 77% 77% 61% 62% 42% 43% 76% 75%60% 63% 63% 52% 52% 84% 84% 65% 65% 53% 53% 83% 82%70% 66% 66% 64% 64% 89% 90% 68% 68% 65% 65% 89% 89%80% 69% 69% 76% 76% 94% 94% 70% 70% 76% 76% 93% 93%90% 71% 71% 88% 88% 98% 98% 72% 72% 89% 89% 98% 97%95% 72% 72% 95% 95% 99% 99% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%
Fonte: Elaboração própria
Figura 26 – Ponto a Ponto - Comparação entre Regressão Logística e Random Forest
Fonte: Elaboração própria
Aplicou-se o mesmo cálculo financeiro utilizado anteriormente, para avaliar a diferençafinanceira entre as duas metodologias e observou-se que o processo de Random Forest somentegerou ganhos para a amostra de desenvolvimento (Tabela 13).
Tabela 13 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Random Forest
AmostraSimulação % De Não Recuperados Valores
Número de Valor Médio Regressão Random Recuperação RecuperaçãoGanho
Clientes da Dívida Logística Forest Regressão Logística Random Forest
Desenvolvimento
100
R$ 4,000 54% 54%
R$ 183,416 R$ 183,487 R$ 7110,000 R$ 18,341,561 R$ 18,348,697 R$ 7,136
500,000 R$ 917,078,052 R$ 917,434,870 R$ 356,8181,000,000 R$ 1,834,156,104 R$ 1,834,869,740 R$ 713,636
Fora do Tempo
100
R$ 4,000 57% 57%
R$ 172,846 R$ 172,788 -R$ 5810,000 R$ 17,284,626 R$ 17,278,845 -R$ 5,781
500,000 R$ 864,231,295 R$ 863,942,261 -R$ 289,0341,000,000 R$ 1,728,462,590 R$ 1,727,884,522 -R$ 578,069
Fonte: Elaboração própria
Uma das principais características deste método foi a capacidade de combinar variáveis
Capítulo 5. Resultados 56
através das múltiplas iterações que foram realizadas, no entanto não é possível interpretar osparâmetros das variáveis. Para o estudo de caso desta dissertação, este método não apresentouresultados superiores ao do método de Regressão Logística, e em até algumas amostras obteveum resultado inferior. Durante o ajuste, a sensibilidade do método para super ajuste foi muitoalta, conforme descrito no Capítulo 4. As características de recalibração, cuidados com superajuste e complexidade de implementação seguiram os mesmos moldes do método de Gradient
Boosting.
Capítulo 5. Resultados 57
5.4 Metodologia Support Vector Machine
Para o ajuste do conjunto de dados fornecido o processo de Support Vector Machine
houve um esforço de desenvolvimento de 2 horas, considerando todos os testes e refinamentosrealizados para a seleção do modelo final. No total foram ajustados 5 modelos, sendo 1 parapré-seleção de variáveis e 4 para o refinamento. O modelo ajustado possui 29 variáveis, divididasem 4 grupos de informação (Figura 27) e possui uma boa distribuição entre tipos, equilibrandoassim diferentes características para a classificação do indivíduo.
Figura 27 – Variáveis - Support Vector Machine
Fonte: Elaboração própria
Avaliando os indicadores de acurácia observou-se que a amostra de desenvolvimentoobteve um K-S de 41,7, contra 41,2 na validação e 40,5 no período fora do tempo, evidenciando anão ocorrência de super ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observou-se o PSI máximo de 1,10% e um K-S de 3,41%, indicando que a distribuiçãoé estável.
Comparando os resultados de acurácia, o modelo ajustado pelo processo de Support
Vector Machine foi superior ao modelo de Regressão Logística em todas as amostras e safras ,com uma média de ganho de 1.25 pontos percentuais de K-S e 0.3 pontos percentuais de AUROC.A Figura 28 e Tabela 14 apresentam os resultados comparativos entre as duas metodologias.
Capítulo 5. Resultados 58
Figura 28 – Métricas - Support Vector Machine x Regressão Logística
Fonte: Elaboração própria
Tabela 14 – Estabilidade - Support Vector Machine x Regressão Logística
Regressão Logística Support Vector MachineEstabilidade
PSI K-S PSI K-SDEV 0,00% 0,00% 0,00% 0,00%OOS 0,00% 0,71% 0,00% 0,67%OOT 1,40% 4,50% 1,10% 3,23%OOV 0,00% 0,23% 0,00% 0,49%
201512 1,20% 5,09% 0,70% 3,87%201601 1,10% 4,87% 0,90% 3,55%201602 0,40% 3,49% 0,30% 2,01%201603 0,20% 2,69% 0,10% 2,11%201604 0,10% 0,87% 0,00% 0,64%201605 0,10% 0,80% 0,20% 1,01%201606 0,40% 2,69% 0,30% 2,02%201607 1,00% 4,49% 0,50% 3,07%201608 1,10% 5,04% 0,50% 3,40%201609 1,20% 5,15% 0,50% 3,55%201610 1,30% 4,67% 1,00% 3,41%201611 1,40% 4,41% 1,00% 3,35%
Fonte: Elaboração própria
Avaliando o poder de ordenação do escore a Tabela 15 apresenta as simulações conside-rando 14 opções de pontos de corte. Quando comparou-se a ordenação dos modelos no mesmoponto de corte (40% dos melhores), observou-se que o ajuste do Support Vector Machine possuiuma melhor ordenação de escore, obtendo a redução de 0,6 ponto percentual da taxa de não
Capítulo 5. Resultados 59
recuperação para a amostra de desenvolvimento e de 1 ponto percentual para a amostra fora dotempo. Observando os gráficos de ordenação de escore (Figura 29), ponto a ponto, verificou-seque o modelo de Support Vector Machine possui ganhos considerando uma ordenação de até70% dos melhores indivíduos, após este percentual a ordenação dos modelos são iguais.
Tabela 15 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e SupportVector Machine
Desenvolvimento Fora do tempo%Não Recuperados % Não Recuperados % Recuperados % Não Recuperados %Não Recuperados Acumulado % Recuperados
Acumulado Acumulado Acumulado AcumuladoRegressão Support Regressão Support Regressão Support Regressão Support Regressão Support Regressão SupportLogística Vector Logística Vector Logística Vector Logística Vector Logística Vector Logística Vector
Ponto de Corte
Machine Machine Machine Machine Machine Machine1% 5% 6% 0% 0% 7% 7% 8% 6% 0% 0% 7% 7%5% 13% 15% 1% 1% 19% 19% 16% 18% 1% 1% 19% 19%
10% 24% 27% 4% 4% 31% 30% 27% 28% 4% 4% 31% 30%20% 38% 38% 11% 11% 48% 49% 41% 40% 12% 11% 48% 48%30% 48% 47% 20% 20% 60% 61% 50% 49% 21% 20% 59% 61%40% 54% 54% 30% 30% 70% 71% 57% 56% 31% 31% 68% 70%50% 59% 59% 41% 41% 77% 78% 61% 61% 42% 41% 76% 77%60% 63% 63% 52% 52% 84% 85% 65% 64% 53% 53% 83% 84%70% 66% 66% 64% 64% 89% 89% 68% 67% 65% 64% 89% 89%80% 69% 69% 76% 76% 94% 93% 70% 70% 76% 76% 93% 93%90% 71% 71% 88% 89% 98% 97% 72% 72% 89% 89% 98% 97%95% 72% 72% 95% 95% 99% 99% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%
Fonte: Elaboração própria
Figura 29 – Ponto a Ponto - Comparação entre Regressão Logística e Support Vector Machine
Fonte: Elaboração própria
Aplicou-se hipoteticamente um cálculo financeiro, dados não fornecidos, para avaliara diferença financeira entre as metodologias, observa-se um ganho financeiro considerável emtodas as simulações (ponto de corte a 40%), por exemplo, considerando um valor médio dedívidas de R$4.000 em uma carteira com 10.000 em cobrança, o ganho de ordenação gerado pelomodelo de Support Vector Machine seria de cerca de R$250.000 para amostra de desenvolvimentoe de R$410.000 para a amostra fora do tempo.
Uma das principais características deste método foi o processo de otimização matemáticaaplicado, o algoritmo busca otimizar a função explorada (linear) de maneira que sua posiçãono plano maximize a separação entre recuperados e não recuperados. Possui fácil implemen-tação e ajuste, pois se trata de uma única equação. Sua principal desvantagem é o alto custocomputacional para a otmização de funções não lineares.
Capítulo 5. Resultados 60
Tabela 16 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Support VectorMachine
AmostraSimulação % De Não Recuperados Valores
Número de Valor Médio Regressão Support Recuperação RecuperaçãoGanho
Clientes da Dívida Logística Vector Machine Regressão Logística Support Vector Machine
Desenvolvimento
100
R$ 4,000 54% 54%
R$ 183,416 R$ 185,942 R$ 2,52610,000 R$ 18,341,561 R$ 18,594,183 R$ 252,622
500,000 R$ 917,078,052 R$ 929,709,153 R$ 12,631,1011,000,000 R$ 1,834,156,104 R$ 1,859,418,306 R$ 25,262,202
Fora do Tempo
100
R$ 4,000 57% 56%
R$ 172,846 R$ 176,942 R$ 4,09610,000 R$ 17,284,626 R$ 17,694,182 R$ 409,556
500,000 R$ 864,231,295 R$ 884,709,093 R$ 20,477,7971,000,000 R$ 1,728,462,590 R$ 1,769,418,185 R$ 40,955,595
Fonte: Elaboração própria
5.5 Avaliação de Resultados
Com base nos resultados avaliou-se o comportamento de cada método em comparaçãocom o método de Regressão Logística que é o mais difundido no mercado. Comparando todos osmétodos entre si (Figura 30), observou-se que o método de Gradient Boosting possui a melhorclassificação, seguido pelo método de Support Vector Machine, e somente o método de Random
forest que não apresentou resultados melhores que a Regressão. Observando a área de aprovaçãoentre 40% e 60% da base, é possível avaliar a diferença de classificação entre os métodos.
Avaliando uma simulação financeira, observou-se o mesmo comportamento entre osmétodos, com exceção do método de Support Vector Machine que possui uma pequena vantagemsobre o Gradient Boosting na amostra fora do tempo.
Com base nos resultados de acurácia e financeiros, pode-se afirmar que a utilização demétodos como Gradient Boosting e Support Vector Machine para Collection Score é válidae traz benefícios para o processo, porém é necessário avaliar questões de infraestrutura deimplementação dos modelos. No caso o Gradient Boosting necessita de um ambiente preparado,devido ao alto número de regras e o Support Vector Machine possui uma complexidade baixa,similar a uma implantação do método de Regressão Logística.
Critérios de interpretação de parâmetros, exigidos para alguns casos por órgãos regula-dores, são aplicáveis somente para a Regressão Logística. Novos processos de monitoramentodeveram ser criados para que novas técnicas possam ser utilizadas, no entanto como ciclo decobrança é mais flexível esses algoritmos de Machine Learning podem ser a porta de entrada.
Capítulo 5. Resultados 61
Figura 30 – Ponto a Ponto - Comparação das metodologias
Fonte: Elaboração própria
Tabela 17 – Simulação Financeira - Comparação das metodologias
AmostraSimulação % De Não Recuperados Ganho em Relação a Regressão Logística
Número de Valor Médio Regressão Gradient Random Support Gradient Random SupportClientes da Dívida Logística Boosting Forest Vector Machine Boosting Forest Vector Machine
Desenvolvimento
100
R$ 4.000 54,1% 52,9% 54,1% 53,5%
R$ 5.054 R$ 71 R$ 2.52610.000 R$ 505.440 R$ 7.136 R$ 252.622
500.000 R$ 25.271,985 R$ 356.818 R$ 12.631,1011.000.000 R$ 50.543.969 R$ 713,636 R$ 25.262,202
Fora do Tempo
100
R$ 4.000 56,8% 55,8% 56,8% 55,8%
R$ 3.900 -R$57,80 R$ 4.09610.000 R$ 389,974 -R$5.780 R$ 409,556
500.000 R$ 19,498,709 -R$ 28,9034 R$ 20,477,7971.000.000 R$ 38.997,418 -R$ 578,06 R$ 40.955,595
Fonte: Elaboração própria
62
6 CONCLUSÃO
O objetivo principal desse estudo foi o desenvolvimento de um modelo de recuperação dedívidas (Collection Score) pois seu uso impacta diretamente nos resultados das empresas (reservade provisão e perdas), além da reduzir de custos operacionais com o processo de cobrança, noentanto, ainda é pouco explorado em trabalhos acadêmicos e profissionais já que o modelo deCredit Score é o principal modelo do ciclo de crédito.
Para o desenvolvimento do modelo de Collection Score foram estudadas quatro técnicasde classificação como Regressão Logística, Random Forest, Gradient Boosting e Support Vector
Machine, a Regressão Logística foi utilizada como a técnica de comparação, técnica maistradicional no mercado financeiro, já que possui linearidade, alta capacidade de interpretaçãodos parâmetros e estabilidade ao longo do tempo, sendo muitas vezes necessário a recalibraçãoanos mais tarde.
Os modelos foram ajustados seguindo as práticas de mercado como tratamento, seleçãoe ajuste de variáveis e as variáveis que mais possuem relação com a taxa de recuperação entretodos os modelos foram as restrições financeiras, restrições regularizadas e cadastrais.
Os resultados mostraram que o modelo de Gradient Boosting possui poder preditivomaior que Regressão Logística devido a capacidade de combinar variáveis através das múltiplasiterações que são realizadas, mas faz necessário maior atenção em validação para não haverrisco de super ajuste e um ambiente de implantação mais complexo devido ao número de regrasgeradas pela técnica, o que impede a capacidade de interpretação da pontuação.
O mesmo resultado foi encontrado com a técnica de Support Vector Machine, o qualpossui maior poder preditivo, quando comparado com a Regressão Logística, devido ao fato douso de otimização matemática para encontrar a melhor classificação dos clientes, mas que possuiuma maior capacidade computacional para gerar os resultados.
Por fim, pode-se concluir que a utilização de outras técnicas de Machine Learning emprocessos de predição para Collection Score pode gerar um poder de predição maior quandocomparado a Regressão Logística, e seu esforço para o desenvolvimento é consideravelmentemenor do que o processo de regressão. Sua desvantagem esta na capacidade de interpretação dosparâmetros e implementação do algoritmo.
Em estudos futuros, sugere-se a utilização da técnica de Support Vector Machine - NãoLinear, não explorada nesse estudo devido ao fato do alto custo computacional, mas que podemelhorar ainda mais o poder preditivo já que possui maior capacidade de otimização matemática.Também sugere-se a utilização da variação do algoritmo de Gradient Boosting, denominadaExtreme Gradient Boosting – XGBOOST que considera além do estresse de parâmetros oprocesso de regularização (LASSO).
63
REFERÊNCIAS
ABE, S. Support vector machines for pattern classification. [S.l.]: Springer, 2005. v. 2. Citado 3vezes nas páginas 26, 27 e 29.
ABELLÁN, J.; MANTAS, C. J. Improving experimental studies about ensembles of classifiersfor bankruptcy prediction and credit scoring. Expert Systems with Applications, Elsevier, v. 41,n. 8, p. 3825–3830, 2014. Citado na página 14.
ALTMAN, E. I. Financial ratios, discriminant analysis and the prediction of corporatebankruptcy. The journal of finance, Wiley Online Library, v. 23, n. 4, p. 589–609, 1968. Citadona página 13.
ALTMAN, E. I.; SAUNDERS, A. Credit risk measurement: Developments over the last 20 years.Journal of banking & finance, Elsevier, v. 21, n. 11-12, p. 1721–1742, 1997. Citado 2 vezes naspáginas 11 e 13.
ALVES, M. F.; LOTUFO, A. D. P.; LOPES, M. L. M. Seleção de variáveis stepwise aplicadasem redes neurais artificiais para previsão de demanda de cargas elétricas. Proceeding Series ofthe Brazilian Society of Computational and Applied Mathematics, v. 1, n. 1, 2013. Citado napágina 21.
BAESENS, B. et al. Benchmarking state-of-the-art classification algorithms for credit scoring.Journal of the operational research society, Springer, v. 54, n. 6, p. 627–635, 2003. Citado napágina 13.
BELLOTTI, T.; CROOK, J. Forecasting and stress testing credit card default using dynamicmodels. International Journal of Forecasting, Elsevier, v. 29, n. 4, p. 563–574, 2013. Citado napágina 14.
BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32, 2001. Citado 3vezes nas páginas 14, 22 e 25.
CASELLA, G.; BERGER, R. L. Statistical inference. [S.l.]: Duxbury Pacific Grove, CA, 2002.v. 2. Citado na página 19.
CHAPELLE, O. et al. Choosing multiple parameters for support vector machines. Machinelearning, Springer, v. 46, n. 1-3, p. 131–159, 2002. Citado na página 29.
CHEN, Y.-S.; CHENG, C.-H. Hybrid models based on rough set classifiers for setting creditrating decision rules in the global banking industry. Knowledge-Based Systems, Elsevier, v. 39, p.224–239, 2013. Citado na página 14.
CHERKASSKY, V.; MA, Y. Practical selection of svm parameters and noise estimation for svmregression. Neural networks, Elsevier, v. 17, n. 1, p. 113–126, 2004. Citado na página 26.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p.273–297, 1995. Citado 3 vezes nas páginas 13, 26 e 27.
CRAMÉR, H. A contribution to the theory of statistical estimation. Scandinavian ActuarialJournal, Taylor & Francis, v. 1946, n. 1, p. 85–94, 1946. Citado 2 vezes nas páginas 21 e 40.
Referências 64
DOUMPOS, M.; ZOPOUNIDIS, C. Model combination for credit risk assessment: A stackedgeneralization approach. Annals of Operations Research, Springer, v. 151, n. 1, p. 289–306,2007. Citado na página 14.
DURAND, D. et al. Risk elements in consumer instalment financing. NBER Books, NationalBureau of Economic Research, Inc, 1941. Citado na página 13.
FAWCETT, T. An introduction to roc analysis. Pattern recognition letters, Elsevier, v. 27, n. 8, p.861–874, 2006. Citado na página 31.
FLOREZ-LOPEZ, R.; RAMON-JERONIMO, J. M. Enhancing accuracy and interpretability ofensemble strategies in credit risk assessment. a correlated-adjusted decision forest proposal.Expert Systems with Applications, Elsevier, v. 42, n. 13, p. 5737–5753, 2015. Citado na página14.
FREUND, Y.; SCHAPIRE, R. E. et al. Experiments with a new boosting algorithm. In: BARI,ITALY. Icml. [S.l.], 1996. v. 96, p. 148–156. Citado na página 23.
FRIEDMAN, J.; HASTIE, T.; TIBSHIRANI, R. The elements of statistical learning. [S.l.]:Springer series in statistics New York, 2001. v. 1. Citado na página 25.
FRIEDMAN, J. H. Stochastic gradient boosting. Computational Statistics & Data Analysis,Elsevier, v. 38, n. 4, p. 367–378, 2002. Citado 2 vezes nas páginas 14 e 24.
GROVER, P. Gradient Boosting from scratch. 12017. Disponível em: <https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d>. Citado na página 23.
HAND, D. J.; HENLEY, W. E. Statistical classification methods in consumer credit scoring: areview. Journal of the Royal Statistical Society: Series A (Statistics in Society), Wiley OnlineLibrary, v. 160, n. 3, p. 523–541, 1997. Citado na página 11.
IBGE, I. P. M. d. e. Disponível em:< disponível em:http://www.sidra.ibge.gov.br/bda/pesquisas/pme/default. asp? o= 21&i= p>. Acessoem, v. 10, n. 02, 2016. Citado na página 11.
KHANDANI, A. E.; KIM, A. J.; LO, A. W. Consumer credit-risk models via machine-learningalgorithms. Journal of Banking & Finance, Elsevier, v. 34, n. 11, p. 2767–2787, 2010. Citadona página 14.
KRUPPA, J. et al. Consumer credit risk: Individual probability estimates using machine learning.Expert Systems with Applications, Elsevier, v. 40, n. 13, p. 5125–5131, 2013. Citado na página14.
LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revistade Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007. Citado 2 vezes nas páginas 27e 29.
MACHADO, A. R. Collection scoring via regressão logística e modelo de riscos proporcionaisde cox. 2016. Citado na página 15.
MARTIN, D. Early warning of bank failure: A logit regression approach. Journal of banking &finance, Elsevier, v. 1, n. 3, p. 249–276, 1977. Citado na página 13.
Referências 65
SANTOS, J. O. d. Análise de crédito: empresas e pessoas físicas; abordagem teórico–praticacom foco em: técnicas de julgamento, credit scoring, linhas de crédito, garantias e estratégiaspara diversificação de riscos. São Paulo: Atlas, 2000. Citado na página 16.
SICSÚ, A. L. Credit Scoring: desenvolvimento, implantação, acompanhamento. [S.l.]: Blucher,2010. Citado 7 vezes nas páginas 17, 20, 32, 33, 34, 35 e 36.
SOUZA, R. B. d. O modelo de collection scoring como ferramenta para a gestão estratégica dorisco de crédito. Tese (Doutorado), 2000. Citado na página 15.
TAM, K. Y.; KIANG, M. Y. Managerial applications of neural networks: the case of bank failurepredictions. Management science, INFORMS, v. 38, n. 7, p. 926–947, 1992. Citado na página13.
THOMAS, L.; CROOK, J.; EDELMAN, D. Credit scoring and its applications. [S.l.]: Siam,2017. v. 2. Citado na página 33.
TOLLENAAR, N.; HEIJDEN, P. Van der. Which method predicts recidivism best?: acomparison of statistical, machine learning and data mining predictive models. Journal of theRoyal Statistical Society: Series A (Statistics in Society), Wiley Online Library, v. 176, n. 2, p.565–584, 2013. Citado na página 14.
TWALA, B. Combining classifiers for credit risk prediction. Journal of Systems Science andSystems Engineering, Springer, v. 18, n. 3, p. 292–311, 2009. Citado na página 13.
VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer science & business media,2013. Citado na página 27.
WANG, L. Support vector machines: theory and applications. [S.l.]: Springer Science &Business Media, 2005. v. 177. Citado na página 11.
WEST, M.; HARRISON, P. J.; MIGON, H. S. Dynamic generalized linear models and bayesianforecasting. Journal of the American Statistical Association, Taylor & Francis, v. 80, n. 389, p.73–83, 1985. Citado na página 13.
66
APÊNDICE A – MÉTRICAS
Modelo AmostraMétricas
KS GINI AUROC % Não Recuperação
Regressão Logística
Desenvolvimento 40,4% 53,8% 76,9% 73,0%Teste 41,2% 54,2% 77,1% 73,0%Validação 38,2% 51,5% 75,7% 74,0%Fora do Tempo 40,2% 54,3% 77,1% 73,0%201512 36,2% 47,9% 74,0% 74,0%201601 40,8% 52,6% 76,3% 74,0%201602 39,3% 52,4% 76,2% 73,0%201603 41,2% 53,9% 77,0% 74,0%201604 41,5% 55,1% 77,6% 74,0%201605 40,8% 54,8% 77,4% 74,0%201606 41,9% 55,4% 77,7% 72,0%201607 43,2% 57,0% 78,5% 72,0%201608 41,6% 55,6% 77,8% 72,0%201609 41,5% 55,1% 77,5% 73,0%201610 38,7% 51,8% 75,9% 73,0%201611 38,0% 51,2% 75,6% 75,0%
Modelo AmostraMétricas
KS GINI AUROC % Não Recuperação
Gradient Boosting
Desenvolvimento 43,0% 58,2% 79,1% 73,0%Teste 42,3% 56,9% 78,4% 73,0%Validação 40,7% 54,1% 77,0% 74,0%Fora do Tempo 42,7% 57,2% 78,6% 73,0%201512 38,6% 52,9% 76,4% 74,0%201601 42,6% 56,7% 78,4% 74,0%201602 41,2% 56,2% 78,1% 73,0%201603 42,4% 56,6% 78,3% 74,0%201604 43,8% 58,8% 79,4% 74,0%201605 43,8% 58,7% 79,4% 74,0%201606 44,3% 58,9% 79,4% 72,0%201607 45,3% 60,4% 80,2% 72,0%201608 44,3% 59,7% 79,8% 72,0%201609 44,4% 58,7% 79,3% 73,0%201610 40,9% 54,0% 77,0% 73,0%201611 40,8% 54,1% 77,0% 75,0%
APÊNDICE A. Métricas 67
Modelo AmostraMétricas
KS GINI AUROC % Não Recuperação
Random Forest
Desenvolvimento 40,7% 54,0% 77,0% 73,0%Teste 40,0% 53,2% 76,6% 73,0%Validação 38,8% 50,7% 75,3% 74,0%Fora do Tempo 39,1% 52,4% 76,2% 73,0%201512 35,9% 48,2% 74,1% 74,0%201601 39,7% 52,5% 76,3% 74,0%201602 38,2% 50,9% 75,5% 73,0%201603 40,2% 52,3% 76,2% 74,0%201604 40,5% 53,6% 76,8% 74,0%201605 40,1% 53,7% 76,9% 74,0%201606 42,4% 55,3% 77,6% 72,0%201607 42,1% 56,2% 78,1% 72,0%201608 42,0% 56,6% 78,3% 72,0%201609 43,3% 56,0% 78,0% 73,0%201610 38,9% 50,8% 75,4% 73,0%201611 39,3% 50,6% 75,3% 75,0%
Modelo AmostraMétricas
KS GINI AUROC % Não Recuperação
Support Vector Machine
Desenvolvimento 41,7% 54,4% 77,2% 73,0%Teste 41,8% 54,9% 77,5% 73,0%Validação 40,5% 53,1% 76,5% 74,0%Fora do Tempo 41,3% 54,2% 77,1% 73,0%201512 38,0% 48,1% 74,1% 74,0%201601 41,7% 52,7% 76,4% 74,0%201602 39,7% 52,3% 76,2% 73,0%201603 42,2% 54,6% 77,3% 74,0%201604 41,8% 55,4% 77,7% 74,0%201605 42,1% 55,6% 77,8% 74,0%201606 43,2% 55,0% 77,5% 72,0%201607 44,1% 57,8% 78,9% 72,0%201608 43,4% 57,3% 78,7% 72,0%201609 42,5% 55,7% 77,9% 73,0%201610 40,3% 52,8% 76,4% 73,0%201611 40,8% 53,3% 76,7% 75,0%
68
APÊNDICE B – MODELOS DESENVOLVIDOS
Gradient Boosting MachineVariável Tipo Qtd. Regras Importância - Desenvolvimento Importância - Validação
VCoNivelRestr Restrição Financeira 23 1 1UF Cadastral 111 0,6620319896 0,7566959761VPerMaxRestrAti Restrição Financeira 61 0,3901961422 0,3270319677C_VTxPgtoRestr Restrição Regularizada 18 0,3825062183 0,3146884867VTxPgtoRestrOrigSFN Restrição Regularizada 48 0,3497093479 0,2771134041VTxPgtoRestrInc2A Restrição Regularizada 30 0,3359811102 0,3034459918VQtVezesSemRestr Restrição Financeira 22 0,3209598489 0,2852130673VTpUltRestrSemTELECOMInc Restrição Financeira 59 0,3135695095 0,3075276459VQtRestrSemTELECOMInc180dRes Restrição Financeira 5 0,3080828955 0,3474446958VTpPri_ConsCRDSTS_5a Registro de Passagem 46 0,2948544117 0,1551011773VQtRestrInc180dRes Restrição Regularizada 3 0,2864022406 0,2827782266VTpPri_ConsSTS_5a Registro de Passagem 54 0,2706986406 0,117987926VTxPgtoRestrInc1A Restrição Financeira 22 0,2703605346 0,2544255721VTpMed_ConsSTS_720d Registro de Passagem 50 0,2568869966 0,1150322327VPerTotSemRestr2 Restrição Financeira 44 0,2531409552 0,169017222C_VCoNivelRestr Restrição Financeira 5 0,2493762739 0,2553333563VQtRestrOrigOUTAti Restrição Financeira 21 0,2451510457 0,1106142229VPerQtMaxRestrAti Restrição Financeira 38 0,2217005423 0,157513264VQtRestrResU6m030DPI Restrição Regularizada 6 0,2184305122 0,1896420621VQtRestrInc1ARes Restrição Regularizada 7 0,1955281378 0,1879485323
APÊNDICE B. Modelos desenvolvidos 69
Random ForestVariável Tipo Qtd. Regras Gini - Desenvolvimento Gini - Validação
VCoNivelRestr Restrição Financeira 112 0,010992 0,00707C_VPerMaxRestrAti Restrição Financeira 85 0,00903 0,00637C_VTxPgtoSerasaInc180d Restrição Financeira 79 0,005392 0,00349C_VQtRestrInc180dRes Restrição Regularizada 66 0,005537 0,00346C_VQtRestrSemTELECOMInc180dRes Restrição Regularizada 66 0,004227 0,00322VTxPgtoRestr Restrição Regularizada 291 0,004678 0,0032UF Cadastral 149 0,005178 0,00299C_VQtRestrSemTELECOMInc90dRes Restrição Financeira 83 0,004208 0,00296VTxPgtoRestrInc2A Restrição Financeira 246 0,003469 0,00268C_VTxPgtoRestrInc3A Restrição Regularizada 127 0,003379 0,00233VTxPgtoRestrInc3A Restrição Financeira 240 0,002604 0,00181VPerQtMaxRestrAti Restrição Financeira 162 0,002964 0,00177C_VTxPgtoRestr Restrição Regularizada 144 0,002264 0,00157C_VTpUltRestrSemTELECOMInc Restrição Financeira 102 0,001713 0,00144VQtRestrAti Restrição Regularizada 117 0,000908 0,00119VTpUltRestrSemTELECOMInc Restrição Financeira 310 0,002319 0,00108C_VQtRestrAtiAtraso180d Restrição Financeira 62 0,001462 0,00101VQtRestrAtiAtraso90d Restrição Financeira 96 0,001567 0,00092C_VPerMaxSerasaAti Restrição Financeira 59 0,00145 0,00091VQtCredoresAti Restrição Financeira 114 0,000956 0,00079C_VQtRestrAtiAtraso60d Restrição Financeira 112 0,00151 0,00078VTxPgtoSerasaInc2A Restrição Financeira 199 0,001231 0,00077C_VQtRestrSemTELECOMInc60d Restrição Financeira 73 0,001116 0,00064C_VTxPgtoSerasa Restrição Regularizada 102 0,001086 0,00058VQtRestrSemTELECOMInc1ARes Restrição Regularizada 105 0,0006 0,00039C_VPerTotComRestr2 Restrição Financeira 112 0,00069 0,00037VQtRestrResU6m030DPI Restrição Regularizada 109 0,000714 0,00035C_VTxPgtoRestrOrigSFNInc2A Restrição Regularizada 153 0,000845 0,00033C_VTxPgtoRestrInc1A Restrição Regularizada 68 0,000536 0,00023VQtRestrInc180dRes Restrição Financeira 61 0,000353 0,0002VQtRestrSemTELECOMInc30d Restrição Financeira 42 0,000135 0,00017VQtRestrSemTELECOMInc3ARes Restrição Regularizada 110 0,000578 0,00014VQtRestrInc90dRes Restrição Regularizada 40 0,000193 0,00011VTpUltRestrInc Restrição Financeira 167 0,000748 0,00009VTxPgtoRestrInc180d Restrição Financeira 246 0,004215 0,00004VQtRestrSemTELECOMRes60d Restrição Regularizada 53 0,000126 -0,00001VTxPgtoSerasaInc180d Restrição Financeira 207 0,002624 -0,00048VPerMaxSerasaAti Restrição Financeira 586 0,006214 -0,0006VPerMaxRestrAti Restrição Financeira 448 0,00443 -0,00101
APÊNDICE B. Modelos desenvolvidos 70
Regressão LogísticaVariável Tipo Categoria Estimado Erro Padrão Wald P-ValorIntercept Intercepto -0,4416 0,0667 43,792 <0001
VCoNivelRestr Restrição Financeira
3 0,7228 0,0466 2,408,188 <00015 0,3757 0,0344 1,195,588 <0001Ref 011 -0,3987 0,0308 1,671,115 <0001
VQtRestrSemTELECOMInc180dRes Restrição Regularizada99 03 0,1055 0,0294 128,477 0,00035 0,653 0,0451 2,097,699 <0001
UF Cadastral
1 0,3654 0,0441 68,571 <00012 0,1945 0,0532 133,477 0,00033 0,0995 0,0397 6,275 0,0122Ref 06 -0,6251 0,0396 2,489,912 <0001
VQtVezesSemRestr Restrição Financeira
99 05 0,0728 0,0261 77,782 0,00538 0,2497 0,0325 590,032 <000110 0,3621 0,0426 721,909 <0001
VTpPri_ConsSTS_5a Registro de Passagem
2 -0,3007 0,0362 689,259 <0001Ref 06 0,1965 0,0247 631,751 <00017 0,266 0,029 843,385 <0001
VTpUltRestrSemTELECOMInc Restrição Financeira
2 0,555 0,0478 1,348,469 <00013 0,243 0,0404 361,617 <0001Ref 06 -0,2694 0,0362 553,342 <00019 -0,4906 0,0404 1,474,113 <0001
VNuAnos_ConsSEG_5a Registro de Passagem
2 -0,2399 0,0335 51,301 <0001Ref 04 0,167 0,0461 131,391 0,00035 0,306 0,0487 395,193 <0001
VQtRestrOrigOUTAti Restrição Financeira3 -0,4583 0,028 2,683,586 <0001Ref 0
VQtRestrOrigTELResU6m Restrição RegularizadaRef 03 0,1792 0,0414 186,949 <00014 0,1914 0,0451 180,203 <0001
VTpMed_ConsSTS_720d Registro de Passagem2 -0,291 0,0462 395,969 <0001Ref 05 0,0808 0,0208 150,471 0,0001
VTpUlt_ConsFIN_5a Registro de PassagemRef 02 -0,1614 0,0427 143,075 0,00023 -0,195 0,0209 869,134 <0001
VTxPgtoRestr Restrição Regularizada
2 -0,64 0,0377 2,885,121 <00013 -0,3537 0,0374 892,181 <0001Ref 07 0,3802 0,0289 172,843 <000110 0,5831 0,04 2,129,543 <0001
VQtRestrResAtraso365d Restrição Regularizada4 -0,3598 0,0231 2,417,107 <0001Ref 0
IDADE Cadastral2 -0,1668 0,0346 232,889 <0001Ref 07 0,0894 0,0202 195,712 <0001
VQtRestrOrigBCO Registro de PassagemRef 03 -0,1859 0,0235 628,113 <00016 -0,2541 0,0285 79,725 <0001
VQt_ConsBCO_90d Registro de Passagem3 0,1481 0,0293 256,395 <0001Ref 0
APÊNDICE B. Modelos desenvolvidos 71
Support Vector Machine
Variável Tipo Categoria Estimado
Constante 0,0807576986
VCoNivelRestr Restrição Financeira
3 0,91809859215 -0,2773544219 -0,097265971
11 -0,29767322999 -0,245804972
VQtRestrSemTELECOMInc180dRes Restrição Financeira
3 -0,1852142064 -0,0643290595 0,4264664619
99 -0,176923197
UF Cadastral
AC -0,014695908AL 0,041647543AM -0,034397332AP 0,0551235851BA -0,049815366CE 0,1712166538DF 0,0448789814ES 0,1514772424GO 0,0256996394MA 0,016860873MG 0,0482904731MS 0,0681241599MT 0,0652481774PA -0,01024986PB 0,0551212118PE -0,175792989PI 0,1386785031PR 0,0146864363RJ 0,0357614008RN -0,152361075RO 0,0070940462RR -0,057950688RS 0,0952848691SC 0,0542130379SE 0,0718102635SP -0,528539252TO 0,0839667527
APÊNDICE B. Modelos desenvolvidos 72
VQtVezesSemRestr Restrição Financeira
2 -0,0560907263 -0,0975172345 -0,0432337468 0,0640004153
10 0,201094648999 -0,068253359
VNuAnos_ConsSEG_5a Registro de Passagem
2 -0,133757014 0,03115695885 0,1557281105
99 -0,05312806
VQtRestrAtiAtraso60d Restrição Financeira2 0,40330641275 -0,243210968
99 -0,160095445
VTxPgtoRestrOrigSFN Restrição Regularizada
2 -0,1263793333 -0,0429884726 0,06624586647 0,0578498786
99 0,0452720603
VTpPri_ConsSTS_5a Registro de Passagem
2 -0,1011635046 0,0484439857 0,07514460638 -0,02873416
99 0,0063090727
VQtRestrSemTELECOMInc90dRes Restrição Financeira3 -0,0422895694 0,2652327427
99 -0,222943174
VPerTotComRestr2 Restrição Financeira
-1 -0,0560907262 0,0994235813 0,0164506513
99 -0,059783507
VQtRestrOrigOUTAti Restrição Financeira3 -0,064012763
99 0,0640127631
VQtCredoresAti Restrição Financeira2 -0,2221372824 0,0422486449
99 0,1798886372
VQtPdRec_ConsSTS_P10dU30d Registro de Passagem2 -0,072569699
99 0,0725696987
APÊNDICE B. Modelos desenvolvidos 73
VQtRestrAtiAtraso365d Restrição Financeira3 -0,077235544
99 0,0772355444
VQtRestrOrigTELResU6m Restrição Financeira3 0,03788508294 0,0485073871
99 -0,08639247
VTpUltRestrSemTELECOMInc Restrição Financeira
2 0,28748011553 0,05250113716 -0,1143758889 -0,09120614
99 -0,134399224
VTxPgtoRestrInc1A Restrição Regularizada2 -0,0881822085 0,0887623757
99 -0,000580168
VPerTotSemRestr2 Restrição Regularizada
-1 -0,0560907265 -0,013790796 0,02612748687 0,09148348638 -0,036019715
99 -0,011709743
VTpMed_ConsSTS_720d Registro de Passagem2 -0,0728826385 0,0529127892
99 0,0199698487
VTpUlt_ConsFIN_5a Registro de Passagem
-2 0,0002262684-1 0,05958551922 -0,0458010563 -0,0503682654 -0,0083804665 0,03367209316 0,0110659054
VTpPri_ConsCTC_5a Registro de Passagem
-2 0,0002262684-1 0,01285797022 -0,0528819363 -0,0397898724 -0,0124640896 0,04007532517 0,0519763332
VQtRestrRes030d Restrição Regularizada3 0,0557779192
99 -0,055777919
APÊNDICE B. Modelos desenvolvidos 74
VQt_ConsCHQSTS_5a Registro de Passagem3 -0,032955544 0,09554028975 -0,062584749
VTpUltRestrInc Restrição Financeira2 -0,105403739
99 0,1054037387
VQtRestrAtiAtraso720d Restrição Financeira3 -0,043724532
99 0,0437245323
VQtSerasaInc1ARes Restrição Regularizada
2 0,00806618674 -0,0868280987 0,1424434613
99 -0,06368155
VQtRestrResAtraso365d Restrição Regularizada4 -0,016201488
99 0,0162014877
VPerMaxRestrAti Restrição Regularizada
2 0,18657936534 0,05134760058 -0,152742005
99 -0,085184961
VQtRestrResNaoDispU60d Restrição Regularizada3 0,0774177162
99 -0,077417716