Acessibilidade / Reportar erro

Regressão Logística Geograficamente Ponderada Aplicada a Modelos de Credit Scoring* * *Trabalho apresentado no XL Encontro da ANPAD, Costa do Sauípe, BA, Brasil, setembro de 2016.

Resumo

Este estudo utilizou dados reais de uma instituição financeira nacional referentes a operações de Crédito Direto ao Consumidor (CDC), concedidas a clientes domiciliados no Distrito Federal (DF), para a construção de modelos de credit scoring utilizando as técnicas Regressão Logística e Regressão Logística Geograficamente Ponderada [Geographically Weighted Logistic Regression] (GWLR). Os objetivos foram: verificar se os fatores que influenciam o risco de crédito diferem de acordo com a localização geográfica do tomador; comparar o conjunto de modelos estimados via GWLR frente ao modelo global estimado via Regressão Logística, em termos de capacidade de previsão e perdas financeiras para a instituição; e verificar a viabilidade da utilização da técnica GWLR para desenvolver modelos de credit scoring. As métricas utilizadas para comparar os modelos desenvolvidos por meio das duas técnicas foram o critério informacional AICc, a acurácia dos modelos, o percentual de falsos positivos, a soma do valor da dívida dos falsos positivos e o valor monetário esperado de inadimplência da carteira frente ao valor monetário de inadimplência observado. Os modelos estimados para cada região do DF se mostraram distintos em suas variáveis e coeficientes (parâmetros), concluindo-se que o risco de crédito foi influenciado de maneira distinta em cada região do estudo. As metodologias Regressão Logística e GWLR apresentaram resultados bem próximos, em termos de capacidade de previsão e perdas financeiras para a instituição, e o estudo demonstrou a viabilidade da utilização da técnica GWLR para desenvolver modelos de credit scoring para o público-alvo do estudo.

Palavras-chave:
risco de crédito; regressão logística geograficamente ponderada; credit scoring

Abstract

This study used real data from a Brazilian financial institution on transactions involving Consumer Direct Credit (CDC), granted to clients residing in the Distrito Federal (DF), to construct credit scoring models via Logistic Regression and Geographically Weighted Logistic Regression (GWLR) techniques. The aims were: to verify whether the factors that influence credit risk differ according to the borrower’s geographic location; to compare the set of models estimated via GWLR with the global model estimated via Logistic Regression, in terms of predictive power and financial losses for the institution; and to verify the viability of using the GWLR technique to develop credit scoring models. The metrics used to compare the models developed via the two techniques were the AICc informational criterion, the accuracy of the models, the percentage of false positives, the sum of the value of false positive debt, and the expected monetary value of portfolio default compared with the monetary value of defaults observed. The models estimated for each region in the DF were distinct in their variables and coefficients (parameters), with it being concluded that credit risk was influenced differently in each region in the study. The Logistic Regression and GWLR methodologies presented very close results, in terms of predictive power and financial losses for the institution, and the study demonstrated viability in using the GWLR technique to develop credit scoring models for the target population in the study.

Keywords:
credit risk; geographically weighted logistic regression; credit scoring

1. INTRODUÇÃO

A principal atividade dos bancos comerciais é a intermediação financeira, que consiste em captar recursos financeiros e emprestá-los a terceiros em condições preestabelecidas, tais como prazo de pagamento, valor de prestação e taxa de juros (Hand & Henley, 1997Hand, D. J.; Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), 160(3), 523-541.). Por envolver expectativa futura de recebimento, todo crédito concedido está exposto a riscos.

O tema “gerenciamento de riscos” ganhou destaque no setor financeiro após a divulgação dos acordos de Basileia, conjunto de documentos que embasam a regulação e fiscalização do setor. Os avanços tecnológicos e computacionais, aliados ao desenvolvimento de métodos quantitativos, contribuíram para a criação de diversas ferramentas para mensuração de riscos, trazendo ganhos significativos para a gestão financeira das instituições.

O risco de crédito pode ser definido como a possibilidade de ocorrência de perdas financeiras associadas ao não cumprimento pelo tomador ou contraparte de suas respectivas obrigações nos termos pactuados, à desvalorização de contrato de crédito decorrente da deterioração na classificação de risco do tomador, à redução de ganhos ou remunerações, às vantagens concedidas na renegociação e aos custos de recuperação (Banco Central do Brasil [BACEN], 2009Banco Central do Brasil (2009). Resolução CMN nº 3.721, de 30/04/2009. Retrieved from http://www.bcb.gov.br
http://www.bcb.gov.br...
), e é um dos principais riscos ao qual uma instituição financeira está exposta.

Os modelos utilizados para mensurar o risco no momento da concessão de crédito são denominados modelos de credit scoring. Por envolverem menor custo e dar maior agilidade, objetividade e poder preditivo na decisão da concessão de crédito, os modelos de credit scoring se popularizaram e são amplamente utilizados pelo setor financeiro (Hand & Henley, 1997Hand, D. J.; Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), 160(3), 523-541.).

Lessmann, Baesens, Seow e Thomas (2015Lessmann, S.; Baesens, B.; Seow, H. V.; Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1), 124-136.) realizaram uma abrangente pesquisa sobre as metodologias de classificação utilizadas para o desenvolvimento de modelos de credit scoring e apontaram a regressão logística como a metodologia padrão do setor financeiro.

A regressão logística é uma técnica de análise multivariada que busca explicar a relação entre uma variável aleatória binária dependente e um conjunto de variáveis preditoras independentes (Hosmer & Lemeshow, 2000Hosmer, D. W.; Lemeshow, S. (2000). Applied logistic regression. Hoboken, NJ: John Wiley & Sons.).

Uma instituição financeira possui diversos modelos de credit scoring que são aplicados na avaliação de diferentes tipos de clientes ou operações de crédito a serem contratadas. As variáveis preditoras que compõem cada modelo podem ser distintas, visando a melhorar a predição do seu público-alvo.

A localização geográfica (espaço) e sua relação com o risco de crédito é tema de alguns estudos publicados. Dentre os mais recentes, Stine (2011Stine, R. (2011). Spatial temporal models for retail credit. In Proceedings of the Credit Scoring and Credit Control Conference, Edinburgh, UK.) analisa a evolução da inadimplência do crédito imobiliário em condados dos Estados Unidos entre 1993 e 2010, contemplando um período pré-crise e um pós-crise do subprime, tendo encontrado evidências da existência de correlação espacial entre as taxas de inadimplência daqueles condados.

Fernandes e Artes (2015Fernandes, G. B.; Artes, R. (2016). Spatial dependence in credit risk and its improvement in credit scoring. European Journal of Operational Research, 249(2), 517-524.) usaram a metodologia Ordinary Kriging para criar uma variável que reflete o risco espacial e aplicaram a técnica de Regressão Logística para verificar a existência de correlação espacial na inadimplência de pequenas e médias empresas (PME) tomadoras de crédito, utilizando dados do bureau de crédito SERASA. Os autores desenvolveram modelos com e sem a variável de risco espacial e confirmaram que a inclusão dessa variável melhora o desempenho dos modelos de credit scoring.

A técnica de Regressão Geograficamente Ponderada, em inglês Geographically Weighted Regression (GWR), proposta por Brunsdon, Fotheringham e Charlton (1996Brunsdon, C.; Fotheringham, A. S.; Charlton, M. E. (1996). Geographically weighted regression: a method for exploring spatial nonstationarity. Geographical Analysis, 28(4), 281-298.), é utilizada para modelar processos heterogêneos (não estacionários) espacialmente, isto é, processos que variam (seja na média, mediana, variância etc.) de região para região. A ideia básica da GWR é ajustar um modelo de regressão para cada região do conjunto de dados utilizando a localização geográfica das demais observações para ponderar as estimativas dos parâmetros. A aplicação da técnica GWR pode ser observada em diferentes áreas de pesquisa, tais como Geografia (See et al., 2015See, L.; Schepaschenko, D.; Lesiv, M.; McCallum, I.; Fritz, S.; Comber, A.; Obersteiner, M. (2015). Building a hybrid land cover map with crowdsourcing and geographically weighted regression. ISPRS Journal of Photogrammetry and Remote Sensing, 103, 48-56.), Saúde (Gilbert & Chakraborty, 2011Gilbert, A.; Chakraborty, J. (2011). Using geographically weighted regression for environmental justice analysis: Cumulative cancer risks from air toxics in Florida. Social Science Research, 40(1), 273-286.) e Economia (Huang & Leung, 2002Huang, Y.; Leung, Y. (2002). Analysing regional industrialisation in Jiangsu province using geographically weighted regression. Journal of Geographical Systems, 4(2), 233-249.).

Atkinson, German, Sear e Clark (2003Atkinson, P. M.; German, S. E.; Sear, D. A.; Clark, M. J. (2003). Exploring the relations between riverbank erosion and geomorphological controls using geographically weighted logistic regression. Geographical Analysis, 35(1), 58-82.) utilizam em seu estudo a Regressão Logística Geograficamente Ponderada, ou Geographically Weighted Logistic Regression (GWLR), para analisar a dependência da localização geográfica na relação entre erosão e controles geomorfológicos de uma região do País de Gales. A variável binária utilizada nesse estudo foi a presença ou ausência de erosão nas áreas estudadas. A aplicação da técnica GWLR resultou na estimação de modelos com diferentes parâmetros (modelos distintos) para cada área estudada, revelando a necessidade de adoção de diferentes práticas para se evitar a erosão, a depender da região.

Este artigo utilizou dados referentes à operação de Crédito Direto ao Consumidor (CDC), concedidos por uma instituição financeira nacional a clientes domiciliados no Distrito Federal (DF), com os seguintes objetivos: verificar se os fatores que influenciam o risco de crédito diferem de acordo com a localização geográfica do tomador; comparar o conjunto de modelos estimados via GWLR frente ao modelo global estimado via Regressão Logística, em termos de capacidade de previsão e perdas financeiras para a instituição; e verificar a viabilidade da utilização da técnica GWLR para desenvolver modelos de credit scoring.

Embora a ideia central deste artigo, de verificar se existe influência do espaço no risco de crédito, seja semelhante à de Stine (2011Stine, R. (2011). Spatial temporal models for retail credit. In Proceedings of the Credit Scoring and Credit Control Conference, Edinburgh, UK.) e Fernandes e Artes (2015)Fernandes, G. B.; Artes, R. (2016). Spatial dependence in credit risk and its improvement in credit scoring. European Journal of Operational Research, 249(2), 517-524., o público-alvo e a metodologia empregada são distintos, não tendo sido encontrado na literatura estudo que utilize a técnica GWLR na construção de modelos de credit scoring.

Uma vantagem da aplicação da técnica GWLR em relação a outras é a estimação de um modelo para cada região do estudo, possibilitando que esses modelos sejam distintos em suas variáveis e parâmetros (Atkinson et al., 2003Atkinson, P. M.; German, S. E.; Sear, D. A.; Clark, M. J. (2003). Exploring the relations between riverbank erosion and geomorphological controls using geographically weighted logistic regression. Geographical Analysis, 35(1), 58-82.), enquanto um modelo global, representado apenas por uma fórmula, pode não representar as variações locais de forma adequada. Em relação a crédito, diferentes regiões de estudo podem possuir riscos distintos e, caso esse fenômeno seja observado, modelos que levem em consideração as particularidades locais podem melhor discriminar o risco de crédito dos tomadores ali domiciliados e gerar ganhos financeiros para a instituição.

Mais uma diferença de outros estudos dessa temática e uma vantagem da técnica GWLR é a utilização de amostras distintas no desenvolvimento de cada modelo local, dando um peso maior aos tomadores mais próximos geograficamente, e não utilizando informações distantes que estejam fora do raio delimitado pela função de ponderação.

Questões sobre endogeneidade não são abordadas neste estudo e podem ser levantadas por pesquisadores em trabalhos futuros.

Além desta introdução, a segunda seção do artigo apresenta a metodologia de regressão logística geograficamente ponderada e o processo de desenvolvimento dos modelos, a terceira mostra os resultados obtidos e a quarta expõe a conclusão.

2. METODOLOGIA

O fluxograma apresentado na Figura 1 detalha todas as etapas realizadas no processo de desenvolvimento dos modelos deste estudo.

Figura 1:
Fluxograma das etapas de desenvolvimento dos modelos

2.1. Base de Dados

Os dados deste estudo referem-se a operações de Crédito Direto ao Consumidor (CDC) concedidas por uma instituição financeira nacional a clientes domiciliados no Distrito Federal (DF). O pagamento dessas operações ocorre de forma parcelada, com prazos de 0 a 36 meses e valor máximo de contratação de R$30.000,00.

A divisão territorial do DF utilizada no estudo foi composta por 19 regiões, expostas na Figura 2.

Figura 2:
Divisão territorial do Distrito Federal utilizada no estudo.

Foram definidos como amostra todos os contratos concedidos entre os meses de dezembro de 2013 e setembro de 2014, totalizando 10 safras de contratação e um total de 22.132 contratos distintos. O desempenho de pagamento desses contratos foi acompanhado nos doze meses subsequentes à data de contratação e foram marcados como inadimplentes (Y=1) aqueles que ultrapassaram 90 dias em atraso em qualquer um desses meses. Por possuir o desempenho de atraso dos contratos em diferentes momentos de tempo, essa base de dados é classificada como do tipo painel (panel data).

As variáveis preditoras selecionadas para compor os modelos foram: Idade, Renda, Grau de Instrução, Tempo de Relacionamento do Tomador de Crédito com a Instituição, Prazo Contratado, SELIC, Taxa de Desemprego e Inflação (IPCA). Essas variáveis referem-se ao momento da contratação do crédito (um único ponto no tempo), caracterizando-se como dados do tipo cross-section.

As coordenadas geográficas latitude e longitude, referentes às regiões utilizadas no estudo e necessárias para aplicação da técnica GWLR, foram obtidas no site do IBGE e referem-se ao ponto central de cada região, sendo iguais para os tomadores residentes na mesma região.

A base de dados foi subdividida em amostras de desenvolvimento e validação do modelo de acordo com a data de contratação da operação, sendo a amostra de desenvolvimento composta pelas cinco safras iniciais (dezembro de 2013 a abril de 2014), totalizando 10.944 registros. A base de validação é composta pelas cinco safras finais (maio a setembro de 2014), que totalizaram 11.188 registros.

A manipulação dos dados, bem como o cálculo das análises univariadas, bivariadas, indicadores espaciais e o desenvolvimento do modelo global via regressão logística foram realizados por meio do software SAS. Os modelos via GWLR foram desenvolvidos através do software GWR4.

2.2. Indicadores Espaciais

O I de Moran (Moran 1950Moran, P. A. (1950). Notes on continuous stochastic phenomena. Biometrika, 37(1/2), 17-23.) é um dos indicadores globais mais utilizados para verificar a existência de correlação espacial. Os indicadores globais apresentam uma única medida de tendência espacial para toda a região em estudo, permitem testar a hipótese de existência de dependência espacial entre as regiões de acordo com a variável de interesse e são utilizados na análise exploratória dos dados. Sua fórmula é dada por:

onde n é o número de regiões em estudo, xi e xj são os valores da variável de interesse nas regiões i e j, e wij são os elementos da matriz de proximidade espacial, que pode ser calculada de diferentes maneiras, como, por exemplo, através da presença ou ausência de fronteira entre as regiões ou pela distância euclidiana entre elas. O índice de Moran está restrito ao intervalo [-1,1], no qual valores próximos a -1 indicam correlação espacial negativa, valores próximos a 1 indicam correlação espacial positiva e valor igual a 0 indica ausência de correlação espacial ou independência espacial com relação à variável testada.

Enquanto os indicadores globais pressupõem que todas as regiões em estudo podem ser representadas por um único valor, os indicadores locais (do inglês Local Indicator of Spatial Association - LISA) desenvolvidos por Anselin (1995Anselin, L. (1995). Local indicators of spatial association - LISA. Geographical Analysis, 27(2), 93-115.) são utilizados para verificar a existência de correlação espacial dentro das unidades geográficas em estudo e buscam as diferenças (peculiaridades) regionais. A presença de áreas com índices locais significativos é um indício de heterogeneidade (não estacionariedade) espacial.

A fórmula do Índice Local de Moran é dada por:

A base de dados utilizada na aplicação dos Índices de Moran Global e Local foi a base total de registros (sem subdivisão de amostras) e a variável testada foi a taxa de inadimplência regional, calculada através da seguinte fórmula:

Neste estudo o Índice Global de Moran foi utilizado para verificar a existência de correlação espacial da taxa de inadimplência entre as regiões do DF. O Índice Local de Moran foi utilizado para verificar a existência de regiões distintas quanto à taxa de inadimplência em relação às demais regiões. A existência de regiões significativas (o nível de confiança utilizado para o Índice Local de Moran foi de 95%) pode indicar que os modelos de regressão desenvolvidos para essas regiões sejam distintos em relação aos modelos das demais regiões do estudo, o que pode justificar a aplicação da GWLR para esse público-alvo.

2.3. Regressão Geograficamente Ponderada

De acordo com Fotheringham, Brunsdon e Charlton (2002Fotheringham, A. S.; Brunsdon, C.; Charlton, M. (2002). Geographically weighted regression: the analysis of spatially varying relationships. Chichester: John Wiley & Sons.), dado um modelo de regressão linear básico, a expressão equivalente para a GWR é dada por:

Nota-se pela expressão acima que os parâmetros do modelo, representados pela função βk (ui , vi ) variam de acordo com os valores de (ui , vi ), que representam as coordenadas geográficas latitude e longitude da observação (região) i, resultando em um modelo distinto para cada região do estudo. Os pressupostos do modelo clássico de regressão linear permanecem para a GWR.

A forma matricial para estimação dos parâmetros da GWR é dada por:

onde

W(ui , vi ) é uma matriz diagonal e distinta para cada ponto i de coordenadas (ui , vi ), contendo em sua diagonal principal os pesos wij obtidos por meio das funções de ponderação, ou, em inglês, kernel. A substituição de todos os pesos wij pelo valor 1 equivale à matriz identidade, que, substituída em (5), a faz retornar ao modelo clássico de regressão linear.

As duas principais funções de ponderação encontradas na literatura são a função Gaussiana (Normal ou, em inglês, Gaussian) e a função Biquadrática (em inglês Bisquare). As fórmulas de ambas as funções estão apresentadas na Tabela 1.

Tabela 1:
Funções de Ponderação ou kernels.

Nota-se, pela Tabela 1, que existem dois tipos de expressões para cada uma das funções Gaussiana e Biquadrática, que se diferenciam por meio da escolha do parâmetro b (bandwidth) a ser utilizado (se fixo ou variável). O parâmetro dij contido nas funções de ponderação representa a distância do ponto i ao ponto j, o parâmetro b é o bandwidth (parâmetro de suavização) fixo e o parâmetro bi ( k ) representa o bandwidth variável, sendo que a letra k representa o número de vizinhos mais próximos do ponto i.

O parâmetro bandwidth controla a variância da função de ponderação; por esse motivo, em situações onde os dados não são igualmente distribuídos entre as regiões, é recomendada a utilização do bandwidth variável. A Figura 3 ilustra o bandwidth em uma função de ponderação e as Figuras 4 e 5 exemplificam o uso do bandwidth fixo ou variável.

Figura 3:
Bandwidth ou Parâmetro de Suavização.

Figura 4:
Funções de ponderação espacial com Bandwidth fixo.

Figura 5:
Funções de ponderação espacial com Bandwidth variável.

No desenvolvimento de um modelo via GWR utilizando o bandwidth fixo, ele deve ser especificado por seu valor em unidade de distância; no entanto, na utilização do bandwidth variável, deve-se definir um número k (fixo) de vizinhos mais próximos a ser utilizado nos modelos e, com base nessa quantidade k, o valor do bandwidth varia entre as regiões do estudo.

2.4. Regressão Logística Geograficamente Ponderada

Quando a variável resposta de interesse é binária, a aplicação da GWR deve ser realizada por meio da Regressão Logística Geograficamente Ponderada ou Geographically Weighted Logistic Regression (GWLR), cuja fórmula para obtenção da probabilidade de ocorrência do evento de interesse é dada por:

ou, ainda, na forma:

onde π(xj ) é a probabilidade do j-ésimo cliente se tornar inadimplente e a função βk (ui , vi ) representa os parâmetros (coeficientes) das k variáveis do modelo, que variam de acordo com a região i de coordenadas latitude e longitude (ui , vi ).

A estimação dos parâmetros da GWLR é realizada via método da máxima verossimilhança, sendo a função de verossimilhança da GWLR representada pela seguinte expressão:

Aplicando a transformação logaritmo natural (ln) e desenvolvendo a fórmula, obtém-se:

A matriz W(ui , vi ) descrita em (6) possui em seus elementos os pesos wij (calculados através das funções de ponderação expostas na Tabela 1) e é utilizada para ponderar geograficamente as observações na estimação de cada conjunto de parâmetros βk (ui, vi ), ou seja, essa matriz é responsável por atribuir um peso maior para as observações mais próximas geograficamente da região i na estimação dos seus parâmetros e atribuir um peso menor ou zero (a depender da função de ponderação escolhida) para as observações mais distantes da região i em questão na estimação dos seus parâmetros βk (ui, vi ).A matriz W(ui , vi ) também varia de acordo com a localidade de cada tomador de crédito e compõe a função de verossimilhança da seguinte maneira:

Similar ao modelo de regressão logística, após diferenciar (11) em função de β(ui, vi ) e igualar a zero, os parâmetros do modelo são estimados utilizando-se métodos numéricos iterativos, como, por exemplo, o método dos mínimos quadrados reponderados iterativos (MQRI). Cabe ressaltar que esse procedimento de maximização é realizado para cada uma das funções referentes a cada região i do estudo.

Inicialmente foram desenvolvidos quatro modelos distintos utilizando cada uma das funções de ponderação apresentadas na Tabela 1. O melhor modelo com base no AICc foi selecionado para comparação com o modelo global e para comparar os modelos locais (os modelos gerados para cada região do DF) entre si em termos de significância das variáveis que compuseram a fórmula final e estimativas dos coeficientes das variáveis.

2.5. Comparação Entre os Modelos

As métricas utilizadas para comparação entre os modelos desenvolvidos via GWLR e Regressão Logística foram: o critério informacional AICc (Hurvich, Simonoff, & Tsai, 1998Hurvich, C. M.; Simonoff, J. S.; Tsai, C. L. (1998). Smoothing parameter selection in nonparametric regression using an improved Akaike information criterion. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 60(2), 271-293.), a acurácia dos modelos, o percentual de falsos positivos, a soma do valor da dívida dos falsos positivos e o valor monetário esperado de inadimplência da carteira frente ao valor monetário de inadimplência observado.

A acurácia dos modelos e o percentual de falsos positivos foram obtidos através da matriz de confusão, dada por:

Tabela 2:
Matriz de Confusão

De acordo com a Tabela 2, existem dois tipos de erro que um modelo classificador pode cometer: reprovar clientes bons (Falso Negativo - FN) ou aprovar clientes maus (Falso Positivo - FP), sendo que este último, também conhecido como Erro do tipo II, é considerado o pior dos dois erros, pois esse cliente seria aprovado e poderia gerar prejuízos financeiros para a instituição. Dessa forma, o percentual de FP foi uma das métricas utilizadas para comparação entre os modelos.

A somatória do saldo devedor de todos os tomadores classificados como FP foi mensurada para verificar o valor monetário que entraria em inadimplência devido ao erro de classificação do modelo.

A acurácia do modelo é calculada pela proporção de VP e VN em relação ao total, conforme a seguinte fórmula:

O valor monetário esperado de inadimplência da carteira foi calculado por meio da fórmula da esperança das distribuições discretas, dada por:

onde n é a quantidade total de tomadores da carteira, xi é o saldo devedor da operação de crédito do tomador i e P(Yi = 1)é a probabilidade de o tomador i se tornar inadimplente, resultante dos modelos de credit scoring. Esse valor foi confrontado com o valor da somatória das dívidas dos clientes inadimplentes, com o intuito de verificar qual modelo mais se aproxima do valor real de inadimplência.

3. RESULTADOS

3.1. Análises Univariada e Bivariada

Os resultados das taxas de inadimplência geral e por região estão dispostos nas Tabelas 3 e 4 e a distribuição espacial das taxas de inadimplência se encontra na Figura 6.

Tabela 3:
Distribuição de frequências da variável resposta Y.
Tabela 4:
Taxas de Inadimplência por região do DF.

Figura 6:
Distribuição espacial das taxas de inadimplência do Distrito Federal.

Conforme exposto na Tabela 3, a taxa de inadimplência geral do DF foi de 27,66%; assim, pode-se observar na Tabela 4 que apenas sete regiões (Lago Sul, Cruzeiro, Brasília, Guará, Lago Norte, Taguatinga e Núcleo Bandeirante) possuem taxas de inadimplência abaixo da média geral. Nota-se tambem que a região do Lago Sul foi a que apresentou a menor taxa de inadimplência entre as regiões estudadas, seguida das regiões Cruzeiro e Brasília. Como pode ser observado na Figura 6, as três regiões estão localizadas no centro do Distrito Federal.

Ainda analisando a Figura 6, nota-se que à medida que se afasta do ponto central do DF, as taxas de inadimplência aumentam (representadas pelas áreas mais escuras do mapa). Destaque negativo para as regiões de Santa Maria, Recanto das Emas e Paranoá, que apresentam as piores taxas de inadimplência.

Foram calculadas as frequências e estatísticas média, mediana, máximo, mínimo e quartis das variáveis candidatas a compor os modelos e, por não terem apresentado inconsistências, valores missing ou outliers, nenhuma variável foi retirada nessa etapa do estudo.

A análise bivariada consistiu no cálculo da frequência cruzada entre as variáveis preditoras e a variável resposta, com o objetivo de identificar as variáveis que discriminam o risco de crédito do público-alvo do estudo. As variáveis foram categorizadas com base no Risco relativo (14) e, a partir dessa categorização, foram criadas variáveis dummies para compor os modelos.

As variáveis taxa de desemprego e inflação apresentaram todos os atributos com níveis semelhantes de risco de crédito e, por esse motivo, foram excluídas do estudo. As categorias das demais variáveis encontram-se na Tabela 5.

Tabela 5:
Categorização e Risco Relativo das variáveis.

Observa-se na Tabela 5 que tomadores com maior Renda Formal apresentaram menor risco de crédito. Observa-se também que quanto maior é o Grau de Instrução do tomador, menor é seu risco, com os doutores apresentando um risco relativo bem superior aos demais. Os resultados também apontaram que, quanto maior a idade do tomador de crédito e quanto menor o prazo contratado da operação, menores são os riscos de crédito. Com relação ao tempo de relacionamento do tomador com a instituição, aqueles que possuem o menor tempo apresentaram maior risco de crédito.

A taxa SELIC é a taxa básica de juros da economia brasileira. O aumento da SELIC faz com que a captação de recursos por parte das instituições financeiras fique mais cara, o que, consequentemente, encarece as operações de crédito. Juros maiores nas operações de crédito diminuem o poder de compra do tomador de crédito e, por esse motivo, esperava-se que quanto maior a taxa SELIC, maior seria a inadimplência e o risco de crédito. No entanto, conforme observado na Tabela 5, os resultados obtidos foram o inverso do esperado, com risco relativo menor (maior risco de crédito) para valores de SELIC abaixo de 10,00% e menor risco de crédito para valores acima de 10,00%. No entanto, mesmo diante dos resultados apresentados, decidiu-se manter a variável taxa SELIC no estudo por ser a única variável macroeconômica remanescente. Estudos posteriores utilizando um público-alvo mais abrangente devem ser realizados para um melhor diagnóstico dessa variável.

A partir dessa categorização foram criadas variáveis dummies para serem utilizadas na composição dos modelos de regressão.

3.2. Indicadores Espaciais

A etapa seguinte do estudo consistiu em aplicar os Índices de Moran Global e Local com o objetivo de verificar a existência de correlação espacial da variável taxa de inadimplência e regiões singulares no universo de estudo.

O Índice de Moran Global apresentou o valor de 0,05, indicando uma dependência espacial quase nula.

Figura 7:
Mapa de espalhamento de Moran.

A Figura 7 apresenta o mapa de espalhamento de Moran, onde as regiões coloridas em tons de vermelho apresentam dependência espacial positiva, enquanto as regiões coloridas em tons de azul apresentam dependência espacial negativa. As regiões do tipo “Baixo-Baixo” são as que apresentaram as menores taxas de inadimplência, seguidas das regiões “Baixo-Alto”, “Alto-Baixo” e “Alto-Alto”, sendo que esses resultados podem ser considerados clusters espaciais da variável taxa de inadimplência. Essa informação poderia ser utilizada pela instituição financeira para a definição do público-alvo de campanhas de recuperação de crédito, em que a cobrança dos clientes residentes nas regiões “Alto-Alto” deve ser o foco inicial das ações, visando a melhorar o resultado financeiro da empresa.

Os resultados encontrados para o Índice de Moran Local, utilizando um nível de significância de 95%, são apresentados no Mapa de Moran, na Figura 8.

Figura 8:
Mapa de Moran a 95% de confiança.

O mapa de Moran indica a existência de correlações locais em algumas regiões que são significativamente diferentes das demais, revelando indícios de heterogeneidade espacial. As regiões significativas no índice local e que estão demarcadas na Figura 8 são Brasília e Cruzeiro (Baixo-Baixo), Lago Sul (Baixo-Alto) e Candangolândia (Alto-Baixo). De acordo com Fotheringham et al. (2002Fotheringham, A. S.; Brunsdon, C.; Charlton, M. (2002). Geographically weighted regression: the analysis of spatially varying relationships. Chichester: John Wiley & Sons.), a existência de valores significativos para o Índice de Moran Local justifica a aplicação da técnica GWLR.

3.3. Modelo Global via Regressão Logística

O modelo global foi desenvolvido utilizando a amostra de desenvolvimento, contendo 10.944 registros.

As variáveis utilizadas no desenvolvimento do modelo foram todas as dummies criadas a partir das categorizações apresentadas na Tabela 5. Utilizando o método de seleção de variáveis stepwise, as variáveis com p-valor abaixo de 0,10 (nível de significância de 10%) e que foram selecionadas para compor o modelo final de regressão logística (modelo global) são apresentadas na Tabela 6.

Tabela 6:
Variáveis finais do modelo global e respectivos coeficientes.

A variável SELIC não se mostrou significativa e não foi selecionada para compor o modelo final de regressão global. Uma possível explicação para esse fato é a utilização de um período curto de contratação, culminando em poucos valores distintos para essa variável.

Além disso, os coeficientes para a variável Renda Formal se mostraram invertidos, onde as melhores faixas de renda (d_renda1 e d_renda2) obtiveram piores coeficientes com relação à pior faixa (d_renda3, cujo coeficiente é zero). Esse resultado pode ser explicado pelo comportamento da variável, que possui inversões de risco relativo em suas faixas de valores quando categorizadas de forma granular. Outra possível explicação é que a categorização foi realizada com a base total de registros e o modelo foi desenvolvido com a base de desenvolvimento, que compreende um número menor de registros.

A nomenclatura das variáveis dummies respeita a nomenclatura das categorias expostas na Tabela 5. Por exemplo, a dummy d_idade1 representa a categoria de idade “> 55 anos” e é a melhor categoria dessa variável com relação ao risco de crédito, e a dummy d_instrucao4 representa os clientes que possuem a categoria “Superior Incompleto ou menor grau de instrução”, sendo esta a pior categoria da variável Grau de Instrução com relação ao risco de crédito.

A variável resposta Y possui como evento de interesse a ocorrência da inadimplência (Y=1), sendo que a probabilidade resultante dos modelos de regressão logística e via GWLR referem-se à probabilidade de ocorrência desse evento, ou seja, de o cliente se tornar inadimplente. Desta maneira, pode-se notar na Tabela 6 que todos os coeficientes da regressão global, exceto os da variável Renda Formal, se mostraram coerentes, uma vez que as melhores categorias de cada variável com relação ao risco de crédito apresentaram menores coeficientes em relação às categorias de maior risco da mesma variável, isto é, a presença das melhores categorias de cada variável diminui a probabilidade de o cliente se tornar inadimplente. Esta análise é denominada análise de congruência; é importante para verificar se existem inversões nos coeficientes e se a categorização das variáveis foi realizada de maneira correta.

O valor encontrado para o critério informacional AICc do modelo global foi 12.098,29, sendo esse o valor utilizado para a comparação com os modelos estimados via GWLR, cujos resultados são apresentados a seguir.

3.4. Modelos Locais via Regressão Logística Geograficamente Ponderada (GWLR)

Conforme descrito na metodologia, foram desenvolvidos quatro modelos utilizando a técnica GWLR, sendo um para cada função de ponderação exposta na Tabela 1. As variáveis preditoras utilizadas foram aquelas selecionadas pelo modelo de regressão logística, expostas na Tabela 6.

O melhor modelo via GWLR, segundo o critério AICc, foi o modelo Gaussiano Variável com valor de 2.022 vizinhos mais próximos para estimar os bandwidths variáveis.

A Tabela 7 contém as estatísticas descritivas dos coeficientes estimados pelo modelo GWLR, onde se nota que as médias dos coeficientes ficaram bem próximas dos coeficientes do modelo global apresentados na Tabela 6.

Tabela 7:
Estatísticas dos coeficientes estimados do modelo GWLR Gaussiano Variável.

A Tabela 8 contém a fórmula final dos modelos estimados via GWLR Gaussiano Variável para as 19 regiões do DF.

Tabela 8:
Fórmulas de Regressão Locais estimadas pelo modelo GWLR Gaussiano Variável.

Nota-se na Tabela 8 que o Intercepto foi significativo para todas as regiões do Distrito Federal e variou de -1,3922 a -1,2005, indicando diferença regional entre os valores estimados.

Com relação à idade do tomador, as variáveis d_idade1 e d_idade5 se mostraram significativas para todas as regiões do Distrito Federal, enquanto as variáveis d_idade2 e d_idade4 não foram significativas para algumas regiões, indicando que a idade do tomador de crédito influencia o risco de maneira distinta, a depender da região em estudo.

A variável d_instrução4 também se mostrou significativa para todas as regiões do Distrito Federal, apresentando pequena variação dos coeficientes entre as regiões.

Com relação ao Tempo de Relacionamento do tomador de crédito com a instituição, as variáveis d_tempo_rel1 e d_tempo_rel4 se mostraram significativas para todas as regiões do Distrito Federal, enquanto a variável d_tempo_rel2 não se mostrou significativa para a região de Cruzeiro.

Com relação à Renda do tomador de crédito, a variável d_renda1 se mostrou significativa para todas as regiões do Distrito Federal enquanto a variável d_renda2 se mostrou significativa somente para as regiões Candangolândia, Gama, Núcleo Bandeirante, Recanto das Emas, Riacho Fundo, Samambaia, Santa Maria e Taguatinga, indicando que a Renda do Tomador também influencia o risco de crédito de maneira distinta entre as regiões.

As variáveis d_pz_contratação1 e d_pz_contratação2, que representam o Prazo de Contratação, se mostraram significativas para todas as regiões do Distrito Federal.

3.5. Comparação Entre os Modelos

A comparação entre o modelo de Regressão Logística e o modelo de GWLR Gaussiano Variável se deu através de cinco métricas: Critério Informacional AICc, Acurácia, Percentual de Falsos Positivos, Somatória do Valor da Dívida dos Falsos Positivos e Valor Monetário Esperado de Inadimplência da carteira frente ao valor monetário de inadimplência observado.

Exceto o critério informacional AICc, calculado no desenvolvimento do modelo, as demais métricas foram calculadas a partir da base de validação, composta por 11.188 registros.

A Tabela 9 mostra as estatísticas descritivas dos escores obtidos por ambos os modelos selecionados na amostra de validação.

Tabela 9:
Análise Descritiva dos Escores dos Modelos.

As médias dos escores dos modelos ficaram bem próximas, com diferença apenas na terceira casa decimal; no entanto, o modelo via GWLR apresentou uma amplitude maior de escores. O uso de poucas variáveis preditoras fez com que os escores produzidos pelos modelos não apresentassem valores superiores a 0,585 e 0,639.

Para o cálculo da matriz de confusão, foi necessário definir um ponto de corte, em termos de nota do escore, para então classificar os tomadores em bons ou maus (0 ou 1). Esse ponto de corte foi definido com base na menor distância entre a Sensitividade e Especificidade e seu valor foi de 0,30.

Tabela 10:
Matriz de Confusão dos modelos via RL.

Pode-se notar na Tabela 10 que os modelos apresentaram resultados bem próximos quanto à classificação dos clientes.

A Tabela 11 contém todas as métricas utilizadas para comparação entre os modelos, onde se nota pequena diferença entre os valores dos indicadores dos dois modelos.

Tabela 11:
Comparação entre os modelos RL e GWRL

Na Tabela 11, todos os valores obtidos para as métricas dos dois modelos também ficaram muito próximos, sendo que o modelo via GWLR foi o modelo que apresentou o melhor (menor) critério informacional AICc, melhor (maior) Acurácia, que indica um melhor percentual de acertos e menor percentual de Falsos Positivos; já o modelo via RL foi levemente superior nas métricas Soma do Valor dos Falsos Positivos - sendo que essa métrica pode ser considerada uma estimativa do valor monetário que seria concedido e entraria em inadimplência, resultando em perda financeira para a instituição - e Valor Esperado de Inadimplência, uma vez que a somatória do valor da dívida de todos os contratos inadimplentes (Y=1) da base de validação do modelo foi de R$ 12.026.290,09, e o valor que mais se aproxima é o valor do modelo via RL.

4. CONCLUSÃO

Neste artigo foram utilizados dados reais de uma instituição financeira nacional referentes à operação de Crédito Direto ao Consumidor, concedidas a clientes domiciliados em 19 regiões do Distrito Federal para o desenvolvimento de modelos de credit scoring através de duas metodologias distintas: Regressão Logística e Regressão Logística Geograficamente Ponderada.

A metodologia Regressão Logística é bastante difundida no setor financeiro, sendo utilizada neste estudo para desenvolver um modelo global de credit scoring para todo o Distrito Federal.

A metodologia Regressão Logística Geograficamente Ponderada é pouco difundida e utiliza a localização geográfica do tomador de crédito para ponderar as observações no desenvolvimento de modelos distintos para cada região de estudo.

Os indicadores utilizados para comparação entre os modelos desenvolvidos através das duas metodologias se mostraram bem próximos e, baseados nos resultados obtidos, pode-se considerar que as metodologias são semelhantes em termos de capacidade de previsão de perdas financeiras para a instituição.

O estudo demonstrou que algumas variáveis foram significativas para todas as regiões, enquanto outras se mostraram significativas somente para determinadas regiões, concluindo que o risco de crédito é influenciado por diferentes fatores, a depender da região em estudo.

Observou-se também que todos os modelos de regressão desenvolvidos pela GWLR (modelos regionais) apresentaram valores distintos para os coeficientes (parâmetros) das variáveis, mostrando que os pesos (importância) das variáveis variaram de região para região.

Os resultados demonstraram a viabilidade da aplicação da metodologia GWLR para desenvolvimento de modelos de credit scoring para o público-alvo deste estudo. As fórmulas obtidas são aplicáveis somente a esse público, no entanto, acredita-se que essa metodologia pode ser expandida para outras operações de crédito e níveis espaciais (e. g. bairros, municípios, UFs).

Devido ao grande avanço computacional e tecnológico ocorrido nas últimas décadas, as instituições concessoras de crédito possuem sistemas robustos de avaliação de risco de crédito, o que viabiliza a implementação e utilização de um conjunto de modelos estimados via GWLR.

Com relação às limitações do estudo, o uso de poucas variáveis preditoras fez com que os modelos apresentassem baixas amplitudes de escores.

A categorização da variável Renda Formal foi realizada para que as classes ficassem monotônicas com relação ao risco relativo; entretanto, os valores dos seus coeficientes se mostraram invertidos. Estudos considerando outra categorização ou outro público-alvo devem ser realizados para verificar a relevância dessa variável para o risco de crédito.

Como tópicos de pesquisas futuras, sugere-se aplicar a metodologia GWLR para desenvolver modelos de credit scoring para outros públicos-alvo (por exemplo, diferentes operações de crédito ou regiões geográficas), realizar comparações com outras metodologias (tais como Support Vector Machines ou Boosting), utilizar outras variáveis preditoras, aplicar a metodologia GWLR para o desenvolvimento de modelos em outras áreas de uma instituição financeira, como nas áreas de estratégia e marketing, ou utilizar outras funções, como a Log Binomial, para desenvolver modelos geograficamente ponderados.

REFERENCES

  • Anselin, L. (1995). Local indicators of spatial association - LISA. Geographical Analysis, 27(2), 93-115.
  • Atkinson, P. M.; German, S. E.; Sear, D. A.; Clark, M. J. (2003). Exploring the relations between riverbank erosion and geomorphological controls using geographically weighted logistic regression. Geographical Analysis, 35(1), 58-82.
  • Banco Central do Brasil (2009). Resolução CMN nº 3.721, de 30/04/2009. Retrieved from http://www.bcb.gov.br
    » http://www.bcb.gov.br
  • Brunsdon, C.; Fotheringham, A. S.; Charlton, M. E. (1996). Geographically weighted regression: a method for exploring spatial nonstationarity. Geographical Analysis, 28(4), 281-298.
  • Crook, J. N.; Edelman, D. B.; Thomas, L. C. (2007). Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183(3), 1447-1465.
  • Fernandes, G. B.; Artes, R. (2016). Spatial dependence in credit risk and its improvement in credit scoring. European Journal of Operational Research, 249(2), 517-524.
  • Fotheringham, A. S.; Brunsdon, C.; Charlton, M. (2002). Geographically weighted regression: the analysis of spatially varying relationships Chichester: John Wiley & Sons.
  • Gilbert, A.; Chakraborty, J. (2011). Using geographically weighted regression for environmental justice analysis: Cumulative cancer risks from air toxics in Florida. Social Science Research, 40(1), 273-286.
  • Hand, D. J.; Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), 160(3), 523-541.
  • Hosmer, D. W.; Lemeshow, S. (2000). Applied logistic regression Hoboken, NJ: John Wiley & Sons.
  • Huang, Y.; Leung, Y. (2002). Analysing regional industrialisation in Jiangsu province using geographically weighted regression. Journal of Geographical Systems, 4(2), 233-249.
  • Hurvich, C. M.; Simonoff, J. S.; Tsai, C. L. (1998). Smoothing parameter selection in nonparametric regression using an improved Akaike information criterion. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 60(2), 271-293.
  • Lessmann, S.; Baesens, B.; Seow, H. V.; Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1), 124-136.
  • Moran, P. A. (1950). Notes on continuous stochastic phenomena. Biometrika, 37(1/2), 17-23.
  • See, L.; Schepaschenko, D.; Lesiv, M.; McCallum, I.; Fritz, S.; Comber, A.; Obersteiner, M. (2015). Building a hybrid land cover map with crowdsourcing and geographically weighted regression. ISPRS Journal of Photogrammetry and Remote Sensing, 103, 48-56.
  • Stine, R. (2011). Spatial temporal models for retail credit. In Proceedings of the Credit Scoring and Credit Control Conference, Edinburgh, UK.
  • *
    *Trabalho apresentado no XL Encontro da ANPAD, Costa do Sauípe, BA, Brasil, setembro de 2016.

Datas de Publicação

  • Publicação nesta coleção
    Abr 2017

Histórico

  • Recebido
    11 Maio 2016
  • Aceito
    10 Nov 2016
Universidade de São Paulo, Faculdade de Economia, Administração e Contabilidade, Departamento de Contabilidade e Atuária Av. Prof. Luciano Gualberto, 908 - prédio 3 - sala 118, 05508 - 010 São Paulo - SP - Brasil, Tel.: (55 11) 2648-6320, Tel.: (55 11) 2648-6321, Fax: (55 11) 3813-0120 - São Paulo - SP - Brazil
E-mail: recont@usp.br