Extração de regras de classificação a partir de redes neurais para auxílio à tomada de decisão na concessão de crédito bancário

Steiner, Maria Teresinha Arns; Nievola, Júlio Cesar; Soma, Nei Yoshihiro; Shimizu, Tamio; Steiner Neto, Pedro José

doi:10.1590/S0101-74382007000300002

Resumos

A avaliação de risco de crédito é um importante problema administrativo da área de análise financeira. As Redes Neurais têm recebido muita atenção pela sua alta taxa de acurácia preditiva, no entanto não é fácil compreender como elas alcançam as suas decisões. Neste artigo um conjunto de dados de crédito é analisado usando a técnica de extração de regras NeuroRule e o software WEKA para a extração de regras a partir de uma Rede Neural treinada. Os resultados foram considerados bastante satisfatórios alcançando mais de 80% de acurácia quanto à concessão (ou não) de crédito bancário em todas as simulações.

redes neurais; técnica de extração NeuroRule; risco de crédito

Credit-risk evaluation is a very important management science problem in the financial analysis area. Neural Networks have received a lot of attention because of their universal approximation property. They have a high predictive accuracy rate, but how they reach their decisions is not easy to understand. In this paper, we present a real-life credit-risk data set and analyzed it using the NeuroRule extraction technique and the software WEKA. The results were considered very satisfactory, reaching more than 80% of accuracy in granting or denying credit on every simulation.

neural networks; NeuroRule extraction technique; credit-risk

Extração de regras de classificação a partir de redes neurais para auxílio à tomada de decisão na concessão de crédito bancário

Maria Teresinha Arns Steiner^I,^* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Júlio Cesar Nievola^II; Nei Yoshihiro Soma^III; Tamio Shimizu^IV; Pedro José Steiner Neto^V

^IDep. Matemática / Univ. Federal do Paraná (UFPR) Curitiba PR tere@mat.ufpr.br

^IIPPGIA / Pont. Univ. Católica do Paraná (PUC - PR) Curitiba PR nievola@ppgia.pucpr.br

^IIIDiv. Ciência da Computação / Inst. Tec. de Aeronáutica (ITA) São José dos Campos SP nysoma@comp.ita.br

^IVDep. Engenharia de Produção / Univ. de São Paulo (USP) São Paulo SP tmshimiz@usp.br

^VDep. Administração / Univ. Federal do Paraná (UFPR) Curitiba PR pedrosteiner@ufpr.br

RESUMO

A avaliação de risco de crédito é um importante problema administrativo da área de análise financeira. As Redes Neurais têm recebido muita atenção pela sua alta taxa de acurácia preditiva, no entanto não é fácil compreender como elas alcançam as suas decisões. Neste artigo um conjunto de dados de crédito é analisado usando a técnica de extração de regras NeuroRule e o software WEKA para a extração de regras a partir de uma Rede Neural treinada. Os resultados foram considerados bastante satisfatórios alcançando mais de 80% de acurácia quanto à concessão (ou não) de crédito bancário em todas as simulações.

Palavras-chave: redes neurais; técnica de extração NeuroRule; risco de crédito.

ABSTRACT

Credit-risk evaluation is a very important management science problem in the financial analysis area. Neural Networks have received a lot of attention because of their universal approximation property. They have a high predictive accuracy rate, but how they reach their decisions is not easy to understand. In this paper, we present a real-life credit-risk data set and analyzed it using the NeuroRule extraction technique and the software WEKA. The results were considered very satisfactory, reaching more than 80% of accuracy in granting or denying credit on every simulation.

Keywords: neural networks; NeuroRule extraction technique; credit-risk.

1. Introdução

Com o avanço da tecnologia, não tem sido difícil para as grandes empresas armazenar eficientemente grandes volumes de dados (registros históricos) em seus computadores, para recuperá-los sempre que necessário. Muitas delas, no entanto, têm se deparado com o problema de possuir muitos dados, mas pouco conhecimento (data rich but knowledge poor) (Lu et al., 1995).

A correta tomada de decisão, conceder (ou não) crédito bancário, seja para pessoa física, jurídica ou outra, é essencial para a sobrevivência das instituições bancárias. Muitas vezes, o prejuízo causado pelo erro na tomada de decisão de conceder crédito a um único cliente pode prejudicar o lucro obtido em muitas operações bem sucedidas (Steiner et al., 2005).

O uso de ferramentas que possam auxiliar nesta tomada de decisão tem sido feito, principalmente por pesquisadores da área de Inteligência Artificial (IA). Duas abordagens básicas para os problemas de classificação (que é o caso do problema de crédito aqui apresentado) estudadas por pesquisadores de IA, são a abordagem simbólica (baseada em árvores de decisão) e a abordagem conexionista (baseada, principalmente, em RN).

Algumas das vantagens obtidas através do correto uso de ferramentas para a tomada de decisão quanto à concessão de crédito são, dentre outras: envolvimento de um menor número de pessoas na análise de crédito, liberando-as para outras atividades; agilidade no processamento das solicitações de crédito; menor subjetividade no decorrer do procedimento da tomada de decisão; maior acurácia dos resultados, ou seja, menor percentual de erros.

Mineração de Dados (Data Mining) é uma nova tecnologia utilizada para aumentar a qualidade e a eficiência das decisões muitas empresas como, por exemplo, as instituições bancárias, têm obtido um alto retorno de seus investimentos fazendo uso das ferramentas de análise de banco de dados (Witten & Frank, 2005).

O objetivo deste artigo é utilizar, dentre as diversas técnicas de Data Mining inseridas no contexto de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in DataBases KDD), ferramentas capazes de fazer a classificação de empresas (entidades legais) como "boas ou más" tomadoras de crédito, com base nos registros históricos armazenados pelas instituições. Das diversas técnicas de Data Mining para classificação, optou-se por utilizar a técnica de extração de regras de classificação de Redes Neurais (RNs) treinadas para a avaliação de risco de crédito, usando as codificações "termômetro" e "dummy" (Baesens et al., 2003) para as variáveis (entradas, atributos), tornando-as binárias.

A acurácia das regras de classificação assim obtidas, são comparadas com: 1) a extração de regras diretamente dos dados (padrões) originais; 2) a extração de regras diretamente dos dados originais fazendo o descarte de alguns deles, conforme explicado na seção 5; 3) a extração de regras dos dados originais, fazendo o descarte de alguns deles e, ainda, utilizando as referidas codificações aos atributos.

Pretende-se com as referidas comparações, verificar qual das quatro alternativas mencionadas fornece regras de classificação com maior taxa de acurácia na tarefa de classificação; o grau de importância de se codificar os atributos preliminarmente ao treinamento da RN; assim como o grau de importância de se treinar a RN preliminarmente a extração de regras.

Na seção 2 deste artigo é feita uma descrição do problema real com a apresentação dos dados e atributos utilizados nos experimentos (simulações); na seção 3 discorre-se sobre Data Mining e KDD e, também, sobre alguns trabalhos correlatos; na seção 4 é apresentado o algoritmo NeuroRule aplicado a uma RN de Múltiplas Camadas; na seção 5 são desenvolvidas as quatro referidas simulações e, finalmente, na seção 6 são apresentadas as conclusões.

2. Descrição do Problema Real

Os dados utilizados neste artigo, obtidos junto a um grande banco brasileiro (Lemos et al., 2005), se referem ao crédito de pessoas jurídicas (empresas). O referido banco coloca à disposição de seus clientes linhas de crédito, tanto para capital de giro quanto para investimentos, sendo que a sua clientela é constituída, basicamente, por micros, pequenas e médias empresas.

Por ocasião da pesquisa, o banco utilizava como ferramenta para realizar sua análise de crédito, um aplicativo interno chamado Análise de Crédito (ANC). A partir deste aplicativo, que contém as informações cadastrais e contábeis das empresas, a gerência se apoiava para tomar as suas decisões com relação a concessão (ou não) de crédito bancário.

Para o desenvolvimento deste artigo foram utilizados registros históricos de um total de 339 clientes pessoa jurídica, dos quais 266 comprovadamente eram adimplentes e 73 inadimplentes. De cada um destes clientes foram extraídos 24 atributos, indicados pelos especialistas da área (gerentes de crédito do banco), especificadas na Tabela A em anexo, com os seus respectivos valores originais (colunas 1 e 2), sendo que na coluna 1 está acrescentado, também, o seu tipo que, para este problema, pode ser ordinal ou nominal. Nas colunas 3 e 4 desta Tabela A encontram-se os intervalos de valores definidos para cada um dos atributos e o número de padrões contidos em cada intervalo, respectivamente. Nas colunas 5 a 8 encontra-se a "codificação termômetro" ou a "codificação dummy", conforme o tipo do atributo, explicadas na seção 3. Finalmente, na coluna 9 está contabilizada a quantidade de entradas para a RN utilizada, valor que depende, obviamente, da codificação utilizada.

3. KDD, Data Mining e Trabalhos Correlatos

As técnicas e ferramentas que buscam transformar os dados armazenados por empresas em conhecimento, são o objetivo da grande área ou processo chamado KDD. O processo KDD é um conjunto de atividades contínuas que compartilham o conhecimento descoberto a partir de bases de dados. Segundo Fayyad et al. (1996) esse conjunto é composto de cinco etapas: seleção dos dados; pré-processamento e limpeza dos dados; transformação dos dados; Data Mining; interpretação e avaliação dos resultados, cuja interligação pode ser visualizada na Figura 1.

O processo KDD começa com o entendimento do domínio do problema e dos objetivos finaisa serem atingidos. É feito um agrupamento organizado dos dados disponíveis, alvo da prospecção. A etapa da limpeza dos dados (data cleaning) vem a seguir, através de um préprocessamento dos dados, fazendo a integração de dados heterogêneos, eliminação de incompletude dos dados e outras. Essa etapa pode tomar até 80% do tempo necessário de todo o processo, devido as bem conhecidas dificuldades de integração de bases de dados heterogêneas (Mannila, 1996).

Os dados pré-processados podem, ainda, passar por uma transformação que os armazena adequadamente; nesta fase, o uso do armazenamento de dados (data warehouse) se expande consideravelmente, já que com essa tecnologia as informações podem ser armazenadas de maneira mais eficiente. Todas estas etapas, preliminares a etapa de Data Mining, podem ser vistas como uma Análise Exploratória dos Dados (Steiner et al., 2006). Esta análise pode envolver ainda, dentre outras alternativas, a padronização dos dados e o descarte de dados atípicos. No presente artigo, estas etapas preliminares envolveram, basicamente, seleção, limpeza e codificação (em duas das quatro simulações) dos dados.

Tem-se, então, a etapa de Data Mining, que começa com a escolha dos algoritmos a serem utilizados. Essa escolha depende, fundamentalmente, do objetivo do processo de KDD (Witten & Frank, 2005) que pode ser: classificação, agrupamento ou associação. De modo geral, na etapa de Data Mining, os algoritmos utilizados procuram por padrões nos dados.

Diversas ferramentas distintas, como RNs, árvores de decisão, sistemas baseados em regras, programas estatísticos e outras, tanto isoladamente quanto em combinação, podem ser então aplicadas ao problema. Em geral, o processamento de busca é interativo, de forma que os analistas avaliam o resultado, formam um novo conjunto de questões para refinar a busca em um dado aspecto das descobertas e realimentam o sistema com novos parâmetros. Ao final do processo, um relatório das descobertas é gerado, que passa então a ser interpretado pelos analistas de mineração e o conhecimento é descoberto. Data Mining é a parte mais interessante do processo KDD, sendo que no contexto de negócios é a que mais alavanca e auxilia o empresário a descobrir filões de mercado.

Segundo Freitas (2000) o conhecimento a ser descoberto deve ser correto; compreensível e útil; além disso, o método de descoberta do conhecimento deve ser, por sua vez, eficiente; genérico (aplicável a diversos tipos de problemas); flexível (facilmente modificável).

Dentre as técnicas de Data Mining utilizadas em problemas de classificação, que é o caso do problema abordado neste artigo, destacam-se as RNs, que constroem representações internas de modelos ou padrões detectados nos dados, mas essas representações não são apresentadas de forma explícita aos usuários. Neste artigo é feita a extração de regras de classificação a partir dos atributos codificados e da RN já treinada, com o intuito de deixar claro, compreensível ao usuário (gerente de crédito) de que forma que os atributos estão "atuando" para fazer a classificação de cada um dos clientes.

Dentre os numerosos trabalhos que abordam as técnicas de Data Mining para classificação, pode-se citar: Lu et al. (1995) e Lu et al. (1996) que apresentam o algoritmo chamado NeuroRule (utilizado no presente artigo) que faz a extração de regras a partir de uma RN treinada, obtendo regras do tipo SE-ENTÃO (IF-THEN); o desempenho desta abordagem foi verificado, em ambos os artigos, em um problema de crédito bancário. Fidelis et al. (2000) apresentam um algoritmo de classificação baseado em Algoritmos Genéticos (AGs) que descobre regras compreensíveis do tipo IF-THEN no contexto de Data Mining; a proposta foi avaliada em duas bases de dados médicos de domínio público, de dermatologia e de câncer de mama.

Setiono & Leow (1998) apresentam um método rápido para extrair regras de RN treinadas (FERNN a Fast Method for Extracting Rules from Trained Neural Networks); primeiro, FERNN identifica as unidades escondidas relevantes usando o algoritmo C4.5 (Quinlan, 1993); depois, para cada unidade escondida relevante, FERNN acha o conjunto de conexões relevantes das entradas para as unidades escondidas e, finalmente, FERNN substitui as condições divididas da árvore de decisão gerada pelo C4.5 por regras envolvendo as entradas da rede. Santos et al. (2000) usam um AG para definir uma topologia adequada a uma RN a ser treinada; o sistema proposto foi avaliado em três conjuntos de dados disponíveis no repositório UCI: Iris, Wine e Monks-2.

Baesens et al. (2003) abordam três métodos para a extração de regras de uma RN, comparativamente: NeuroRule; Trepan e Nefclass em três bases de dados reais de crédito: German Credit, Bene 1 e Bene 2. Olden & Jackson (2002) descrevem alguns métodos da literatura para "desvendar" os mecanismos de uma RN. Na avaliação imobiliária, pode-se citar o trabalho de Nguyen & Cripps (2001), que comparam o desempenho preditivo de RN com a Análise de Regressão Múltipla para a venda de casas de família. No trabalho de Bond et al. (2002) é examinado o efeito que a vista de um lago tem sobre o valor de uma casa.

4. Algoritmo NeuroRule e Codificação dos Atributos

Dentre os muitos modelos existentes de RNs, decidiu-se por utilizar uma RN de Múltiplas Camadas (Fausett, 1995) a qual foi treinada com o algoritmo back-propagation (retropropagação), de aprendizado supervisionado.

Conforme mencionado anteriormente, neste artigo o objetivo é extrair regras de classificação a partir atributos codificados e da RN treinada e, para isso, fez-se uso do algoritmo NeuroRule, descrito mais adiante passos 1 a 4 (Lu et al., 1995).

Os passos 2 e 3 do Algoritmo NeuroRule exigem a geração de regras perfeitas a partir de uma RN treinada. Para a geração destas regras fez-se uso do software WEKA (Waikato Environment for Knowledge Analysis), disponível em World Wide Web (www.cs.waikato.ac.nz/ml/weka). Este software contém dez algoritmos para extração de regras de classificação, que são os seguintes: JRip; ZeroR; Ridor; Prisma; M5Rules; Part; OneR; Nnge; Decision Table e, finalmente, Conjunctive Rule, todos descritos em Witten & Frank (2005).

Dentre os algoritmos anteriormente citados, o JRip ou Ripper (Repeated Incremental Pruning to Produce Error Reduction ou Poda Incremental Repetida para Produzir Redução de Erro, proposto por William W. Cohen (Witten & Frank, 2005)) foi o que apresentou melhor desempenho em praticamente todas as vezes em que os mesmos foram comparados e, por este motivo, na seção 4.2 é feita a sua descrição.

4.1 Algoritmo NeuroRule para Extração de Regras (NeuroRule Extraction):

Passo 1. Faça a discretização dos valores de ativação da RN via agrupamento. Uma alternativa é a seguinte:

1a. Seja e Î (0, 1) e seja D o número de valores de ativação discretos na camada escondida da RN. Ainda, seja d₁ o valor de ativação na camada escondida para o primeiro padrão do conjunto de treinamento e seja H(1) = d₁ , contador(1) = 1, soma(1) = d₁ e faça D = 1.

1b. Para todos os padrões i = 2, 3, ..., k do conjunto de treinamento:

Seja d o valor de ativação.

Se existe um índice j' tal que:

| d - H(j')| = min_{jÎ{1,2,...,D}} | d - H(j) | e |d - H(j')| < e,

então faça contador(j') = contador(j') + 1, soma(D) = soma(D) + d

caso contrário, D = D + 1, H(D) = d, contador (D) = 1, soma(D) = d.

1c. Substitua H pela média de todos os valores de ativação que tenham sido agrupados neste grupo, ou seja, H(j) = soma(j)/contador(j), j = 1, 2, ..., D.

1d. Cheque a acurácia da RN com os valores de ativação dⁱ nos nós escondidos substituídos por d^d, o valor de ativação do grupo ao qual o valor de ativação pertence.

1e. Se a acurácia ficar abaixo do nível exigido, decresça e e repita o passo 1.

Passo 2. Enumere os valores de ativação discretizados e calcule a saída da rede. Gere regras perfeitas (com a máxima acurácia) que tenham uma cobertura perfeita de todos os exemplos dos valores de ativação discretizados dos nós escondidos para os valores de saída.

Passo 3. Para os valores de ativação discretizados que apareceram nos nós escondidos nas regras definidas no passo 2, enumere os valores de entrada que conduziram a eles, gere regras perfeitas.

Passo 4. Gere regras que relacionam os valores de entrada e os valores de saída por substituição de regras com base nos resultados dos passos 2 e 3 anteriores.

4.2 Algoritmo Ripper ou JRip (desenvolvido na linguagem de programação Java):

Para um problema de duas classes, escolha uma delas como positiva e a outra como classe negativa:

1. Aprenda regras para a classe positiva;

2. A classe negativa será a classe default (padrão).

Para um problema de várias classes:

1. Ordene as classes de acordo com a prevalência crescente da classe (iniciar com a classe que contém a menor quantidade de exemplos ou padrões);

2. Aprenda primeiro o conjunto de regras para a menor classe (menor número de exemplos), considerada como classe positiva; trate o restante como classes negativas;

3. Repita com a seguinte menor classe, tratando-a como classe positiva.

Construindo um conjunto de regras:

1. Use o algoritmo de cobertura seqüencial:

Encontre a melhor regra que cubra o conjunto atual de exemplos positivos;

Elimine tanto os exemplos positivos quanto negativos cobertos pela regra.

Pare de adicionar novas regras quando o novo comprimento da descrição for

d

bits maior que o menor comprimento de descrição encontrado até então.

Crescendo uma regra:

1. Inicie com a regra vazia;

2. Adicione conjunções enquanto elas melhorarem o ganho de informação FOIL (First-Order Induction Learning ou Aprendizado por Indução de Primeira Ordem (Quinlan, 1990));

3. Pare quando a regra não cobrir mais exemplos negativos;

4. Pode a regra imediatamente usando o incremento da poda do erro reduzido (reduced error pruning incremental):

Medida para poda: n = (

p n

) / (

p + n

), em que:

p = número de exemplos positivos cobertos pela regra no conjunto de validação; e

n = número de exemplos negativos cobertos pela regra no conjunto de validação.

Otimizando o conjunto de regras:

1. Para cada regra r no conjunto de regras R:

Considere 2 regras alternativas:

Regra de substituição (r*): cresça nova regra a partir do zero;

Regra de revisão (r'): adicione conjunções para estender r.

2. Escolha o conjunto de regras que minimize o

MDL

(

Minimum Description Length Principle

ou Princípio da Descrição de Mínimo Comprimento: representa o modelo da forma mais compacta possível com o máximo de informações dos dados):

Repita geração e otimização de regras para o restante dos exemplos positivos.

4.3 Codificação dos Atributos

O algoritmo NeuroRule utilizado neste artigo para a extração de regras a partir de uma RN treinada, assume que os dados são discretizados e representados como entradas binárias usando a "codificação termômetro" para os atributos ordinais e a "codificação dummy" (artificial) para os atributos nominais (Baesens et al., 2003).

A Tabela 1 ilustra a "codificação termômetro" para a variável ordinal "renda", por exemplo. O atributo "renda" é, primeiramente, discretizado nos valores 1, 2, 3 e 4; se, por exemplo, I₃ = 1, isto significa que a variável original "renda" > 1.000. No presente artigo, esta discretização foi feita com o auxílio de um especialista.

Brasil

Brasil

Extração de regras de classificação a partir de redes neurais para auxílio à tomada de decisão na concessão de crédito bancário

Resumos

Datas de Publicação

Histórico