Previsão de retornos de ações dos setores financeiro, de alimentos, industrial e de serviços, por meio de rna e modelos arima-garch

Oliveira, Mauri Aparecido De; Montini, Alessandra De Ávila; Bergmann, Daniel Reed

doi:10.1590/S1678-69712008000100007

Resumos

O objetivo deste trabalho é realizar previsões de séries de retornos de ações de empresas dos setores financeiro, de alimentos, industrial e de serviços, utilizando redes neurais artificiais (RNA) do tipo feedforward treinadas com algoritmo de Levenberg-Marquardt e modelos Arima-Garch. Selecionaram-se duas séries de cada setor, e os dados foram obtidos da economática. Para o setor financeiro, são analisadas as séries dos bancos Bradesco e Itaú, no setor de alimentos a Perdigão e a Sadia, no setor industrial a Marcopolo e a Gerdau, e no setor de serviços o Pão de Açúcar e Lojas Americanas. Verificou-se que as previsões realizadas pelas duas técnicas têm desempenhos parecidos, não revelando superioridade de nenhuma técnica.

Séries temporais; Previsão; Algoritmo de Levenberg-Marquardt; Redes neurais; Arima-Garch

The main purpose of this work is realize stock returns forecasting for financial, food, industrial and services companies using feedforward neural networks trained with Levenberg-Marquardt algorithm and Arima-Garch models. In each area two time series was selected from Economatica. To the financial area, Bradesco and Itaú was analyzed, Perdigão and Sadia in the food sector, Marcopolo and Gerdau in the industrial area, finally Pão de Açúcar and Lojas Americanas in the services. The forecasting generated by the two techniques had similar performance implying no significant differences between them.

Time series; Forecasting; Levenberg-Marquardt algorithm; Neural networks; Arima-Garch

Previsão de retornos de ações dos setores financeiro, de alimentos, industrial e de serviços, por meio de rna e modelos arima-garch

Stock returns forecasting for financial, food, industrial and services companies using neural networks and arima-garch models

Mauri Aparecido De Oliveira^I; Alessandra De Ávila Montini^II; Daniel Reed Bergmann^III

^IDoutor em Administração de Empresas pela Faculdade de Economia e Administração de Empresas da Universidade de São Paulo (FEA-USP-SP), Rua Oliveira Melo, 232, Ipiranga São Paulo SP CEP 04271-000, E-mail: mauriao@usp.br ^IIDoutora em Administração de Empresas pela Faculdade de Economia e Administração de Empresas da Universidade de São Paulo (FEA-USP-SP), Professora da Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo (FEA-USP-SP), Avenida Professor Luciano Gualberto, 908, sala G-107, Cidade Universitária São Paulo SP CEP 05508-900, E-mail: amontini@usp.br

^IIIMestre em Contabilidade pela Faculdade de Economia e Administração de Empresas da Universidade de São Paulo (FEA-USP-SP),Professor da Universidade Presbiteriana Mackenzie (UPM),Rua da Consolação, 930, Consolação São Paulo SP CEP 01302-907, E-mail: danielrb@mackenzie.br

RESUMO

O objetivo deste trabalho é realizar previsões de séries de retornos de ações de empresas dos setores financeiro, de alimentos, industrial e de serviços, utilizando redes neurais artificiais (RNA) do tipo feedforward treinadas com algoritmo de Levenberg-Marquardt e modelos Arima-Garch. Selecionaram-se duas séries de cada setor, e os dados foram obtidos da economática. Para o setor financeiro, são analisadas as séries dos bancos Bradesco e Itaú, no setor de alimentos a Perdigão e a Sadia, no setor industrial a Marcopolo e a Gerdau, e no setor de serviços o Pão de Açúcar e Lojas Americanas. Verificou-se que as previsões realizadas pelas duas técnicas têm desempenhos parecidos, não revelando superioridade de nenhuma técnica.

Palavras-chave: Séries temporais; Previsão; Algoritmo de Levenberg-Marquardt; Redes neurais; Arima-Garch.

ABSTRACT

The main purpose of this work is realize stock returns forecasting for financial, food, industrial and services companies using feedforward neural networks trained with Levenberg-Marquardt algorithm and Arima-Garch models. In each area two time series was selected from Economatica. To the financial area, Bradesco and Itaú was analyzed, Perdigão and Sadia in the food sector, Marcopolo and Gerdau in the industrial area, finally Pão de Açúcar and Lojas Americanas in the services. The forecasting generated by the two techniques had similar performance implying no significant differences between them.

Keywords: Time series; Forecasting; Levenberg-Marquardt algorithm; Neural networks; Arima-Garch.

1 INTRODUÇÃO

Neste trabalho, vamos analisar duas técnicas utilizadas para previsão de séries temporais: os modelos Arima-Garch e as redes neurais alimentadas adiante (feedforward). O modelo Arch generalizado, conhecido como Garch-Generalized Arch, foi inicialmente proposto por Bollerslev (1986). Esse modelo é um dos mais utilizados para o modelamento de volatilidade. As redes neurais constituem uma ferramenta flexível amplamente utilizada para a análise de séries temporais, sua aplicação tem sido feita nas mais variadas situações que envolvem problemas do mundo real de diversas áreas, notadamente finanças e economia. As redes neurais artificiais fornecem uma grande variedade de modelos matemáticos não-lineares, úteis para resolver diferentes problemas em que são empregadas convencionalmente técnicas estatísticas. A metodologia empregada neste trabalho, no caso dos processos Garch, é amplamente conhecida (HAMILTON, 1994; MORETTIN; TOLOI, 2004; ENDERS, 2004). Para as redes neurais, serão utilizadas especificamente redes neurais artificiais do tipo alimentada adiante ou feedforward (FINE,1999). Do ponto de vista teórico, o processamento de sinais não-lineares (LAPEDES; FABER 1987), a incorporação do tempo na rede neural (ELMAN, 1988) e o modelamento não-linear para previsão de séries temporais caóticas (CASDAGLI, 1989) têm sido aplicados como ferramenta na tomada de decisão em finanças (HAWLEY et al., 1990; REFENES,1993), análise de mercado (FISHMAN et al., 1991), modelamento não-linear e previsão (CASDAGLI; EUBANK.,1992; AZZOF, 1993; CLEMENTS; HENDRY, 1999). Mais recentemente tem havido a preocupação de comparar e relacionar a tecnologia de redes neurais com a abordagem estatística tradicional (CHENG; TITTERINGTON, 1994; RIPLEY, 1993, 1994, 1996; MEDEIROS et al., 2006), sob a perspectiva econométrica (KUAN; WHITE, 1994), de engenharia financeira (ABU-MOSTAFA et al., 2001) e macroeconômica (TERÄSVIRTA et al., 2005).

2 REDES NEURAIS ARTIFICIAIS (RNA) ALIMENTADAS ADIANTE DE MÚLTIPLAS CAMADAS

Uma rede neural artificial (RNA) alimentada adiante tem todos os sinais indo em uma direção, dos neurônios de entrada para os neurônios de saída. As redes neurais alimentadas adiante de múltiplas camadas também são chamadas de multilayer feedforward neural networks. A RNA feedforward de três camadas pode ser esquematizada como mostrado na Figura 1. Basicamente, a RNA é constituída de linhas de ligações para as quais são atribuídos pesos e vértices que representam as conexões.

Na primeira camada, representada por quadrados, temos os valores de entrada para a rede, também chamados de nós de entrada. O modelo mostrado na Figura 1 inclui também um bias, , aplicado externamente, representado por . Esse bias tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação, dependendo se ele é positivo ou negativo, respectivamente. As linhas de conexão indicam para qual neurônio o valor precedente está se direcionando. Cada uma dessas linhas contém um peso. Os pesos dessas linhas são parâmetros ajustados conforme apresentam-se novos vetores de dados para a RNA. Uma RNA em que um neurônio em qualquer camada está conectado a todos os nós/neurônios da camada anterior é denominada totalmente conectada. O fluxo de sinal através da rede progride para a frente, da esquerda para a direita e de camada em camada.

A segunda camada e todas as subseqüentes contêm neurônios de processamento na forma de círculo. Quaisquer camadas entre as camadas de entrada e de saída são chamadas de intermediárias. Uma apresentação completa de um vetor de dados que será processado constitui uma época. No final da RNA, a camada de saída fornece o estado final da rede. O processamento realizado em um neurônio artificial pode ser dividido em três etapas. Na primeira etapa, os dados passam ao longo das linhas de entrada de um neurônio e são multiplicados pelos pesos correspondentes. A seguir, todos os dados, após a multiplicação pelos respectivos pesos, são somados dentro do neurônio.

Na etapa final o valor somado é passado através de uma função de ativação, cuja saída representa o valor de saída do neurônio.

Uma RNA é um ferramenta poderosa e flexível para realizar previsões de séries temporais, quando uma seleção adequada de amostras de entradas e saídas, número de neurônios na camada intermediária, função de ativação e recursos computacionais estão disponíveis.

A RNA também possui a vantagem de aproximar funções não-lineares e ser capaz de resolver problemas em que o relacionamento de entrada e saída não é bem definido. Uma RNA do tipo feedforward é especialmente adequada para realizar previsão de séries que apresentam volatilidade, por causa do tratamento da não-linearidade realizada pela utilização de funções sigmóides na camada de entradas.

A função de ativação, j(.), define a saída de um neurônio. A função de ativação é a regra para mapeamento das entradas somadas, a, do neurônio até sua saída e, por uma escolha adequada, isso significa a introdução de uma capacidade de processar a não-linearidade na rede.

Na prática, essas funções são escolhidas de tal forma para que possam ser monotônicas e saturar nos extremos [0,1] ou [-1,1]. A função sigmóide é a forma mais comum de função de ativação utilizada na construção de uma RNA:

onde: g é o ganho, ou parâmetro de inclinação da função sigmóide.

2.1 Normalização dos valores de entrada da RNA

Os dados de entrada da RNA, na maioria dos casos, necessitarão de normalização. Esse processo é aconselhável, uma vez que coloca o intervalo de dados dentro de limites que facilitam a tarefa da rede para realizar a minimização do erro de saída. De acordo com Azzof (1994, p. 25), existem quatro abordagens para normalização. No caso em questão, vamos utilizar o processo que considera um vetor de entrada de dimensão n, ou seja, os elementos no vetor variam de i = 1, ..., n. A amostra total da série será normalizada ao longo da extensão [0,1].

Neste trabalho, serão consideradas as normalizações da primeira diferença do logaritmo das séries dadas por:

em que:

Δ representa a primeira diferença, log indica o logaritmo, min é o menor valor da série e max o maior valor. Inicialmente, é construído o logaritmo da série, LSERIE, depois disso se constrói a série da primeira diferença, DLSERIE, e, por fim, a normalização.

Tanto as previsões realizadas pelos modelos Arima-Garch quanto pelas RNA serão realizadas para séries normalizadas de acordo com (2).

2.2 Algoritmo de Levenberg-Marquardt

O algoritmo de backpropagation (RUMELHART et. al, 1986a e 1986b; RUMELHART e McCLELLAND, 1986; WERBOS, 1988) é um dos mais importantes no desenvolvimento das redes neurais, no entanto sua taxa de convergência é muito pobre. Em razão disso, foram propostos outros algoritmos como alternativa ao backpropagation (ANDERSEN; WILAMOWSKI, 1995; BATTITI, 1992; CHARALAMBOUS, 1992; HAGAN; MENHAJ, 1994; SHAH; PALMIERI, 1990), e o algoritmo de Levenberg-Marquardt tem sido amplamente utilizado e aceito como algoritmo muito eficiente para solucionar o problema de minimização de quadrados para funções não-lineares.

Pode ser mostrado que as iterações do método de Gauss-Newton e de descida do gradiente são complementares nas vantagens que eles fornecem. Levenberg (1944) propôs um algoritmo baseado nessa observação, cuja regra de atualização é uma mistura dos algoritmos anteriormente mencionados e dada por

onde H é a matriz hessiana calculada em .

Se o erro decresce após uma atualização, isso implica que a suposição de forma quadrática para f(w) está valendo, e reduzimos λ para reduzir a influência da descida do gradiente. No entanto, se o erro aumenta, poderemos seguir o gradiente, e então λ é aumentado pelo mesmo fator. O algoritmo proposto por Levenberg é então composto basicamente por quatro passos. No passo um, é realizada uma atualização como descrita pela Equação 3. A seguir, avalia-se o erro no novo vetor de parâmetros. No terceiro passo, é verificado se o erro diminuiu como resultado da atualização, e então se deve retornar ao passo (ou seja, retornar os pesos para os seus valores anteriores) e aumentar λ por um determinado fator, usualmente por um fator de 10, ou por algum fator significante. Então, voltar para o passo 1 e tentar atualizar novamente. No último passo, é avaliado se o erro diminuiu como resultado da atualização, então se deve aceitar o passo (ou seja, manter os pesos em seus novos valores) e diminuir λ por um determinado fator e assim por diante. Esse algoritmo tem a desvantagem de que, se o valor de λ é grande, a matriz hessiana calculada não é utilizada no todo. Pode-se obter alguma vantagem da segunda derivada em tais casos pelo escalonamento de cada componente do gradiente de acordo com a curvatura. Isso pode resultar em grandes movimentos ao longo das direções, onde o gradiente é menor de tal forma que o problema dos vales não ocorra mais. A principal sugestão foi fornecida por Marquardt (1963). Ele substituiu a matriz identidade em (3) pela diagonal da matriz Hessiana, resultando na regra de atualização de Levenberg- Marquardt.

Problemas de minimização utilizando RNA freqüentemente são mal condicionados, o que torna o problema de minimização difícil de resolver. Para tais problemas, o algoritmo de Levenberg- Marquardt (LM) é normalmente a melhor escolha. Por essa razão, o método de otimização que utiliza o algoritmo LM será usado no treinamento das RNA para previsão das séries temporais deste trabalho.

Modificações do algoritmo LM têm sido propostas para melhorar o desempenho de aprendizagem de redes neurais de múltiplas camadas e reduzir a quantidade de oscilação no processo de aprendizagem (SURATGAR et al., 2005; WILAMOWSKI et al., 2001).

3 PROCESSO GARCH

O modelo de volatilidade de séries temporais mais importante para estimar variância condicional é o modelo de processos de heterocedasticidade condicional auto-regressiva generalizada (generalized autoregressive conditional heteroskedasticity Garch) (BOLLERSLEV, 1986; BOLLERSLEV et al., 1992; ENGLE, 1982; MEISSNER; KAWANO, 2001). Esse modelo é um dos mais utilizados para a modelagem da volatilidade de séries temporais, ou seja, ele é utilizado quando a volatilidade da série não é constante (GONZALES; BURGERS, 1997). Essa técnica é capaz de capturar a influência de muitos fatos sobre a série, notadamente heterocedasticidade, aglomerados de volatilidade e excesso de curtose.

Uma série temporal segue um modelo AR-Garch quando puder ser escrita na forma:

Temos ainda que {η_t} é um processo ruído-branco, dessa forma as médias condicional e incondicional de v_t são iguais a zero (POSEDEL, 2005).

Embora muitas variantes dos processos Garch tenham sido sugeridas, Ding et al. (1993) demonstraram com simulações de Monte de Carlo que o modelo original Garch proposto por Bollerslev (1986) é capaz de produzir o padrão de autocorrelação que aparece em dados financeiros. Normalmente, os processos Garch servem como benchmark para as avaliações de séries temporais, com presença de volatilidade condicional (QI; ZHANG, 2001). O AR(1)-Garch(1,1) é o modelo mais comumente utilizado.

Existem muitos trabalhos publicados sobre o desempenho de previsão dos modelos Garch (CHAKRABORTY, 1992; BARUCCI; RENO, 2002; ANDERS, 2006), e tradicionalmente algumas medidas são mais utilizadas para comparar o ajuste e a precisão da previsão de modelos e técnicas alternativas: o RMSE (raiz do erro quadrado médio), MAE (erro absoluto médio), Mape (erro percentual absoluto médio), Corr (coeficiente de correlação de Pearson), Sign (proporção de vezes em que o sinal é corretamente previsto) e o TIC (coeficiente de desigualdade de Theil).

Neste trabalho utilizaremos, como medidas de desempenho, o RMSE e o TIC dados pelas expressões (8) e (9), respectivamente.

O TIC varia entre zero e um, e zero indica ajuste perfeito.

Quanto menor for o RMSE, menor será o erro obtido pelo modelo utilizado para realizar a previsão.

4 RESULTADOS OBTIDOS

Neste trabalho, foram analisadas duas séries de cada setor. Para o setor financeiro analisaram-se as séries do Bradesco PN e do Itaú PN, no setor de alimentos a Perdigão PN e a Sadia PN, no setor industrial a Marcopolo PN e a Gerdau PN, e no setor de serviços o Pão de Açúcar PN e as Lojas Americanas PN. As séries foram obtidas da economática. Todas essas séries possuem 1.542 valores que iniciam em 3.1.2000. Essas séries foram divididas em duas partes, uma para estimação dos modelos Arima-Garch e treinamento da RNA, e a segunda parte para realizar as previsões e construir as medidas de desempenho. A primeira parte das séries contém 1.300 valores e a segunda 242. Para cada uma das séries, foram ajustadas topologias com dez neurônios na camada de entrada, um neurônio na camada de saída e neurônios na camada intermediária, variando de um a nove. Para cada uma das séries, foi estimado o melhor modelo, e depois disso realizaram-se as previsões. Para escolher o melhor modelo Arima-Garch, foram utilizados os critérios de informação de Akaike (AIC) e bayesiano (BIC). Para escolher a melhor topologia de RNA, utilizaram-se o RMSE e o TIC.

4.1 Setor financeiro Bradesco e Itaú

A Figura 2a apresenta a série original do preço de fechamento do Bradesco, e a Figura 2b mostra a série normalizada da primeira diferença do logaritmo do preço NDLBRAD.

No caso do Bradesco, o melhor modelo ajustado para a série é um AR(1)-Garch(1,1), dado pela expressão (7). Os parâmetros do modelo são apresentados na Tabela 1.

Brasil

Brasil

Previsão de retornos de ações dos setores financeiro, de alimentos, industrial e de serviços, por meio de rna e modelos arima-garch

Stock returns forecasting for financial, food, industrial and services companies using neural networks and arima-garch models

Resumos

Datas de Publicação

Histórico