Modelagem preditiva de linha de costa utilizando redes neurais artificiais

Gonçalves, Rodrigo Mikosz; Coelho, Leandro dos Santos; Krueger, Claudia Pereira; Heck, Bernhard

doi:10.1590/S1982-21702010000300004

Resumos

Estudar modelagens através de dados geodésicos temporais com a possibilidade de predizer a posição de linha de costa é uma tarefa importante e pode auxiliar significativamente na gestão costeira. A área de estudo neste trabalho se refere ao município de Matinhos no estado do Paraná, Brasil. As linhas de costa temporais utilizadas para testar a modelagem preditiva são provenientes respectivamente da fotogrametria analógica para anos 1954, 1963, 1980, 1991 e 1997 e de levantamentos geodésicos utilizando GPS (Global Position System) para 2001, 2002, 2005 e 2008 (como controle). Dois testes com as redes neurais artificiais foram organizados mudando alguns parâmetros como: arquitetura, número de neurônios nas camadas ocultas e algoritmos de treinamentos. Quando comparados o valor dos resíduos entre a predição e a linha de costa de controle, os melhores resultados estatísticos indicam que o MAPE (mean absolute percentage error) são 0,28% utilizando a rede neural parcialmente recorrente de Elman com o algoritmo de treinamento quase-Newton e 0,46% para o caso da rede neural perceptron multicamadas com o algoritmo de treinamento utilizando o método Bayesiano com regularização.

Mapeamento Costeiro; Modelagem Preditiva; Linha de Costa; Redes Neurais Artificiais

The study of models using geodetic temporal data which can possibly predict the shoreline position is an important task and can significantly contribute to coastal management. The studied area is located at municipality of Matinhos in the Paraná State, Brazil. The temporal shoreline used to test the prediction model is respectively from analog photogrammetric data, related to the years 1954, 1963, 1980, 1991 and 1997, and GPS (Global Position System) geodetic surveys for 2001, 2002, 2005 and 2008 (as control). Two different tests with artificial neural network were organized setting the parameters like: architecture, number of neuron in hidden layers and the training algorithms. Comparing the residuals between the prediction to the shoreline of control, the best statistical results show the MAPE (Mean Absolute Percentage Error) is 0,28% using the Elman partially recurrent network with quasi-Newton training function and 0,46% using the neural network multilayer perceptron with Bayesian regulation training function.

Coastal Mapping; Artificial Neural Network; Prediction Models; Shoreline

Modelagem preditiva de linha de costa utilizando redes neurais artificiais

Shoreline predictive modeling using artificial neural networks

Rodrigo Mikosz Gonçalves^I,II; Leandro dos Santos Coelho^III; Claudia Pereira Krueger^II; Bernhard Heck^IV

^IUniversidade Federal de Pernambuco (UFPE), Centro de Tecnologia e Geociências CTG, Departamento de Engenharia Cartográfica, Recife-PE, Brasil, rodrigo.mikosz@gmail.com

^IIUniversidade Federal do Paraná (UFPR), Programa de Pós-Graduação em Ciências Geodésicas, Curitiba-PR, Brasil, ckrueger@ufpr.br

^IIIPontifícia Universidade Católica do Paraná, (PUC-PR), Programa de Pós-Graduação em Engenharia de Produção e Sistemas, Curitiba-PR, Brasil, leandro.coelho@pucpr.br

^IVKarlsruhe Institute of Technology, Geodetic Institute Karlsruhe, Karlsruhe, Alemanha, heck@gik.uni-karlsruhe.de

RESUMO

Estudar modelagens através de dados geodésicos temporais com a possibilidade de predizer a posição de linha de costa é uma tarefa importante e pode auxiliar significativamente na gestão costeira. A área de estudo neste trabalho se refere ao município de Matinhos no estado do Paraná, Brasil. As linhas de costa temporais utilizadas para testar a modelagem preditiva são provenientes respectivamente da fotogrametria analógica para anos 1954, 1963, 1980, 1991 e 1997 e de levantamentos geodésicos utilizando GPS (Global Position System) para 2001, 2002, 2005 e 2008 (como controle). Dois testes com as redes neurais artificiais foram organizados mudando alguns parâmetros como: arquitetura, número de neurônios nas camadas ocultas e algoritmos de treinamentos. Quando comparados o valor dos resíduos entre a predição e a linha de costa de controle, os melhores resultados estatísticos indicam que o MAPE (mean absolute percentage error) são 0,28% utilizando a rede neural parcialmente recorrente de Elman com o algoritmo de treinamento quase-Newton e 0,46% para o caso da rede neural perceptron multicamadas com o algoritmo de treinamento utilizando o método Bayesiano com regularização.

Palavras-chaves: Mapeamento Costeiro; Modelagem Preditiva; Linha de Costa; Redes Neurais Artificiais.

ABSTRACT

The study of models using geodetic temporal data which can possibly predict the shoreline position is an important task and can significantly contribute to coastal management. The studied area is located at municipality of Matinhos in the Paraná State, Brazil. The temporal shoreline used to test the prediction model is respectively from analog photogrammetric data, related to the years 1954, 1963, 1980, 1991 and 1997, and GPS (Global Position System) geodetic surveys for 2001, 2002, 2005 and 2008 (as control). Two different tests with artificial neural network were organized setting the parameters like: architecture, number of neuron in hidden layers and the training algorithms. Comparing the residuals between the prediction to the shoreline of control, the best statistical results show the MAPE (Mean Absolute Percentage Error) is 0,28% using the Elman partially recurrent network with quasi-Newton training function and 0,46% using the neural network multilayer perceptron with Bayesian regulation training function.

Keywords: Coastal Mapping; Artificial Neural Network; Prediction Models; Shoreline.

1. Introdução

As ciências geodésicas têm um papel fundamental para mapear ambientes costeiros e através de mapeamentos históricos de linha de costa é possível verificar a dinâmica de um local em estudo.

O problema de erosão costeira é mundial. No Brasil, a ocupação desordenada vem agravando essa situação e centenas de praias estão sob problemas severos de erosão (ver SOUZA, 2009).

Internacionalmente o modelo preditivo mais aceito para movimentação de linha de costa é o de regressão linear, porém, para o estudo de ambientes costeiros é necessário fazer uso de dados e informações referentes à posição de linha de costa no passado, por exemplo, de 50, 60 anos atrás ou mais e estes dados dependem da qualidade da sua interpretação e extração. Na prática, quando dados antigos são agregados ao conjunto de observações temporais e não são tomados os devidos cuidados estes podem contribuir para representar predições fora da realidade.

Destaca-se que a hipótese de descartar dados antigos não é atraente para o ambiente costeiro, pois os dados antigos são de extrema importância para o resgate de informações. Justifica-se então trabalhar com todos os dados históricos da posição de linha de costa disponíveis, porém com modelos capazes de ponderar os dados antigos de forma eficaz.

A capacidade de uma rede neural artificial (RNA) em aprender através de um conjunto reduzido de exemplos, mapeando relações de entrada e saída e posteriormente dando respostas para dados não-conhecidos, demonstra o poder das RNAs como ferramenta computacional para solução de problemas complexos, por exemplo, robôs que desarmam bombas e mercado financeiro. Este atrativo é um diferencial em relação à computação convencional que necessita de algoritmos com regras rígidas e pré-fixadas (KRÖSE e SMAGT, 1996, HAYKIN, 1999, BRAGA et al., 2000).

Várias são as aplicações para RNAs, entre elas encontram-se a utilização para: reconhecimento de padrões (WALDEMARK et al., 1995), agrupamento de dados (GUERRA, 2006) processamento de sinais (FUJII, 1993), telecomunicações (GEROMEL, 2003), robótica (KUBOTA et al., 2003), tomada de decisões (MACIEL, 2005), predição (HAYATI e SHIRVANY, 2007) e assim como aplicações na área de ciências geodésicas (WANDRESEN, 2004, SOUZA, 2006, VAFEIDIS et al.,2007).

Detalhes da elaboração do modelo preditivo utilizando RNA, testes realizados e resultados experimentais encontrados com dados do município de Matinhos localizado na costa do estado do Paraná, Brasil, são apresentados neste trabalho.

2. Área de estudo e fonte de dados

A área de estudo refere-se a uma região costeira do litoral paranaense de aproximadamente 6 km de linha de costa no município de Matinhos (Figura 1).

A primeira etapa para predição da linha de costa exigiu esforços para resgatar e organizar os dados temporais em um ambiente chamado de Sistemas de Informações Geográficas (SIG) Costeiro de Matinhos-PR, (ver, GONÇALVES et al., 2008).

As linhas de costa temporais são os resultados de alguns trabalhos e projetos de pesquisas, entre eles cita-se o projeto DIAMAT (2000). Nele encontram-se as linhas de costa obtidas pela monorestituição digital (ver, MITISHITA, 1997) e dados referentes ao posicionamento relativo cinemático com receptores GPS (ver, KRUEGER et al., 2009).

Na Figura 2 (a) apresentam-se as linhas de costa temporais dos anos de 1954, 1963, 1980, 1991 e 1997 obtidas pela monorestituição digital. Na Figura 2 (b) apresentam-se as linhas de costa obtidas por posicionamentos relativos cinemáticos com o uso de receptores GPS para os anos de 2001, 2002, 2005 e 2008.

3. Redes neurais artificiais

Para configuração e elaboração de RNAs devem ser especificadas: as características dos neurônios, a topologia e as regras de treinamento. A adaptação dos pesos iniciais e a aprendizagem do seu comportamento são especificadas pelas regras de treinamento. Os algoritmos de treinamento (ou aprendizado) de uma RNA têm a característica de ajustar de forma iterativa os pesos das conexões entre os neurônios até que os pares de entradas e saídas esperados, no caso de aprendizado supervisionado, por exemplo, sejam obtidos e as relações matemáticas de causa e efeito possam ser estabelecidas. Quando a configuração de um determinado problema apresentado às RNAs muda e o modelo do desempenho não é mais adequado à situação é possível submeter a RNA a mais treinamentos com novas condições de entrada e saída para a melhora do seu desempenho (KRÖSE e SMAGT, 1996; HAYKIN, 1999). Existem também as redes neurais sem peso, onde a principal diferença entre as RNAs convencionais é a forma de armazenar informação (ver, BRAGA et al., 2000).

O primeiro modelo artificial de um neurônio biológico foi proposto no trabalho pioneiro de Warren McCulloch e Walter Pitts em 1943. O modelo esquemático de um neurônio artificial proposto por McCulloch-Pitts é uma simplificação do que se sabia, até então, a respeito do neurônio biológico. A Figura 3 apresenta o modelo geral de um neurônio artificial e nela é possível identificar três elementos básicos (ver, por exemplo em: KRÖSE e SMAGT, 1996; HAYKIN, 1999; ARBIB, 2003; BRAGA et al., 2000).

O primeiro elemento é um conjunto de sinapses ou elos de conexão, cada qual caracterizada por um peso, com k = 1 e j = 1,2, ..., m.

O segundo elemento diz respeito a um somatório para os sinais de entrada, ponderado pelas sinapses do neurônio (combinação linear), tal que

O terceiro elemento é uma função de ativação, que restringe a amplitude de saída de um neurônio, limitando o intervalo de saída para um valor finito

Um neurônio pode ser descrito matematicamente através das Equações 1 e 2, onde representa a função de ativação do neurônio artificial. Esta, existe para buscar um ajuste ótimo ou modelo para um problema.

Vários outros modelos, após o trabalho de McCulloch e Pitts, foram derivados permitindo saídas, não necessariamente iguais a 0 ou 1 e com diferentes funções de ativação.

A Figura 4 apresenta três tipos de funções de ativação. Em (a) a função logística sigmóide (logsig); (b) a função tangente hiperbólica (tansig); e em (c) a função linear de ativação (purelin).

A função logística sigmóide, Equação 3, pode assumir valores entre 0 e 1, onde é o parâmetro de inclinação da função sigmóide e é o valor de ativação do neurônio,

A Equação 4 representa a função tangente hiperbólica assumindo valores entre 1 e -1, onde é o parâmetro de inclinação da curva, são os limites inferiores e superiores e é o valor de ativação, ou seja,

A função de ativação linear é definida pela Equação 5 onde é um número real que define a saída linear para os valores de entrada, é a saída e é a entrada. Assim,

Um importante conceito de uma RNA é a definição da arquitetura, ou seja, a forma com que os neurônios em uma rede podem estar organizados, sendo este um parâmetro importante que restringe o tipo de problema que pode ser tratado na rede. RNAs com uma camada única de neurônios, por exemplo, só conseguem resolver problemas linearmente separáveis. Redes recorrentes, por sua vez, são mais apropriadas para resolver problemas que envolvem processamento temporal (BRAGA et al., 2000).

3.1 Aprendizado

As RNAs têm a capacidade de aprender através de exemplos e fazer interpolações e extrapolações do que aprenderam. Neste tipo de aprendizado conexionista, não se procura obter regras, mas sim determinar a intensidade de conexões entre neurônios. O conjunto de procedimentos bem-definidos para adaptar os parâmetros de uma RNA para que a mesma possa aprender uma determinada função se chama: algoritmo de aprendizado. Eles basicamente se diferem pela maneira que o ajuste dos pesos é feito, sendo assim existe um conjunto de ferramentas que são representadas por diversos algoritmos, onde cada um tem suas características que podem apresentar vantagens e desvantagens na solução de problemas (bRAGA et al., 2000).

Existem diversos tipos de métodos para treinamento de redes e estes são agrupados em dois tipos: o aprendizado supervisionado e aprendizado não supervisionado. Outros dois paradigmas conhecidos são os de aprendizado por reforço (que é um caso particular de aprendizado supervisionado) e aprendizado por competição (que é um caso particular de aprendizado não supervisionado) (bRAGA et al., 2000).

3.2 Perceptron multicamadas

As redes MLP (multilayer percepton) apresentam um poder computacional muito maior do que as redes sem camadas intermediárias, pois possuem a capacidade de tratar dados que não são linearmente separáveis (HAYKIN, 1999; ARBIB, 2003). Um dos principais aspectos deste tipo de rede esta relacionado com a função de ativação utilizada (bRAGA et al., 2000).

A MLP consiste de um conjunto de unidades sensoriais (neurônios de fonte) que compõe a camada de entrada, uma ou mais camadas ocultas de neurônios computacionais e uma camada de saída de neurônios computacionais. O sinal de entrada se propaga para frente camada por camada através da rede (KRÖSE e SMAGT, 1996).

3.3 Redes parcialmente recorrentes de Elman

Nas redes de Elman, além das unidades de entrada, intermediárias e de saída, há também as unidades chamadas de contexto, como no caso das redes parcialmente recorrentes em geral. As unidades de entrada e saída interagem com o ambiente externo, enquanto as unidades intermediárias e de contexto não o fazem. As unidades de entrada são apenas unidades de armazenamento que passam os sinais sem modificá-los. As unidades de saída são unidades lineares que somam os sinais que recebem. As unidades intermediárias podem ter funções de ativação lineares ou não-lineares, e as unidades de contexto são usadas apenas para memorizar as ativações anteriores das unidades intermediárias e podem ser consideradas como atraso no tempo em um passo. As conexões feedfoward são modificáveis, e as conexões recorrentes são fixas, motivo pelo qual a rede de Elman é apenas parcialmente recorrente (bRAGA et al., 2000).

Em um intervalo de tempo específico k, as ativações das unidades intermediárias (em k - 1) e as entradas correntes (em k) são utilizadas como entradas da rede. Em um primeiro estágio, feedforward, estas entradas são propagadas para frente para produzir as saídas. Posteriormente, a rede é treinada com o algoritmo de aprendizagem da retropropagação do erro padrão. Após este passo de treinamento, as ativações das unidades intermediárias no tempo k são reintroduzidas, através das ligações recorrentes nas unidades de contexto, sendo salvas nestas unidades para o próximo passo do treinamento (k + 1). No início do treinamento, as ativações das unidades intermediarias são desconhecidas e, geralmente são inicializadas para a metade do valor máximo que as unidades intermediárias podem ter (bRAGA et al., 2000).

Na Figura 5 apresenta-se a rede de Elman com duas camadas com realimentação da primeira camada de saída para a primeira camada de entrada.

As redes de Elman têm neurônios com a função tangente hiperbólica nas camadas ocultas (recorrentes) e neurônios com a função linear de ativação na camada de saída. Quando a função a ser ajustada aumenta sua complexidade é necessário aumentar o número de neurônios nas camadas ocultas.

Sua diferença para as redes convencionais está exatamente na conexão recorrente da primeira camada. O atraso nesta conexão armazena valores do passo inicial, que pode ser usado no passo corrente.

3.4 O algoritmo back-propagation

O algoritmo mais popular das RNAs é o de retropropagação do erro (error back-propagation), cuja fundamentação é corrigir os erros conforme a regra de aprendizagem. A maioria dos métodos de aprendizado para RNAs do tipo MLP utiliza variações deste algoritmo (bRAGA et al., 2000).

Sua aprendizagem consiste em dois passos através das diferentes camadas da rede, conforme o sentido (Figura 6): um passo á frente (forward), a propagação, e um passo para trás, a retropropagação (backward).

No passo para frente (forward) encontram-se os seguintes sub-passos (bRAGA et. at., 2000):

1.A entrada é apresentada à primeira camada da rede, a camada C⁰.

2.Para a camada Cⁱ a partir da camada de entrada, após os neurônios da camada Cⁱ (i >0) calcularem seus sinais de saída, estes servem como entrada para a definição das saídas produzidas pelos neurônios da camada Cⁱ⁺¹;

3. As saídas produzidas pelos nodos da última camada são comparadas às saídas desejadas.

A fase backward envolve as seguintes etapas (bRAGA et al., 2000):

1. A partir da última camada, até chegar na camada de entrada:

1.1 Os neurônios da camada atual ajustam seus pesos de forma a reduzir seus os erros nas respostas desejadas dos padrões.

1.2 O erro de um neurônio das camadas intermediárias é calculado utilizando os erros dos neurônios da camada seguinte conectados a ele, ponderados pelos pesos das conexões entre eles.

O algoritmo retropropagação do erro, que faz uso destas duas fases, é apresentado da seguinte maneira:

1.Iniciar os pesos.

2. Existem vários métodos para que o treinamento da rede seja encerrado. Entre os critérios de parada mais utilizados estão:

Repetir até a realização de um dado número de épocas (iterações);
Repetir até que a diferença entre os erros de duas iterações consecutivas seja próxima de zero ou ficar abaixo de uma constante, є;
encerrar o treinamento quando a porcentagem de classificações corretas estiver acima de uma constante (mais indicados para saídas binárias).

2.1 Para cada padrão de treinamento X.

2.1.1 Definir saída da rede através da fase forward.

2.1.2 Comparar saídas produzidas com saídas desejadas.

2.1.3 Atualizar pesos dos neurônios através da fase backward.

O algoritmo de retropropagação do erro é baseado na regra delta proposto por Windrow e Hoff (1960), sendo por isto também chamada de regra delta generalizado. Este algoritmo propõe uma forma de definir o erro dos nodos das camadas intermediárias, possibilitando o ajuste de seus pesos. Os ajustes dos pesos são realizados utilizando-se o método do gradiente.

A derivação da regra delta generalizada é semelhante à derivação da regra delta. A função custo a ser minimizada é uma função de erro, definida pela soma dos erros quadráticos e representada por

onde: E é a medida de erro total, p é o número de padrões, k é o número de unidades de saída, d_ié a i-ésima saída desejada e y_i é a i-ésima saída gerada pela rede. Esta equação define o erro total cometido pela rede, ou a quantidade em que, para todos os padrões p de um dado conjunto, as saídas geradas pela rede diferem das saídas desejadas.

A regra delta generalizada requer que as funções de ativação utilizadas pelos neurônios sejam contínuas, diferenciáveis e, geralmente, não-decrescentes da entrada total recebida pelo nodo. A Equação 7 ilustra o cálculo do valor de ativação, tal que

onde:

A constante n representa o número de conexões de entrada do neurônio j para camada seguinte e w_ji, os pesos entre estas conexões.

O algoritmo de retropropagação do erro apresenta uma série de dificuldades ou deficiências que desestimula uma maior disseminação do seu uso. O principal problema diz respeito à lentidão do algoritmo para superfícies mais complexas. Não é raro o algoritmo convergir para mínimos locais. Os mínimos locais são pontos na superfície de erro que apresentam uma solução estável, embora não sejam a saída correta. Desde que o algoritmo de retropropagação do erro foi popularizado algumas pesquisas vêm buscando técnicas tanto para acelerar o algoritmo quanto para reduzir a incidência de mínimos locais. Dentro destas técnicas destaca-se o algoritmo de Levenberg-Marquardt (HAGAN e MENHAJ, 1994).

O algoritmo de Levenberg-Marquardt é eficiente quando se trata de redes que não possuem mais do que algumas centenas de conexões a serem ajustadas (HAGAN e MENHAJ, 1994). Ele trabalha de forma a evitar mal-condicionamento de inversão de matrizes. A seguir são descritos alguns dos algoritmos de treinamento entre eles: Levenberg-Marquardt, método Bayesiano com regularizações e método quase-Newton.

3.5 Levenberg-Marquardt (LM)

O treinamento LM é uma função que atualiza os pesos e valores dos bias de acordo com a otimização LM. Freqüentemente é considerado como o mais rápido dos algoritmos de treinamento retropropagação do erro, porém requer mais memória computacional do que os outros algoritmos.

De acordo com Lera e Pinzolas (2002), as características principais do algoritmo LM são as seguintes:

No algoritmo LM, as mudanças nos pesos são obtidas solucionando,

onde é o erro médio quadrático da rede.

onde é o número de exemplos, é a saída da rede correspondente ao exemplo , e é a saída desejada para aquele exemplo.

Os elementos da matriz são dados por:

onde é o número de saídas da rede. Começando com pesos iniciais aleatórios, ambos e são calculados resolvendo a Equação 9. A correção para os valores dos pesos é obtida por , conhecido como época de aprendizado LM. Cada iteração com essas épocas reduz o erro até encontrar um mínimo. A variável na Equação 11 é o parâmetro que é ajustado a cada época de acordo com a evolução do erro. Mais detalhes de equacionamento do algoritmo LM podem ser encontrados, por exemplo, em (HAGAN e MENHAJ, 1994).

3.6 Método Bayesiano com regularizações

O método Bayesiano com regularizações é uma função que atualiza os pesos e valores dos bias de acordo com a otimização LM descritas nas Equações 9, 10 e 11. Tipicamente os algoritmos de treinamento têm como objetivo reduzir a soma dos erros quadráticos, entretanto a regularização adiciona mais um termo. Ela minimiza a combinação dos erros quadráticos e os pesos, para então produzir uma rede generalizada e com respostas mais suaves (MACKAY, 1992; FORESSE e HAGAN, 1997).

A função a ser minimizada neste caso é descrita pela seguinte equação (FORESSE e HAGAN, 1997):

onde e são os parâmetros ajustáveis no contexto do método Bayesiano de regularização, SSE é o somatório dos erros quadráticos e SSW o somatório dos pesos quadráticos. A solução e atualização dos dois parâmetros ajustados são realizadas aplicando a lei de Bayes (ver, por exemplo, MACKAY, 1992).

Os três métodos de treinamento apresentados estão presentes na NEURAL NETWORK TOOLBOX do software MATLAB o qual é utilizado para os experimentos propostos neste trabalho.

4. Experimento prático e características das redes neurais utilizadas

Inicialmente é necessário obter informações para servir de dados de entrada para as redes neurais. Nesta etapa todos os dados históricos foram colocados em camadas no AutoCad. Feito isto, foi escolhida, uma das linhas de costa para servir de referência para serem traçadas seções transversais a esta. No caso a primeira linha temporal obtida por GPS (2001) foi selecionada para ser como referência e a partir dela são traçadas seções transversais com uma distância fixa escolhida de 100 m. Para este estudo de caso foram desenhadas 57 linhas perpendiculares a linha de referência.

As coordenadas dos pontos de interseção das linhas temporais com as seções transversas são armazenadas. Com as coordenadas dos pontos de interseção são calculadas as distâncias em metros a partir de uma origem arbitrária para cada ponto. A Figura 7 apresenta os elementos auxiliares descritos anteriormente sobre uma imagem de satélite Ikonos em parte da área de estudo.

Os testes utilizando redes neurais estão divididos em dois. Todos com a característica de treinamento não-supervisionado. Ou seja, são fornecidas apenas informações para rede sobre as distâncias da linha de costa em relação à origem, formando um vetor de neurônios de entrada conforme cada seção transversal. A rede aprende relações conforme estas informações de entrada e descobre qual a saída para passos adiante que seria a predições de 2008. Os dados de 2008 não participam do treinamento e servem como controle para verificar a resposta encontrada pelo modelo preditivo. Destaca-se que nenhum tipo de peso é selecionado para os dados de entrada. Apresentam-se a seguir as características dos testes realizados.

4.1 Teste 1 COM RNA MLP Método Bayesiano com regularizações

No primeiro teste utilizou-se a arquitetura MLP e o Método Bayesiano com regularizações como algoritmo de treinamento, de acordo com as características descritas no Quadro 1.

4.2 Teste 2 - RNA Elman Quase-Newton

No segundo teste utilizou-se a arquitetura de Elman com o algoritmo de treinamento método quase-Newton, de acordo com as características descritas no Quadro 2:

4.3 Critérios de avaliação

Para avaliar a eficiência dos três métodos de predição, foram calculados:

(1) A média aritmética do desvio da linha de costa usada como controle conforme o levantamento efetuado por GPS em 2008. Isto foi calculado usando:

onde denota a distância de linha de costa predita em relação à linha de controle na i-ésima seção transversal, e o número de seções.

(2) O desvio padrão, medida mais comum da dispersão estatística, foi obtido através da raiz quadrada da variância da posição da linha de costa estimada através da seguinte equação:

(3) O erro médio quadrático médio, RMS (root mean square) da linha de costa é calculado para avaliar a respectiva eficácia do método. O RMS pode ser escrito como,

(4) O coeficiente de multicorrelação R² foi calculado para verificar o ajuste dos dados preditos com a linha de costa de controle usando a seguinte equação (Schaible e Lee, 1996):

(5) Finalmente, para verificar o desempenho dos modelos preditivos foi quantificado o erro de percentagem média absoluta (mean absolute percentage error) (MAPE), que representa uma estatística da medida de acurácia no ajustamento de dados de séries temporais, especialmente em predições e usualmente é expressado em termos de percentagem (HAYATI E SHIRVANY, 2007):

5. Resultados e discussões

O ano de 2008 foi selecionado para testar as modelagens em questão, ou seja, é retirada da modelagem a linha temporal de 2008 e posteriormente é efetuada uma predição para 2008 com o objetivo de comparar os resultados entre a linha de costa predita e observada por GPS em 2008.

A seguir os resultados e análises experimentais são apresentados:

O Quadro 3 apresenta os resultados para a rede neural artificial MLP, com o algoritmo de treinamento Bayesiano com regularizações. Os resíduos absolutos entre a diferença dos valores preditos e os valores reais de GPS 2008 utilizado como controle para o conjunto de 57 amostras utilizadas no estudo são apresentados. Este quadro está dividido em cinco colunas que representam diferentes processamentos variando os neurônios na camada oculta em 2, 4, 5 e 10 para verificar o comportamento quando este parâmetro é modificado.

Os valores do Quadro 4 foram calculados utilizando as Equações 15, 16, 17, 18 e 19 seguidos dos valores mínimos e máximos para os dados encontrados no Quadro 3.

O Quadro 5 apresenta os resultados para o teste 2 com a arquitetura de Elman e o o algoritmo de treinamento quase-Newton.

O Quadro 6 apresenta os resultados estatísticos para o teste 2.

Analisando-se os resultados é possível chegar às seguintes conclusões:

a) A escolha da arquitetura da rede, do modelo de treinamento e dos neurônios nas camadas ocultas são fatores importantes e influenciam na resposta do modelo de predição.

c) O teste 1, que apresenta a RN MLP através do método de treinamento Bayesiano com regularização, teve variações significativas quando modificado os números de neurônios nas camadas ocultas e o melhor resultado encontrado foi para 5 neurônios com as seguintes estatísticas quando comparada com a linha de costa de controle (máximo valor; mínimo valor; média aritmética; desvio padrão; RMS; R²; MAPE), (18,40 m; 0,02 m; 5,22 m; 5,61 m; 7,50 m; 99,38%; 0,46%). Os demais testes para este caso fugiram completamente da realidade.

d) Para o teste 2 com a rede de Elman, obteve-se pequenas variações quando são modificados os neurônios na camada oculta com o MAPE variando de 0,28% para 10 neurônios na camada oculta; 0,29% para 5; 0,37% para 4 e 0,42% para 2 conforme o quadro 6.

e) Os melhores resultados encontrados com RN de Elman, foram com 10 neurônios na camada oculta apresentando os seguintes resultados (máximo valor; mínimo valor; média aritmética; desvio padrão; RMS; R²; MAPE), (12,37 m; 0,06 m; 3,22 m; 3,21 m; 4,45 m; 99,78%; 0,28%).

Douglas e Crowell (2000) apontam que é viável a elaboração de modelos preditivos com precisão no nível de dezenas de metros, pois se deve considerar a variabilidade inerente da posição da linha de costa. No trabalho de Crowell et al. (1991) estima-se que o erro posicional envolvido na extração da linha de costa a partir de fotografias aéreas verticais históricas é em torno de 8 m.

6. Conclusões

O primeiro teste com as redes neurais teve a intenção de utilizar a arquitetura MLP e o treinamento Bayesiano com regularizações. Neste teste com 2, 4 e 10 neurônios nas camadas ocultas os resultados foram muito distantes da linha de controle. Porém com 5 neurônios na camada oculta encontrou-se um resultado considerado bom apresentando um uma média aritmética de 5,22 m com desvio-padrão de 5,61 m e o resíduo máximo de 18,40 m.

No segundo teste utilizando a rede de Elman e o treinamento quase-Newton encontrou-se um resíduo máximo de 12,37 m e uma média aritmética de 3,22 m com desvio-padrão de 3,21 m, para o caso de 10 neurônios na camada oculta.

Os parâmetros R² e MAPE indicam que a melhor correlação entre a linha de costa predita de 2008 com a linha de costa de controle para o mesmo ano ocorreu com o modelo utilizando o teste 2 com a rede de Elman, obtendo os seguintes valores: 99,78% para o R² e 0,28% para o MAPE.

Destacam-se dois problemas referentes à qualidade dos dados temporais que normalmente ocorrem com modelos preditivos de linha de costa:

1. Os dados são pobremente amostrados.

2. Não existe uma regularidade entre os espaçamentos na aquisição dos dados temporais.

Mesmo levando-se em conta esses problemas citados anteriormente e as incertezas no processo de extração de linha de costa através de documentos cartográficos antigos, as redes neurais artificiais são uma boa alternativa quando várias configurações podem ser testadas em busca de um modelo preditivo para linha de costa.

Agradecimentos

RMG agradece a bolsa de doutorado do CNPq e a bolsa CAPES recebida durante o período de doutorado sanduíche pelo projeto PROBRAL realizado no GIK (Geodetic Institute Karlsruhe), Alemanha.

(Recebido em dezembro de 2010. Aceito em abril de 2010)

ARBIB, M. A. The handbook of brain theory and neural networks. Massachusetts Institute of Technology, 2003. 1309p.
Braga, a. de p.; carvalho a. p. de l. f.; ludemir, t. b. Redes Neurais Artificiais: Teoria e Aplicaçőes LTC - Livros Técnicos e Científicos Editora S.A., 2000. 262p.
Crowell, M.; Letherman, S. P.; Buckley, M. K.; Historical shoreline change: error analysis and mapping accuracy. Journal of Coastal Research, v. 7, n. 3, 1991. p. 839-852.
DIAMAT. Determinaçăo do Impacto Ambiental Decorrente da Açăo Antrópica na Linha Costeira da Regiăo de Matinhos. Relatório Técnico Coordenador: Prof. Dra. Cláudia Pereira Krueger. Universidade Federal do Paraná, 2000.
Douglas, B. C.; Crowell, M. Long-term shoreline position prediction and error propagation. Journal of Coastal Research, v. 16, n. 1, 2000. p. 145-152.
FLETCHER, R.; POWELL, M. J. D. A rapidly convergent descent method for minimization, Computer Journal, v. 7, 1963. p. 149-154.
FORESEE, F. D.; HAGAN, M. T. Gauss-Newton Approximation to Bayesian Regularization, International Joint Conference on Neural Networks, 1997. p. 1930-1935.
FUJII, S. Neural network signal processing for HF ocean radar. International Geoscience and Remote Sensing Symposium of Earth Environment, IGARSS´93 Better Understanding of Earth Environment, v. 1, 1993. p. 212-214.
GEROMEL, L. H. Aplicaçăo de sistemas inteligentes em projetos de transformadores de potęncia. Tese (Doutorado), Faculdade de Engenharia Elétrica e de Computaçăo. UNICAMP, 2003. 144p.
GUERRA F. A. Análise de métodos de agrupamento para o treinamento de redes neurais de base radial aplicadas ŕ identificaçăo de sistemas. Dissertaçăo (Mestrado) Programa de Pós-Graduaçăo em Engenharia de Produçăo e Sistemas. PUC-PR, 2006. 131p.
GOLDFARB, D. A family of variable metric methods derived by variational means, Mathematics of Computation, v. 24, 1970. p. 23-26.
GONÇALVES, R. M.; KRUEGER, C. P.; TANAJURA, E. L. X.; LEANDRO, D.; HUINCA, S. M. Mapeamento Costeiro Cadastral de Linha de Costa. In: COBRAC, 2008, Florianópolis. Anais do VIII Congresso de Cadastro Técnico Multifinalitário e Gestăo Territorial, 2008.
Hagan, M. T.; MENHAJ M. B. Training feedforward networks with the Marquardt algorithm. IEE Transactions on Neural Networks, v. 5, n. 6, 1994. p. 989-993.
HAYATI, M.; SHIRVANY Y. Artificial neural network approach for short term load forecasting for Illam region. World Academy of Science, Engineering and Technology, n. 28, 2007. p. 280-284.
HAYKIN, S. Neural Networks A comprehensive foundation. McMaster University Hamilton, Ontario, Canada, Pearson Education, 1999. 823p.
KRÖSE, B.; SMAGT P. V. D. An introduction to Neural Networks. The University of Amsterdam. Eighth edition, 1996. 136p.
KRUEGER, C. P.; GONÇALVES, R. M.; HECK, B. Surveys at the Coast of Parana, Brazil, to Determinate the Temporal Coastal Changes. Journal of Coastal Research, v. 1, 2009. p.632-635.
KUBOTA, N.; HASHIMOTO, S.; KOJIMA, F. A sensory network for perception-based robotics using neural networks. IEEE International Joint Conference on Neural Networks, v. 4, 2003. p. 3151-3156.
lera, g.; PINZOLAS M. Neighborhood based Levenberg-Marquardt algorithm for neural network training. IEE Transactions on Neural Networks, v. 13, n. 5, 2002. p. 1200-1203.
MACIEL, J. Análise de um sistema de crédito cooperativo através de redes neurais (MLP) com a utilizaçăo do algoritmo Levenberg Marquardt. Dissertaçăo (Mestrado) Programa de Pós-Graduaçăo em Métodos Numéricos em Engenharia UFPR, 2005. 87p.
MACKAY, D. J. C. Bayesian interpolation, Neural Computation, v. 4, 1992. p. 415-447.
Mitishita, E. A. Monorrestituiçăo digital de fotos associada com sistema de computaçăo gráfica CAD, para fins de mapeamento na área florestal. Tese (Doutorado) Programa de Pós-Graduaçăo em Engenharia Florestal, UFPR, 1997.
Neural Network Toolbox, The MathWorks^TM - Accelerating the pace of engineering and science Comunicação do software Matlab disponível em: http://www.mathworks.com/access/helpdesk/help/toolbox/nnet/index.html?/access/helpdesk/help/toolbox/nnet/function.html#9361 Acesso em: 05/06/2009
SCHAIBLE, B.; LEE, Y. C. Fuzzy logic models with improved accuracy and continuous differentiability. IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part C, v. 19, n. 1, 1996. p. 37-47.
SHANNO, D. F. Conditioning of quasi-Newton methods for function minimization, Mathematics of Computation, v. 24, 1970. p. 145-160.
SOUZA, C. R. G. Coastal erosion and the coastal zone management challenges in Brazil. Journal of Integrated Coastal Zone Management v. 9, n.1, 2009. p. 17-37.
SOUZA, E. C. B. Metodologia para modelagem do relevo oceânico usando redes neurais artificiais. Tese (Doutorado) Programa de Pós-Graduaçăo em Cięncias Geodésicas UFPR, 2006. 208p.
TAN, G.; HUIMIN S.; WANG F.; DENG C. Short-term traffic flow prediction based on parallel quasi-Newton neural network, International Conference on Measuring Technology and Mechatronics Automation, v. 3, 2009. p. 305-308.
VAFEIDIS, A. T.; KOUKOULAS, S.; GATSIS, I.; GKOLTSIU, K. Forecasting land-use changes with the use of neural networks and GIS, Geoscience and Remote Sensing Symposium. IEEE International, 2007. p. 5068-5071.
WALDEMARK, J.; DOVNER P. O.; KARLSSON J. Hybrid neural network pattern recognition system for satellite measurements. IEEE International Conference on Neural Networks, v. 1, n. 1, 1995. p. 195-199.
WANDRESEN, R. Integraçăo entre redes neurais e correlaçăo para identificar pontos de apoio pré-sinalizados. Tese (Doutorado) Programa de Pós-Graduaçăo em Cięncias Geodésicas UFPR, 2004. 141p.
Windrow, B.; HOFF M. E. Adaptative switching circuits. Institute of Radio Engineers, Western Electronic Show and Convention, 1960 p. 96-104.

Datas de Publicação

Publicação nesta coleção
15 Fev 2012
Data do Fascículo
Set 2010

Histórico

Recebido
Dez 2010
Aceito
Abr 2010

This work is licensed under a Creative Commons Attribution 4.0 International License.

[1] ARBIB, M. A. The handbook of brain theory and neural networks. Massachusetts Institute of Technology, 2003. 1309p.

[2] Braga, a. de p.; carvalho a. p. de l. f.; ludemir, t. b. Redes Neurais Artificiais: Teoria e Aplicaçőes LTC - Livros Técnicos e Científicos Editora S.A., 2000. 262p.

[3] Crowell, M.; Letherman, S. P.; Buckley, M. K.; Historical shoreline change: error analysis and mapping accuracy. Journal of Coastal Research, v. 7, n. 3, 1991. p. 839-852.

[4] DIAMAT. Determinaçăo do Impacto Ambiental Decorrente da Açăo Antrópica na Linha Costeira da Regiăo de Matinhos. Relatório Técnico Coordenador: Prof. Dra. Cláudia Pereira Krueger. Universidade Federal do Paraná, 2000.

[5] Douglas, B. C.; Crowell, M. Long-term shoreline position prediction and error propagation. Journal of Coastal Research, v. 16, n. 1, 2000. p. 145-152.

[6] FLETCHER, R.; POWELL, M. J. D. A rapidly convergent descent method for minimization, Computer Journal, v. 7, 1963. p. 149-154.

[7] FORESEE, F. D.; HAGAN, M. T. Gauss-Newton Approximation to Bayesian Regularization, International Joint Conference on Neural Networks, 1997. p. 1930-1935.

[8] FUJII, S. Neural network signal processing for HF ocean radar. International Geoscience and Remote Sensing Symposium of Earth Environment, IGARSS´93 Better Understanding of Earth Environment, v. 1, 1993. p. 212-214.

[9] GEROMEL, L. H. Aplicaçăo de sistemas inteligentes em projetos de transformadores de potęncia. Tese (Doutorado), Faculdade de Engenharia Elétrica e de Computaçăo. UNICAMP, 2003. 144p.

[10] GUERRA F. A. Análise de métodos de agrupamento para o treinamento de redes neurais de base radial aplicadas ŕ identificaçăo de sistemas. Dissertaçăo (Mestrado) Programa de Pós-Graduaçăo em Engenharia de Produçăo e Sistemas. PUC-PR, 2006. 131p.

[11] GOLDFARB, D. A family of variable metric methods derived by variational means, Mathematics of Computation, v. 24, 1970. p. 23-26.

[12] GONÇALVES, R. M.; KRUEGER, C. P.; TANAJURA, E. L. X.; LEANDRO, D.; HUINCA, S. M. Mapeamento Costeiro Cadastral de Linha de Costa. In: COBRAC, 2008, Florianópolis. Anais do VIII Congresso de Cadastro Técnico Multifinalitário e Gestăo Territorial, 2008.

[13] Hagan, M. T.; MENHAJ M. B. Training feedforward networks with the Marquardt algorithm. IEE Transactions on Neural Networks, v. 5, n. 6, 1994. p. 989-993.

[14] HAYATI, M.; SHIRVANY Y. Artificial neural network approach for short term load forecasting for Illam region. World Academy of Science, Engineering and Technology, n. 28, 2007. p. 280-284.

[15] HAYKIN, S. Neural Networks A comprehensive foundation. McMaster University Hamilton, Ontario, Canada, Pearson Education, 1999. 823p.

[16] KRÖSE, B.; SMAGT P. V. D. An introduction to Neural Networks. The University of Amsterdam. Eighth edition, 1996. 136p.

[17] KRUEGER, C. P.; GONÇALVES, R. M.; HECK, B. Surveys at the Coast of Parana, Brazil, to Determinate the Temporal Coastal Changes. Journal of Coastal Research, v. 1, 2009. p.632-635.

[18] KUBOTA, N.; HASHIMOTO, S.; KOJIMA, F. A sensory network for perception-based robotics using neural networks. IEEE International Joint Conference on Neural Networks, v. 4, 2003. p. 3151-3156.

[19] lera, g.; PINZOLAS M. Neighborhood based Levenberg-Marquardt algorithm for neural network training. IEE Transactions on Neural Networks, v. 13, n. 5, 2002. p. 1200-1203.

[20] MACIEL, J. Análise de um sistema de crédito cooperativo através de redes neurais (MLP) com a utilizaçăo do algoritmo Levenberg Marquardt. Dissertaçăo (Mestrado) Programa de Pós-Graduaçăo em Métodos Numéricos em Engenharia UFPR, 2005. 87p.

[21] MACKAY, D. J. C. Bayesian interpolation, Neural Computation, v. 4, 1992. p. 415-447.

[22] Mitishita, E. A. Monorrestituiçăo digital de fotos associada com sistema de computaçăo gráfica CAD, para fins de mapeamento na área florestal. Tese (Doutorado) Programa de Pós-Graduaçăo em Engenharia Florestal, UFPR, 1997.

[23] Neural Network Toolbox, The MathWorks^TM - Accelerating the pace of engineering and science Comunicação do software Matlab disponível em: http://www.mathworks.com/access/helpdesk/help/toolbox/nnet/index.html?/access/helpdesk/help/toolbox/nnet/function.html#9361 Acesso em: 05/06/2009

[24] SCHAIBLE, B.; LEE, Y. C. Fuzzy logic models with improved accuracy and continuous differentiability. IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part C, v. 19, n. 1, 1996. p. 37-47.

[25] SHANNO, D. F. Conditioning of quasi-Newton methods for function minimization, Mathematics of Computation, v. 24, 1970. p. 145-160.

[26] SOUZA, C. R. G. Coastal erosion and the coastal zone management challenges in Brazil. Journal of Integrated Coastal Zone Management v. 9, n.1, 2009. p. 17-37.

[27] SOUZA, E. C. B. Metodologia para modelagem do relevo oceânico usando redes neurais artificiais. Tese (Doutorado) Programa de Pós-Graduaçăo em Cięncias Geodésicas UFPR, 2006. 208p.

[28] TAN, G.; HUIMIN S.; WANG F.; DENG C. Short-term traffic flow prediction based on parallel quasi-Newton neural network, International Conference on Measuring Technology and Mechatronics Automation, v. 3, 2009. p. 305-308.

[29] VAFEIDIS, A. T.; KOUKOULAS, S.; GATSIS, I.; GKOLTSIU, K. Forecasting land-use changes with the use of neural networks and GIS, Geoscience and Remote Sensing Symposium. IEEE International, 2007. p. 5068-5071.

[30] WALDEMARK, J.; DOVNER P. O.; KARLSSON J. Hybrid neural network pattern recognition system for satellite measurements. IEEE International Conference on Neural Networks, v. 1, n. 1, 1995. p. 195-199.

[31] WANDRESEN, R. Integraçăo entre redes neurais e correlaçăo para identificar pontos de apoio pré-sinalizados. Tese (Doutorado) Programa de Pós-Graduaçăo em Cięncias Geodésicas UFPR, 2004. 141p.

[32] Windrow, B.; HOFF M. E. Adaptative switching circuits. Institute of Radio Engineers, Western Electronic Show and Convention, 1960 p. 96-104.