Acessibilidade / Reportar erro

Comparação de Metodologias de Preenchimento de Falhas em Dados Meteorológicos para Estações no Sul do Brasil

Comparison of Gap Filling Methodologies for Meteorological Data in Southern Brazil Stations

Resumo

A rede de estações meteorológicas no Brasil é muito recente, com poucas estações no país com mais de 100 anos de dados. Além disso, muitas das séries oriundas destas estações apresentam falhas, seja por falta de medição (no caso das estações convencionais), seja por falha nos equipamentos (no caso das estações automáticas). Encontram-se diferentes métodos na literatura para o preenchimento destas falhas. Neste trabalho são comparados seis métodos, os quais foram aplicados a séries de dados mensais conhecidas de temperatura média compensada e precipitação para estações meteorológicas localizadas no estado do Rio Grande do Sul, região sul do Brasil. Os resultados para temperatura média compensada indicaram os métodos de regressão linear múltipla e ponderação regional como os mais adequados para estimativas de dados faltantes enquanto que para precipitação não houve um método a se sobressair.

Palavras-chave:
estações meteorológicas; dados faltantes; métodos de preenchimento de falhas; temperatura média compensada; precipitação

Abstract

The network of weather stations in Brazil is very recent, with few stations in the country possessing data over more than 100 years. In addition, many of the series from these stations present missing data, either due to lack of measurement (in the case of conventional stations) or due to equipment failures (in the case of automatic stations). There are different methods in the literature for filling these gaps. In this work, six methods are compared and applied to series of known monthly data for mean compensated temperature and precipitation for weather stations located in the State of Rio Grande do Sul, in Southern Brazil. The results for mean compensated temperature suggest that multiple linear regression methods and regional weighing are best suited for estimating missing data, while for precipitation there was no superior method.

Keywords:
meteorological stations; missing data; gap filling methodologies; compensated mean temperature; precipitation

1. Introdução

Um dos grandes problemas que surgem ao se trabalhar com dados medidos em estações meteorológicas é a incompletude destes. Esta falta de informações pode ser devido a uma falha no equipamento (se este for automático) ou a uma falta de observador (se esta for uma estação convencional). Como estes dados serão utilizados para diversos fins de pesquisa, a necessidade de métodos para preencher estas falhas é de grande interesse. Há uma ampla variedade de métodos para o preenchimento destas lacunas, desde técnicas simples como o cálculo da média aritmética entre dados oriundos de estações vizinhas, até métodos mais apurados, como redes neurais, as quais são caracterizadas por algoritmos computacionais robustos. De forma geral, os métodos são baseados em fórmulas estatísticas ou em algoritmos elaborados com o intuito de gerar estimativas para os dados faltantes.

Atualmente com a necessidade de se estimar diversas variáveis meteorológicas, uma gama de métodos de preenchimento de falhas tem sido testada. Moffat et al. (2007), analisou 15 técnicas diferentes de preenchimento de dados de NEE (Net Ecosystem CO2 Exchange). Eles mostraram que técnicas de regressão não-linear, look-up table, amostragem de distribuição marginal e o modelo semiparamétrico geralmente demonstram bom desempenho. A rede neural artificial (RNA) foi ligeiramente superior às outras técnicas, enquanto que a técnica de interpolação simples mostrou um desempenho moderado, mas consistente. Várias técnicas sofisticadas, como o filtro de Kalman, o método de imputação múltipla (MIM), entre outras, apresentaram baixa confiabilidade para valores anuais, indicando que o desenvolvimento adicional poderá ser necessário.

A sociedade americana de engenheiros civis (ASCE) sugere que, embora o desempenho de uma RNA para estimar dados ausentes de precipitação já tenha sido verificado, uma solução alternativa deve ser sugerida para os casos em que os dados disponíveis são insuficientes devido à dependência das RNAs de dados de alta qualidade e quantidade (Lee e Kang, 2015LEE, H.; KANG, K. Interpolation of Missing Precipitation Data Using Kernel Estimations for Hydrologic Modeling. Advances in Meteorology, v. 2015, 2015.). Neste mesmo estudo os autores propõem cinco diferentes funções de Kernel para estimar dados faltantes, com resultados de alta qualidade provindos de interpolação. Aly et al. (2009)ALY, A.; PATHAK, C.; TEEGAVARAPU, R.S.V.; ALQUIST, J.; FUELBERG, H. Evaluation of improvised spatial interpolation methods for infilling missing precipitation records. In:World Environment Water Resources Congress 2009: Great Rivers. 2009. p. 1-10., avaliou diferentes interpolações utilizando métodos determinísticos e estocásticos para preencher dados diários de precipitação. Xia et al. (1999)XIA, Y.; FABIAN, P.; STOHL, A.; WINTERHALTER, M. Forest climatology: estimation of missing values for Bavaria, Germany. Agricultural and Forest Meteorology, v. 96, n. 1, p. 131-144, 1999. utilizaram seis métodos para interpolar dados de temperatura, pressão de vapor, vento e precipitação. Eles utilizaram métodos simples como a média aritmética simples, o método do inverso da distância, o método da razão normal e o melhor estimador simples, assim como métodos mais robustos como regressão linear múltipla e mínimo desvio absoluto. Eles concluíram que, para a precipitação média, os seis métodos apresentam resultados similares. O método do inverso da distância ponderada também é testado em Teegavarapu e Chandramouli (2005)TEEGAVARAPU, R.S.V.; CHANDRAMOULI, V. Improved weighting methods, deterministic and stochastic data-driven models for estimation of missing precipitation records. Journal of Hydrology, v. 312, n. 1, p. 191-206, 2005., onde, além deste, os autores utilizam outros três métodos para estimar precipitação, sendo estes o método ponderado do coeficiente de correlação, a RNA e o método estimador de Kriging, onde estes três últimos apresentaram os melhores resultados. Beckers e Rixen (2003)BECKERS, J.; RIXEN, M. EOF Calculations and Data Filling from Incomplete Oceanographic Datasets*. Journal of Atmospheric and Oceanic Technology, v. 20, n. 12, p. 1839-1856, 2003. sugerem o uso de diferentes métodos multivariados (SVD, EOF, POD, etc.) para o preenchimento de falhas em dados meteorológicos e oceânicos. Os autores sugerem que estes métodos são mais simples por não necessitarem de nenhuma calibração prévia.

Este artigo discute a aplicabilidade de seis métodos de preenchimento de falhas em dados para estações meteorológicas do estado brasileiro do Rio Grande do Sul. Os métodos utilizados são os seguintes: regressão linear múltipla (Tabony, 1983TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983.), ponderação regional (Bertonni e Tucci, 2007BERTONI, J.C.; TUCCI, C.E.M. Precipitação. In: TUCCI, C.E.M. Hidrologia: Ciência e Aplicação. Porto Alegre: UFRGS, 2007. p.177-241.; Alves et al., 2006ALVES, A.; KOBIYAMA, M.; SILVA, R.V.; CHECCHIA, T. Análise de dados hidrológicos na região do município de Alfredo Wagner/SC. In: Simpósio de Recursos Hídricos do Sul, 1, 2006, Curitiba. Anais… Porto Alegre: Associação Brasileira de Recursos Hídricos, 2006. CD-Rom. apud Oliveira et al., 2010OLIVEIRA, L.F.C.; FIOREZE, A.P.; MEDEIROS, A.M.M.; SILVA, M.A.S. Comparação de metodologias de preenchimento de falhas de séries históricas de precipitação pluvial anual. Revista Brasileira de Engenharia Agrícola e Ambiental, v. 14, n. 11, p. 1186-1192, 2010.; Paulhus e Kohler, 1952PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952.), interpolação do inverso da distância (Hubbard, 1994HUBBARD, K.G. Spatial variability of daily weather variables in the high plains of the USA. Agricultural and Forest Meteorology, v. 68, n. 1, p. 29-41, 1994.), método da razão normal (Paulhus e Kohler, 1952PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952.; Young, 1992YOUNG, K.C. A three-way model for interpolating for monthly precipitation values. Monthly Weather Review, v. 120, n. 11, p. 2561-2569, 1992.), método tradicional do Reino Unido (Tabony, 1983TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983.) e média aritmética simples. Eles foram testados em séries mensais de temperatura média compensada e precipitação, porém a aplicabilidade deles pode se estender a outros parâmetros meteorológicos. Para cada um dos parâmetros meteorológicos utilizados (temperatura média compensada e precipitação) é retirado um ano de dados mensais de estações meteorológicas testes e através dos métodos de preenchimento de falhas são criadas estimativas para substituir os dados retirados. Desta forma as estimativas podem ser avaliadas comparando-as com os dados originalmente registrados.

2. Metodologia

2.1. Dados

Os dados utilizados neste trabalho são oriundos das estações convencionais do Instituto Nacional de Meteorologia (INMET), disponibilizados no Banco de Dados Meteorológicos para Ensino e Pesquisa (BDMEP), além de estações pertencentes à Agência Nacional de Águas (ANA) e a Companhia Estadual de Energia Elétrica (CEEE). Foram utilizadas séries mensais de temperatura média compensada (TMC) e precipitação, com o período utilizado sendo entre os anos de 2003 e 2012. A TMC é descrita pela seguinte fórmula:

(1) T M C = ( T max + T min + T 12 + 2 T 24 ) / 5

sendo, TMC a temperatura média compensada, Tmin é a temperatura mínima do dia, Tmax a temperatura máxima do dia, T12 a temperatura às 12 UTC e T24 a temperatura às 0 UTC.

Para podermos analisar os métodos de preenchimento de falhas de dados, se fazem necessárias estações meteorológicas testes. Para cada uma destas estações é retirado o período de um ano de dados mensais da série original e posteriormente são realizadas estimativas pelos diferentes métodos para substituir a série ao longo deste período. Os métodos, por sua vez, ao realizarem os cálculos das estimativas, necessitam de dados de estações vizinhas à estação teste. Desta forma, para ambas as variáveis, foram selecionadas como estações testes as seguintes estações meteorológicas convencionais do INMET: Porto Alegre, Bagé, Santa Maria e Lagoa Vermelha, todas localizadas no estado brasileiro do Rio Grande do Sul. Um mapa com a localização destas estações pode ser visualizado na Fig. 1.

Figura 1
Localização das estações testes sobre o estado brasileiro do Rio Grande do Sul: 1) Porto Alegre, 2) Bagé, 3) Santa Maria e 4) Lagoa Vermelha. Sigla de estados: RS (Rio Grande do Sul), SC (Santa Catarina), PR (Paraná). Sigla de países: PAR (Paraguai), ARG (Argentina), URU (Uruguai).

Conforme Tabony (1983)TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983., alguns fatores importantes hão de ser levados em conta na escolha das estações vizinhas:

  • Cada parâmetro meteorológico deve ser estimado separadamente. Ou seja, as estações vizinhas usadas para um parâmetro (precipitação), não necessariamente serão as melhores a serem usadas para outro parâmetro (temperatura).

  • As estações vizinhas devem ser selecionadas de acordo com a correlação total (r) com a estação teste. Observa-se que maiores correlações entre as estações vizinhas e teste tendem a gerar melhores estimativas.

  • Uma dependência direcional pode ser imposta, isto é, se, por exemplo, doze estações vizinhas forem escolhidas que ao menos duas estejam em cada quadrante. Mas há de se levar em conta que nem sempre este esquema pode ser aplicado (por exemplo, próximo a regiões litorâneas).

  • No cálculo das estimativas são levados em conta apenas os meses em que há sobreposição entre os dados da estação teste e estações vizinhas.

Considerando-se estes fatores, em um primeiro momento a seleção das estações vizinhas para cada variável meteorológica foi feita da seguinte maneira:

  • TMC: foram selecionadas as doze estações vizinhas com maior correlação com a estação teste em um raio de 400 km partindo-se da estação teste.

  • Precipitação: foram selecionadas as doze estações vizinhas com maior correlação com a estação teste em um raio de 100 km partindo-se da estação teste.

A diferença no tamanho dos raios escolhidos entre as duas variáveis se dá, principalmente, devido à precipitação ser um parâmetro mais variável espacial e temporalmente do que a temperatura, possuindo assim uma perda muito maior na correlação entre a estação teste e a estação vizinha com a distância, e também por serem estas as distâncias mínimas para que todas as estações testes possuíssem o mínimo de doze estações vizinhas na região de estudo. Na Tabela 1 são listadas todas as estações (testes e vizinhas) utilizadas para a variável de TMC, assim como orgão pertencente, coordenadas geográficas e altitude de cada uma. As estações vizinhas ordenadas de acordo com a correlação com a estação teste são listadas na Tabela 2. Nas Tabelas 3 e 4 usa-se o mesmo molde das Tabelas 1 e 2 respectivamente, só que para a variável de precipitação. Nas Figs. 2 e 3 são mostradas a localização e a correlação das estações vizinhas com suas estações testes para as variáveis de TMC e precipitação respectivamente, onde se observam valores típicos da ordem de 0,9 para a correlação entre estações testes e vizinhas para a variável de TMC, e da ordem de 0,8 para a variável de precipitação, mesmo com os dados de TMC sendo espacialmente mais espaçados com relação aos de precipitação. Na seção de resultados e discussões, os números de estações vizinhas utilizadas serão reavaliados com intuito de definir o número mais adequado na estimativa de cada variável.

Figura 2
Localização e valores de correlação das estações vizinhas com relação à estação teste (E.T.) para a variável de TMC. Estações testes: a) Porto Alegre, b) Bagé, d) Santa Maria e d) Lagoa Vermelha.
Figura 3
Localização e valores de correlação das estações vizinhas com relação à estação teste (E.T.) para a variável de precipitação. Estações testes: a) Porto Alegre, b) Bagé, d) Santa Maria e d) Lagoa Vermelha.
Tabela 1
Estações meteorológicas utilizadas para TMC. As estações listadas em negrito correspondem às estações testes.
Tabela 2
Estações vizinhas utilizadas por cada uma das estações testes para a variável de TMC com base na numeração exibida na Tabela 1. São utilizadas as seguintes abreviações para as estações testes: Porto Alegre (PA), Bagé (BG), Santa Maria (SM) e Lagoa Vermelha (LV).
Tabela 3
Estações meteorológicas utilizadas para precipitação. As estações listadas em negrito correspondem às estações testes. As abreviações são referentes aos municípios: Bagé-RS (BG), Cachoeira do Sul-RS (CS), Casca-RS (CC), Dom Pedrito-RS (DP), Gravataí-RS (GT), Ibiaçá-RS (IB), Jaguari-RS (JG), Júlio de Castilhos (JC), Lagoa Vermelha-RS (LV), Lavras do Sul-RS (LS), Montenegro-RS (MT), Pinheiro Machado-RS (PM), São Gabriel-RS (SG), São Jerônimo (SJ), São Pedro do Sul-RS (SP), Tupanciretã-RS (TP) e Viamão-RS (VI)
Tabela 4
Estações vizinhas utilizadas por cada uma das estações testes para a variável de precipitação com base na numeração exibida na Tabela 3. São utilizadas as seguintes abreviações para as estações testes: Porto Alegre (PA), Bagé (BG), Santa Maria (SM) e Lagoa Vermelha (LV).

Vários dos métodos de preenchimento de falhas utilizados necessitam de um período de alguns anos de dados para a realização de médias, correlações e regressões que são utilizadas nos cálculos das estimativas. Para que as estimativas sejam consistentes, existe a necessidade de que haja uma boa disponibilidade de dados neste período, tanto nas estações teste quanto nas estações vizinhas. Portanto o período de dados tem que ser escolhido de forma que não haja uma grande quantidade de dados faltantes. Tabony (1983)TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983. sugere a utilização de um período de pelo menos 10 anos e com ao menos 50% dos dados disponíveis ao longo desse período. Desta forma, foi selecionado o período de dez anos de dados entre os anos de 2003 e 2012, devido a todas as estações apresentarem mais de 85% de seus dados disponíveis tanto para TMC quanto para precipitação durante esse intervalo de tempo. Para a avaliação dos métodos, os dados mensais de TMC e precipitação do ano de 2004 das estações testes foram retirados e substituídos pelas estimativas geradas pelos diferentes métodos, que desta maneira podem ser avaliados através de erros estatísticos entre a estimativa e o dado original. Tal ano foi escolhido por apresentar todos os dados disponíveis nas estações testes, tanto para precipitação quanto para TMC, possibilitando assim a avaliação das estimativas a partir de erros estatísticos e também pelas estações vizinhas apresentarem boa disponibilidade de dados, os quais são utilizados nos cálculos das estimativas.

2.2. Métodos de preenchimento de falhas

2.2.1. Regressão linear múltipla (RLM)

Uma das formas mais simples de se estimar dados faltantes é através da combinação linear de observações de estações meteorológicas vizinhas. O peso associado a cada observação pode ser determinado utilizando correlações parciais ou totais. Em geral, o método de correlações parciais entre estações (no qual se elimina o efeito das estações vizinhas) é a base para os métodos de regressão linear múltipla. Já o método das correlações totais, utilizando uma grande quantidade de estações vizinhas é capaz de reduzir os erros aleatórios, mas não os sistemáticos. Tabony (1983)TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983. propõe um método de preenchimento de falhas utilizando regressão linear múltipla, adotando como variáveis explicativas os dados de estações vizinhas próximas da estação com falhas. Este método pressupõe os seguintes pontos:

  • Para verificar se a correlação entre a estação vizinha e a estação teste é estatisticamente significativa é necessário que r tenha uma distribuição normal e deste modo, testes tradicionais como o teste t podem ser utilizados. Para garantir esta simetria, r é convertido usando a transformação z de Fisher (que apresenta uma distribuição normal). Este cálculo é realizado para cada mês em separado.

  • As estações vizinhas escolhidas devem ser classificadas e sua importância deve ser pesada em relação ao seu valor de z (r convertido usando a transformação descrita no primeiro item).

  • O período de sobreposição dos dados entre as estações deve ser considerado, incluindo o erro padrão do coeficiente z nos critérios de seleção. Assim, estações são classificadas não de acordo com o coeficiente z diretamente, mas de acordo com seu limite de confiança de 95%.

2.2.2. Ponderação regional (PR)

Este método de preenchimento de falhas é descrito por Alves et al. (2006ALVES, A.; KOBIYAMA, M.; SILVA, R.V.; CHECCHIA, T. Análise de dados hidrológicos na região do município de Alfredo Wagner/SC. In: Simpósio de Recursos Hídricos do Sul, 1, 2006, Curitiba. Anais… Porto Alegre: Associação Brasileira de Recursos Hídricos, 2006. CD-Rom. apud Oliveira et al., 2010OLIVEIRA, L.F.C.; FIOREZE, A.P.; MEDEIROS, A.M.M.; SILVA, M.A.S. Comparação de metodologias de preenchimento de falhas de séries históricas de precipitação pluvial anual. Revista Brasileira de Engenharia Agrícola e Ambiental, v. 14, n. 11, p. 1186-1192, 2010.), por Bertoni e Tucci (2007BERTONI, J.C.; TUCCI, C.E.M. Precipitação. In: TUCCI, C.E.M. Hidrologia: Ciência e Aplicação. Porto Alegre: UFRGS, 2007. p.177-241. apud Oliveira et al., 2010OLIVEIRA, L.F.C.; FIOREZE, A.P.; MEDEIROS, A.M.M.; SILVA, M.A.S. Comparação de metodologias de preenchimento de falhas de séries históricas de precipitação pluvial anual. Revista Brasileira de Engenharia Agrícola e Ambiental, v. 14, n. 11, p. 1186-1192, 2010.) e por Paulhus e Kohler (1952)PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952. com o intuito de preencher dados faltantes de precipitação. A falha nos dados na estação meteorológica de interesse é estimada da seguinte forma:

(2) D x = 1 n i = 1 n M x M i D i

sendo Dx o dado mensal faltante a ser estimado para a estação teste, Di o dado ocorrido na estação vizinha de ordem “i” no mês de ocorrência da falha na estação teste, Mx o dado médio mensal da estação teste, Mi o dado médio mensal da estação vizinha de ordem “i” e n o número de estações vizinhas utilizadas no cálculo.

2.2.3. Interpolação do inverso da distância (IID)

Hubbard (1994)HUBBARD, K.G. Spatial variability of daily weather variables in the high plains of the USA. Agricultural and Forest Meteorology, v. 68, n. 1, p. 29-41, 1994. utiliza este seguinte método para o preenchimento de falhas em dados meteorológicos:

(3) D x = i = 1 n ( D i / d i ) i = 1 n ( 1 / d i )

sendo Dx o dado mensal faltante a ser preenchido na estação teste, Di o dado ocorrido na estação vizinha de ordem “i” no mês de ocorrência da falha na estação teste e di a distância entre a estação teste e a estação vizinha de ordem “i”.

2.2.4. Método da razão normal (MRN)

Este método foi originalmente proposto por Paulhus e Koller (1952)PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952., foi modificado por Young (1992)YOUNG, K.C. A three-way model for interpolating for monthly precipitation values. Monthly Weather Review, v. 120, n. 11, p. 2561-2569, 1992. e trata-se de uma ponderação dos dados registrados em estações vizinhas realizada da seguinte maneira:

(4) D x = i = 1 n D i W i i = 1 n W i

sendo Dx o dado mensal faltante a ser preenchido na estação teste, Di o dado ocorrido na estação vizinha de ordem “i” no mês de ocorrência da falha na estação teste e Wi o peso ponderativo atribuído a cada estação vizinha de ordem “i”, o qual é descrito pela seguinte fórmula:

(5) W i = r i 2 ( n i 2 1 r i 2 )

sendo ri a correlação entre a estação teste e a estação vizinha de ordem “i” e ni o número de meses em que ocorreu sobreposição de dados entre a estação teste e a estação vizinha de ordem “i”, ou seja, é o tamanho da série de dados envolvida no cálculo do coeficiente de correlação.

2.2.5. Método tradicional do Reino Unido (UK)

Segundo Tabony (1983)TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983., o método de preenchimento de falhas tradicionalmente utilizado pelo U.K. Meteorological Office é baseado em comparações com uma única estação vizinha. Tal estação vizinha é selecionada a partir de sua correlação com a estação teste. Para temperatura (TMC no nosso caso), a estimativa pelo método é feita para cada mês assumindo-se um valor constante de diferença entre a estação vizinha e a estação teste. Este valor é a diferença entre o valor médio do mês observado na estação teste e na estação vizinha ao longo de um certo período de tempo. Por exemplo, se no mês de julho a média mensal de TMC na estação teste é 0,2 °C mais quente em comparação com a estação vizinha, a estimativa para um mês de julho onde se reportou uma falha na estação teste será o valor registrado na estação vizinha neste mesmo mês mais 0,2 °C. Já para precipitação é assumida uma razão constante. Por exemplo, se em Janeiro a média mensal da chuva na estação teste é de 80 mm e na estação vizinha é de 100 mm, será assumido que a estimativa para a precipitação para uma falha ocorrida no mês Janeiro será 20% menor do que o valor registrado na estação vizinha, e não 20 mm menor como seria o caso de um valor constante.

2.2.6. Média aritmética simples (MA)

A média aritmética é simplesmente:

(6) D x = 1 n i = 1 n D i

sendo Dx o dado mensal faltante a ser preenchido na estação teste, Di o dado ocorrido na estação vizinha de ordem “i” no mês de ocorrência da falha na estação teste e n o número de estações vizinhas utilizadas no cálculo.

2.3. Erros estatísticos

Para a avaliação do desempenho dos diferentes métodos de preenchimento de falhas na efetuação das estimativas, foi realizada a medida do viés e do viés percentual, que quantificam subestimações e superestimações das estimativas com relação às observações médias, e também foi efetuado o cálculo do erro absoluto médio e da raiz do erro quadrático médio que são medidas de precisão das estimativas. Conforme Déqué (2003)DÉQUÉ, M. Continuous variables. In: JOLLIFE, I.T; STEPHENSON, D.B. Forecast Verification: A Practitioner's Guide in Atmospheric Science. Willey, 2003. p. 97-119., as fórmulas são descritas da seguinte forma:

  • Viés (V)

    (7) V = 1 n i = 1 n ( V e s t i V o b s i )

  • Viés Percentual (VP)

    (8) V P = i = 1 n ( V e s t i V o b s i ) i = 1 n V o b s i

  • Erro absoluto médio (EAM)

    (9) E A M = 1 n i = 1 n | V e s t i V o b s i |

  • Raíz do erro quadrático médio (REQM)

    (10) R E Q M = 1 n i = 1 n ( V e s t i V o b s i ) 2

sendo n o número de meses observados, que neste trabalho corresponde aos 12 meses entre Janeiro de 2004 e Dezembro de 2004, nos quais os dados foram retirados da série original das estações testes. Vobsi é o valor observado e Vesti é o valor da estimativa em cada um dos meses.

3 Resultados e Discussões

Para facilitar a discussão, os nomes dos métodos de preenchimento de falhas são abreviados da seguinte forma: regressão linear múltipla (RLM), ponderação regional (PR), interpolação do inverso da distância (IID), método da razão normal (MRN), método tradicional do Reino Unido (UK) e média aritmética simples (MA).

A fim de verificar o número de estações vizinhas a gerar as melhores estimativas em média, o número inicial de 12 estações vizinhas foi variado entre 3 e 12 no cálculo das estimativas dos diferentes métodos em cada uma das estações testes, sempre com as estações vizinhas sendo selecionadas de acordo com a correlação com a estação teste, ou seja, ao utilizar-se 3 estações vizinhas nas estimativas, estas serão as 3 com maior correlação com sua estação teste, ou ao utilizar-se 4, estas serão as 4 melhores correlacionadas, e assim por conseguinte. Todas as metodologias apresentadas neste trabalho, com exceção do método UK (que necessita de apenas uma estação vizinha no seu cálculo), foram utilizadas nessa etapa de estimativas. As médias dos erros absolutos médios (EAM) ocorridos em todos estes métodos para o ano de 2004 para cada uma das estações testes, variando-se o número de estações vizinhas utilizadas, podem ser observadas na Tabela 5a para TMC e na Tabela 5b para precipitação. O número de estações vizinhas a gerarem as melhores estimativas varia um pouco de estação teste para estação teste conforme pode ser observado nas tabelas, assim como varia de método para método também (não mostrado). Porém, de maneira a facilitar a comparação entre os métodos de preenchimento de falhas, que será mostrada na seção a seguir, utilizamos o número de estações vizinhas a gerarem as melhores estimativas em média. Conforme podem ser observadas na Tabela 5a, para TMC, em média, as melhores estimativas foram geradas quando o número de estações vizinhas era igual a 4, enquanto que para precipitação esse número foi de 7 estações vizinhas. Desta maneira, tais números de estações vizinhas foram utilizados para a comparação entre os diferentes métodos de preenchimento de falhas para as variáveis de TMC e precipitação respectivamente. Quanto ao método UK, no qual se utiliza apenas uma estação vizinha, a estação vizinha selecionada para a efetuação da estimativa foi a de maior correlação com a estação teste.

Tabela 5
Média dos erros absolutos médios das estimativas dos métodos RLM, PR, IID, MRN e MA para o ano de 2004 para a) TMC (em °C) e para b) precipitação (em mm) para as estações de Porto Alegre (PA), Bagé (BG), Santa Maria (SM), Lagoa Vermelha (LV) e média para as quatro estações testes (M), variando-se o número de estações vizinhas utilizadas nos cálculos (n).

3.1. TMC

Na Tabela 6 podem ser verificados os erros absolutos médios (EAM) e as raízes do erro quadrático médio (REQM), gerados por cada uma das estimativas dos métodos de preenchimentos de falhas com relação aos valores originais de cada uma das estações testes e na média entre todas elas. Em praticamente todas as estações testes observa-se um padrão com os métodos PR, RLM e UK produzindo os menores valores em ambos os erros estatísticos, portanto, gerando as estimativas mais precisas. Os erros absolutos médios destes métodos em média ficaram entre 0,221 °C e 0,252 °C enquanto os valores da REQM ficaram entre 0,277 °C e 0,322 °C em média. Tais estimativas contrastam com as dos métodos IID, MRN e MA, os quais tiveram valores de erros estatísticos aproximadamente três vezes superiores em média.

Tabela 6
Erro absoluto médio (EAM) e raiz do erro quadrático médio (REQM) das estimativas para cada um dos métodos em cada uma das estações testes para a variável de TMC. As melhores estimativas estão indicadas em negrito.

Nas Figs. 4 a, b, c e d são apresentados os gráficos das estimativas para TMC, geradas para cada um dos meses do ano de 2004 pelos três melhores métodos estimadores de cada uma das estações testes: Porto Alegre, Bagé, Santa Maria e Lagoa Vermelha respectivamente. Como já observado na Tabela 6, os métodos RLM, PR e UK possuem as melhores estimativas de forma geral. Pode se adquirir uma noção quantitativa da eficácia destes métodos, observando que o erro absoluto de estimativa máximo, nestes casos, é de 0,9 °C para a estação meteorológica teste de Bagé no mês de fevereiro, sendo que de forma geral, os erros absolutos de estimativa são bem mais próximos de 0 °C do que deste valor. As estimativas para as quatro estações meteorológicas testes são bem pouco enviesadas. Somente a estação de Bagé apresenta valores um pouco mais elevados de viés, em média superestimados, com valores entre 0,2 °C e 0,4 °C nos métodos em questão (RLM, PR e UK), o que é possível constatar na analise do gráfico também (Fig. 4b).

Figura 4
Gráficos com as estimativas para as séries mensais de TMC do ano de 2004 com os três melhores métodos para cada uma das estações testes: a) Porto Alegre, b) Bagé, c) Santa Maria e d) Lagoa Vermelha.

Outros trabalhos encontrados na literatura já observaram os métodos de RLM e PR como sendo bons estimadores para temperatura, como é o caso de Fante e Neto (2013)FANTE, K.P.; NETO, J.L.S. Aplicação de técnicas geo-estatísticas em análises climatológicas: metodologias para preenchimento de falhas. In: Simpósio Brasileiro De Geografia Física Aplicada, 15, 20013, Vitória. Anais… Vitória: 2013. p. 782-790., onde foram encontrados valores inferiores à ordem de 0,9 °C para estimativas geradas pelo método PR, e para diversos trabalhos como Tabony (1983TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983.), Kemp et al. (1983)KEMP, W.P; BURNELL, D.G.; EVERSON, D.O.; THOMSON, A.J. Estimating missing daily maximum and minimum temperatures. Journal of climate and applied meteorology, v. 22, n. 9, p. 1587-1593, 1983., Eischeid et al. (1995)EISCHEID, J.K.; BAKER, C.B.; KARL, T.R.; DIAZ, H.F. The quality control of long-term climatological data using objective data analysis. Journal of Applied Meteorology, v. 34, n. 12, p. 2787-2795, 1995., Xia et al. (1999)XIA, Y.; FABIAN, P.; STOHL, A.; WINTERHALTER, M. Forest climatology: estimation of missing values for Bavaria, Germany. Agricultural and Forest Meteorology, v. 96, n. 1, p. 131-144, 1999. e Kashani et al. (2012)KASHANI, M.H.; DINPASHOH, Y. Evaluation of efficiency of different estimation methods for missing climatological data. Stochastic Environmental Research and Risk Assessment, v. 26, n. 1, p. 59-71, 2012., nos quais, métodos baseados em regressões lineares múltiplas obtiveram bons resultados.

3.2. Precipitação

Na Tabela 7 são verificados os erros absolutos médios (EAM) e as raízes do erro médio quadrático (REQM) das estimativas de cada método para precipitação em cada uma das estações testes. Na média entre todas as estações, o método que apresentou os melhores resultados foi o PR, com valores médios de EAM de 17,192 mm e de REQM de 22,181 mm, com os métodos IID, MA e MRN também obtendo resultados bastante próximos a estes nas medidas dos erros estatísticos. Considerando-se a precipitação mensal média de 100,65 mm para as quatro estações testes em questão no ano de 2004, os valores de erros absolutos médios das estimativas representam erros absolutos percentuais médios de 17,1% para o método PR, 17,9% para o IID, de 18,1% para o MA e 18,6% para o MRN.

Tabela 7
Erro absoluto médio (EAM) e raiz do erro quadrático médio (REQM) das estimativas para cada um dos métodos em cada uma das estações testes para a variável de precipitação. As melhores estimativas estão indicadas em negrito.

Nas Figs. 5 a, b, c e d vemos os gráficos das estimativas para precipitação, geradas pelos três melhores métodos para cada uma das estações testes em cada um dos meses do ano de 2004. Observa-se que as estimativas são visualmente menos eficientes em comparação com as séries de TMC, muito em função de os dados de precipitação entre diferentes estações vizinhas serem menos correlacionados entre si em comparação aos dados de TMC, o que gera estimativas menos relacionadas com a série original e com erros de estimativas relativamente maiores. Mesmo assim, tais estimativas ainda conseguem representar da maneira razoavelmente boa à variação mensal da precipitação originalmente registrada nas estações testes, o que pode ser constatado ao observarmos a repetição dos padrões de picos de precipitação mensal entre as séries originais e suas estimativas nos gráficos. Quanto ao enviesamento das estimativas mostradas nas figuras (as 3 melhores de cada estação teste) com relação aos valores originais, podemos constatar valores em média subestimados para as estações testes de Bagé (Fig. 5b), com valores de viés percentuais médios entre −15,24% a −4,8%, e de Santa Maria (Fig. 5c), com valores entre −5,21% e −0,04%. Por outro lado, para a estação teste de Lagoa Vermelha (Fig. 5d) os valores são, em média, levemente superestimados, com medidas de viés percentual entre 1,38% e 4,72%. Já para a estação teste de Porto Alegre (Fig. 5a) os valores de viés percentuais não foram muito significativos, ficando entre −3,01% e 1,16%.

Figura 5
Gráficos com as estimativas para as séries mensais de precipitação do ano de 2004 com os três melhores métodos para cada uma das estações testes: a) Porto Alegre, b) Bagé, c) Santa Maria e d) Lagoa Vermelha.

Trabalhos anteriores, como Paulhus e Kohler (1952)PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952. e Oliveira et al. (2010)OLIVEIRA, L.F.C.; FIOREZE, A.P.; MEDEIROS, A.M.M.; SILVA, M.A.S. Comparação de metodologias de preenchimento de falhas de séries históricas de precipitação pluvial anual. Revista Brasileira de Engenharia Agrícola e Ambiental, v. 14, n. 11, p. 1186-1192, 2010., indicaram o método PR como sendo o mais adequado para a estimativa de precipitação. Tal método também apresentou as melhores estimativas em média neste trabalho, porém não obteve resultados significativamente melhores em comparação com os outros métodos apresentados. O método UK, por outro lado, apresentou erros de estimativa significativamente elevados para praticamente todas as estações testes, não se mostrando muito eficaz na estimativa de dados de precipitação.

4. Conclusões

Com a realização de estimativas com diferentes métodos para estações meteorológicas localizadas no estado do Rio Grande do Sul, os métodos de preenchimento de falhas para dados meteorológicos que apresentaram melhores resultados para TMC em média foram o PR, o RLM e o UK com erros absolutos médios de estimativas próximos aos 0,2 °C e valores de raiz do erro médio quadrático entre 0,25 °C a 0,35 °C, mostrando significativa diferença em comparação aos outros três métodos, enquanto que para precipitação as estimativas geradas pelos diferentes métodos não apresentaram grandes diferenças entre si, com os métodos de PR, IID, MA e MRN apresentando uma pequena vantagem em comparação aos outros dois. Observaram-se estimativas relativamente melhores sendo geradas para a variável de TMC em comparação com a precipitação, devido às séries de TMC serem mais correlacionadas entre si, o que não faz com que as estimativas para precipitação percam sua validade.

Tais resultados são uma amostra de que é possível gerar boas estimativas para dados mensais a partir de métodos estatísticos simples para diferentes variáveis meteorológicas, principalmente em locais que possuam uma disponibilidade razoavelmente boa de estações meteorológicas, e desta forma, séries de dados com bons níveis de correlação entre si, como foi encontrado neste trabalho para o estado brasileiro do Rio Grande do Sul.

Referências

  • ALVES, A.; KOBIYAMA, M.; SILVA, R.V.; CHECCHIA, T. Análise de dados hidrológicos na região do município de Alfredo Wagner/SC. In: Simpósio de Recursos Hídricos do Sul, 1, 2006, Curitiba. Anais… Porto Alegre: Associação Brasileira de Recursos Hídricos, 2006. CD-Rom.
  • ALY, A.; PATHAK, C.; TEEGAVARAPU, R.S.V.; ALQUIST, J.; FUELBERG, H. Evaluation of improvised spatial interpolation methods for infilling missing precipitation records. In:World Environment Water Resources Congress 2009: Great Rivers 2009. p. 1-10.
  • BECKERS, J.; RIXEN, M. EOF Calculations and Data Filling from Incomplete Oceanographic Datasets*. Journal of Atmospheric and Oceanic Technology, v. 20, n. 12, p. 1839-1856, 2003.
  • BERTONI, J.C.; TUCCI, C.E.M. Precipitação. In: TUCCI, C.E.M. Hidrologia: Ciência e Aplicação Porto Alegre: UFRGS, 2007. p.177-241.
  • DÉQUÉ, M. Continuous variables. In: JOLLIFE, I.T; STEPHENSON, D.B. Forecast Verification: A Practitioner's Guide in Atmospheric Science Willey, 2003. p. 97-119.
  • EISCHEID, J.K.; BAKER, C.B.; KARL, T.R.; DIAZ, H.F. The quality control of long-term climatological data using objective data analysis. Journal of Applied Meteorology, v. 34, n. 12, p. 2787-2795, 1995.
  • FANTE, K.P.; NETO, J.L.S. Aplicação de técnicas geo-estatísticas em análises climatológicas: metodologias para preenchimento de falhas. In: Simpósio Brasileiro De Geografia Física Aplicada, 15, 20013, Vitória. Anais… Vitória: 2013. p. 782-790.
  • HUBBARD, K.G. Spatial variability of daily weather variables in the high plains of the USA. Agricultural and Forest Meteorology, v. 68, n. 1, p. 29-41, 1994.
  • KASHANI, M.H.; DINPASHOH, Y. Evaluation of efficiency of different estimation methods for missing climatological data. Stochastic Environmental Research and Risk Assessment, v. 26, n. 1, p. 59-71, 2012.
  • KEMP, W.P; BURNELL, D.G.; EVERSON, D.O.; THOMSON, A.J. Estimating missing daily maximum and minimum temperatures. Journal of climate and applied meteorology, v. 22, n. 9, p. 1587-1593, 1983.
  • LEE, H.; KANG, K. Interpolation of Missing Precipitation Data Using Kernel Estimations for Hydrologic Modeling. Advances in Meteorology, v. 2015, 2015.
  • OLIVEIRA, L.F.C.; FIOREZE, A.P.; MEDEIROS, A.M.M.; SILVA, M.A.S. Comparação de metodologias de preenchimento de falhas de séries históricas de precipitação pluvial anual. Revista Brasileira de Engenharia Agrícola e Ambiental, v. 14, n. 11, p. 1186-1192, 2010.
  • PAULHUS, J.L.H.; KOHLER, M.A. Interpolation of missing precipitation records. Monthly Weather Review, v. 80, n. 5, p. 129-133, 1952.
  • TABONY, R.C. The estimation of missing climatological data. Journal of Climatology, v. 3, n. 3, p. 297-314, 1983.
  • TEEGAVARAPU, R.S.V.; CHANDRAMOULI, V. Improved weighting methods, deterministic and stochastic data-driven models for estimation of missing precipitation records. Journal of Hydrology, v. 312, n. 1, p. 191-206, 2005.
  • XIA, Y.; FABIAN, P.; STOHL, A.; WINTERHALTER, M. Forest climatology: estimation of missing values for Bavaria, Germany. Agricultural and Forest Meteorology, v. 96, n. 1, p. 131-144, 1999.
  • YOUNG, K.C. A three-way model for interpolating for monthly precipitation values. Monthly Weather Review, v. 120, n. 11, p. 2561-2569, 1992.

Datas de Publicação

  • Publicação nesta coleção
    Apr-Jun 2017

Histórico

  • Recebido
    25 Nov 2015
  • Aceito
    06 Dez 2016
Sociedade Brasileira de Meteorologia Rua. Do México - Centro - Rio de Janeiro - RJ - Brasil, +55(83)981340757 - São Paulo - SP - Brazil
E-mail: sbmet@sbmet.org.br