Acessibilidade / Reportar erro

Estimativa da probabilidade do evento extremo de precipitação de janeiro de 2000 no Vale do Paraíba, baseada na distribuição generalizada de pareto

Resumos

Um evento extremo de precipitação ocorreu na primeira semana do ano 2000, de 1º a 5 de janeiro, no Vale do Paraíba, parte leste do Estado de São Paulo, Brasil, causando enorme impacto socioeconômico, com mortes e destruição. Este trabalho estudou este evento em 10 estações meteorológicas selecionadas que foram consideradas como aquelas tendo dados mais homogêneos do Que outras estações na região. O modelo de distribuição generalizada de Pareto (DGP) para valores extremos de precipitação de 5 dias foi desenvolvido, individualmente para cada uma dessas estações. Na modelagem da DGP, foi adotada abordagem não-estacionaria considerando o ciclo anual e tendência de longo prazo como co-variaveis. Uma conclusão desta investigação é que as quantidades de precipitação acumulada durante os 5 dias do evento estudado podem ser classificadas como extremamente raras para a região, com probabilidade de ocorrência menor do que 1% para maioria das estações, e menor do que 0,1% em três estações.

precipitação extrema; distribuição generalizada de Pareto; Vale do Paraíba


An extreme rainfall event occurred in the firrst week of year 2000, from 1st to 5th of January, at Vale do Paraíba, eastern portion of Sao Paulo state, Brazil, causing enormous social and economic impact and resulting on deaths and destruction. This work studied this event at 10 selected meteorological stations, which were considered as those comprising more homogeneous data than the others stations in the region. Thus, a Generalized Pareto Distribution (GPD) model for the extreme values of 5-day accumulated rainfall was developed, individually for each one of these stations. In the GPD modeling, the non-stationary approach was adopted, by considering the annual cycle and linear long-term trend as covariates. One conclusion from this investigation is that the GPD models indicate that the total rainfall amount, accumulated during the 5 days of the studied event might be classified as extremely rare for the region, with probability of occurrence being less than 1% for most of stations, and less than 0.1% at three stations.

extreme rainfall; generalized Pareto distribution; Vale do Paraíba


Estimativa da probabilidade do evento extremo de precipitação de janeiro de 2000 no Vale do Paraíba, baseada na distribuição generalizada de pareto

Shigetoshi SugaharaI; Reinaldo Bonfim da SilveiraII; Rosmeri Porfírio da RochaIII

IInstituto de Pesquisas Meteorológicas, UNESP/Bauru, Av. Luis Edmundo Carrijo Coube, 14-01,17033-360 Bauru, SP, Brasil. Tel.: (14) 3103-6030; Fax: (14) 32033649 - E-mail: shige@ipmet.unesp.br

IIInstituto Tecnológico SIMEPAR, Centro Politécnico da UFPR, Jardim das Américas, 81531-980 Curitiba, PR, Brasil. Tel.: (41) 3320-2000; Fax: (41) 3366-2122 E-mail: rsilveira@simepar.br

IIIDepartamento de Ciências Atmosféricas, IAG/USP, Rua do Matão, 1226, 05508-090 São Paulo, SP, Brasil. Tel.: (11) 3091-2820; Fax: (11) 3091-4714 - E-mail: rosmerir@model.iag.usp.br

RESUMO

Um evento extremo de precipitação ocorreu na primeira semana do ano 2000, de 1º a 5 de janeiro, no Vale do Paraíba, parte leste do Estado de São Paulo, Brasil, causando enorme impacto socioeconômico, com mortes e destruição. Este trabalho estudou este evento em 10 estações meteorológicas selecionadas Que foram consideradas como aquelas tendo dados mais homogêneos do que outras estações na região. O modelo de distribuição generalizada de Pareto (DGP) para valores extremos de precipitação de 5 dias foi desenvolvido, individualmente para cada uma dessas estações. Na modelagem da DGP, foi adotada abordagem não-estacionaria considerando o ciclo anual e tendência de longo prazo como co-variaveis. Uma conclusão desta investigação é que as quantidades de precipitação acumulada durante os 5 dias do evento estudado podem ser classificadas como extremamente raras para a região, com probabilidade de ocorrência menor do que 1% para maioria das estações, e menor do que 0,1% em três estações.

Palavras-chave: precipitação extrema, distribuição generalizada de Pareto, Vale do Paraíba.

ABSTRACT

An extreme rainfall event occurred in the firrst week of year 2000, from 1st to 5th of January, at Vale do Paraíba, eastern portion of Sao Paulo state, Brazil, causing enormous social and economic impact and resulting on deaths and destruction. This work studied this event at 10 selected meteorological stations, which were considered as those comprising more homogeneous data than the others stations in the region. Thus, a Generalized Pareto Distribution (GPD) model for the extreme values of 5-day accumulated rainfall was developed, individually for each one of these stations. In the GPD modeling, the non-stationary approach was adopted, by considering the annual cycle and linear long-term trend as covariates. One conclusion from this investigation is that the GPD models indicate that the total rainfall amount, accumulated during the 5 days of the studied event might be classified as extremely rare for the region, with probability of occurrence being less than 1% for most of stations, and less than 0.1% at three stations.

Keywords: extreme rainfall, generalized Pareto distribution, Vale do Paraíba.

INTRODUÇÃO

As chuvas que ocorreram nos primeiros dias de janeiro de 2000, no Vale do Paraíba, causaram pelo menos onze mortes, mais de 5 mil desabrigados, destruição de residências, de pontes e alagamentos em várias cidades, segundo os relatórios da Defesa Civil do Estado de São Paulo. Foi, provavelmente, para a região Sudeste do Brasil, um dos desastres naturais de maior impacto socioeconoêmico das uíltimas deícadas.

Para compreender melhor a natureza estatística de um evento hidrometeorolágico extremo como esse, muitos estudos vêm sendo realizados. O desenvolvimento do meítodo parameítrico de valores extremos foi um importante avanço no estudo desses fenômenos, ao proporcionar uma maneira de descrevê-los probabilisticamente inclusive os eventos ainda não observados, tendo assim uma importência prática fundamental no dimensionamento de riscos de obras de engenharia (ver Khaliq et al., 2006, para revisão sobre o assunto).

O propósito do presente trabalho estimar a probabilidade de ocorrência do evento como de 1º a 5 de janeiro de 2000, em cada estação meteorológica do Vale do Paraíba possuindo dados de precipitaçao diária, com base na técnica da duração parcial ou POT (Peakover threshold) e no modelo de distribuição generalizada de Pareto (DGP). A variável-chave a precipitação acumulada de 5 dias, uma vez que o evento foi mais extremo em termos desta quantidade do que pela precipitação diária. A seção seguinte descreve a metodologia, incluindo descrição dos dados, os procedimentos de controle de qualidade, análise de homogeneidade, e a modelagem de valores extremos. Depois disso, apresentaremos os resultados e a conclusão.

METODOLOGIA

Área de estudo e dados

O Vale do Paraíba localiza-se no Sudeste do Brasil e na parte leste do Estado de São Paulo, entre as latitudes 22º25'S e 23º30'S e longitudes 44 ºW e 46ºW. A região tem uma orografia complexa, com altitude (em relação ao nável do mar) variando entre 400 m e 2000 m, aproximadamente. Os pontos mais baixos localizamse na bacia hidrográfica do rio Paraíba do Sul e os mais altos na Serra da Mantiqueira.

Os dados usados neste trabalho são de registros históricos brutos de precipitação diária das estações do Departamento de Águas e Energia Elétrica do Estado de São Paulo (DAEE), que estão disponíveis em <http://www.sirh.sp.gov.br/cgi-bin/bdhm.exe/plu>. Selecionamos previamente 18 estações (Tab. 1), do total de 150 disponíveis para a região, levando em conta a completeza e o comprimento de seus registros de no mínimo 35 anos. Na Tabela 1, o período indicado e aquele usado na modelagem, onde o numero de anos inclui somente anos completos ou sem nenhum dado faltante. Note na Tabela 1 que algumas estações possuem o ultimo ano de registro completo anterior ao do evento. No entanto, estas estações foram consideradas, pois embora seus registros estejam incompletos para o ano 2000, contêm dados entre 1º e 5 de janeiro de 2000, portanto, suficientes para o cálculo da probabilidade para o evento em questão. E importante mencionar que um modelo de extremos desenvolvido usando dados de um período pode ser aplicado para outros períodos não considerados no seu desenvolvimento.

Controle de qualidade: dados discrepantes ( outliers ) e aproximação grosseira das medidas

Antes de construir a série temporal para precipitação de 5 dias, excluímos do registro original as precipitaçães acima de 180 mm em 24 horas, que julgamos suspeitas. De todos os dados examinados, somente quatro valores excederam esse limiar. Para modelagem, consideramos somente os anos com dados completos. Vale lembrar que a ausência de alguns anos na série não representa problema na análise de frequência de extremos (Katz et al., 2002).

Na inspeção visual, notamos que nas estações E2-039, D2009, D2-001, E2-036, D2-026, D2-015, D2-021 e D2-020, as medidas apresentam aproximação ou arredondamento bem grosseiro, saltando de 10 em 10 mm ou com alguma outra taxa, pelo menos em algum período. Estas aproximações podem ser identificadas quando ocorrem frequentemente, como no exemplo da Figura 1, que mostra série temporal de precipitação diária para a estação Monteiro Lobato (D2-020), de 1º de janeiro de 1941 a 31 de dezembro de 2003, junto com a função densidade de probabilidade correspondente. Note na Figura 1a que os valores de precipitação diaria estão exageradamente concentrados em torno de 10 mm, 20 mm, 30 mm e 40 mm, durante mais ou menos 20 anos, de 1950 a 1970. A Figura 1b mostra que esse problema se manifesta como picos ou máximos locais na função densidade de probabilidade, uma informação que pode ser explorada para desenvolver algum algoritmo de deteção objetiva do problema. A função densidade da Figura 1b foi estimada pelo metodo kernel, com kernel gaussiano e parâmetro de suavização (bandwidth) proposto por Sheather & Jones (1991).


Análise de homogeneidade

Nos anos mais recentes aumentou consideravelmente o interesse sobre a não-homogeneidade de séries históricas de variáveis climáticas. Vale lembrar que uma série temporal climática so é homogeênea quando contém apenas informações do tempo e clima, portanto, livre de fatores não climáticos como mudança de instrumento e de prática de observação. Estudos sobre a homogeneidade das séries climáticas, que foram realizados em várias partes do mundo, mostram que em geral as séries com poucas décadas em comprimento são contaminadas por variações artificiais, tal que não são confiáveis para estudo da variabilidade e mudança do clima, incluindo de eventos extremos, a não ser que sejam corrigidas eliminando as variações não homogêneas. Entre as referências mais recentes sobre o assunto podemos citar Alexandersson & Moberg (1997), Peterson et al. (1998), Tuomenvirta (2001), Wijngaard et al. (2003), Auer et al. (2005) e Klok & Klein Tank (2008).

No presente trabalho, consideramos dois problemas potenciais de homogeneidade. O primeiro é bem específico e fomos motivados pelas informações históricas (não documentadas) fornecidas pelo engenheiro Dr. Cirne de Toledo (2008, comunicação pessoal), do Centro Tecnológico de Hidráulica e Recursos Hídricos (CTH) do DAEE. Segundo essas informaçães, que são gerais e não específicas para cada estação individual, durante vários anos até por volta de 1970 e depois de 1980, aproximadamente, era comum realizar medidas diárias somente quando chovia significativamente e reportar zero para chuvas fracas e medidas não realizadas. Os registros diários das estações do DAEE teriam então, potencialmente, pelo menos dois períodos problemáticos contaminados por valores não propriamente diários e também por falsos zeros. Tentamos verificar então se os dados das estações selecionadas apresentam esses períodos não homogêneos, com atenção especial aos valores extremos de precipitação de 5 dias, a quantidade-chave para este estudo. Para isso, tentamos primeiro localizar descontinuidade em cada série temporal do número anual de dias sem precipitação (DPZ), para depois descobrir se o segmento com mais dias sem precipitação apresentava chuvas diarias mais intensas, como resultado do problema de acumulação incorreta.

Para detectar os pontos de descontinuidade na contagem anual de dias sem precipitação, usamos o método de regressão linear proposto por Bai & Perron (1998, 2003). Esses pontos são tratados explicitamente como incógnitas para serem descobertas pelo critério dos mínimos quadrados. Este é um aspecto interessante do método para o presente estudo, já que, como mencionamos anteriormente, as informações históricas sobre as estações não são específicas para cada estação individual e são um tanto vagas com relação a localização do ano quando ocorreu a mudança na prática de observação. Para examinar a significância estatística da mudança abrupta usamos um teste chamado teste F, que pode ser resumido como se segue. Seja t um ponto de descontinuidade da série em questão. O modelo linear á ajustado para as observações antes e depois de τ. A hipótese nula H0 de nenhuma mudança é rejeitada se a estatística FT dada por Fτ = exceder certo nível, onde RSS é a soma dos resíduos para todas as observações e ESS e a soma dos quadrados dos erros antes e depois de τ, n e o numero de observaçães, e k é o numero de regressores. Sob a condição de distribuiçao normal, a estatística Fi/k tem uma distribuição F exata com k e (n - 2k) graus de liberdade, cujos valores críticos podem ser facilmente encontrados nos livros textos de estatística. O valor P (p-value), ou probabilidade de significência do teste, pode ser obtido seguindo Hansen (1997).

Para garantir que os pontos de descontinuidade do modelo de regressão ou a mudança na estrutura do modelo de regressão não sejam um simples artefato do método, usamos também o método de Barry & Hartigan (1993), fundamentado no teorema de Bayes e na técnica de Monte Carlo via Cadeias de Markov (MCMC), que pode ser considerado totalmente independente do método de regressão. Este método bayesiano indica a probabilidade aposterior de mudança, por exemplo na média, para cada ponto ou intervalo da série em estudo. O método foi implementado para realizar 500 iterações e especificando a probabilidade aprion de 0,2. Um ponto de mudança mi detectado pelo método de regressão foi então considerado genuíno, somente quando a probabilidade a posteriori de mudança para o intervalo mi - 3 anos e m i + 3 anos foi maior do que 0,7, independente do valor P do teste F.

Para verificarmos se o subperíodo contendo mais dias sem precipitação (denotado A) estaria mais contaminado com valores não propriamente diários, a função distribuição cumulativa de precipitação diária deste subperíodo foi comparada com a do subperíodo com menos dias sem chuva (denotado B), usando teste de Kolmogorov-Smirnov (KS). O teste de KS usado neste trabalho uma versão modificada por Abadie (2002), que permite presença de valores repetidos dentro das amostras de teste, e o valor P do teste de significanciá obtido pela técnica bootstrap. Na aplicação do teste de KS, formulamos o problema da seguinte maneira. Sejam FA e FB funções de distribuição cumulativa empííricas (FDCE) para precipitação diária (> o ou precipitação de 5 dias (> 0), para os períodos A e B, respectivamente. No teste de significência, as hipóteses consideradas foram: a hipótese nula H0: FA = FB versus a hipótese alternativa H1: FA < FB . Note que com esta escolha para a hipótese alternativa, ao invés de H1: FA ≠ FB ou H1: FA > FB, direcionamos especificamente para o efeito do problema de acumulação por mais de um dia que pode estar presente no período A, e quanto menor o valor P do teste maior á a evidência desse efeito. Em cada teste, o valor P foi calculado usando método bootstrap com 1000 replicações. Para examinar a homogeneidade dos valores extremos, o teste de KS foi aplicado selecionando somente precipitação diária excedendo quantil de 95% calculado para todo período de dados. Quando tais amostras eram de tamanho insuficiente para aplicação confiável do teste de KS, examinamos visualmente a consisteência dos resultados do teste com a parte extrema dos respectivos gráficos das funções de densidade cumulativa.

Apresentamos em seguida um exemplo de aplicação do procedimento acima descrito, escolhendo a estação São José dos Campos, E2-036, que tem dados de 1944 a 1997. A Figura 2 mostra a série anual normalizada de DPZ (pontos), e o modelo de regressão linear que identifica nesta sárie pontos de descontinuidade na média em 1952,1972 e 1984. O valor P do teste F menor do que 10- 4 e a probabilidade a posteriori de 100% de mudança para a série inteira são fortes evidências contra a hipótese H0 de média constante. Para os três pontos, a probabilidade a posteriori excede 95%. É interessante notar que a diminuição brusca em 1972 e aumento brusco em 1984, na série anual de DPZ, vão de encontro com a informação histórica geral da rede do DAEE que comentamos anteriormente. As magnitudes das variações em 1952, 1972 e 1984, em percentagem, são, respectivamente, 54%, 26% e 34%.


As distribuições cumulativas empíricas para precipitação diária, correspondentes a 4 subperíodos, 1944-1951, 1952-1971, 1972-1984 e 1984-1997, definidos pelos pontos de mudança na série anual de DPZ, são mostradas na Figura 3. Para facilitar a visualização e o entendimento da aplicação do teste de KS, essas distribuições são mostradas em pares, onde a linha contínua e sempre para o período com maior número de dias com precipitação zero (per íodo A).


Não e difícil de ver na Figura 3 que FA < FB, em todas as três comparações, mas com menor diferença nos extremos. O teste de KS, para a amostra completa (AC) de precipitação diária, indica nas três comparações forte evidência contra a hipótese nula HO: FA = FB, dada tanto pelo valor P igual a zero (obtido sob a suposição de que Ho: FA = FB é verdade) como pelas mudanças observadas, de um subperíodo para outro, nas estatísticas como mediana e média (Tab. 2). Mas quando aplicamos o teste de KS truncando as amostras à esquerda usando quantil de 95%, ou amostra de valores extremos (AE), encontramos valor P consideravelmente maior, e pouca variação nas estatísticas (Tab. 2). Isto mostra que a homogeneidade dos valores mais altos de precipitação diária dos períodos 1952-1971 e 1984-1999 foi menos afetada pelo problema de acumulação do que a homogeneidade dos valores mais baixos.

As comparações de distribuições, mas para precipitação de 5 dias, são mostradas na Figura 4, onde também notamos que FA < FB, mas com a diferença entre FA e FB ligeiramente menor do que encontramos para precipitação diária, principalmente nas duas áltimas comparaçães (Figs. 4b-c). A diferença é ainda menor para valores excedendo quantil de 95%. Esse resultado sugere que o efeito da acumulação incorreta, que aparece fortemente na série diária, diminui ao aumentar o intervalo de acumulação, por exemplo, para 5 dias, principalmente na parte extrema da distribuição.


A Tabela 4 apresenta para cada estação os resultados do teste de KS aplicado às amostras completas e amostras contendo somente valores extremos de precipitação diária ou de precipitação de 5 dias, lembrando que as amostras são relativas aos subperíodos definidos pelos pontos de descontinuidade na série anual de DZP. Para simplificar, apresentamos o valor P correspondente à diferença mais significante entre as distribuiçães testadas, ou equivalentemente aquele teste que resultou no menor valor P. Como a estação D1-001 não apresentou descontinuidade na série anual de DPZ, o teste de KS não foi aplicado. Note que a evidência da quebra de homogeneidade, ou contra a hipétese HQ : FA = FB a favor de H1: FA < FB, é extremamente forte para precipitação diária de todas as estações que para que apresentaram descontinuidade na série anual de DPZ, e para precipitação de 5 dias da maioria dessas estaçães. Contudo, essa evidência fica bem mais fraca quando consideramos somente valores extremos, para maioria das estações, indicando estas estações os valores extremos podem ser considerados homogêneos.

O segundo problema de homogeneidade considerado é aquele que é mais comum nas séries de dados climéticos com poucas dezenas de anos em comprimento (Auer et al., 2005), com variação abrupta causada por fatores como troca de instrumento e mudança da estação para outra localidade. As séries escolhidas para pesquisar tal variação foram as medianas anuais de precipitação diéria, q0,50 Uma vantagem de usar mediana ou quantil de 50% no lugar de, por exemplo, totais anuais é que ela é mais robusta em relação a outlisrs. Para verificar se uma variação abrupta na média dessas séries indica também mudança na função de distribuição, aplicamos o teste de KS, como no procedimento anterior, mas considerando duas alternativas H1: FA < FB e H1*: FA > FB, já que não temos razão suficiente para direcionar a hipótese alternativa para um lado ou outro. Nesses testes, o período A foi definido como o período que apresenta a maior mediana q0,50. Vale lembrar que a composição de testes H0 versus H1 e H2 versus H1* não é equivalente ao teste bilateral H0 versus a hipótese alternativa que FA e FB são diferentes. Discussões importantes sobre os problemas relacionados a testes de hipóteses encontram-se em Lindley (1957), Berger & Sellke (1987) e Casella & Berger (1987).

Uma mudança abrupta na sárie temporal de q0,50 num tempo mj, será considerada como mudança climática real, se houver consistência com as estações da vizinhança. Isto foi examinado calculando a probabilidade a posterior de mudança para as séries da vizinhança no intervalo de tempo entre mj - 3 e mj + 3, que procura levar em conta a incerteza em mj.

Para ilustrar a aplicação do procedimento descrito, escolhemos a estação D2-020, Monteiro Lobato, que em adição ao problema de aproximação grosseira mostrado anteriormente, apresenta descontinuidade na série de medianas anuais da precipitação diária, em 1949 e 1957 (Fig. 5). O valor P do teste F menor do que 10-14 e a probabilidade a posteriori de mudança na média dentro da série inteira de 100% são evidências fortes contra a hipótese nula 0 de média constante. De fato, a média de 7050 á, aproximadamente, 5 mm para o período de 1941-1948,20 mm para 1949-1956, e 8 mm para 1957-2003. Neste exemplo, em contraste com o anterior, verificamos que existe um período (1949-1956) em que os dados estão contaminados em toda distribuição inclusive os seus extremos. Descartamos a hipótese da mudança da condição climática para explicar esta discrepância por causa da falta de consistência com a variação observada na região baseada nas estações da vizinhança, como Monteiro Lobato (D2-026), Campos do Jordão (D2-001) e Pindamonhangaba (D2-068).


A Tabela 5 apresenta, para cada estação, o valor P estatisticamente mais significativo entre os testes de hipáteses H0: FA = FB versus HI: FA < FB e H0: FA = FB versus Hi: FA > FB, considerando agora pontos de descontinuidades encontrados nas séries temporais das medianas anuais de precipitação diária e de precipitaçao de 5 dias, e também as correspondentes amostras completas (AC) e amostras de valores extremos (AE), como na Tabela 4.

Estações selecionadas

Coma base nos resultados da análise da homogeneidade descritos, selecionamos 10 estações que julgamos serem mais confiáveis para estudar o evento extremo em questão. Essas estações são D2-068, D2-065, E2-008, D1-001, E2-028, E2-034, D2-013, D2035, E2-031, e E2-048, que cobrem razoavelmente bem a região do Vale do Paraíba (Fig. 8). Outras estações foram descartadas para análises subsequentes, já que nao há ainda nenhum procedimento de correção da não-homogeneidade na escala de tempo de 5 dias.

Figura 6


Figura 7



Convém destacar que a confiabilidade dos dados dessas estações é somente com respeito aos valores extremos de precipitação de 5 dias, já que a análise de homogeneidade mostra que os dados de precipitação diária assim como valores baixos de precipitação de 5 dias são menos confiáveis.

Método POT e distribuição generalizada de Pareto

A distribuição da sequência de valores em excesso y = X - u independente e identicamente distribuádos (iid) converge para distribuição generalizada de Pareto (DGP) dada por (ver, por exemplo, Smith, 2001):

onde u á um dado limiar suficientemente grande, σ e γ são parêmetros de escala e forma, respectivamente. Quando um modelo de DGP tem γ > 0 (modelo de cauda pesada), os extremos são mais frequentes do que quando o modelo tem γ < 0 ou γ = 0 (modelos de cauda leve). No presente trabalho, X á a sequência de valores extremos de precipitação de 5 dias excedendo um dado limiar, para uma estação individual, com 73 valores para cada ano, sendo o primeiro de 1º a 5 de janeiro, e o último de 27 a 31 de dezembro. Esses períodos de 5 dias são referidos como pêntadas. Devido à sazonalidade da precipitação na região, tal sequência de extremos não pode ser considerada estacionária ou identicamente distribuída, uma das condições assumidas na teoria de valores extremos. Esta condição foi contornada incorporando o ciclo anual no parêmetro a (Katz et al., 2002,2005). Para estimar σ e γ foi adotado metodo da maxima verossimilhança. Os erros-padrão das estimativas e , que denotaremos por SE ( ) e SE ( ), respectivamente, são obtidos da matriz de informação.

Escolha do limiar para seleção de valores extremos, e condição de independência

A procura do limiar u do modelo DGP foi realizada, iterativamente, levando em consideração o comportamento da estimativa do parâmetro γ quanto à precisão, qualidade do ajuste, e estabilidade (ver, por exemplo, Sugahara et al., 2009). Nessa busca, σ é mantido constante por ser parâmetro de fácil estimação, diferente do γ. O procedimento considerou também que o limiar u pode variar ao longo do ano consistente com a variação sazonal da precipitação. O limiar dependente do tempo u = qp(tk) á dado por p = Pr(X < qp(tk)), onde aqui X representa precipitaçao de 5 dias e tk, para k variando de 1 a 73, representa as 73 pêntadas na escala de tempo anual. Para obter qp(tk), calcula-se primeiro quantil p para cada mês usando todos os dados disponíveis para o respectivo mês. O limiar qp(tk) é então obtido interpolando os valores mensais de quantil p para cada um dos 73 tk. Na interpolação usada técnica Loess (ver, p.ex., Hipel & McLeod, 2005). É importante ter em mente que qp (tk) é igual para todos os anos, ou seja, não tem variação interanual.

Como o método POT pode selecionar mais de um valor extremo de cada bloco anual, á possível que alguns deles não sejam estatisticamente independentes, sobretudo aqueles que são consecutivos. No caso da precipitação de 5 dias, os valores extremos podem ocorrer em agrupamento associados a uma frente fria estacionaria, por exemplo. Para contornar o problema, esses agrupamentos foram identificados, e de cada grupo somente o maior valor foi selecionado para análises subsequentes.

Modelos testados

Considerando a variação sazonal da precipitaçao e a possibilidade da presença de tendência de longo prazo na precipitação, foram testados quatro modelos de DGP, que diferem em função da especificação do parêmetro a, conforme resumidos na Tabela 6. O uso do log, que é logaritmo natural, assegura valor positivo para a estimativa do parâmetro σ. No modelo mais simples M1, o ciclo anual á incorporado somente atravás do limiar qp (tk). No modelo M2, a expressão para σ, com os coeficientes σ0, σi e σ2 é uma maneira de introduzir ciclo anual com o período de 365 dias, ou 73 pêntadas, dentro do modelo. No M3, o parâmetro a incorpora tendência linear a longo prazo, que pode, por exemplo, estar relacionada com a mudança gradual do clima do local. O modelo mais complexo M4 incorpora tanto ciclo anual como tendência de longo prazo. A simplificação da tendeência de longo prazo para forma linear tem por objetivo evitar que a estimação de parâmetros se torne difícil demais. Devido às dificuldades na sua estimação, γ á assumido ser invariavel com o tempo em todos os modelos. Os paraêmetros foram estimados usando o programa ismev do R (Coles, 2001; R Development Core Team, 2006).

A qualidade do ajuste dos modelos é examinada através da inspeção visual de gráfico de probabilidade versus probabilidade equantil versus quantil. Como a analíse não-estacionária esses gráficos foram construídos transformando os valores originais em resíduos, seguindo Katz et al. (2002).

A identificação do melhor modelo entre os quatro concorrentes foi feita usando Critério de Informação de Akaike, AIC (Akaike, 1974) modificado para pequenas amostras (Hurvich & Tsai, 1989), e redimensionado (Burnhan & Anderson, 2004). O critário redimensionado de AIC é denotado por rAICc. De acordo com este critério, para uma dada amostra de valores extremos, o melhor modelo tem rAICc=0, e quanto maior for rAICc menos plausável á o modelo.

RESULTADOS

Um diagnóstico inicial do evento

A Tabela 7 mostra, para cada estação, precipitação de 5 dias durante o evento e correspondente ranking (decrescente). Em 7 localidades a precipitação de 5 dias foi recorde de todo o período considerado, e numa localidade foi o segundo maior valor, mostrando claramente que o evento foi de fato extremo.

A re-análise do NCEP/NCAR (National Centers for Environmental Prediction/National Centerfor Atmospheric Research; Kalnay et al., 1996) evidencia o aspecto de grande escala do evento em questão, com um forte cavado em 200 hPa e adveção de vorticidade ciclânica, favorecendo atividade convectivas sobre a região afetada, com divergência em altos níveis e convergância em baixos níveis da atmosfera. Esse padrão de circulação atmosférica, por outro lado, é consistente com o baixo valor de radiação de onda longa emergente em torno de 160 W/m 2 sobre a região em estudo, que pode ser considerado bastante atípico (análises não mostradas).

Modelos selecionados e suas características

A Tabela 8 mostra, para cada estação, o melhor modelo selecionado pelo critério rAICc, entre os 4 concorrentes, assim como as estimativas e , de σ e γ, com respectivos erros-padrão SE() e SE(), e número Nexc de valores extremos selecionados pelo limiar qp(tk). Cada limiar qp(tk) da Tabela 8 mostrouse como o melhor entre todos os testados para o desenvolvimento do modelo DGP, quanto à propriedade assintética da DGP, precisão das estimativas, e estabilidade nos resultados da análise de frequeância. Note que de 4 modelos testados, somente M1 e M2 foram selecionados. O fato de M3 e M4 não terem sido selecionados indica ausência de tendência de longo prazo significativa na magnitude dos valores extremos. Este resultado é consistente com o teste não-paramétrico de Mann-Kendall (Hipel & McLeod, 2005) ja que o resultado para série de extremos não é estatisticamente significativo. Quando o critério rAICc seleciona M1 e não M2 é sinal que a variação anual é suficientemente representada pelo qp(tk). Os modelos com caudas mais pesadas são para Pindamonhangaba (D2-068) e Bananal (D1-001). Portanto, nessas localidades os eventos extremos são mais frequentes do que em outras, onde as magnitudes do parâmetro y são consideravelmente menores. A diferença na probabilidade de ocorrência de eventos extremos entre os modelos de cauda pesada e cauda leve é ilustrada na Figura 6, onde os postos são Pindamonhangaba (cauda pesada) e Caçapava (cauda leve), para os quais os modelos de DGP se ajustam de forma bastante satisfatória aos valores extremos, como será mostrado na seção seguinte. Os valores da probabilidade foram calculados para precipitação de 5 dias de 200, 250, 300, 350, 400 mm, usando expressão 1 - F(γ, σ, ) (Eq. 1). Note, por exemplo, que a probabilidade para os níveis acima de 300 mm, em Caçapava, é praticamente nula para todo o ano, mas consideravél em Pindamonhangaba, pelo menos ate o n ível de 350 mm, especialmente no verão.

Qualidade do ajuste dos modelos selecionados

A Figura 7 mostra os graficos QQ (quantis versus quantis), para os modelos relacionados na Tabela 8. Por questão de economia de espaço, e por serem redundantes, os gráficos PP (percentis versus percentis) não sao apresentados. Exceto para Aparecida (D2-065) e Caçapava (E2-048), a qualidade do ajuste dos modelos aos dados parece bastante satisfatória, mesmo considerando os quantis mais altos, que frequentemente oferecem dificuldade no ajuste (ver, por exemplo, Smith, 2001; Katz et al., 2002, 2005). O ajuste mais pobre para o posto D2-065, por exemplo, onde o modelo subestima os quantis mais altos, pode ser apenas flutuação de caráter amostral ou devido a amostra usada ser pouco representativa da população de valores extremos. Independente da causa da falta de bom ajuste, os modelos para D2-065 e E2-048 exigem mais cautela do que aqueles obtidos para outras localidades.

Estimativas de probabilidade para o evento

O mapa da Figura 8 mostra as estimativas de probabilidades (em percentagem) de precipitação de 5 dias com um valor igual ou maior que o reportado durante o evento, no Vale do Paraíba. A probabilidade em cada estação foi obtida da expressão 1 - F(y, 55, y) (Eq. 1), com os respectivos parâmetros estimados (Tab. 8). Para as estações, onde o modelo selecionado foi M2, o valor do 5 usado é para tk = 1, que corresponde exatamente ao período de 1º a 5 de janeiro. É facíl de ver que a precipitação de 5 dias reportada na maioria das localidades foi evento muito raro, especialmente em Pindamonhangaba (D2-068), Aparecida (D2065), Natividade da Serra (E2-008), Bananal (D1-001), Caçapava (E2-048), e Lorena (D2-035), com a probabilidade de ocorrência menor do que 1% . Como foi mostrado na Tabela 7, a precipitação de 5 dias reportada em cada uma dessas localidades foi valor recorde de toda a série analisada.

CONCLUSÃO

Este trabalho realizou uma análise estatística do evento extremo de precipitação ocorrido entre 1º e 5 de janeiro de 2000, para 10 estações localizadas no Vale do Paraíba, usando modelo de distribuição generalizada de Pareto, que foi ajustado aos valores extremos de precipitação acumulada de 5 dias de cada estação individualmente. O objetivo principal foi de estimar a probabilidade relacionada à precipitação de 5 dias reportada em cada uma das localidades selecionadas, durante o evento, a partir do desenvolvimento de modelo de distribuição. As estimativas dessas probabilidades apontam que os valores de precipitação de 5 dias reportados em oito localidades (80%) podem ser classificados como evento muito raro, com a probabilidade de ocorrência num ano variando entre 0,0086% e 2,3%. O trabalho também mostrou que e extremamente difícil realizar estudos com base nos dados de precipitação do DAEE sem antes examinar cuidadosamente a homogeneidade desses dados, ja que podem estar seriamente contaminados por fatores não climaticos, como mostramos neste trabalho.

AGRADECIMENTOS

Este trabalho foi parcialmente financiado pela Financiadora de Estudos e Projetos (FINEP) sob contratos de numeros 01.06.1120.00 e 01.06.1126.00. Os autores agradecem ao DAEE-SP pelos dados de precipitação, especialmente ao Dr. Sergio Cirne de Toledo pelas valiosas informações sobre a história dos postos pluviométricos, e à Defesa Civil do Estado de São Paulo pelas informações a respeito de sinistros, a Georgia Pellegrina e Marcos Antonio Antunes de Oliveira pela aquisição e organização de dados. Aos revisores anonimos pelas valiosas sugestões.

Recebido em 20 julho, 2009 / Aceito em 15 março, 2010

Received on July 20,2009 / Accepted on March 15, 2010

NOTAS SOBRE OS AUTORES

Shigetoshi Sugahara. Bacharel em Física pela UNICAMP (1978), Doutor em Meteorologia pela USP (1991). De 1992 até o presente é pesquisador no Instituto de Pesquisas Meteorológicas da UNESP/Bauru. Tem como principais áreas de interesse climatologia e métodos estatísticos aplicados à ciência atmosférica.

Reinaldo Bonfim da Silveira. Bacharel em Meteorologia pela USP (1989), Doutor em Matemática Aplicada pela Universidade de Essex, Inglaterra (1998). Esteve no Instituto Nacional de Meteorologia, Brasília, de 1999 a 2007 e desde 2007 até o presente é pesquisador no Instituto Tecnológico SIMEPAR, Centro Politécnico da UFPR, Curitiba, PR. Tem como principais áreas de interesse modelagem numérica da atmosfera, sensoriamento remoto da atmosfera e métodos de verificação aplicados à previsão numérica de tempo.

Rosmeri Porfírio da Rocha. Bacharel em Meteorologia pela USP (1988), Doutora em Meteorologia pelo INPE (1999). De 2002 até o presente é docente no Departamento de Ciências Atmosféricas do IAG/USP. Tem como principais áreas de interesse modelagem numérica da atmosfera para estudos climáticos e dinâmica de sistemas meteorológicos.

  • ABADIE A. 2002. Bootstrap tests for distributional treatment effects in instrumental variable models. Journal of the American Statistical Association, 97: 284-292.
  • AKAIKE H. 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control, AC-19: 716-723.
  • ALEXANDERSSON H & MOBERG A. 1997. Homogenization of Swedish temperature data. Part I: homogeneitytestfor linear trends. International Journal of Climatology, 17: 25-34.
  • AUER I, BOHM R, JURKOVIC A, ORLIK A, PUTZMANN R, SCHONER W, UNGERBOCK M, BRUNNETTI M, NANNI T, MAUGERI M, BRIFFA K, JONES P, EFTHYMIADIS D, MESTRE O, MOISSELIN J, BEGERT M, BRAZDIL R, BOCHNICEK O, GEGNAR T, GAJIC-CAPKA M, ZANINOVIC K, MAJSTOROVIC J, SZLAI S, SZENTIMREY T & MERCALLI L. 2005. A new instrumental precipitation datasetfor the greater alpine region for the period 1800-2002. International Journal of Climatology, 25: 139-166.
  • BAI J& PERRON P. 1998. Estimating and testing linear modelswith multiple structural changes. Econometrica, 66: 47-78.
  • BAIJ & PERRON P. 2003. Computation and analysis of multiple structural change models. Journal of Applied Econometrics, 18:1-22.
  • BARRY D & HARTIGAN JA. 1993. A Bayesian analysis for change point problems. Journal of American Statistical Association, 88: 309-319.
  • BERGER JO & SELLKE T. 1987. Testing a point null hypothesis: The irreconcilability of P values and evidence. Journal of the American Statistical Association, 82:112-122.
  • BURNHAN KP & ANDERSON DR. 2004. Multimodel Inference: Understanding AIC and BIC in Model Selection. Sociological Methods & Research, 33: 261-304.
  • CASELLA G & BERGER RL. 1987. Reconciling Bayesian and frequentist evidence in the one-sided testing problem. Journal of the American Statistical Association, 82:106-111.
  • COLES SG. 2001. An introduction to statistical modeling of extreme values. London: Springer, 208 p.
  • HANSEN BE. 1997. Approximate asymptotic p values for structuralchange test. Journal of Business & Economic Statistics, 15: 60-67.
  • HIPEL KW & McLEOD AI. 2005. Time series modelling of water resources and environmental systems. Elsevier Science, 1013 p. Disponével em: <http://www.stats.uwo.ca/faculty/aim/1994Book/>. Acesso em: 7 abr. 2008.
  • HURVICH CM & TSAI CL. 1989. Model selection for extended quasilikelihood models in small samples. Biometrics,51: 1077-1084.
  • KALNAY E, KANAMITSU M, KISTLER R, COLLINS W, DEAVEN D, GAN-DIN L, IREDELL M, SAHA S, WHITE G, WOOLLEN J, ZHU Y, CHEL-LIAH M, EBISUZAKIW, HIGGINSW, JANOWIAKJ, MO KC, ROPELEWSKI C, WANG J, LEETMAA A, REYNOLDS R, JENNE R & JOSEPH D. 1996. The NCEP/NCAR 40-year reanalysis project. Bulletin of the American Meteorological Society, 77: 437-471.
  • KATZ RW, PARLANGE MB & NOVEAU P. 2002. Statistics of extremes in hydrology. Advances in Water Resources, 25:1287-1304.
  • KATZ RW, BRUSH GS & PARLANGE MB. 2005. Statistics of extremes: modeling ecological disturbances. Ecology, 86:1124-1134.
  • KHALIQ MN, OUARDA TMJ, ONDO J-C, GACHON P & BOBÉE B. 2006. Frequency analysis of a sequence of dependent and/or non-stationary hydro-meteorological observations: A review. Journal of Hydrology, 329: 534-552.
  • KLOK EJ & KLEIN TANK AMG. 2008. Updated and extended European dataset of daily climate observations. International Journal of Climatology. doi: 10.1002/joc.1779.
  • LINDLEY DV. 1957. A statistical paradox. Biometrika, 44:187-192.
  • R DEVELOPMENT CORE TEAM. 2006. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. Disponével em: <http://www.R-project.org>. Acesso em: 24 jul. 2007.
  • PETERSON TC, EASTERLING DR, KARL TR, GROISMAN P, NICHOLLS N, PLUMMER N, TOROK S, AUER I, BOEHM R, GULLETT D, VINCENT L, HEINO R, TUOMENVIRTA H, MESTRE O, SZENTIMREY T, SALINGER J, F0RLAND EJ, HANSSEN-BAUER I, ALEXANDERSSON H, JONES P & PARKER D. 1998. Homogeneity adjustments of in situ atmospheric climate data: A review. International Journal of Climatology, 18: 1493- 1517.
  • SHEATHER SJ & JONES MC. 1991. A reliable data-based bandwidth selection method for kernel density. Journal of Royal Statistical Society, B, 53: 683-690.
  • SMITH RL. 2001. Environmental Statistics. Version 5.0, 9 July 2001. Disponível em: <http://www.stat.unc.edu/postscript/rs/envnotes.ps>. Acesso em: 26 jun. 2007.
  • SUGAHARA S, DA ROCHA RP & SILVEIRA R. 2009. Non-stationary frequency analysis of extreme daily rainfall in Sao Paulo, Brazil. International Journal of Climatology, 29:1339-1349.
  • TUOMENVIRTA H. 2001. Homogeneity adjustments of temperature and precipitation series - Finish and Nordic data. International Journal of Climatology, 21: 495-506.
  • WIJNGAARD JB, KLEIN TANKAMG & KONNEN GP. 2003. Homogeneity of 20th century European daily temperature and precipitation series. International Journal of Climatology, 23: 679-692.

Datas de Publicação

  • Publicação nesta coleção
    03 Set 2010
  • Data do Fascículo
    Jun 2010

Histórico

  • Aceito
    15 Mar 2010
  • Recebido
    20 Jul 2009
Sociedade Brasileira de Geofísica Av. Rio Branco, 156, sala 2510, 20043-900 Rio de Janeiro RJ - Brazil, Tel. / Fax: (55 21) 2533-0064 - São Paulo - SP - Brazil
E-mail: sbgf@sbgf.org.br