Acessibilidade / Reportar erro

Avaliação de uma medida de evidência de um ponto de mudança e sua utilização na identificação de mudanças na taxa de criminalidade em Belo Horizonte

Resumos

A probabilidade a posteriori de um instante ser um ponto de mudança foi proposta por Loschi & Cruz (2005) como uma medida de evidência de que o comportamento de uma seqüência de dados mude em tal instante. A proposta deste trabalho é avaliar a eficiência desta medida na identificação de mudanças na taxa da distribuição Poisson, em dados seqüencialmente observados e compará-la com a medida proposta por Hartigan (1990), isto é, com a probabilidade a posteriori da partição aleatória formada pelos pontos de mudança. Cenários ou seqüências de dados com e sem pontos de mudanças são considerados. Em cenários sem pontos de mudanças, assumem-se taxas pequenas e grandes para avaliar a eficiência da medida proposta na presença de pouca e muita variabilidade. Em cenários com pontos de mudanças, consideram-se tanto mudanças estruturais quanto observações atípicas. Conclui-se que, em geral, a medida proposta teve melhor desempenho para identificar pontos de mudança. Uma análise para dados de criminalidade da cidade de Belo Horizonte também é feita utilizando-se o modelo proposto e observou-se que esta taxa muda freqüentemente ao longo do tempo.

amostrador de Gibbs; modelo partição produto; mudança estrutural; observação atípica


The posterior probability of each instant being a change point was proposed by Loschi & Cruz (2005) as a measure of evidence that a change occurred in that instant. In this paper, the efficiency of such a measure is evaluated and it is compared with the measure proposed by Hartigan (1990). Poisson data sequences, with and without changes, are considered. The method is evaluated in the presence of both structural changes and atypical observations. The proposed method over performs Hartigan's proposal. A series of violent crimes data from Belo Horizonte is analyzed by the proposed method. It was observed that the rate of violent crimes changes frequently throughout the time.

Gibbs sampling; product partition model; structural change; atypical observation


Avaliação de uma medida de evidência de um ponto de mudança e sua utilização na identificação de mudanças na taxa de criminalidade em Belo Horizonte

Rosangela H. Loschi* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Flávio B. Gonçalves; Frederico R. B. Cruz

Departamento de Estatística; Universidade Federal de Minas Gerais (UFMG); Belo Horizonte – MG; loschi@est.ufmg.br

RESUMO

A probabilidade a posteriori de um instante ser um ponto de mudança foi proposta por Loschi & Cruz (2005) como uma medida de evidência de que o comportamento de uma seqüência de dados mude em tal instante. A proposta deste trabalho é avaliar a eficiência desta medida na identificação de mudanças na taxa da distribuição Poisson, em dados seqüencialmente observados e compará-la com a medida proposta por Hartigan (1990), isto é, com a probabilidade a posteriori da partição aleatória formada pelos pontos de mudança. Cenários ou seqüências de dados com e sem pontos de mudanças são considerados. Em cenários sem pontos de mudanças, assumem-se taxas pequenas e grandes para avaliar a eficiência da medida proposta na presença de pouca e muita variabilidade. Em cenários com pontos de mudanças, consideram-se tanto mudanças estruturais quanto observações atípicas. Conclui-se que, em geral, a medida proposta teve melhor desempenho para identificar pontos de mudança. Uma análise para dados de criminalidade da cidade de Belo Horizonte também é feita utilizando-se o modelo proposto e observou-se que esta taxa muda freqüentemente ao longo do tempo.

Palavras-chave: amostrador de Gibbs; modelo partição produto; mudança estrutural; observação atípica.

ABSTRACT

The posterior probability of each instant being a change point was proposed by Loschi & Cruz (2005) as a measure of evidence that a change occurred in that instant. In this paper, the efficiency of such a measure is evaluated and it is compared with the measure proposed by Hartigan (1990). Poisson data sequences, with and without changes, are considered. The method is evaluated in the presence of both structural changes and atypical observations. The proposed method over performs Hartigan's proposal. A series of violent crimes data from Belo Horizonte is analyzed by the proposed method. It was observed that the rate of violent crimes changes frequently throughout the time.

Keywords: Gibbs sampling; product partition model; structural change; atypical observation.

1. Introdução

O modelo partição produto (MPP) introduzido por Hartigan (1990) em sua forma mais geral é, entre os propostos na literatura (por exemplo, os modelos threshold e o método considerado por Hawkins, 2001), o mais flexível para o estudo de problemas de ponto de mudança (mudança estrutural ou observação atípica). Sua flexibilidade se deve ao fato de que considera como variáveis aleatórias tanto o número de pontos de mudança como também os instantes em que as mudanças ocorreram (instantes estes identificados por uma partição aleatória do conjunto de índices das observações). Por esta razão, este modelo vem sendo amplamente utilizado. Veja, por exemplo, Barry & Hartigan (1993), Crowley (1997), os quais aplicam o MPP para a identificação de pontos de mudança na média de dados normalmente distribuídos, Quintana & Iglesias (2003), para uma aplicação do MPP na identificação de outliers em modelos de regressão, Loschi et al. (2003), para a identificação de pontos de mudança na média e variância de dados seqüencialmente observados e normalmente distribuídos entre outros.

Ao estudar problemas de pontos de mudanças utilizando o MPP, constata-se, no entanto, que a probabilidade a posteriori da partição aleatória que indica os instantes em que as mudanças ocorreram – medida de evidência de mudança sugerida por Hartigan (1990) e Barry & Hartigan (1992) – pode não fornecer uma idéia precisa sobre os instantes em que, de fato, tais mudanças ocorreram. Este problema surge por que várias partições podem ocorrer com mesma probabilidade a posteriori dificultando a tomada de decisão sobre os instantes em que as mudanças ocorreram. Numa tentativa de solucionar este problema surgiram duas alternativas. Quintana & Iglesias (2003) propõem uma maneira de escolher a partição ótima usando técnicas de Teoria de Decisão e, posteriormente, Loschi & Cruz (2005) propõem avaliar a evidência de uma mudança ter ocorrido calculando a probabilidade a posteriori de cada instante ser um ponto de mudança.

Este artigo estende para o caso Poisson os resultados obtidos em Loschi & Cruz (2005) e apresenta um estudo sobre a eficiência desta medida na identificação de pontos de mudança. Serão consideradas seqüências de dados gerados da distribuição de Poisson, independentemente. Seqüências ou cenários contendo ou não pontos de mudanças são considerados. Em cenários sem pontos de mudanças, consideram-se seqüências com diferentes variabilidades e em cenários com uma ou mais mudanças estudam-se tanto mudanças estruturais quanto observações atípicas. Para ilustrar a metodologia, utiliza-se o modelo proposto na análise de dados de criminalidade registrados na 17ª Cia da Polícia Militar de Belo Horizonte (região que inclui o campus da UFMG). O interesse é estudar o comportamento da taxa de criminalidade nesta região ao longo do tempo e avaliar se o programa instituído pelo Comando da Polícia Militar do Estado de Minas Gerais no final de 1999 foi eficiente para reduzir a criminalidade na área.

Este trabalho está assim organizado. Na seção 2, apresenta-se o MPP, em sua versão paramétrica introduzida por Barry & Hartigan (1992), com as coesões de Yao (1984) e os métodos computacionais utilizados para a obtenção das distribuições a posteriori de interesse. Na seção 3, avalia-se o comportamento e a eficiência da medida proposta para detecção de pontos de mudança. Para este estudo, consideram-se dados gerados, independentemente, de distribuições de Poisson. Na seção 4, aplica-se o modelo proposto para analisar o comportamento da taxa de criminalidade da cidade de Belo Horizonte de janeiro de 1998 a setembro de 2001. Para finalizar, na seção 5, apresentam-se as principais conclusões.

2. Modelo Estatístico

O MPP foi introduzido em sua forma mais geral por Hartigan (1990). Na sua forma geral, este modelo considera, em sua estrutura, todas as partições possíveis do conjunto de dados levando em conta tanto blocos contíguos quanto não-contíguos. Posteriormente, Barry & Hartigan (1992) particularizam o MPP para a situação em que os dados são seqüencialmente observados e apenas blocos contíguos são permitidos. Neste contexto eles introduzem uma versão paramétrica para o MPP em que os blocos presentes na partição são induzidos pela igualdade dos parâmetros que indexam as distribuições das observações. Para ilustrar o uso do MPP, Barry & Hartigan (1993) aplicam o MPP em sua versão paramétrica para identificar mudanças na média de dados seqüencialmente observados e normalmente distribuídos com variância comum.

Nesta seção serão brevemente apresentados o MPP e sua aplicação à seqüência de dados distribuídos segundo uma distribuição de Poisson e também o método computacional utilizado para obter-se as distribuições a posteriori de interesse.

2.1 Modelo partição produto para coesões de Yao

Seja X1,...,Xn uma seqüência de dados observados e considere o conjunto de índices I={1, ...,n}. Denote por r = {i0 ,...,ib } a partição aleatória do conjunto de índice I tal que e por B a variável aleatória que denota o número de blocos em r. Assuma que cada partição divide a seqüência X1,...,Xn em B = b subseqüências contíguas, as quais serão denotadas aqui por. Seja Cij a coesão a priori associada ao bloco [i j] = {i+1,...,j}, para i, j Î I È { 0 } , e j > i. Por coesão entende-se o grau de similaridade que se julga existir entre as observações em um mesmo bloco, que pode ser interpretada, aqui, como as probabilidades de transição na cadeia de Markov definida por pontos de mudança (Barry & Hartigan, 1992).

Considere p, para 0 < p < 1, probabilidade de que uma mudança ocorra em um instante qualquer. A coesão a priori para o bloco [i j] proposta por Yao (1984) e dada por:

para todo i, j Î I, i < j. Essas coesões a priori implicam que a seqüência de pontos de mudança estabelece um processo de renovação, com tempos de ocorrência idêntica e geometricamente distribuídos. Conseqüentemente, tais coesões podem ser utilizadas quando acredita-se que pontos de mudança já ocorridos não são informativos sobre pontos de mudanças futuros.

Seja q1, ...,qn, uma seqüência de parâmetros desconhecidos, condicionalmente nos quais, as variáveis aleatórias, X1, ..., Xn, têm densidades condicionais marginais dadas por f1(X1|q1), ..., fn(Xn|qn), respectivamente. A distribuição a priori de q1, ...,qn é construída como segue. Dado uma partição, para b Î I, tem-se que q1, ...,qn, para todo, ir-1 < i < ir, r = 1,...,b e que q[i0i1], ...,q[ib-1ib] são independentes entre si e de p. Assuma que q[ij] tem distribuição a priori p[ij](q), q Î Q[ij] em que Q[ij] é o espaço paramétrico correspondente ao parâmetro comum que indexa a densidade condicional de, ou seja, q[ij]=qi+1=...=qj. Então, seguindo Barry & Hartigan (1992) define-se o modelo partição produto para coesões a priori de Yao como segue:

1.

Dado p, a distribuição a priori de r é a seguinte distribuição produto:

para toda partição, satisfazendo.

2.

condicionalmente em e p = { i0,...,ib}, a seqüência é independente de p e tem densidade conjunta dada por:

em que .

Barry & Hartigan (1992) também mostram que a esperança a posteriori (ou estimativa produto) para qk, k=1, ..., n, é dada por:

em que denota a relevância a posteriori para o bloco [ij].

Assuma que p tem distribuição a posteriori Beta com parâmetros a e b. Como conseqüência dessa consideração, segue que as distribuições a posteriori de r e B são, respectivamente, dadas por:

A distribuição a posteriori para p é dada por:

em que a soma é sobre todas as partições de {1,...,n} em b blocos com pontos finais em i0,i1,...ib, satisfazendo à condição 0=i0<i1<...<ib=n. A probabilidade a posteriori de cada instante i ser um ponto de mudança é:

em que Ci é o conjunto de todas as partições que incluem o i-ésimo instante como ponto de mudança. Para maiores detalhes ver Loschi & Cruz (2005).

2.2 Estimativas produto para a taxa da distribuição Poisson

Assuma que, dadas as taxas em cada instante k, q1,...,qn, as observações, X1,...,Xn, são independentes e tais que Xk|qk ~ Poisson(qk), para k=1,...,n. Assuma também que, a priori, o parâmetro comum q[ij], que indexa a distribuição das observações do bloco [ij], tem distribuição gama com parâmetros t>0 e j>0, a qual será denotada por q[ij] ~ Gama(t,j) e cuja função densidade é dada por:

Como conseqüência tem-se que a distribuição preditiva a priori de X[ij], necessária para o cálculo das distribuições a posteriori exibidas na seção anterior, é a seguinte:

em que

para todo i = 0,...,n-1 e j = i+1,...,n. Também segue como conseqüência das suposições feitas que, dadas as observações do X[ij], a distribuição a posteriori por bloco de q[ij] é a distribuição gama com parâmetro t* e j*, isto é, q[ij] | X[ij] ~ Gama (t*, j*). Conseqüentemente, as estimativas a posteriori ou estimativas produto para a taxa q no instante k, qk, para todo k=1,...,n são dadas por :

2.3 Métodos computacionais

Considere a quantidade aleatória auxiliar Ul, de forma que Ul= 1, se ql = ql+1 e Ul= 0, se ql¹ ql=1 para l = 1, ..., n-1. Note que a partição aleatória r é imediatamente identificada ao considerar vetores U = (U1,..., Un-1) dessas quantidades aleatórias. Cada partição s > 1 é gerada usando o amostrador de Gibbs como segue. Partindo do valor inicial no passo s, o r-ésimo elemento, , é gerado considerando a seguinte razão:

Então, cada amostra da distribuição a posteriori de p é gerada da seguinte distribuição:

para s > 1, em que bs é o número de blocos no s-ésimo vetor U e é obtido notando-se que o número de blocos em r é dado por:

As estimativas produto podem ser obtidas computando a relevância a posteriori do bloco [i j], i, j = 1,...,n, i < j, como segue:

e a estimativa da probabilidade a posteriori de cada instante i ser um ponto de mudança utilizando os métodos computacionais citados acima é:

para i = 1,...,n-1, em que N é o número de vetores U para os quais é observado que, Ui-1 = 0, M é o número de vetores U para os quais é observado Ui = 0, Ui+1 =...=Uj-1 =1, e Uj = 0 e T é o número total de vetores U gerados. Ver detalhes em Loschi et al. (2003) e Loschi & Cruz (2005). Veja Gamerman (1997) para uma explicação geral sobre o amostrador de Gibbs.

3. Avaliação da Medida de Evidência de uma Mudança

Nesta seção comparam-se as probabilidades a posteriori de (i) cada instante ser ponto de mudança (Loschi & Cruz, 2004) e (ii) da partição aleatória formada pelos instantes de mudança (Hartigan, 1990). O objetivo é avaliar se a medida proposta por Loschi & Cruz (2005) tem a mesma eficiência que a medida proposta por Hartigan (1990) na identificação de pontos de mudança, sejam estes observações atípicas, sejam mudanças estruturais.

Serão simuladas várias seqüências de dados de tamanho 50 com nenhum, um, dois ou quatro pontos de mudanças. Os dados serão gerados, independentemente, de diferentes distribuições de Poisson. Como distribuição a priori de p para os casos em que se tem nenhuma ou uma mudança será considerada uma distribuição Beta(2,98); para os casos em que se tem duas mudanças, considera-se distribuição Beta(2,48) e, para os casos em que se tem quatro mudanças, distribuição Beta (2,23) será considerada. Estas distribuições a priori concentram a maior parte de suas massas em valores pequenos de p, indicando que, a priori, espera-se que a probabilidade de mudança em um instante qualquer seja baixa. Além disto, se p ~ Beta(a, b), o número esperado de blocos a priori é dado por:

Sendo assim, tem-se como conseqüência que, a priori, ocorre 1, 2 e 4 pontos de mudanças na seqüência de dados, respectivamente. Assume-se que a distribuição a priori para o parâmetro q, em todos os casos, é a distribuição Gama(2,1) que tem esperança e variância iguais a 2. Esta distribuição foi escolhida de tal forma que seu valor médio fosse um valor intermediário entre os valores escolhidos para a taxa q da qual geraram-se as distribuições Poisson e de tal forma que fosse mais próxima do valor da taxa da qual mais freqüentemente geraram-se os dados de uma mesma seqüência.

Em cada cenário, serão analisados três gráficos. No primeiro são apresentados a taxa real (linha cheia), a taxa estimada (linha tracejada) e os dados observados (pontos). No segundo são exibidas as distribuições a priori e a posteriori de p. No terceiro, mostra-se a partição mais provável (pontos) e a probabilidade de cada instante ser um ponto de mudança (linha cheia). Deve ser lembrado, neste terceiro gráfico, que um ponto no valor zero significa que uma mudança ocorreu. A Figura 1 apresenta os resultados para cenários sem mudança quando q = 0,5 e q = 10, respectivamente.


No caso em que q = 0,5 nota-se que as probabilidades de cada instante ser um ponto de mudança é muito baixa em todos os instantes, confirmando que q não sofre mudanças. Percebe-se, também, que a partição mais provável em cada caso indica que o comportamento da taxa q não sofre mudanças ao longo do tempo. Nota-se que tal partição tem alta probabilidade a posteriori de ocorrência (probabilidade 91%). No caso q = 10, a partição mais provável indicou a ocorrência de três mudanças, as quais são registradas nos instantes 12, 20 e 35. Porém, a probabilidade de ocorrência desta partição foi de apenas 14,8%. Além disso, nos instantes em que a partição detectou mudanças, as probabilidades a posteriori de tais instantes serem pontos de mudança são de apenas 26%, 28% e 47%, respectivamente, indicando para os dois primeiros uma probabilidade muito baixa de que sejam, de fato, pontos de mudança. Observa-se, ainda, que a probabilidade a posteriori de que o instante 22 seja um ponto de mudança foi 45% o que indica haver uma grande incerteza sobre este ponto ser ou não um ponto de mudança. Ressaltamos que este ponto não foi indicado pela partição mais provável como sendo um ponto de mudança. Para os demais instantes observou-se uma probabilidade menor que 25% de ser ponto de mudança indicando forte evidência que tais instantes não são pontos de mudança. Nota-se ainda que as estimativas produto para a taxa, nos dois casos, são bem próximas do valor real, apresentando mudança apenas no caso em que a taxa (variabilidade) é alta. Vê-se também que as distribuições a posteriori de p indicam, com era de se esperar, pequena probabilidade a posteriori que uma mudança ocorra em um instante qualquer.

A Figura 2 mostra o resultado obtido para cenários contendo apenas uma mudança estrutural nos instantes 10 e 25, respectivamente. Neste caso, as observações antes da mudança são geradas de uma distribuição Poisson com parâmetro q = 1 e as observações após a mudança são geradas de uma distribuição com taxa q = 4.


No cenário em que q sofre mudança no instante 10, a partição mais provável a posteriori indica erroneamente mudanças nos instantes 10 e 33. Porém tal partição tem probabilidade de ocorrência a posteriori de apenas 2%. No entanto, considerando a probabilidade a posteriori de cada instante ser ponto de mudança, nota-se que o instante 10 é um ponto de mudança com probabilidade 50%. Os demais instantes (inclusive o 33) têm probabilidade inferior 10% de ser ponto de mudança. Para o cenário com mudança no instante 25 nota-se que a partição mais provável a posteriori indica corretamente os instantes de mudança e esta partição ocorre com probabilidade a posteriori de 52%. Nota-se também que este instante tem probabilidade a posteriori de 85% de ser ponto de mudança e os demais instantes tem probabilidade a posteriori inferior a 15% de serem pontos de mudança. Ou seja, neste último cenário a distribuição a posteriori de r e a probabilidade a posteriori de cada instante ser ponto de mudança conduzem à mesma decisão. Porém, a probabilidade a posteriori de cada instante ser ponto de mudança fornece uma melhor informação. Percebe-se que quanto maior for a quantidade de observações antes das mudanças, mais eficientes na indicação de mudanças são os dois métodos considerados. Resultados similares (não mostrados) foram obtidos quando, após a mudança, geramos os dados de uma distribuição com maior variância.

A Figura 3 mostra o resultado obtido para cenários contendo duas mudanças estruturais nos instantes 10 e 20, e 30 e 40, respectivamente. Neste caso, as observações antes da primeira mudança e após a segunda mudança são geradas de uma distribuição Poisson com parâmetro q = 1, e entre as mudanças são geradas de uma distribuição com taxa q = 4.


No primeiro caso, em que q sofre mudança nos instantes 10 e 20, a partição mais provável a posteriori tem probabilidade 11% de ter ocorrido e indica mudanças nos instantes 9 e 20. Para os instantes 09 e 20 observe-se que suas probabilidades a posteriori de serem ponto de mudança são 57% e 79%, respectivamente. No instante 10 esta probabilidade é 23% e nos demais instantes são menores que 15%. No outro caso, a partição mais provável a posteriori indicou mudanças apenas nos instantes em que estas realmente ocorrem com probabilidade 19%. Neste caso, as probabilidades a posteriori de que os instantes 20 e 30 sejam pontos de mudança são 42% e 43%, respectivamente, e menor que 15% nos demais instantes. Nota-se ainda que, as estimativas produto para a taxa, em cada cenário, são bem razoáveis e, como era esperado, as distribuições a posteriori de p indicam que a probabilidade de que uma mudança ocorra em um instante qualquer é maior que nos casos anteriores.

A Figura 4 mostra o resultado obtido para cenários contendo dois pontos atípicos nos instantes 24 e 26, e 21 e 29, respectivamente. Os ponto atípicos são gerados de uma distribuição Poisson com parâmetro q = 10 e as demais observações são geradas considerando taxa q = 1.


No caso em que os pontos atípicos estão nos instantes 24 e 26, a partição mais provável a posteriori indicou mudanças apenas nos instantes 23 e 26, com probabilidade 9%, e observou-se que as probabilidades a posteriori de que estes instantes sejam pontos de mudança são de 79% e 98%, respectivamente. Nos instantes 24 e 25, quando também ocorrem mudanças, as probabilidades a posteriori de mudança foram 3,1% e 2,7%, respectivamente, e, para os demais instantes, esta probabilidade foi sempre menor que 20%. Perceba que, neste caso, as estimativas produto dão uma idéia de que houve uma mudança estrutural e não duas observações atípicas muito próximas. No outro caso a partição, mais provável a posteriori indicou mudanças exatamente nos instantes em que elas ocorrem, com probabilidade 1%, e a probabilidade a posteriori de mudança nestes instantes foi sempre maior que 61%. Observa-se então que foram necessárias pelo menos três observações entre os pontos atípicos para detectar-se todas as mudanças, tanto quando consideramos a partição mais provável a posteriori, como quando utilizamos a probabilidade a posteriori do instante ser ponto de mudança. Perceba também que a probabilidade a posteriori de que uma mudança ocorra em um instante qualquer é de cerca de 10%.

A Figura 5 mostra o resultado obtido para cenários contendo duas mudanças estruturais nos instantes 15 e 30, considerando valores crescentes para a taxa. No primeiro (segundo) cenário as observações antes da primeira mudança são geradas de uma distribuição Poisson com parâmetro q = 1 (q = 1), após a primeira mudança são geradas de uma distribuição com taxa q = 4 (q = 6) e após a segunda mudança são geradas de uma distribuição com q = 7 (q = 12).


No primeiro caso a partição mais provável a posteriori indicou mudanças nos instantes 15 e 31 com probabilidade 7%. A probabilidade a posteriori de que estes instantes sejam pontos de mudança é 65% e 27%, respectivamente. No instante 30 esta probabilidade é 6% e é menor que 25% para os demais instantes. Nota-se que a partição mais provável a posteriori detectou a segunda mudança com um pequeno atraso e a probabilidade a posteriori de mudança neste instante não foi alta (27%), significando forte evidência de que o instante 30 não seja um ponto de mudança. Isto deve ter ocorrido pelo fato de as mudanças sofridas por terem sido pequenas (de 1 para 4 e de 4 para 7). No segundo caso, a partição mais provável a posteriori indica mudanças nos instantes 15, 33 e 46 e ocorre com probabilidade 13%. As probabilidades a posteriori de que estes instantes sejam pontos de mudança são, respectivamente, 99%, 31% e 31%. Observa-se também que o instante 30 é ponto de mudança com probabilidade de apenas 29%. Neste caso, a probabilidade da primeira mudança ocorrer foi bem maior que no primeiro caso, porém, além da segunda mudança ter sido detectada com atraso, foi detectada uma terceira mudança que não ocorreu na realidade. Nota-se que para os casos em que q sofre dois aumentos, a segunda mudança foi detectada com atraso pela partição mais provável a posteriori e teve probabilidade a posteriori relativamente baixa de ser um ponto de mudança. Perceba, ainda que, as estimativas produto para a taxa são bem razoáveis e captam relativamente bem as mudanças.

Concluindo, pode-se observar através do estudo dos diferentes cenários simulados que a medida proposta teve um bom desempenho geral na detecção de pontos de mudança. Notou-se que na maioria dos instantes em que ocorreu mudança, a probabilidade de tal instante ser um ponto de mudança foi maior que 0,50. Percebe-se ainda que as duas medidas de evidência de uma mudança são úteis na análise de pontos de mudança sendo que a medida proposta teve desempenho melhor ou igual ao da partição mais provável a posteriori. Na próxima seção, aplica-se o MPP a dados reais relacionados com a criminalidade na cidade de Belo Horizonte.

4. Análise de Dados Reais

Nesta seção utiliza-se a metodologia apresentada na seção 2 para analisar dados referentes ao número de crimes violentos notificados mês a mês no período de janeiro de 1998 a setembro de 2001 na 17ª Cia. da Polícia Militar da cidade de Belo Horizonte, que é responsável pelo registro dos crimes cometidos no campus da UFMG e em alguns bairros próximos. O objetivo principal é verificar se o programa "Policiando com Resultados", introduzido pelo Comando da Polícia Militar do Estado no final de 1999 (Ward, 2000), produziu uma redução na taxa de criminalidade nesta região.

Uma vez que o único evento do qual se tinha conhecimento que poderia ter provocado uma mudança na taxa de criminalidade era a implementação do programa "Policiando com Resultados", escolheu-se como distribuição a priori para p (probabilidade de ocorrer uma mudança em um instante qualquer) uma distribuição Beta com parâmetros a =1,5 e b =28,5. Esta distribuição reflete que, a priori, a probabilidade de ocorrer uma mudança em um instante qualquer é pequena (média = 0,05 e moda = 0,0178) e tem-se uma grande certeza sobre isto (variância = 0,0015). Conseqüentemente, assume-se que, a priori, o número médio de pontos de mudança na série analisada é 1. Assume-se também que, dado a taxa de criminalidade q, o número de crimes cometidos nessa região em cada mês possui uma distribuição de Poisson. Desde que não se tem informação prévia sobre a taxa de criminalidade em Belo Horizonte, adota-se que a priori q tem uma distribuição Gama, pouco informativa, com parâmetros t = 0,001 e j = 1,01. Conseqüentemente, estima-se que, a priori, a taxa média de crimes violentos cometidos nesta região de Belo Horizonte é de 1010 crimes por mês. A Figura 6 mostra as estimativas produto da taxa de crimes violentos registrados na 17ª Cia. Nota-se que as estimativas produto para j apresentam comportamento crescente no período de janeiro de 1998 a junho de 2000, atingindo seu máximo neste último mês (82 crimes). No período que vai de junho de 1998 a fevereiro de 1999, a taxa de criminalidade apresenta maior estabilidade e é de aproximadamente 20 crimes por mês. Após junho de 2000 percebe-se uma redução na velocidade de crescimento da taxa de criminalidade, a qual poderia ser uma conseqüência do programa "Policiando com Resultados". Em junho de 2000 a taxa de criminalidade sofre uma queda significativa caindo de 82 para 58 crimes por mês. Em março de 2001 sofre um forte aumento passando de 50 para 76 crimes por mês. A partir de maio de 2001, a taxa começa a decrescer atingindo a taxa de 45 crimes por mês em setembro desse mesmo ano.


A Figura 7 apresenta a probabilidade a posteriori de cada mês ser um ponto de mudança (linha contínua) juntamente com a partição mais provável a posteriori. A partição mais provável a posteriori é indicada através de pontos em que um valor zero representa uma mudança naquele mês. Da Figura 7 percebe-se que, no período junho de 1998 a fevereiro de 1999, a probabilidade de cada instante ser um ponto de mudança é no máximo 26%. Mudanças importantes na taxa podem ser observadas em maio de 1998, com probabilidade 89%, fevereiro, setembro e novembro de 1999 com probabilidades 98%, 100% e 100%, respectivamente, abril, maio, junho e dezembro de 2000 com probabilidades 71%, 100%, 87% e 98%, respectivamente, março, abril, maio, e agosto de 2001, com probabilidades 93%, 100%, 100% e 59%, respectivamente. Observa-se que nos instantes em que grandes mudanças nas estimativas produto da taxa de criminalidade (Figura 6) são percebidas, as probabilidades destes instantes serem pontos de mudança são bem altas. Já no período em que se observa estabilidade nas estimativas da taxa, tais probabilidades são baixas (menores que 26%). Ou seja, a medida proposta está em acordo com o que é observado no gráfico das estimativas produto para a taxa de crimes violentos. A partição mais provável a posteriori ocorreu com probabilidade 1,9% e a maioria dos meses indicados como instantes de mudança por esta partição coincide com os meses cuja probabilidade a posteriori de ser ponto de mudança é maior do que 50%. Ou seja, as duas medidas levaria a conclusões similares sobre os instantes em que as mudanças ocorreram.


Percebe-se da Figura 8 que a probabilidade de que uma mudança ocorra em um instante qualquer é, a posteriori, maior do que se acreditava a priori. Observe que a distribuição a posteriori de p está concentrada em valores mais altos que a distribuição a priori. Note que, a posteriori, em média, p é 26%, o que significa dizer que a taxa de criminalidade está mais propensa a mudanças do que se acreditava inicialmente. A distribuição a posteriori do número de blocos (figura não apresentada) indicou a presença de mais pontos de mudança do que se esperava a priori. Notou-se que, em média, a posteriori há 16,55 pontos de mudança com desvio padrão igual a 0,549.


Concluindo, sob nosso ponto de vista, o programa "Policiando com Resultados" foi pouco eficiente para a redução da criminalidade na região estudada uma vez que, apesar de observamos que a taxa de criminalidade de meados de 2000 em diante cresce com menor velocidade, a taxa de crimes violentos na região ainda está muito alta.

5. Conclusão

Neste trabalho estendeu-se para o modelo Poisson o estudo da eficiência da probabilidade a posteriori de cada instante ser ponto de mudança, como uma medida de evidência de que a mudança, de fato, ocorreu. Esta medida, proposta por Loschi & Cruz (2005), foi comparada com a partição mais provável a posteriori, medida proposta originalmente por Hartigan (1990) e Barry & Hartigan (1992). A avaliação foi feita considerando seqüências de dados Poisson gerados independentemente, com e sem a presença de mudanças. Para cenários com pontos de mudança, avaliou-se o comportamento da medida de Loschi & Cruz (2005) na presença tanto de observações atípicas, quanto de quebras estruturais. Após este estudo, apresentou-se uma análise para dados de criminalidade da cidade de Belo Horizonte.

Notou-se que, em geral, a medida de Loschi & Cruz (2005) teve desempenho não inferior para identificar a presença de pontos de mudança. Percebeu-se que na maioria dos instantes em que ocorreu mudança, a probabilidade a posteriori de tal instante ser um ponto de mudança foi maior que 0,50. Observou-se ainda que, quanto maior for a quantidade de observações antes das mudanças, mais eficientes na identificação de pontos de mudança são tanto a partição mais provável a posteriori, quanto a probabilidade a posteriori de um instante ser ponto de mudança. Em seqüência de dados em que observações atípicas ocorrem muito próximas umas das outras, as mudanças podem não ser bem identificadas por qualquer das duas medidas. Além disto, nestes cenários, as estimativas produto podem dar a idéia errônea de que ocorreu uma mudança estrutural. Notou-se também que para cenários em que a taxa q sofre mudanças estruturais aumentando o seu valor em cada mudança, nenhum dos dois métodos teve bom desempenho. Nestes casos, notou-se que as estimativas produto nem sempre estão próximas do valor real da taxa.

Na análise da série de número de crimes violentos, registrados mensalmente, cometidos em uma região da cidade de Belo Horizonte, observou-se que a taxa de criminalidade teve tendência ao crescimento de janeiro de 1998 até junho de 2000. Após esta data, notou-se que a taxa de criminalidade passou a crescer com menor velocidade. Esta diminuição na velocidade de crescimento pode ter sido conseqüência do programa "Policiando com Resultados" introduzido pelo Comando da Polícia Militar de Minas Gerais no final de 1999. Contrário ao que se esperava na avaliação a priori, a taxa de criminalidade na região estudada experimentou muitas mudanças no período estudado e continuou alta mesmo após o programa "Policiando com Resultados" ter sido implantado. Conclui-se que a metodologia é eficiente na identificação de pontos de mudança.

Agradecimento

Os autores agradecem ao CRISP-UFMG na pessoa do Prof. Renato Martins Assunção (EST-UFMG) pelo fornecimento dos dados utilizados no trabalho. Rosangela H. Loschi agradece ao CNPq (processos 3000325/2003-7 e 472066/2004-8) e PRPq-UFMG (processo 3893-UFMG/RTR/FUNDO/PRPq/RECEMDOUTORES/00), por parcialmente financiar sua pesquisa. Flávio B. Gonçalves é bolsista do Programa de IC do CNPq. Frederico R. B. Cruz tem sua pesquisa financiada por CNPq (processos 301809/96-8, 472066/2004-8 e 201046/94-6), FAPEMIG (processos CEX-289/98 e CEX-855/98) e PRPq-UFMG (processo 4081-UFMG/RTR/FUNDO/PRPq/99).

(10) Ward, H.H. (2000). Poling reform in Latin America: Current efforts in Argentina, Brazil and Chile. Woodrow Wilson Center for Scholars. Latin America Program, Dezembro de 2000, 29 pp. (Manuscrito não publicado).

Recebido em 09/2004; aceito em 06/2005 após 1 revisão

Received September 2004; accepted June 2005 after one revision

  • (1) Barry, D. & Hartigan, J.A. (1993). A Bayesian analysis for change point problem. Journal of the American Statistical Association, 88(421), 309-319.
  • (2) Barry, D. & Hartigan, J.A. (1992). Product partition models for change point problems. The Annals of Statistics, 20(1), 260-279.
  • (3) Crowley, E.M. (1997). Product partition models for normal means. Journal of the American Statistical Association, 93(437), 192-198.
  • (4) Gamerman, D. (1997). Markov Chain Monte Carlo: Stachastic Simulation for Bayesian Inference. Chapman & Hall, London, UK.
  • (5) Hartigan, J.A. (1990). Partition Models. Communication in Statistics-Theory & Methods, 19(8), 2745-2756
  • (6) Hawkins, D.M. (2001). Fitting multiple change-point models to data. Computational Statistics & Data Analysis, 37(3), 323-341.
  • (7) Loschi R.H. & Cruz, F.R.B (2005). Extension to the Product Partition Model: Computing the Probability of a Change. Computational Statistics & Data Analysis, 48(2), 255-268.
  • (8) Loschi R.H.; Cruz, F.R.B; Iglesia, P.L & Arellano-Valle, R.B (2003). A Gibbs sampling scheme to the product partition model: an application to change point problems. Computers & Operations Research, 30(3), 463-482.
  • (9) Quintana, F. & Iglesias, P.L. (2003). Bayesian Clustering and product partition models. Journal of the Royal Statistical Society B, 65(2), 557-574.
  • (11) Yao, Y. (1984). Estimation of a noise discrete-time step function: Bayes and empirical Bayes approaches. The Annals of Statistics, 12(4), 1434-1447.
  • *
    Corresponding author / autor para quem as correspondências devem ser encaminhadas
  • Datas de Publicação

    • Publicação nesta coleção
      20 Fev 2006
    • Data do Fascículo
      Dez 2005

    Histórico

    • Recebido
      Set 2004
    • Aceito
      Jun 2005
    Sociedade Brasileira de Pesquisa Operacional Rua Mayrink Veiga, 32 - sala 601 - Centro, 20090-050 Rio de Janeiro RJ - Brasil, Tel.: +55 21 2263-0499, Fax: +55 21 2263-0501 - Rio de Janeiro - RJ - Brazil
    E-mail: sobrapo@sobrapo.org.br