Acessibilidade / Reportar erro

Intervalos de confiança para os parâmetros do modelo geométrico com inflação de zeros

Resumos

Propomos neste trabalho a utilização do modelo Geométrico com inflação de zeros, que é uma generalização do modelo Geométrico, na análise de dados de sobrevivência e confiabilidade. O uso deste modelo se faz necessário principalmente quando os dados apresentam um número excessivo de zeros. Estimativas de máxima verossimilhança dos parâmetros do modelo foram obtidas, assim como seus intervalos de confiança baseados na teoria assintótica. Ademais, usamos a técnica de reamostragem bootstrap como um procedimento alternativo adequado para construção de intervalos de confiança para os parâmetros do modelo Geométrico com inflação de zeros.

Estimação intervalar; probabilidade de cobertura; técnica bootstrap


We propose in this paper the use of zero-inflated Geometric model, which is a generalization of the Geometric model, in the analysis of reliability and survival data. The use of this model is necessary especially when the data presents an excessive number of zeros. Maximum likelihood estimates of parameters were obtained, even as their confidence intervals based on asymptotic theory. In addition, we use the bootstrap resampling technique as an appropriate alternative procedure to construct confidence intervals of parameters of zero-inflated Geometric model.

Intervalar estimation; coverage probability; bootstrapping technique


Intervalos de confiança para os parâmetros do modelo geométrico com inflação de zeros

C. G. CarrascoI; M. H. TutiaII; E. Y. NakanoIII

IUnidade Universitária de Ciências Exatas e Tecnológicas, Universidade Estadual de Goiás, UEG, 75132-903 Anápolis, GO, Brasil. cleber.carrasco@ueg.br

IIFaculdade de Tecnologia de Ourinhos, FATEC - Ourinhos, 19910-206 Ourinhos, SP, Brasil. marcelo.tutia@fatec.sp.gov.br

IIIDepartamento de Estatística, Universidade de Brasília -UnB, 70910-900 Brasília, DF, Brasil. nakano@unb.br

RESUMO

Propomos neste trabalho a utilização do modelo Geométrico com inflação de zeros, que é uma generalização do modelo Geométrico, na análise de dados de sobrevivência e confiabilidade. O uso deste modelo se faz necessário principalmente quando os dados apresentam um número excessivo de zeros. Estimativas de máxima verossimilhança dos parâmetros do modelo foram obtidas, assim como seus intervalos de confiança baseados na teoria assintótica. Ademais, usamos a técnica de reamostragem bootstrap como um procedimento alternativo adequado para construção de intervalos de confiança para os parâmetros do modelo Geométrico com inflação de zeros.

Palavras-chave: Estimação intervalar, probabilidade de cobertura, técnica bootstrap.

ABSTRACT

We propose in this paper the use of zero-inflated Geometric model, which is a generalization of the Geometric model, in the analysis of reliability and survival data. The use of this model is necessary especially when the data presents an excessive number of zeros. Maximum likelihood estimates of parameters were obtained, even as their confidence intervals based on asymptotic theory. In addition, we use the bootstrap resampling technique as an appropriate alternative procedure to construct confidence intervals of parameters of zero-inflated Geometric model.

Keywords: Intervalar estimation, coverage probability, bootstrapping technique.

1. Introdução

A distribuição Geométrica [7] é utilizada para contar o número de fracassos que precedem o primeiro sucesso, e a mesma pode ser vista como uma versão discreta da distribuição Exponencial [11]. Em particular, na análise de confiabilidade, podemos estar interessados no número de impactos termo-elétricos recebidos por um equipamento eletrônico antes do mesmo falhar. Nos casos onde, a chance de falha desse equipamento no primeiro impacto é muito alta, podemos ter uma ocorrência muito grande de números zeros nesse conjunto de dados. Nesta situação, o modelo Geométrico com inflação de zeros (ZIG) será mais apropriado do que o modelo Geométrico padrão para o ajuste desses dados. Os modelos com inflação de zeros como o modelo Binomial Negativo ou Poisson com inflação de zeros já foram amplamente discutidos por [2] e [8].

Neste artigo, propomos trabalhar com a distribuição Geométrica com inflação de zeros na análise de dados de sobrevivência e confiabilidade, a qual é uma generalização da distribuição Geométrica. O objetivo deste trabalho é apresentar a técnica de reamostragem bootstrap [3] como um procedimento alternativo na construção de intervalos de confiança para os parâmetros do modelo ZIG, uma vez que os procedimentos usuais podem não ser válidos [1].

Essa técnica de reamostragem foi proposta primeiramente por Efron [5], e visa a obtenção de estimativas intervalares empíricas para os estimadores dos parâmetros de interesse por meio da reamostragem do conjunto de dados original. Existem basicamente dois tipos de bootstrap: o paramêtrico, no qual os estimadores de máxima verossimilhança (EMV) são obtidos através do modelo ajustado, isto é , geramos dados do modelo ajustado com os valores dos parâmetros fixados nos EMV obtidos da amostra original; e o bootstrap não paramêtrico, onde os EMV são baseados em Β reamostras com reposição obtidas da amostra original.

Os parâmetros do modelo ZIG são estimados através do logaritmo da função de verossimilhança, utilizando-se de um algoritmo do tipo Newton implementado na função nlm (non linear minimization) do pacote stats disponível no software R [4]. Do mesmo modo, intervalos de confiança são construídos para os parâmetros do modelo ZIG através da teoria assintótica usual, utilizando-se das propriedades assintóticas dos estimadores de máxima verossimilhança. Também são construídos intervalos de confiança bootstrap para os parâmetros do modelo ZIG como uma alternativa adequada aos métodos usuais de estimação intervalar. Para comparar os procedimentos de construção de intervalos de confiança, calculamos a probabilidade de cobertura e as amplitudes médias desses intervalos.

Para ilustrarmos a metodologia adotada neste trabalho, geramos no software R um conjunto de dados com muitos zeros e, a esses dados, ajustamos os modelos ZIG e Geométrico através das suas respectivas função de sobrevivência, comparando-as com as estimativas de Kaplan-Meier.

2. Desenvolvimento

A distribuição Geométrica com inflação de zeros é uma generalização da distribuição Geométrica, onde temos uma combinação da distribuição Geométrica com uma distribuição cuja probabilidade de zero é igual a 1. A distribuição de probabilidades do modelo ZIG pode ser expressa da seguinte forma

onde x = 0,1,2,...; 0 ≤ θ ≤ 1 é o parâmetro da distribuição Geométrica que representa a probabilidade instantânea do evento de interesse e, 0 ≤ ρ ≤ 1 é o parâmetro de mistura da distribuição Geométrica com uma distribuição degenerada x=0 que modela os exessos de zeros não explicados pelo modelo geométrico.

I(x) {0} é uma função indicadora, que vale um quando x = 0 e zero para x > 0. =1

Em particular se p = 1, o modelo (2.1) se reduz ao modelo Gemoétricoio.

As funções de sobrevivência e de risco podem ser escritas, respectivamente por

e

Seja X uma variável aleatória com função densidade de probabilidade dada em (2.1), então na ausência de censuras, os parâmetros do modelo ZIG podem ser estimados através da maximização da função de verossimilhança definida como [9]

O logaritmo da função de verossimilhança pode ser apresentado por

onde nx é o número de ocorrências do valor x na amostra, x = 1,2,... Em particular, no é o número de zeros na amostra. Note que .

Os estimadores de máxima verossimilhança dos parâmetros do modelo ZIG podem ser obtidos diretamente através da maximização do logaritmo da função de verossimilhança (2.2) por métodos numéricos.

O vetor gradiente das derivadas parciais de (2.2) é obtido através de

e a matriz Jacobiana com as derivadas segundas é dada por

Note que ni ~ Binomial (n,P (X = i)), assim, E(ni) = nP (X = i). Dessa forma, temos

e

Logo, é fácil verificarmos que

A matriz de informação de Fisher In(p, θ), é dada por

Invertendo a matriz de informação de Fisher obtemos

Portanto, temos que

Assim, os intervalos de 100 (1 - α) % de confiança para os parâmetros do modelo ZIG (2.1) são dados respectivamente por

e

onde é o quantil de uma distribuição Normal Padrão. Note que θ e ρ seus estimadores , respectivamente em (2.4) e (2.5).

A utilização de (2.3) é direcionada pelo tamanho da amostra, que deve ser suficientemente grande. No entanto, em análise de sobrevivência e confiabilidade é comum termos amostras pequenas ou moderadas, onde a aproximação (2.3) pode não ser válida [1]. Nestes casos uma possibilidade é a utilização da técnica de reamostragem bootstrap paramêtrica e/ou não paramêtrica na construção de intervalos de confiança, através da reamostragem do conjunto de dados original [3]. θ

Consideremos θ como o parâmetro de interesse do modelo ZIG. Para ada reamostra da amostroriginal, calculamos o EMV para θ e temos no final de Bθ reamostragens, valores dos EMV ordenados. Utilizamos então

como os limites inferiores e superiores do intervalo 100(1 - α)% de confiança para θ, onde α é o nível de significância. Neste trabalho utilizamos B = 1000. Intervalos de confiança percentis bootstrap 100(1 - α)% para o parâmetro ρ do modelo ZIG podem ser obtidos de maneira análoga.

Quando a reamostra for obtida de um modelo probabilístico, utilizando como parâmetros deste modelo as estimativas dos mesmos calculadas através da amostra original, temos o bootstrap paramêtrico. Agora, se a reamostra for feita com reposição diretamente da amostra original, temos o bootstrap não paramêtrico. No bootstrap paramêtrico é feita suposição sobre a distribuição dos dados que gerou a amostra original, isto é , necessita supor ou conhecer a distribuição que gerou a amostra original. No caso do bootstrap não paramêtrico não precisa supor ou conhecer essa distribuição. Em ambos os casos, é necessário que a amostra seja representativa da população. Maiores detalhes sobre essa técnica podem ser vistos em [3].

Para compararmos os procedimentos de construção de intervalos de confiança para os parâmetros de uma distribuição, é usual o cálculo das probabilidades de cobertura e das amplitudes médias desses intervalos [10]. A probabilidade de cobertura é determinada repetindo o procedimento de construção do intervalo de confiança D vezes, nas quais verificamos em casa uma se o verdadeiro valor do parâmetro pertence ou não ao intervalo de confiança obtido. Assim, a probabilidade de cobertura para um intervalo de confiança pode ser calculada por

onde ψ(.) é uma função indicadora que vale um se vp ∉ ICj e zero caso contrário, vp é o verdadeiro valor do parâmetro e ICj é o j-êsimo intervalo de confiança construído. Neste trabalho utilizamos D = 1000.

A amplitude de um intervalo de confiança é outro critério para comparação de intervalos de confiança. Com a mesma probabilidade de cobertura, procedimentos de intervalos de confiança que possuem menores amplitudes são considerados melhores [6]. Procedimentos de intervalos de confiança conservatives tendem a terem maiores amplitudes do que os procedimentos não conservatives.

3. Resultados e Discussões

A metodologia adotada neste trabalho é aplicada a um conjunto de dados de tamanho 50 gerado no software R através do modelo ZIG com os parâmetros fixados em 0 = 0,15 e ρ = 0,4. O tamanho da amostra foi definido de forma a ser suficiente para representar bem o excesso de zeros e pequeno o bastante para evitar a normalidade assintótica das estimativas. Neste exemplo estamos considerando que esses dados são referentes a tolerância de um equipamento eletrônico ao número de impactos termo-elêtricos onde, pelas características de fabricação, sabemos que o primeiro impacto é o mais fatal para o equipamento, isto é , a chance de falha no primeiro impacto é maior do que nos demais. Os dados simulados foram: 0, 0, 0, 20, 0, 2, 0, 0, 2, 0, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 17, 4, 0, 0, 0, 0, 4, 0, 11, 0, 0, 0, 0, 0, 2, 0, 15, 0, 0, 14, 5, 0, 0, 0, 11, 0, 5, 19 e 9.

A Figura 1 apresenta as curvas de sobrevivência dos modelos ZIG e Geométrico juntamente com a curva de Kaplan-Meier, observa-se que o modelo Geométrico com inflação de zeros se ajusta melhor a esse conjunto de dados do que o modelo Geométrico simples, o que era esperado devido ao excesso de zeros contido nesses dados.


As estimativas de máxima verossimilhança para os parâmetros θ e p do modelo ZIG, calculadas através da maximização de (2.2) utilizando a função nlm do software R, são respectivamente θ = 0,1189 e ρ = 0, 3859. Os intervalos de confiança para os parâmetros do modelo ZIG construídos utilizando a teoria assintótica usual (2.4) e (2.5), e a técnica bootstrap (2.6) estão condensados na Tabela 1, que também apresenta as variâncias e os vícios dos estimadores obtidos pelos métodos descritos neste trabalho. Observando a Tabela 1 percebemos que os intervalos de confiança estão próximos, sendo que o intervalo via técnica bootstrap não paramêtrica apresenta uma menor amplitude e variância em relação ao bootstrap paramêtrico. Este fato também ocorre entre os vícios dos estimadores, onde novamente os intervalos não paramêtricos apresentam-se menores.

A Figura 2 apresenta os histogramas e os qq-plots das distribuições empíricas dos EMV obtidos via bootstrap paramêtrico e não paramêtrico, onde há um indicativo θ neste caso, que a teoria usual de verossimilhança (2.3) pode não propiciar resultados suficientemente adequados.


Os resultados da Tabela 2 mostram que as probabilidades de cobertura estimadas dos procedimentos de intervalo de confiança calculadas através de (2.7) estão próximas da probabilidade de cobertura nominal fixada em 0,95, exceto para o parametro de construção dos intervalos de confiança são não conservatives, pois as probabilidades de cobertura estimadas estão abaixo da probabilidade de cobertura nominal (0,95). Com relação às amplitudes médias, a Tabela 2 apresenta amplitudes médias próximas entre os procedimentos de intervalo de confiança.

4. Conclusões

Podemos utilizar o modelo Geométrico com inflação de zeros em dados de sobrevivência e confiabilidade, no entanto, é preciso ter cuidado na construção de intervalos de confiança para os parâmetros desse modelo, uma vez que os procedimentos usuais podem não ser válidos, em particular para amostras pequenas. Neste contexto, a técnica de reamostragem bootstrap paramêtrica e/ou não paramêtrica utilizada apresenta-se como um procedimento alternativo de estimação intervalar para os parâmetros deste modelo, possibilitando a obtenção de intervalos de confiança adequados. Para o conjunto de dados simulados, destacamos o intervalo bootstrap paramêtrico, que apresentou uma probabilidade de cobertura próxima da nominal e maior do que o bootstrap não paramêtrico, além de uma amplitude média próxima dos demais intervalos de confiança.

Recebido em 20 Outubro 2011;

Aceito em 19 Novembro 2012.

  • [1] C.G. Carrasco, F. Louzada-Neto, Estimação intervalar para os parâmetros do modelo poly-log-logístico, Rev. Mat. Estai., 21, No. 1 (2003), 85-95.
  • [2] A.C. Cohen, Estimation of mixtures of discrete distributions, em "Proceedings of the International Symposium on Discrete Distributions", pp. 373-378, Montreal, Quebec. 1963.
  • [3] A.C. Davison, D.V. Hinkley, "Bootstrap Methods and their Application", Cam-brige: Cambrige University Press, 1997.
  • [4] R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/
  • [5] B. Efron, Bootstrap methods: another look at the jacknife, Annals of Statistics, 7 (1979), 1-26.
  • [6] S.L. Jeng, W.Q. Meeker, Comparisons of approximate confidence interval procedures for type I censored data, Technometrics, 42 (1999), 135-148.
  • [7] NX. Jonhson, S. Kotz, A.W. Kemp, "Univariate Discrete Distributions", second edition, John Wiley and Sons, New York, 1992.
  • [8] NX. Jonhson, S. Kotz, A.W. Kemp, "Discrete Distributions: Distributions in Statistics". John Wiley and Sons, New York, 1969.
  • [9] J.F. Lawless, "Statistical Models and Methods for Lifetime Data", John Wiley and Sons, New York, 1982.
  • [10] F. Louzada-Neto, G.C. Perdoná, CG. Carrasco, The Bi-log-logistic Model - A comparison study of some approximate confidence interval procedures, JSTA - Journal of Statistical Theory and Applications, 8, No.4 (2009), 478-492.
  • [11] E.Y. Nakano, CG. Carrasco, Uma avaliação do uso de um modelo contínuo na análise de dados discretos de sobrevivência, TEMA - Tend. Mat. Apl. Comput., 7, No 1 (2006), 91-100.

Datas de Publicação

  • Publicação nesta coleção
    16 Jan 2013
  • Data do Fascículo
    Dez 2012

Histórico

  • Recebido
    20 Out 2011
  • Aceito
    19 Nov 2012
Sociedade Brasileira de Matemática Aplicada e Computacional Rua Maestro João Seppe, nº. 900, 16º. andar - Sala 163 , 13561-120 São Carlos - SP, Tel. / Fax: (55 16) 3412-9752 - São Carlos - SP - Brazil
E-mail: sbmac@sbmac.org.br