Regressão linear com duplo truncamento na distribuição da variável dependente

Souza, José Maria Pacheco de

doi:10.1590/S0034-89101968000100001

Resumos

Do problema do ajuste de uma regressão linear, quando a distribuição da variável dependente tem duplo truncamento, utilizando a função de máxima verossimilhança e um processo iterativo.

A solution to the problem of fitting a linear regression with double truncation in the distribution of the dependent variable is obtained, using the maximum likelihood function and an iterative process.

ARTIGO

Regressão linear com duplo truncamento na distribuição da variável dependente¹ 1 Da Cadeira de Estatística Aplicada à Saúde Pública da Faculdade de Higiene e Saúde Pública da USP

José Maria Pacheco de Souza

RESUMO

Do problema do ajuste de uma regressão linear, quando a distribuição da variável dependente tem duplo truncamento, utilizando a função de máxima verossimilhança e um processo iterativo.

SUMMARY

A solution to the problem of fitting a linear regression with double truncation in the distribution of the dependent variable is obtained, using the maximum likelihood function and an iterative process.

1 INTRODUÇÃO

Motivados pela necessidade de estudar o comportamento da idade da mulher casada na época do primeiro abôrto em função da sua idade ao casar (MILANESI³, 1968), ou seja, estabelecer a regressão entre estas variáveis, nos defrontamos com um problema envolvendo uma variável que, pela sua própria natureza, possui um campo de variação restrito a um sub-conjunto do total. Estamos nos referindo à variável idade da mulher casada na época do primeiro abôrto que tem seu campo de variação limitado, de um lado, pela idade ao casar, e de outro, pela idade na menopausa, ou seja, tem o que se denomina um duplo truncamento.

A solução do problema proposto se enquadra, portanto, no capítulo de regressão com duplo truncamento na distribuição da variável dependente. HOLGATE² (1965) já considerou o caso de regressão com truncamento simples; o presente trabalho representa uma extensão dos resultados daquele autor, para o caso mais geral de duplo truncamento.

2 A FUNÇÃO DENSIDADE DE PROBABILIDADES

No que segue faremos abstração da motivação já apresentada, a fim de tratarmos do problema com maior generalidade.

Sejam c a variável independente e g a variável aleatória dependente distribuída normalmente, com média a + bc e variância s², ou, abreviadamente:

Havendo duplo truncamento, a função densidade de probabilidde de g, para cada c é:

onde

ou seja, w e z são os pontos inferior e superior de truncamento na distribuição de g.

3 ESTIMAÇÃO DOS PARÂMETROS a E b DA RETA DE REGRESSÃO E DA VARIÂNCIA s²

A estimação será feita pelo método da máxima verossimilhança. Para tanto, suponhamos que, em correspondência a cada c_i(i = 1, 2, .... m) fôsse tomada uma amostra de tamanho n_i, isto é, de valores de g_ij (j = 1, 2, ...., n_i). Sejam:

A função de verossimilhança da amostra é:

Tomando-se logaritmos naturais, temos:

Figura

Calculando-se as derivadas parciais para cada parâmetro, obtemos:

⁽¹⁾

⁽²⁾

⁽³⁾

onde e(w_i), e(z_i) são as ordenadas obtidas na curva normal, nos pontos de truncamento w_i e z_i.

Derivando-se uma segunda vez, obtemos:

^{(4 a 8)}

⁽⁹⁾

onde:

Em virtude da dificuldade de resolver estas equações de forma explícita, os estimadores , , , serão obtidos a partir dos resultados numéricos das equações 1 a 9, por processo iterativo, utilizando-se então o método de Newton-Raphson (WHITTAKER & ROBINSON ⁷, 1926).

Como primeiro passo, calculam-se valores , e , pelo processo clássico de regressão e análise de variância, e, com êstes valores, resolve-se o seguinte sistema de 3 equações a 3 incógnitas:

onde as derivadas são tomadas nos pontos x = ; k = e s = , obtendo-se valores de p₁, q₁, r₁, respectivamente, os acréscimos de , e na 1.^a iteração. Assim, passamos a ter os seguintes novos estimadores de x, k e s:

Os resultados de 11, 12, 13 é que serão utilizados agora num 2.° ciclo interativo para solução do sistema 10 (onde as derivadas serão tomadas nos pontos x= ; k = ; s = ) e obtenção de novos acréscimos e, portanto, novos estimadores. O processo se encerra quando os acréscimos (p_n, q_n, r_n) se tornarem desprezíveis, e então:

Nestas condições, os estimadores de a, b e s serão:

4 CONSIDERAÇÕES SOBRE OS RESULTADOS

Nossos resultados (equações 1 a 9) diferem dos de HOLGATE (equações 3 e 4) devido ao têrmo v (c), que é o quociente da ordenada no ponto de truncamento pela área à sua direita; no caso em aprêço temos duplo truncamento, e êste fato nos conduz a um quociente em que temos, no numerador, a diferença entre as ordenadas dos pontos de truncamento, e no denominador, a área entre os 2 pontos de truncamento.

Como conseqüência, temos também as divergências devidas ao termo l(c) = v'(c), para nós substituído por equações mais complexas.

Essas diferenças não são de todo eliminadas, mesmo quando um dos pontos de truncamento está muito afastado da média, determinando uma ordenada praticamente igual a zero.

Assim sendo, ainda nestes casos mais favoráveis, não podemos nos utilizar das tabelas devidas a SAMPFORD ⁶ (1952), que nos dão valores de v (c) e l(c), e devemos recorrer às tabelas da curva normal para áreas e ordenadas (PEARSON & hartley⁵, 1958 e Boll¹, 1947).

5 EXEMPLO

Retomemos o problema que motivou a generalização aqui apresentada, isto é, estabelecer a reta de regressão entre a "idade da mulher na época do primeiro aborto" (g) e a "idade da mulher ao casar" (c); MILANESI ³ (1968), obteve, pelo método dos mínimos quadrados, observando 306 mulheres casadas que tinham tido abôrto.

Como a distribuição da primeira variável pode ser considerada duplamente truncada, foi utilizado, a seguir, o método aqui descrito para a devida correção, encontrando-se os seguintes valores para as equações 1 a 9:

com a nova equação sendo:

Êstes resultados são muito semelhantes aos anteriores, indicando que não se fazia necessário um novo ciclo iterativo.

Usando o método de estimação da máxima verossimilhança, a matriz de variância-covariância dos estimadores de x, k e s será dada por (MOOD & GRAYBILL⁴, 1963):

Denotando por a matriz de variância-covariância dos estimadores de a, b e s, e por J a matriz de transformação:

tem-se:

que no exemplo considerado assumem os seguites valores:

onde vemos que a variância de = 0,24403 e a de = 0,00029, enquanto que a de = 0,00657.

Recebido para publicação em 16-12-1968

O arquivo disponível sofreu correções conforme ERRATA publicada no Volume 2 Número 2 da revista.

1. BOLL, M. Tables numériques universelles: des laboratories et bureaux d'etude. Paris, Dunod, 1947.
2. HOLGATE, P. Fitting a straight line to data from a truncated population. Biometrics 21 (3):715-720, Sept. 1965.
3. MILANESI, M. L. Abôrto provocado. São Paulo, 1968. (Tese de doutoramento Fac. Hig. Saúde Públ. Univ. S. Paulo).
4. MOOD, A. M. .& GRAYBILL, F. A. Introduction to the theory of statistics. 2nd ed. New York, Mc-Graw-Hill, 1963. p. 236-237.
5. PEARSON, E. S. & HARTLEY, H. O., ed. Biometrika tables for statisticians. 2nd ed. Cambridge, University Press, 1958. v. 1.
6. SAMPFORD, M. R. The estimation of response-time distributions. II. Multi-stimulus distributions. Biometrics, 8(4) :307-369, Dec. 1952.
7. WHITTAKER, F. T. & ROBINSON, G. The calculus of observations: a treatese on numerical mathematics. 2nd ed. London, Blackie, 1926.

1

Da Cadeira de Estatística Aplicada à Saúde Pública da Faculdade de Higiene e Saúde Pública da USP

Datas de Publicação

Publicação nesta coleção
29 Set 2006
Data do Fascículo
Jun 1968

Histórico

Recebido
16 Dez 1968
Aceito
16 Dez 1968

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

[1] 1. BOLL, M. Tables numériques universelles: des laboratories et bureaux d'etude. Paris, Dunod, 1947.

[2] 2. HOLGATE, P. Fitting a straight line to data from a truncated population. Biometrics 21 (3):715-720, Sept. 1965.

[3] 3. MILANESI, M. L. Abôrto provocado. São Paulo, 1968. (Tese de doutoramento Fac. Hig. Saúde Públ. Univ. S. Paulo).

[4] 4. MOOD, A. M. .& GRAYBILL, F. A. Introduction to the theory of statistics. 2nd ed. New York, Mc-Graw-Hill, 1963. p. 236-237.

[5] 5. PEARSON, E. S. & HARTLEY, H. O., ed. Biometrika tables for statisticians. 2nd ed. Cambridge, University Press, 1958. v. 1.

[6] 6. SAMPFORD, M. R. The estimation of response-time distributions. II. Multi-stimulus distributions. Biometrics, 8(4) :307-369, Dec. 1952.

[7] 7. WHITTAKER, F. T. & ROBINSON, G. The calculus of observations: a treatese on numerical mathematics. 2nd ed. London, Blackie, 1926.

Brasil

Brasil

Regressão linear com duplo truncamento na distribuição da variável dependente

Resumos

Datas de Publicação

Histórico