SciELO - Scientific Electronic Library Online

 
vol.29 issue4Evaluation of the excess of tuberculosis attributable to HIV/AIDS infectionMicrobial evaluations and control workers' hands author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

Share


Revista de Saúde Pública

Print version ISSN 0034-8910On-line version ISSN 1518-8787

Rev. Saúde Pública vol.29 no.4 São Paulo Aug. 1995

http://dx.doi.org/10.1590/S0034-89101995000400005 

ARTIGO ORIGINAL

 

Utilização de estratificação e modelo de regressão logística na análise de dados de estudos caso-controle

 

Using of stratification and the logistic regression model in the analysis of data of case-control studies

 

 

Suely Godoy Agostinho Gimeno; José Maria Pacheco de Souza

Departamento de Epidemiologia da Faculdade de Saúde Pública-Universidade de São Paulo - São Paulo, SP - Brasil

 

 


RESUMO

Exemplifica-se a aplicação de análise multivariada, por estratificação e com regressão logística, utilizando dados de um estudo caso-controle sobre câncer de esôfago. Oitenta e cinco casos e 292 controles foram classificados segundo sexo, idade e os hábitos de beber e de fumar. As estimativas por ponto dos odds ratios foram semelhantes, sendo as duas técnicas consideradas complementares.

Palavras-chave: Análise multivariada. Regressão logística. Estudos de casos e controles.


ABSTRACT

Data of a case-control study of esophageal cancer were used as an example of the use of multivariate analysis with stratification and logistic regression. Eighty-five cases and 292 controls were classified according to sex, age and smoking and drinking habits. The point estimates of the odds ratios were similar, and the techniques were considered complementary.

Keywords: Multivariate analysis. Logistic regression. Case-control studies.


 

 

Em Epidemiologia, a regressão logística tem como objetivo descrever a relação entre um resultado (variável dependente ou resposta) e um conjunto simultâneo de variáveis explicativas (preditoras ou independentes), mediante um modelo que tenha bom ajuste, que seja biologicamente plausível e obedeça ao princípio da parcimônia5. Na análise estratificada tem-se o mesmo propósito, mas as relações são efetuadas uma a uma, isto é, somente é possível obter a estimativa do risco para um único fator de cada vez, controlando-se o conjunto das demais variáveis.

Podem ser citadas como vantagens da análise estratificada sua relativa simplicidade de execução, a facilidade de entendimento e maior proximidade que propicia entre o pesquisador e os dados. Entretanto, ao se aplicar essa técnica, o grau de dificuldade aumenta na medida em que aumenta o número de variáveis que tiverem que ser consideradas como controle; os testes de homogeneidade entre os estratos, para se verificar a existência de interação entre as variáveis, são feitos em etapa à parte; variáveis quantitativas não podem ser usadas em sua escala original; o nível global de significância é difícil de ser controlado3,7.

A análise logística controla grande número de variáveis simultaneamente, permitindo que os dados sejam utilizados mais eficientemente; o teste de homogeneidade pode ser feito em conjunto, bastando introduzir no modelo o termo produto entre os fatores. Uma possível desvantagem é a eventual barreira que introduz entre o pesquisador e os dados; é praticamente obrigatório o uso de pacotes estatísticos e microcomputador4,5.

O presente trababalho exemplifica a utilização das análises estratificada e logística na análise de dados de estudos tipo caso-controle.

 

Material e Método

Foram utilizados dados de um estudo caso-controle sobre câncer de esófago6. Oitenta e cinco casos de câncer de esôfago foram comparados com 292 controles hospitalares, classificados segundo segundo sexo, idade e os hábitos de beber e de fumar. O hábito de beber foi considerado fator de risco de principal interesse.

Foi verificada a existência de associação entre o câncer de esôfago e cada uma das variáveis, em uma primeira etapa (análise bruta), mediante a obtenção das estimativas dos odds ratios (OR), por ponto e por intervalo, além do valor da estatística qui-quadrado de Mantel-Haenszel (c2MH) 1,2,9,10. Nas etapas seguintes foram selecionadas as variáveis cujo valor do nível descritivo de significância do teste fosse menor do que 0,205.

A análise estratificada foi utilizada na obtenção da estimativa do odds ratio para o hábito de beber, controlando-se o efeito dos demais fatores previamente selecionados. Fez-se, quando possível, o teste de homogeneidade dos estratos, a fim de investigar a existência de interação entre as variáveis2,9,10. Este procedimento foi repetido utilizando-se o modelo de regressão logística (não condicional em virtude de não haver emparelhamento); a presença de interação entre as variáveis foi verificada mediante a introdução dos termos-produtos correspondentes. Os resultados das duas técnicas foram comparados.

Nos apêndices encontram-se as fórmulas utilizadas para a obtenção das estimativas dos odds ratios, assim como a descrição dos testes estatísticos. Foram utilizados os pacotes estatísticos para microcomputador Epi Info3 e MULTLR8. Os intervalos de confiança para os estratos foram feitos segundo a técnica de Woolf 2.

 

Resultados

A Tabela 1 apresenta a distribuição completa dos casos e controles segundo sexo, idade e os hábitos de beber e de fumar. Na Tabela 2 encontram-se os resultados da análise bruta; a variável idade apresentou valor p > 0,20 e, dessa forma, não foi considerada nas etapas seguintes da análise. Nas Tabelas 3, 4, 5, 6 e 7 são apresentados os resultados das análises estratificada e logística, com uma e duas variáveis como controle.

 

 

 

 

 

 

 

 

Na Tabela 3 há sugestão de interação entre os hábitos de beber e de fumar e, também, parece haver ação protetora da bebida sobre a doença; como, sabidamente, o hábito de beber é importante fator de risco para o câncer de esôfago, torna-se indispensável a visualização dos dados no sentido de explicar o paradoxo. O pequeno número de casos entre os não-fumantes é responsável pela distorção observada; bastaria que a relação bebe: não bebe fosse 2:4 e o odds ratio seria 1,34. Na Tabela 4 os resultados são os esperados. Na análise estratificada, ao se considerar duas variáveis para a estratificação (Tabela 6), não foi possível fazer o teste de homogeneidade, devido a freqüência zero.

Nas Figuras 1, 2 e 3 estão apresentadas as estimativas, por ponto e por intervalo, dos odds ratios obtidos com a análise estratificada e com a regressão logística não condicional.

 

Comentários

Observou-se consistência entre os resultados obtidos com a aplicação das análises estratificada e logística. Quando o número de variáveis a ser controlado simultaneamente é pequeno (uma ou duas), a análise estratificada é rápida, dispensa o uso de equipamentos eletrônicos e permite maior visibilização dos dados; resultados aparentemente paradoxais têm explicação quase que imediata. À medida em que o número de variáveis aumenta, a análise logística torna-se praticamente obrigatória, mesmo à custa de um possível distanciamento entre o pesquisador e os dados originais. Mas os dois tipos de abordagem não se excluem mutuamente11. O modelo logístico é mais flexível, com maior poder de exploração de variáveis. A existência de programas de microcomputador "amigáveis" e de uso livre, de abundância de cursos, de epidemiologistas com bom conhecimento de estatística, tornam cada vez mais conhecida e popular a análise logística. A análise estratificada será muitas vezes boa auxiliar para visibilização e compreensão das relações entre variáveis.

 

Agradecimentos

Aos relatores que apreciaram o manuscrito, pelas valiosas observações e sugestões.

 

Referências Bibliográficas

1. ARMITAGE, P. & BERRY, G. Statistical methods in medical research. 2nd. ed. Oxford, Blackwell Sci. Publ., 1987.

2. BRESLOW, N. E. & DAY, W. Statistical methods in cancer research: the analysis of case-control studies. Lyon, 1980, v. 1 (IARC Scient. Publ. n. 32).        [ Links ]

3. DEAN, J.; DEAN, A.; BURTON, A.; DICKER, R. Epi Info-computer programs for epidemiology. Atlanta, Division of Surveilance and Epidemiologic Studies, Epidemiology Program Office, Center for Disease Control, 1990.        [ Links ]

4. GREENLAND, S. Modelling and variables selection in epidemiologic analysis. Am. J. Epidemiol., 124: 869-76, 1986.        [ Links ]

5. HOSMER, D. M. & LEMESHOW, S. Applied logistic regression. New York, John Wiley & Sons, 1989.        [ Links ]

6. GIMENO, S. G. A. et al. Fatores de risco para o câncer de esôfago: estudo caso-controle em área metropolitana da região Sudeste do Brasil. Rev. Saúde Pública, 29: 159-65, 1995.        [ Links ]

7. MONCAU, J. E. C. Análise estratificada em estudos caso-controle. São Paulo, 1991. [Dissertação de Mestrado-Faculdade de Saúde Pública da USP].        [ Links ]

8. MULTLR -A microcomputer program for multiple regression by condicional and uncondicional maximum likelihood methods. Am. J. Epidemiol., 129: 439-44, 1989.        [ Links ]

9. ROTHMAN, K. J. Modern epidemiology. Boston, Little and Co., 1986.        [ Links ]

10. SCHLESSELMAN, J.J. Case-control studies-design, conduct, analysis. New York, Oxford University Press, 1982.        [ Links ]

11. VANDENBROUCKE, J. P. Should we abandon statistical modeling altoghether? Am. J. Epidemiol, 126:10-3,1987.        [ Links ]

 


Recebido em 23.8.1994
Reapresentado em 22.5.1995
Aprovado em 12.6.1995

 

 

Separatas/Reprints: José Maria Pacheco de Souza - Av. Dr. Arnaldo, 715 - 01246-904 - São Paulo, SP - Brasil - Fax: (011) 282. 2920
Edição subvencionada pela FAPESP. Processo 95/2290-6

 

Apêndice

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License