Acessibilidade / Reportar erro

Análise multivariada: um exemplo usando modelo log-linear

Multivariate analysis: an example of the use of a log-linear model

Resumos

Apresenta-se de forma resumida análise multivariada de dados categóricos, usando modelo log-linear para a situação de uma tabela de contingência 2 x 2 x 2.

Análise multivariada; Modelo log-linear


A multivariate analysis of categorical data using a log-linear model for a 2 x 2 x 2 contingency table is presented.

Multivariate analysis


ARTIGO ORIGINAL

Análise multivariada: um exemplo usando modelo log-linear

Multivariate analysis — an example of the use of a log-linear model

José Maria Pacheco de SouzaI; Maria Helena D'Aquino BenicioII

IDo Departamento de Epidemiologia da Faculdade de Saúde Pública da Universidade de São Paulo — Av. Dr. Arnaldo, 715 — 01255 — São Paulo, SP — Brasil

IIDo Departamento de Nutrição da Faculdade de Saúde Pública da Universidade de São Paulo — Av. Dr. Arnaldo, 715 — 01255 — São Paulo, SP — Brasil

RESUMO

Apresenta-se de forma resumida análise multivariada de dados categóricos, usando modelo log-linear para a situação de uma tabela de contingência 2 x 2 x 2.

Unitermos: Análise multivariada. Modelo log-linear.

ABSTRACT

A multivariate analysis of categorical data using a log-linear model for a 2 x 2 x 2 contingency table is presented.

Uniterms: Multivariate analysis.

INTRODUÇÃO

A técnica de análise multivariada de dados categóricos, mediante modelos log-linear ou modelo logito, é bastante útil em trabalhos na área de Saúde Pública e Epidemiologia, onde é comum se ter tabelas de contingência complexas, com grande número de variáveis.

O objetivo do presente trabalho é apresentar de forma resumida tal técnica, para a situação particular de três variáveis, cada uma com duas categorias mutuamente exclusivas, ou seja, para a situação de uma tabela de contingência 2 x 2 x 2. Worcester 5 apresenta trabalho em linha semelhante, analisando também a situação para tabela 2 x 2. Vitaliano 6 analisa situação mais complexa em um estudo caso-controle.

O exemplo numérico consta de dados referentes ao trabalho de Benício 1, um programa de computador que executa os algoritmos necessários à análise - ECTA -, escrito por Leo Goodman, encontra-se à disposição no Centro de Computação Eletrônica da Universidade de S. Paulo. Sobre o assunto há vários textos, de vários níveis de complexidade matemática 2,3,4.

MODELO LOG-LINEAR

Seja a distribuição teórica de freqüências da Tabela 1, onde Fijk é a freqüência teórica dos níveis i, j, k, respectivamente das variáveis 1, 2 e 3, onde i, j, k variam de 1 a 2. F112 é o número esperado teórico de indivíduos com a característica 1 da variável 1, com a característica 1 da variável 2 e com a característica 2 da variável 3.

Tomando-se logaritmo natural 1n (base e = 2,71828...), pode-se demonstrar2,3 que 1n Fijk = B + B1 (i) + B2(j) + B3(k) + B12(ij) + B13 (ik) + B23 (kj) + B123 (ijk) onde os B's são parâmetros que representam "efeitos", a exemplo da análise de variância;

Note-se que B é a média aritmética dos logarítmos naturais das freqüências teóricas; B1 (1) mede o desvio da média aritmética dos logarítmos das freqüências teóricas da categoria 1 da variável 1 em relação à média geral B, ou seja, mede o "efeito" 1 da variável 1; analogamente tem-se B1 (2), B2 (1), B2 (2), etc., sendo B1 (1) + B1(2) = 0; B2 (1) + B2(2) = 0; B3(1) + B3(2) = 0, etc.

Os parâmetros com subscrito duplo e triplo são os mais importantes para a análise, sendo aqueles que medem as possíveis associações (interações) entre variáveis. Assim, B12(11) é o parâmetro que indica se as categorias 1 da variável 1 e da variável 2 estão associadas; se B12(11) = 0 não há associação; se B12(11) < 0 tem-se associação negativa; se B12(11) > 0 tem-se associação positiva.

As freqüências F e os parâmetros B são desconhecidos. A partir de modelos e das freqüências observadas fijk, obtém-se estimativas das freqüências Fijk e dos B's, denotados, respectivamente, por Eijk e b.

AJUSTE E TESTE DE MODELO: TESTE DE B

Considera-se modelo adequado para descrever a estrutura de um conjunto de dados [fijk] aquele que contém o menor número possível de parâmetros e apresenta um bom ajuste. A estatística , tem distribuição assintótica X2 com g graus de liberdade 2, onde g é o número de parâmetros eliminados; o ajuste é bom quando c2 for menor do que c2g (crítico) para um nível de significância desejado.

A decisão sobre o modelo final adequado pode ser tomada seguindo um processo de eliminação de parâmetros um a um, a partir do modelo mais completo com todos os parâmetros, chamado modelo saturado. A cada passo é calculada a estatística X2; em dois passos imediatamente sucessivos, onde no posterior um parâmetro foi retirado do modelo, calculam-se as estatísticas X2 com g-1 e g graus de liberdade. A diferença entre elas tem distribuição assintótica X2 com 1 grau de liberdade e dá indicação sobre a manutenção ou não do parâmetro em questão no modelo. Se c2g — c21 = c2g-1 for maior do que o c21 para um nível de significância desejado, o parâmetro é retido. A seqüência de testes se encerra quando todos os parâmetros remanescentes têm indicações para não serem retirados. Se os parâmetros B12, B13, B23 e B123 puderem ser eliminados restando o modelo 1n Fijk = B + B1 (i) + B2 (j) + B3 (k), tem-se a situação de completa independência entre as três variáveis.

EXEMPLO DE AJUSTE; EXAME DAS ASSOCIAÇÕES

A Tabela 2 apresenta dados sobre gestantes quanto ao tabagismo (variável 3), sobre escolaridade da gestante (variável 2) e o peso do seu recém-nascido (variável 1). Cada uma das variáveis tem duas categorias mutuamente exclusivas: — não fuma (1), fuma (2); escolaridade alta (1), baixa (2); baixo peso: não (1), sim (2).

O modelo log-linear completo, saturado, é o modelo 0. Modelo 0: 1 n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B12 (ij) + B13(ik) + B23(jk) + B123(ijk); o c2 para este modelo não é definido, pois o número de parâmetros é igual ao número de freqüências observadas. Há interesse em verificar qual dos parâmetros B123, B12, B13, B23 deve permanecer. O primeiro passo é ajustar um modelo em que B123 (ijk) é eliminado; é o modelo 123: 1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B12 (ij) + B13 (ij) + B23 (jk).

Calculado o c2 para o ajuste deste modelo, toma-se a decisão sobre a eliminação ou não de B123 (ijk). A Tabela 3 mostra as freqüências esperadas para este modelo; c21 = 0,509 é um indicador de um bom ajuste.

O modelo seguinte a ser ajustado é o modelo 123, 23, aquele em que foram retirados os parâmetros B123 e B23, permitindo verificar se o parâmetro B23 deve ou não ser retirado. A Tabela 4 mostra as freqüências esperadas para este modelo; c22 = 8,328 indica que o ajuste não é bom, ou seja, B23 deve permanecer. O teste de b23 pode ser feito mediante 8,328 - 0,509 = 7,819 que tem distribuição aproximada c2 com 1 grau de liberdade; o valor observado sugere que B23 é diferente de zero e, portanto, deve ser mantido.

A retirada ou não do parâmetro B12 é decidida a partir do modelo 123, 12. A Tabela 5 mostra as freqüências esperadas; c22 = 15,956 indica que o ajuste não é bom, ou seja, B12 deve ser mantido. O teste de b12 mediante a diferença de x2 tem o seguinte resultado: 15.956 - 0,509 = 15,447.

Finalmente procura-se ajustar o modelo 123, 13 para verificar se o parâmetro B13 pode ser retirado. A Tabela 6 mostra as freqüências esperadas sob este modelo; c2 = 46,394 indica que o parâmetro deve permanecer. O teste de b13 é 46,394 - 0,509 = 45,885.

Portanto, o modelo final que permite um bom ajuste é o modelo 123. As estimativas b12, b13 e b23 são feitas usando os Eíjk da Tabela 3 e são apresentadas no seu rodapé.

Tem-se as seguintes interpretações: 1) Quer para mães fumantes como para não-fumantes, há associação positiva entre baixa escolaridade da mãe e baixo peso ao nascer do filho — parâmetro B12 (11). 2) Qualquer que seja a escolaridade da mãe, há associação positiva entre a mãe fumar e baixo peso ao nascer — parâmetro B13(11). 3) Há associação negativa entre escolaridade alta da mãe e ela não fumar, ou associação positiva entre escolaridade alta e fumar — parâmetro B23 (11). 4) Não há interação simultânea das três variáveis — parâmetro B123(111).

RISCO RELATIVO; RAZÃO DOS PRODUTOS CRUZADOS

Seja a variável 1 considerada "resposta" e a distribuição das freqüências nas duas categorias desta variável resposta dependente das categorias das outras variáveis chamadas "fatores". A categoria 2 da variável 1 (nascimento de uma criança com baixo peso) pode ser considerada como representando um evento desfavorável; assim a relação E2jk ÷ (Eijk + E2jk), estimadas por f2jk ÷ (fijk + f2jk), mede o "risco" de uma mãe com a combinação de características jk quanto às variáveis 2 e 3 vir a ter um evento desfavorável, qual seja, ter um recém-nascido de baixo peso.

É possível, e muitas vezes desejável, comparar riscos associados a diferentes combinações de categorias dos fatores. Por exemplo, no caso específico que está sendo apresentado, uma comparação seria entre riscos de baixo peso de recém-nascidos de mães que têm baixa escolaridade com mães que têm alta escolaridade, entre as não-fumantes. Usando os dados da Tabela 2, tem-se

[ f221 ÷ (f121 + f221)] ÷

÷ [f211 ÷ (f111 + f222)] = 1,36

O valor 1,36 é o risco relativo (estimado) e diz que o risco de uma mulher não-fumante de baixa escolaridade ter um recém-nascido de baixo peso é 1,36 maior do que o risco de uma mulher não-fumante de alta escolaridade. Uma boa aproximação de risco relativo é a razão dos produtos cruzados = RPC, onde RPC = (E2jk x Eij'k) ÷ (E1jk x E2j'k)

Usando logarítimo:

Para a situação da tabela 2 x 2 x 2 na configuração aqui apresentada, pode-se mostrar que, para as variáveis resposta (1) e fator (2), 1n RPC(12) = 4 x B12(11), e para as variáveis resposta (1) e fator (3), 1n RPC(13) = 4 x B13 (11), desde que B123 = 0.

Vê-se que RPC até o momento foi avaliado relacionando o risco de categoria, "mais favorável" em relação à "menos favorável", da variável 2, dentro de cada uma das categorias da variável 3, assim como relacionando o risco da categoria "mais favorável" em relação à "menos favorável", da variável 3, dentro de cada uma das categorias da variável 2.

Pode-se também avaliar qual o risco relativo quando o indivíduo pertence simultaneamente às categorias "menos favoráveis" das variáveis 2 e 3, em comparação com indivíduo que pertence simultaneamente às respectivas categorias "mais favoráveis". No exemplo, é o risco relativo de ter recém-nascido de baixo peso entre mães de baixa escolaridade que fumam e mães de alta escolaridade que não fumam. Em geral, existe este interesse, de comparar riscos de combinação de fatores desfavoráveis em relação a uma categoria basal, que é aquele em que as categorias dos fatores são as mais favoráveis. Para esta situação, tem-se

1nRPC = 4[(B12(11) + B13(11)]

MODELO LOGITO; OBTENÇÃO DA RAZÃO DOS PRODUTOS CRUZADOS

É possível ajustar-se um modelo logito a um conjunto de dados [fijk]. Existe equivalência de resultados entre modelo log-linear e modelo logito e igualdade de resultados quanto à obtenção de estimativas de razão de produtos cruzados, quando o modelo log-linear inclui todos os B's correspondentes a efeitos principais e aqueles correspondentes a todas as combinações possíveis de fatores, mais os B que contenham combinações da variável resposta com variável fator estatisticamente significante.

No caso de três variáveis com duas categorias cada, os modelos log-lineares de interesse que seriam equivalentes a modelos logitos são os modelos

1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B23(jk) + B12(ij)

1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B23 (jk) + B13 (ik)

1n Fíjk = B + B1 (i) + B2 (j) + B3 (k) + B23 ((jk) + B12 (ij) + B13 (ik)

Ajustado um modelo log-linear, as razões dos produtos cruzados (estimativa dos riscos relativos) podem ser obtidas diretamente dos Eikj. Assim, usando a Tabela 3, tem-se:

Risco relativo entre escolaridade alta e baixa = (210,6 x 2.713,6) ÷ (79,4 x 4.907,4) = (161,4 x 1.252,4) ÷ (2.012,6 x 68,6) = e4b12(11)= 1,47

Risco relativo entre fumantes e não-fumantes = (2.713,6 x 68,6) ÷ (79,4 x 1,252,4) = (4.907,4 x 161,4) ÷ (210,6 x 2.012,6) = e4b13(11) = 1,87

Risco relativo entre escolaridade baixa + fumantes e escolaridade alta + não-fumantes = (2.713,6 x 161,4) ÷ (2.012,6 x 79,4) = e4[b12(11) + b13(11)]= 2,74

onde escolaridade alta + não-fumantes é a categoria basal.

Uma apresentação de resultados que pode facilitar a visão geral de relações é sob a forma da Tabela 7, onde se colocam as possíveis combinações de categorias das variáveis, a categoria basal e os respectivos riscos relativos. É subentendido que o risco relativo de combinações de categorias de variáveis é calculado em relação à categoria basal e que nas categorias que aparecem individualmente o risco é calculado em relação à categoria complementar. Costuma-se chamar tais categorias de "fatores de risco", com exceção da basal. A apresentação exemplificada na Tabela 7 é apropriada quando não há interação entre as três variáveis. Se houvesse interação (B123 x 0), os riscos relativos de cada fator de risco seriam diferentes para cada categoria da outra variável.

AGRADECIMENTO

A um dos relatores pelas valiosas sugestões.

Recebido para publicação em 27/12/1984

Aprovado para publicação em 21/03/1985

  • 1. BENICIO, M.H.D'A. Fatores de risco de baixo peso ao nascer em recém-nascidos vivos: município de São Paulo, 1978. São Paulo, 1983. [Tese de Doutoramento Faculdade de Medicina da USP].
  • 2. EVERITT, B.S. The analysis of contingency tables. New York, John Wiley & Sons, 1977.
  • 3. BISHOP, Y.M.M.; FIENBERG, S.E. & HOLLAND, P.W. Discrete multivariate analysis: theory and practice. Cambridge, Mass., M.I.T. Press, 1975.
  • 4. UPTON, G.J.G. The analysis of cross: tabulated data. New York, John Wiley & Sons, 1978.
  • 5. WORCESTER, J. The relative odds in the 23 contingency table. Amer. J. Epidem., 93: 145-9, 1971.
  • 6. VITALIANO, P.P. The use of logistic regression for modeling risk factors: with applications to non-melanoma skin cancer. Amer. J. Epidem., 108: 402-14, 1978.

Datas de Publicação

  • Publicação nesta coleção
    21 Set 2005
  • Data do Fascículo
    Jun 1985

Histórico

  • Recebido
    27 Dez 1984
  • Aceito
    21 Mar 1985
Faculdade de Saúde Pública da Universidade de São Paulo Avenida Dr. Arnaldo, 715, 01246-904 São Paulo SP Brazil, Tel./Fax: +55 11 3061-7985 - São Paulo - SP - Brazil
E-mail: revsp@usp.br