Acessibilidade / Reportar erro

Hipóteses estatísticas com dados desbalanceados nos modelos com três fatores de efeitos fixos hierarquizados

Statistical hypotheses with unbalanced data in models with three factors of fixed nested effects

Resumos

Este trabalho tem por objetivo formalizar os termos das respectivas somas de quadrados e hipóteses mais usuais, que são testadas nos modelos com três fatores de efeitos fixos hierarquizados para dados desbalanceados. Discute-se, também, o problema da interpretação de hipóteses associadas às somas de quadrados, bem como comparam-se os resultados fornecidos por alguns softwares estatísticos.

dados desbalanceados; somas de quadrados; hipóteses testáveis; softwares estatísticos


The aim of this work is to formalize the terms of the respective sums of squares and more usual hypotheses tested in the models with three factors of fixed nested effects, for unbalanced data. It also discusses the problem of the interpretation of the hypotheses associated to the sums of squares, and comparisons are made for the results provided by some statistical softwares.

unbalanced data; sums of squares; testable hypotheses; statistical softwares


HIPÓTESES ESTATÍSTICAS COM DADOS DESBALANCEADOS NOS MODELOS COM TRÊS FATORES DE EFEITOS FIXOS HIERARQUIZADOS1 1 Parte da Tese de Doutorado do primeiro autor apresentada à ESALQ/USP - Piracicaba, SP.

Sérgio Minoru Oikawa2; Antonio Francisco Iemma3,4*

2Depto. de Matemática - FCT/UNESP, C.P. 957 - CEP: 19060-900 - Presidente Prudente, SP.

3Depto. de Ciências Exatas - ESALQ/USP, C.P. 9 - CEP:13418-900 - Piracicaba, SP

4ASSER - Centro de Ensino Superior de São Carlos, SP.

*e-mail: anfiemma@esqualo.esalq.usp.br

RESUMO: Este trabalho tem por objetivo formalizar os termos das respectivas somas de quadrados e hipóteses mais usuais, que são testadas nos modelos com três fatores de efeitos fixos hierarquizados para dados desbalanceados. Discute-se, também, o problema da interpretação de hipóteses associadas às somas de quadrados, bem como comparam-se os resultados fornecidos por alguns softwares estatísticos.

Palavras-chave: dados desbalanceados, somas de quadrados, hipóteses testáveis, softwares estatísticos

Statistical hypotheses with unbalanced data in models with three factors of fixed nested effects

ABSTRATC: The aim of this work is to formalize the terms of the respective sums of squares and more usual hypotheses tested in the models with three factors of fixed nested effects, for unbalanced data. It also discusses the problem of the interpretation of the hypotheses associated to the sums of squares, and comparisons are made for the results provided by some statistical softwares.

Key words: unbalanced data, sums of squares, testable hypotheses, statistical softwares

INTRODUÇÃO

Os softwares estatísticos tornaram-se uma ferramenta importante e indispensável na análise estatística de dados, principalmente, devido à capacidade dos computadores de hoje, tais como grande rapidez, baixo custo operacional por unidade aritmética e facilidade de acesso. Essas características marcantes fizeram com que o número de usuários de softwares estatísticos crescesse consideravelmente. Infelizmente, as dificuldades encontradas por tais usuários têm sido agravadas pela falta de informações detalhadas sobre interpretações de hipóteses nos modelos mais complexos com dados desbalanceados, tanto na literatura quanto nos manuais de utilização.

Nesse contexto, visando amenizar esse problema, um dos objetivos naturais deste trabalho é o estudo dos modelos com três fatores de efeitos fixos hierarquizados para dados desbalanceados. Com base nesse modelo, formalizam-se os termos das respectivas somas de quadrados e as hipóteses mais usuais que são testadas para os efeitos principais. Discute-se, também, o problema da interpretação de hipóteses associadas às somas de quadrados fornecidas por alguns sistemas computacionais estatísticos universalmente consagrados, bem como suas performances em relação ao tema deste estudo.

REVISÃO DE LITERATURA

De acordo com Herr (1986), as análises para ensaios fatoriais com dados desbalanceados, iniciaram-se com as publicações de Yates (1933 e 1934) que, sem dúvida, são um marco no estudo de estimação e testes de hipóteses. Segundo o autor, a maioria dos métodos hoje utilizados são derivados desses dois artigos. Yates (1934) propôs e discutiu quatro métodos para analisar modelos com classificações duplas cruzadas (Two-Way):

yrst = m + ar + bs + (ab)rs + erst,

r =1, 2, ... , p ; s =1, 2, ... , q ; t =1, 2, ... , nrs.

Segundo Iemma (1993, 1995/a e 1995b), em 1976 o PROC GLM do SAS incorporou três desses métodos. São eles:

• Método para freqüências das classes proporcionais (Y1): fornece somas de quadrados não ajustadas para demais fatores. Nesse caso, as somas de quadrados apropriadas para testar efeitos principais podem ser calculadas pelo método descrito para classificações simples (One-Way). As somas de quadrados obtidas através do método Y1 são equivalentes às somas de quadrados do tipo I, R (a | m) e R (b | m), fornecida pelo SAS-GLM. Testam, portanto, as hipóteses do tipo I sobre as médias ponderadas não ajustadas.

• Método do ajustamento de constantes (Y2): fornece somas de quadrados ajustadas para todos os fatores e interações, exceto interações e/ou fatores hierarquizados que envolvem o fator de interesse. Suas somas de quadrados eqüivalem às somas de quadrados do tipo II, R (a | m, b) e R (b | m, a), fornecida pelo SAS-GLM e testam as hipóteses do tipo II sobre as médias ponderadas ajustadas.

• Método dos quadrados de médias ponderadas (Y3): fornece somas de quadrados ajustadas para todos os efeitos envolvidos no modelo com restrição paramétrica do tipo sigma (Modelo-å). Corresponde às somas de quadrados do tipo III, R [a* | m* , b*, (ab)*] e R [b* | m*, a*, (ab)*], fornecida pelo SAS-GLM e testam as hipóteses do tipo III sobre as médias não ponderadas.

Na década de 70, em virtude das confusões na interpretação de hipóteses nos experimentos com dados desbalanceados, bem como à existência de softwares que fornecem diferentes resultados para o mesmo conjunto de dados, foram publicados vários artigos sobre ensaios fatoriais.

Francis (1973) constata que quando as análises de variâncias, com dados desbalanceados, são feitas através de diferentes softwares estatísticos, os resultados obtidos para as somas de quadrados, além de não serem os mesmos, algumas vezes, são incorretos. Toma como exemplo, um modelo com dois fatores cruzados (A, B) e interação.

Elliott & Woodward (1986) comparam cinco softwares estatísticos, para os quais avaliam as respectivas somas de quadrados e hipóteses testadas sob várias opções dos programas para modelos com dois fatores cruzados e interação.

Iemma (1993 e 1995/a) apresenta as hipóteses mais comuns para testar os efeitos de linhas, colunas e interação no modelo com dois fatores cruzados em presença ou não de caselas vazias. Ademais, discute o comportamento do PROC GLM do SAS, versão 6.04, em relação aos métodos e hipóteses testadas.

Santos (1994) estabelece a estruturação das hipóteses e somas de quadrados a elas associadas nos modelos com dois fatores cruzados para dados desbalanceados e apresenta uma revisão dos métodos de análise. Finalizando, o autor compara as saídas geradas pelos softwares mais utilizados nas ciências agrárias.

Dallal (1992) apresenta um exemplo mostrando algumas dificuldades na interpretação das somas de quadrados produzidas pelos softwares estatísticos, quando se consideram modelos mais complexos. É sem dúvida um dos primeiros trabalhos que envolvem fatores com estruturas cruzadas e hierárquicas para dados desbalanceados. Relatou tais dificuldades, analisando os dados através de dois softwares, SAS-GLM, versão 6.04 e SPSS-MANOVA, versão 4.0 para dois tipos de modelos estatisticamente similares,

yijk=m+ai+bj+(ab )ij+eijk (Modelo-S)

yijk=m+ai+bj+(ab )ij+gk(ij) (Modelo-C)

onde, o Modelo-S é o modelo tradicional com dois fatores cruzados e interação A*B. O Modelo-C é aquele no qual ele introduz um terceiro fator para classificar as observações dentro de cada casela (i, j) como fator C aninhado sob a interação A*B. Nesse contexto, constata que as somas de quadrados do tipo III, referentes ao fator B fornecidas pelo SAS-GLM, não são as mesmas nos dois modelos. Segundo o autor, esperava-se, no entanto, que elas fossem iguais, pois à exceção de uma simples mudança de classificação, os dois modelos são estatisticamente similares e, portanto, não deveria ocorrer a diferença.

Searle (1994) discute várias razões para a diferença das somas de quadrados do exemplo de Dallal (1992), quando se usa o SAS-GLM e modelo de efeitos fixos hierarquizados em presença de esquema fatorial. Após analisar outros softwares, tais como, o BMDP, o SPSS, o SYSTAT e o STATA, o autor conclui que as empresas fabricantes de softwares deveriam fornecer através dos manuais, claramente, mais detalhes e, especialmente, mais descrições específicas sobre o que seus softwares estão calculando.

METODOLOGIA

Modelos com três fatores hierarquizados

Visando evitar generalizações complexas, apresenta-se aqui o modelo, com base num experimento genérico com três fatores A, B e C contendo a, bi e cij níveis, respectivamente. Diz-se que, a estrutura é do tipo estritamente hierárquica quando os cij níveis do fator C estão aninhados sob cada nível do fator B, sendo que os bi níveis do fator B estão aninhados sob cada nível do fator A, conforme pode ser visto no esquema da Figura 1.


Modelos de médias de caselas (Modelo-M)

Segundo Iemma (1997), o modelo de médias de caselas simplifica a construção e a interpretação das hipóteses testadas. Sendo assim, para as classificações hierárquicas com três fatores, o modelo de médias pode ser descrito na forma matricial por:

y=Wm+e (1)

onde, y é um vetor de realizações de variáveis aleatórias de dimensão (n x 1), W é uma matriz conhecida de "uns" e "zeros" de dimensão (n x c••), com c••= , m é um vetor de parâmetros das médias populacionais de dimensão (c••x 1) e e é um vetor de variáveis aleatórias não observáveis de dimensão (n x 1), tal que e ~ N(f, Is 2). O modelo descrito em (1), pode ser caracterizado por:

yijtkt=mijk=eijkt (i=1, ..., a;j=1, ..., bi;k=1, ..., cij:t=1, ..., nijk) (2)

onde yijkt é a resposta observada na t-ésima parcela da casela (i, j, k); mijk é média populacional da qual foi retirada a amostra que compõe a casela (i, j, k) e eijkt é o erro aleatório atribuído à observação yijtkt tal que eijkt ~ NIID(0,s2). Definido o modelo em (1), através do método de mínimos quadrados, obtém-se o Sistema de Equações Normais (SEN), W'Wm=W'y. Como W tem posto completo, o SEN apresenta solução única para o vetor de médias, dada por = (W'W)-1 W'y

Modelo superparametrizado (Modelo-S)

Segundo Iemma (1995c) e Iemma & Perri (1997), entre outros, o Modelo-S é parte integrante da história dos modelos lineares e têm sido de grande valia para os pesquisadores das ciências aplicadas, pois exibe explicitamente os parâmetros sobre os quais concentram-se as hipóteses de interesse. Seguindo a caracterização adotada por Winer (1971) entre outros, tem-se:

yijkt=m+ai +bj(i)+gk(ij)+eijkt (3)

i=1, ..., a;j=1, ..., bi;k=1, ..., cij;t=1, ..., nijk

onde yijkt e eijkt, são como definidos em (2), ai é o efeito devido ao i-ésimo nível do fator A, bj(i)é o efeito devido ao j-ésimo nível do fator B aninhado sob o i-ésimo nível do fator A e gk(ij) é o efeito devido ao k-ésimo nível do fator C aninhado sob o j-ésimo nível do fator B. Descrevendo o modelo (3) na forma matricial, y=Xq+e, o SEN, X'Xq=X'y, a menos de reparametrizações, é indeterminado, pois X é de posto incompleto (Iemma, 1987). Uma solução dentre outras é dada por, q°=(X'X)-X'y, onde (X'X)-, é uma inversa generalizada qualquer de X'X.

Uma alternativa interessante consiste em utilizar as restrições não estimáveis do tipo

a fim de reparametrizar o modelo (3) obtendo-se o modelo reparametrizado de posto completo (Modelo-å),

yijkt=m*+ai*+b*j(i)+g*k(ij)+eijkt (4)

i=1, ..., (a-1); j=, ..., (bi-1);k=1, ..., (cij-1);t=1, ..., (nijk-1)

De modo análogo ao modelo de médias de caselas, o Sistema de Equações Normais, X*'X*q* = X*'y, apresenta solução única, =(X*'X*)-1X*'y, pois X* tem posto coluna completo. Ademais, se os dados são desbalanceados com todas as caselas ocupadas, o modelo-å fornece somas de quadrados, ajustadas para todos os efeitos envolvidos, eqüivalentes ao método dos quadrados de médias ponderadas de Yates.

Obtenção das somas de quadrados

Conforme o interesse, os modelos M, S e å podem assumir diversas caracterizações. Por exemplo, no Modelo-S, tem-se;

y=X1q1+e Û yijkt=m+eijkt (S.11)

y=X2q2+e Û yijkt=m+ai+eijkt (S.12)

y=X3q3+e Û yijkt=m+ai+bj(i)+e ijkt (S.13)

y=Xq+e Û yijkt=m+ai+bj(i)+g k(ij)+eijkt (S.14)

Tais parametrizações sucessivas e ordenadas facilitam a interpretação da notação- R (.) e de certas somas de quadrados a elas associadas. A notação-R(.) é um procedimento para a obtenção de somas de quadrados, através da redução da soma de quadrados totais ao ajustar um modelo particular de interesse. O termo R(.) é a medida de variação em y explicada pelo modelo ajustado.

Logo, a redução da soma de quadrados, por exemplo, devida ao ajuste do modelo (S.14), sugerida por Searle (1987) como notação-R(.) é dada por:

R(q) = y'X(X'X)- X'y = qo'X'y = S.Q.Parâmetros (5)

Sendo assim, a notação R(.) fornece uma medida conveniente para descrever os procedimentos computacionais usados na obtenção das somas de quadrados. Nesse caso,

y = X1q1+e Þ X'1X1q1= X'1yÞR(m)=q10 'X1'y (S.21)

y = X2q2+e Þ X'2X2q2=X'2 yÞR(m,a)=q20'X2 'y (S.22)

y = X3q3+e Þ X'3X3q3=X'3 yÞR[m,a.b(a)]=q30'X 3'y (S.23)

y = Xq+e Þ X'XqÞX'yÞR[m,a.b(a),g(a)b]=q° 'X'y (S.24)

Procedendo-se os ajustes do tipo seqüencial que o SAS-GLM denota em sua saída por tipo I, têm-se as seguintes somas de quadrados:

R (a | m) = R (m, a) - R (m) (6)

R [b(a) | m, a] = R [m, a, b(a)] - R (m, a) (7)

R [g(a b) | m, a, b(a)] = R [m, a, b(a), g(a b)] - R [m, a, b(a)] (8)

Ademais, estendendo-se os procedimentos usuais dados em Searle (1987) para modelos hierarquizados com dois fatores, obtém-se:

SQA=

=R (a|m) (9)

SQB(A)=

= R [b(a) | m, a] (10)

SQC(AB)=

=R[g(ab) | m, b(a)] (11)

Infelizmente, as dificuldades encontradas nas interpretações das hipóteses testadas pelas somas de quadrados, utilizando-se tanto a notação-R (.) quanto os procedimentos usuais, é que eles não especificam as hipóteses testadas.

Searle (1987), Iemma (1987) e Iemma & Perri (1997), entre outros, adotam um procedimento alternativo para obter as somas de quadrados baseadas em hipóteses de interesse. Assim, para testar a hipótese do tipo Ho :B'm=f, onde B'm é um conjunto de funções estimáveis, B' tem posto linha completo e f é um vetor de "zeros", obtém-se a estatística de Wald:

(12)

Tal procedimento é bastante simples quando se adota o modelo de médias de caselas, pois esse modelo facilita a especificação das hipóteses testadas.

Os quatro tipos de funções estimáveis

Conforme Iemma (1993), se a matriz X não tem posto coluna completo, então o vetor q° não é estimador não viesado no conceito de Rao (1945). De fato, nessas condições E[qo] = (X'X)g X'Xq=Hq. Então, a função Hq é estimável.

Utilizando essas idéias, o PROC GLM fornece uma base para o estudo da estimabilidade dessas funções. Para tanto, toma L = (X'X)g2X'X, analogamente à matriz H, com a diferença que G é definida para uma inversa generalizada qualquer de X'X, não sendo única. Já a inversa generalizada g2 fornece um "L" único. Assim, enquanto no primeiro caso temse vários conjuntos equivalentes de funções estimáveis, no segundo temse um único que, sem dúvida é um deles.

Com base em Lq, o PROC GLM gera as funções estimáveis dos tipos I, II, III e IV para obter as hipóteses testáveis dos tipos I, II, III e IV.

Face aos objetivos deste trabalho não será discutido aqui o procedimento de obtenção das inversas e, nem mesmo, as regras para obtenção das funções estimáveis. O tema está discutido com riqueza de detalhes em Mondardo & Iemma (1998).

Hipóteses estatísticas usualmente testadas pelo SAS-GLM

Hipóteses sobre o fator A

Embora, a soma de quadrados, R (a | m), bem como aquela obtida através do procedimento usual, SQA, não especifiquem as hipóteses testadas, elas correspondem à hipótese testada pela soma de quadrados do tipo I fornecida pelo SAS-GLM. Nesse caso, testam a hipótese do tipo I sobre as médias ponderadas não ajustadas. Sua forma geral é:

(13)

A soma de quadrados do tipo II sobre o fator A, fornecida pelo SAS-GLM, não testa a hipótese do tipo II sobre as médias ponderadas ajustadas para os fatores B(A) e C(A B) como nos casos de esquemas fatoriais, pois eles estão aninhados sob o fator A. Sendo assim, a soma de quadrados do tipo II testa hipótese equivalente à do tipo I.

Quando o fator C(A B) tem o mesmo número de níveis dentro de cada nível do fator B(A), independentemente dos dados serem desbalanceados ou não, a soma de quadrados do tipo III fornecida pelo SAS-GLM é equivalente àquela obtida através do método dos quadrados de médias ponderadas proposto por Yates (1934). Testa, portanto, a hipótese do tipo III sobre as médias não ponderadas, dada por:

(14)

Se, entretanto, o número de níveis do fator C(A B) é diferente dentro de cada nível do fator B(A), independentemente dos dados serem balanceados ou não, a soma de quadrados do tipo III não testa a hipótese H0(2) mas sim uma hipótese bastante complexa, H0(3)gerada a partir de funções estimáveis do tipo III:

(15)

De acordo com Searle (1987), as somas de quadrados dos tipos I, II e III são obtidas através do ajuste de diferentes parametrizações. A soma de quadrados do tipo IV, no entanto, é gerada pela própria rotina do SAS-GLM, baseando-se nas configurações das caselas ocupadas. Nesse caso, dependendo do número e da posição das caselas vazias, o SAS-GLM pode gerar diferentes somas de quadrados do tipo IV e, portanto, testar diferentes hipóteses do tipo IV. Nos modelos com três fatores hierarquizados, porém, a soma de quadrados do tipo IV referente ao fator A testa sempre a hipótese H0(2).

Hipóteses sobre o fator B aninhado sob o fator A

A soma de quadrados, R [b(a) | m, a] = SQB(A), corresponde às hipóteses testadas pelas somas de quadrados dos tipos I e II fornecidas pelo SAS-GLM. Nesse caso, independentemente dos dados serem desbalanceados ou não e do fator C(A B) ter números de níveis diferentes ou não, elas testam a hipótese do tipo I sobre as médias ponderadas não ajustadas, dada por:

(16)

Já as somas de quadrados dos tipos III e IV fornecidas pelo SAS-GLM testam hipóteses equivalentes do tipo III sobre as médias não ponderadas, mesmo com caselas vazias. Sua forma geral é:

(17)

Hipótese sobre o fator C aninhado sob o fator B(A)

A soma de quadrados R [g(a b) | m, a, b(a)] = SQC(A B) testa hipótese equivalente às hipóteses testadas pelas somas de quadrados dos tipos I, II, III e IV fornecidas pelo SAS-GLM, pois o fator C está aninhado sob o fator B, sendo que o fator B está aninhado sob o fator A. Sua forma é:

(18)

RESULTADOS E DISCUSSÃO

Exemplo: Para ilustrar os procedimentos descritos, utiliza-se um conjunto de dados sobre comprimento de fibras de eucalipto, adaptado de Padovani (1984) e reproduzido na TABELA 1. Nesse experimento, a espécie utilizada foi o Eucalyptus grandis Hill ex Maiden, aos três anos de idade, de povoamento pertencente à Champion Papel e Celulose S/A, instalado no Horto Santa Teresinha, no Município de Mogi-Guaçu. Foram tomadas duas árvores com 10,0 cm de diâmetro à altura do peito (DAP) das quais retiraram-se secções transversais (discos), ao nível do DAP. Nesses discos, consideraram-se os incrementos anuais de crescimento em três posições, denominadas: posição 1, região próxima à medula; posição 3, região próxima à casca; e posição 2, região intermediária, correspondendo, respectivamente, ao 1º, 2º e 3º anos de crescimento. Para cada árvore, foram obtidas três amostras correspondentes às posições 1, 2 e 3, relativas aos anos de crescimento. A partir desse material macerado, foi procedida a montagem de lâminas em geléia de glicerina. Nas lâminas, foram realizadas medições de fibras inteiras, totalmente ao acaso. O comprimento das fibras foi medido em micra, em microscópio com aumento de cem vezes. Os dados foram adaptados para gerar desbalanceamento com caselas vazias. Sendo assim, foram consideradas duas posições na árvore 2 e número deferente de lâminas.

Obtenção das Somas de Quadrados

O modelo definido em (3) assume diversas caracterizações conforme o interesse. Nesse caso, fazendo-se as parametrizações sucessivas e ordenadas, como em (S.11) até (S.14), foram obtidas as somas de quadrados seqüenciais, apresentadas a seguir.

R(a|m)=0,1016466; R b(a) | m, a]=0,551434;

R [g(ab) | m, a,b(a)]=0,0331818

Tais resultados podem, também, ser obtidos através do PROC SAS-GLM, utilizando-se o programa 1, conforme pode ser observado na TABELA 2.

Programa 1: Programa SAS-GLM para modelos com Três Fatores Hierarquizados

DATA NEST3;

INPUT A B C Y;

CARDS;

1 1 1 0,791

1 1 1 0,749

2 2 2 0,915

;

PROC GLM;

CLASS A B C;

MODEL Y = A B(A) C(A B) / SS1 SS2 SS3 SS4 E1 E2 E3 E4;

RUN;

Hipóteses testadas pelo SAS-GLM no modelo com três fatores hierarquizados

Hipóteses sobre o fator A

A soma de quadrados obtida através de R (a | m) = SQA corresponde às hipóteses testadas pelas somas de quadrados dos tipos I e II fornecidas pelo SAS-GLM. Nesse caso, ambas testam a hipótese do tipo I sobre as médias ponderadas não ajustadas, descrita em (13) e que para os dados da TABELA 1 resulta em:

A HipóteseH0(1) pode ser escrita na formaH0(1):B'm=f, onde

B'=[2/19 3/19 4/19 2/19 4/19 4/19-3/15-3/15-4/15-3/15-2/15]

e m'=[m111 m112 m121 m131 m132 m133 m211 m212 m213 m221 m222]

Sendo assim, a soma de quadrados associada à hipótese H0(1) pode ser obtida, como em (12), utilizando a estatística de Wald, SQH0(1)=(B')'[B'(W'W)-1B]-1(B') onde

= [ 0,77 0,7337 1,1257 0,9735 0,9972 1,0532 0,8357 0,7573 0,7520 0,9857 1,0625 ] ;

(W'W)-1=diag (1/ n ijk ) = diag ( 1/2, 1/3, 1/4, 1/2, 1/4, 1/4, 1/3, 1/3, 1/4, 1/3, 1/2 ) ;

B'=0,1101193; [B'(W'W)-1B]=0,1192982 e [B'(W'W)-1 B]-1=8,382353

Desse modo,

SQH0(1)= 0,1016466 = R (a | m) = SQA.

Substituindo-se mijk por m+ai+bj(i)+gk(ij) em H0(1)pois o SAS-GLM utiliza o Modelo-S na apresentação das funções estimáveis, conforme amplamente discutido em Mondardo & Iemma (1998), a hipótese associada à soma de quadrados do tipo I resulta em,

como pode ser observado na TABELA 3 fornecida pelo SAS-GLM, fazendo-se L2 = 1. Ali pode ser observado que, como há um único grau de liberdade para o fator A, há apenas um valor para os coeficientes L's, no caso dado por L2. Observe, por exemplo, que 5/19 = 0,2632 ; 4/19=0,2105 e assim por diante. Sem dúvida, H0(1) é uma hipótese difícil de ser interpretada, especialmente para os pesquisadores não iniciados na teoria dos testes de hipóteses estatísticas.

Conforme descrito no capítulo anterior, como o fator C tem números de níveis diferentes dentro de cada nível do fator B, a soma de quadrados do tipo III, para o fator A, fornecida pelo SAS-GLM não testa a hipótese sobre as médias não ponderadas e, portanto, não é equivalente à hipótese H0(2). Ao contrário, testa uma hipótese não usual, baseada em funções estimáveis complexas do tipo III, H0(3), dada como em (15) por:

Através da estatística de Wald obtém-se, como consta da TABELA 2,

SQH0(3)=0,0216711.

Fazendo-se, como em H0(1), as substituições devidas em termos de Modelo-S, a hipótese H0(3) resulta na forma fornecida pelo SAS-GLM,

como se observa na TABELA 3, fazendo-se L2=1, também associada a 1 g.l..

Embora a hipótese H0(3) tenha sido formulada neste trabalho, mesmo assim, vem confirmar a suposição de Searle (1994) de que parece não haver uma explicação estatística para que a soma de quadrados do tipo III seja calculada dessa forma pelo PROC SAS-GLM, tanto nos manuais de utilização como na literatura estatística. Realmente, é uma hipótese difícil de ser interpretada.

Segundo Hocking (1985), a ocorrência de somas de quadrados do tipo III que testam hipóteses não usuais, derivada de funções complexas, é conseqüência do procedimento computacional utilizado pelo SAS-GLM, não tendo outra explicação. Para o autor, isso ocorre freqüentemente em modelos que envolvem três ou mais fatores de efeitos fixos.

Já a soma de quadrados do tipo IV testa sempre a hipótese H0(2) sobre as médias não ponderadas, independentemente de ocorrer caselas vazias ou não. Logo, tem-se:

Sendo assim,

SQH0(2) = 0,031636.

Procedendo de modo análogo, obtém-se a forma de H0(2) fornecida pelo SAS-GLM,

como se observa na TABELA 3, fazendo-se L2=1.

Hipóteses sobre o fator B aninhado sob o fator A

As somas de quadrados R [b(a) | m, a] e SQB(A), testam hipóteses equivalentes às hipóteses testadas pelas somas de quadrados dos tipos I e II fornecidas pelo SAS-GLM. Logo, testam a hipótese do tipo I sobre as médias ponderadas não ajustadas. Uma forma é dada por:

Desse modo,

SQH0(4)= 0,5514341 = R [b(a) | m, a] = SQB(A).

Em termos de Modelo-S, a hipótese H0(4) resulta na forma dada pelo SAS-GLM,

Como se observa na TABELA 3, agora fazendo-se: L4=1 e L5=L7=0 ; L5=1 e L4=L7=0 ; L4=L5=0 e L7=1, pois o fator B está associada a 3 g.l..

Já as somas de quadrados dos tipos III e IV fornecidas pelo SAS-GLM testam, com 3 g.l., a hipótese do tipo III, aqui denotada H0(5), e dada por:

Logo,

SQH0(5)= 0,5275668.

Descrevendo H0(5) em termos de Modelo-S, resulta na forma dada pelo SAS-GLM,

como se observa na TABELA 3, fazendo-se: L4=1 e L5=L7=0 ; L5=1 e L4=L7=0 ; L4=L5=0 e L7=1.

Hipóteses sobre o fator C aninhado sob o fator B(A)

A soma de quadrados obtida pelo procedimento usual, SQC(A B), bem como aquela obtida através da notação-R (.), R [g(a b) | m, a, b(a)], testam hipóteses equivalentes às hipóteses testadas pelas somas de quadrados dos tipos I, II, III e IV fornecidas pelo SAS-GLM. Uma forma, com 6 g.l., é dada por:

Sendo assim,

SQH0(6) = 0,0331818 = R [g(a b) | m, a, b(a)] = SQC(A B) .

Em termos do Modelo-S, a hipótese H0(6) pode ser descrita de modo análogo às anteriores. Basta fazer na TABELA 3, L9=1 e os demais iguais a zero; L12=1 e os demais iguais a zero; L13=1 e os demais iguais a zero; L15=1 e os demais iguais a zero; L16=1 e os demais iguais a zero; finalmente, L18=1 e os demais iguais a zero, pois H0(6) está associada a 6 g.l..

Hipóteses Testadas Por Outros Softwares nos Modelos com Três Fatores Hierarquizados para Dados Desbalanceados

Com o objetivo de elucidar aos usuários, apresenta-se aqui uma comparação, sem o apelo de competição, das hipóteses testadas através do SAS-GLM com aquelas testadas por outros Softwares estatísticos. Para tanto, foram utilizados o MINITAB, o NTIA, o STATGRAPHICS, o SAEG, o GLIM, o STATISTICA e o BMDP.

Ressalta-se aqui o fato de que os softwares são abordados do ponto de vista do usuário e não do especialista. Nesse contexto são utilizados apenas comandos básicos usuais e não programação mais sofisticada.

MINITAB – Versão 11.0

Programa 2: Programa MINITAB para modelos com Três Fatores Hierarquizados

MTB> NAME C1='A' C2='B' C3='C' C4='Y'

MTB> GLM Y = A B(A) C(A B)

Em geral, quando os dados são desbalanceados com todas as caselas ocupadas, o procedimento GLM do MINITAB fornece somas de quadrados dos tipos seqüenciais e ajustadas, equivalentes às somas de quadrados dos tipos I e III fornecidas pelo SAS-GLM. Entretanto, para os dados da TABELA 1, o procedimento GLM fornece apenas as somas de quadrados seqüenciais e não realiza nenhum teste estatístico, pois os níveis do fator C aninhado sob o fator B não são os mesmos dentro de cada nível do fator B.

NTIA – Versão 4.2.2

Programa 3: Programa NTIA para modelos com Três Fatores Hierarquizados

NTIA>GENESE NESTED

NTIA>NUM A B C Y;

NTIA>ARQUIVO M=ABREF(B:NEST3.DAD) A B C Y;

NTIA>{LEIAF(M)};

NTIA>MODLIN NESTED

MOD Y = A [B(A)] B(A) [C(A B)] C(A B);

O software NTIA fornece somas de quadrados dos tipos seqüenciais e parciais, equivalentes às somas de quadrados dos tipos I e III fornecidas pelo SAS-GLM (TABELA 2). Testam, portanto, hipóteses equivalentes, exceto para a soma de quadrados do tipo parcial referente ao fator A que forneceu SQ(A) = 0,0247082 e, nesse caso, não testa a hipótese sobre as médias não ponderadas, H0(2) .A soma de quadrados parciais do fator A fornecida pelo NTIA é equivalente à soma de quadrados, R [a* | m*, b*, g(a b)*] = R [m*, a*, b*, g(a b)*] - R [m*, b*, g(a b)*], obtida através do modelo reparametrizado proposto por Overall & Spiegel (1969) entre outros. Segundo Searle (1987), quando todas as caselas estão ocupadas (nijk>0)a soma de quadrados R [a* | m*, b*, g(a b)*] é equivalente àquela obtida através do método dos quadrados de médias ponderadas de Yates (1934) e, portanto, testa a hipótese do tipo III sobre as médias não ponderadas. Entretanto, quando os dados são desbalanceados em presença de caselas vazias, esse procedimento falha em fornecer somas de quadrados apropriados para os testes de hipóteses do tipo III.

STATGRAPHICS – versão 7.0

O STATGRAPHICS não realiza as análises em modelos hierarquizados com dados desbalanceados.

SAEG – Versão 5.0

O SAEG fornece somas de quadrados seqüenciais equivalentes às somas de quadrados do tipo I fornecidas pelo SAS-GLM. Porém, ao contrário do SAS-GLM, considera os efeitos como aleatórios e calcula os componentes de variância.

GLIM – Versão 4.0

Programa 4: Programa GLIM para modelos com Três Fatores Hierarquizados

$UNITS 34 $DATA A B C Y $READ $!

1 1 1 0,791

1 1 1 0,749

2 2 2 0,915

$FACTOR A 2 B 3 C 3 $YVAR Y $FIT: +A: +B/A: +C/B/A $!

$FINISH $!

O GLIM também fornece somas de quadrados do tipo seqüencial equivalentes às somas de quadrados do tipo I, fornecidas pelo SAS-GLM, sem realizar nenhum teste estatístico.

STATISTICA – Versão 5.0

O software STATISTICA emite a mensagem "DESIGN INCOMPLETE ; TEST PLANNED COMPARISONS OR SPECIFIC EFFECTS" e não realiza as análises. Porém, através do comando "CONTRASTS FOR BETWEEN-GROUP FACTORS", é possível obter as somas de quadrados dos efeitos principais A, B(A) e C(A B), equivalentes às somas de quadrados do tipo IV fornecidas pelo SAS-GLM e, portanto, testam as hipóteses H0(2), H0(5), H0(6), respectivamente.

BMDP – Versão PC90

Programa 5: Programa BMDP para modelos com Três Fatores Hierarquizados

__________________________________________

/ INPUT TITLE IS 'MODELO HIERARQUIZADO'.

VARIABLES = 4.

FORMAT = FREE.

/ VARIABLE NAMES = A, B, C, Y.

/ BETWEEN FACTORS = A, B, C.

CODES(A) = 1,2.

CODES(B) = 1 TO 5.

CO DES(C) = 1 TO 11.

/ WEIGHTS BETWEEN = EQUAL.

/ END

1 1 1 0,791

1 1 1 0,791

__________________________________________

__________________________________________

2 5 11 0,915

/END

ANALYSIS PROCEDURE = STRUCTURE.

BFORMULA = 'A/B/C'./

END /

/ WEIGHT BETWEEN = SIZES.

/ END

ANALYSIS PROCEDURE = STRUCTURE.

BFORMULA = 'A/B/C'./

END /

__________________________________________

O BMDP possui dois comandos BETWEEN = EQUAL e BETWEEN = SIZES. Se os dados são desbalanceados com todas as caselas ocupadas, então, o comando BETWEEN = EQUAL fornece somas de quadrados equivalentes às somas de quadrados do tipo III fornecidas pelo SAS-GLM. Se existem caselas vazias, as somas de quadrados fornecidas pelo BMDP são equivalentes às somas de quadrados do tipo IV do SAS-GLM. Já o comando BETWEEN = SIZES fornece somas de quadrados equivalentes às somas de quadrados dos tipos I e II fornecidas pelo SAS-GLM. Testa, portanto, as hipóteses H0(1), H0(4), H0(6), respectivamente.

CONCLUSÕES

Como foi verificado, a ocorrência de dados desbalanceados em presença de caselas vazias pode trazer sérios transtornos aos pesquisadores das ciências aplicadas, em relação às interpretações de hipóteses estatísticas pois, na maioria dos casos, a falta de uma documentação explícita sobre o que esses softwares estão calculando, pode induzir a tomada de decisões incorretas, comprometendo o "resultado" de suas pesquisas.

Sendo assim, os pesquisadores, usuários de softwares estatísticos, devem ser cautelosos na análise estatística de dados desbalanceados, evitando o uso indiscriminado de softwares estatísticos sem o conhecimento prévio de sua documentação. Considera-se, portanto, de vital importância o acompanhamento de um profissional da estatística, tanto no planejamento do experimento, quanto na análise dos dados e na interpretação dos resultados.

Face aos resultados obtidos, concluiu-se que:

• As somas de quadrados do tipo I fornecidas pelo SAS-GLM, para os fatores A, B(A) e C(A B), correspondem às hipóteses do tipo I sobre as médias ponderadas não ajustadas e testam as hipóteses H0(1), H0(4), H0(6), respectivamente.

• As somas de quadrados do tipo II fornecidas pelo SAS-GLM, não testam as hipóteses do tipo II sobre as médias ponderadas ajustadas, como nos casos de esquemas fatoriais, pois o fator C está aninhado sob o fator B, onde o fator B está aninhado sob o fator A. Nesse caso, as hipóteses associadas às somas de quadrados do tipo II são equivalentes às hipóteses do tipo I.

• Quando os níveis do fator C(A B) são diferentes, independentemente dos dados serem balanceados ou não, a soma de quadrados do tipo III referente ao fator A, fornecida pelo SAS-GLM não testa a hipótese, H0(2), mas uma hipótese gerada a partir de funções estimáveis complexas do tipo III, H0(3).

• Dos softwares estudados, apenas o STATGRAPHICS não realiza as análises para modelos com dados desbalanceados.

• O MINITAB, o SAEG, o GLIM e o NTIA fornecem em suas saídas somas de quadrados do tipo seqüencial, equivalentes às somas de quadrados do tipo I do SAS-GLM. Deve-se, entretanto, ressaltar que o MINITAB e o GLIM não realizam nenhum teste estatístico e o SAEG, considera os efeitos aleatórios e calcula os componentes de variância.

• O NTIA fornece também as somas de quadrados do tipo parcial, mas apenas as somas de quadrados referentes aos fatores B(A) e C(A B) são equivalentes às somas de quadrados do tipo III fornecidas pelo SAS-GLM. A soma de quadrados referente ao fator A não testa a hipótese sobre as médias não ponderadas, H0(2), e nem a hipótese H0(3) testada pelo SAS-GLM.

• O STATISTICA fornece somas de quadrados para os efeitos principais, A, B(C), e C(A B), equivalentes às somas de quadrados do tipo IV fornecidas pelo SAS-GLM. Nesse caso, testam as hipóteses H0(2), H0(4), H0(6).

• Se os dados são desbalanceados com todas as caselas ocupadas, o comando BETWEEN = EQUAL do BMDP fornece somas de quadrados equivalentes às somas de quadrados do tipo III do SAS-GLM. Agora, se existem caselas vazias, então, elas fornecem somas de quadrados equivalentes às somas de quadrados do tipo IV do SAS-GLM.

• Já o comando BETWEEN = SIZES do BMDP fornece somas de quadrados equivalentes às somas de quadrados dos tipos I e II do SAS-GLM e, portanto, testam hipóteses do tipo I sobre as médias ponderadas não ajustadas.

Recebido para publicação em 31.07.98

Aceito para publicação em 26.07.99

  • DALLAL, G.E. The computer analysis of factorial experiments with nested factors. The American Statistician, v.46, p.240, 1992.
  • ELLIOTT, A.C.; WOODWARD, W. A. Analysis of an unbalanced two-way anova on the microcomputer. Communications in Statistics - Simulations, v.15, p.215-225, 1986.
  • FRANCIS, I.A comparison of several analysis of variance programs. Journal of the American Statistical Association, v.68, p.860-865, 1973.
  • HERR, D.G. On the history of anova in unbalanced, fatorial designs: The first 30 years. The American Statistician, v.40, p.265-270, 1986.
  • HOCKING, R.R. The analysis of linear models Monterey, California: Brooks/Cole Publishing Company, 1985. 385p.
  • IEMMA, A.F. Modelos lineares: uma introduçăo para profissionais da pesquisa agropecuária. Londrina: Imprensa Oficial do Estado do Paraná, 1987. 263p.
  • IEMMA, A.F. Análisis de varianza con datos desbalanceados Bogotá: Universidad Nacional de Colombia, 1993. 120p.
  • IEMMA, A.F. Que hipóteses estatísticas testamos através do "SAS" em presença de caselas vazias?Scientia Agricola, v.52, p.210-220,1995/a.
  • IEMMA, A.F. Análise de variância de dados desbalanceados. In: CONGRESSO BRASILEIRO DE USUÁRIOS DO SAS, 4., Piracicaba, 1995. Anais ESALQ/USP, 1995b. 111p.
  • IEMMA, A.F. Dados estatísticos desbalanceados: PROC SAS/GLM. In: SEMANA DE MATEMÁTICA, 2., Rio de Janeiro, 1995. Anais UFRJ, 1995c. 130p.
  • IEMMA, A.F. Analisis de varianza de experimentos con celdas vazias Cordoba: Universidad Nacional de Cordoba, 1997. 112p. (Trabajos de Matematicas Serie C N. 22/97).
  • IEMMA, A.F.; PERRI, S. H. V. Ajuste de modelos mistos desbalanceados através do sistema estatístico SAS Piracicaba: Departamento de Matemática e Estatística, ESALQ, USP. 1997. 99p.
  • MONDARDO, M.; IEMMA, A.F. Sobre quatro tipos de funçőes estimáveis fornecidas pelo PROC GLM do SAS para dados desbalanceados.Scientia Agricola, v.55, p.172-182, 1998.
  • OVERALL, J.E.; SPIEGEL, D.K. Concerning least squares analysis of experimental data. Psichological Bulletin, v.72, p.311-322, 1969.
  • PADOVANI, C.R. Estimabilidade no modelo linear em classificaçăo hierárquica com s estágios. Piracicaba, 1984, 81p. Tese (Doutorado) Escola Superior de Agricultura "Luiz de Queiroz", Universidade de Săo Paulo.
  • RAO, C.R. On the linear combination of observations and the general theory of least squares. Sankhyă, v.7, p.237-256, 1945.
  • SANTOS, E.S. Utilizaçăo de "Softwares" estatísticos na interpretaçăo de hipóteses com dados desbalanceados. Piracicaba, 1994, 175p. Tese (Doutorado) Escola Superior de Agricultura "Luiz de Queiroz", Universidade de Săo Paulo.
  • SEARLE, S.R. Linear models for unbalanced data New York: John Wiley, 1987. 536p.
  • SEARLE, S.R. Analysis of variance computing package output for unbalanced data from fixed-effects models with nested factors. The American Statistician, v.48, p.148-153, 1994.
  • WINER, B.J. Statistical principles in experimental design 2.ed. New York: McGraw- Hill Book, 1971. 907p.
  • YATES, F. The principles of orthogonality and confounding in replicated experiments. Journal of Agricultural Science, v.23, p.108-145, 1933.
  • YATES, F. The analysis of multiple classifications with unequal numbers in the different classes. Journal of the American Statistical Association, v.29, p.51-66, 1934.
  • 1
    Parte da Tese de Doutorado do primeiro autor apresentada à ESALQ/USP - Piracicaba, SP.
  • Datas de Publicação

    • Publicação nesta coleção
      22 Dez 2000
    • Data do Fascículo
      1999

    Histórico

    • Aceito
      26 Jul 1999
    • Recebido
      31 Jul 1998
    Escola Superior de Agricultura "Luiz de Queiroz" USP/ESALQ - Scientia Agricola, Av. Pádua Dias, 11, 13418-900 Piracicaba SP Brazil, Phone: +55 19 3429-4401 / 3429-4486 - Piracicaba - SP - Brazil
    E-mail: scientia@usp.br