Acessibilidade / Reportar erro

Método para estimar o tamanho amostral em análises de medidas repetidas

Method to estimate sample size in repeated measurement analyses

Resumos

O objetivo do trabalho foi avaliar um método para estimar o número de indivíduos (n) a ser utilizado em experimentos que envolvam análises multivariadas de medidas repetidas no tempo, avaliadas sobre a mesma unidade experimental. O método foi testado com dados de produção de leite com 10 controles mensais (t = 1, 2, ... , 10) ou condições de avaliação de vacas da raça Holandesa. As estimativas de n foram obtidas por meio de um programa desenvolvido no Statistical Analysis System (SAS), considerando distribuição normal t variada, vetor de média zero e matriz de covariância sigma, estatística T² de Hotelling e distribuição F com parâmetro de não-centralidade delta²delta. A ligação dos dados observados com o método é feita por meio da matriz de variância-covariância. Para t > 2 condições de avaliação, o método estima o valor de n que permite detectar diferença mínima significativa (delta) entre médias de condições de avaliação, considerando diferentes níveis de erros do tipo I (alfa), poder do teste F (1-beta) e delta. Para as 10 condições de avaliação consideradas, as estimativas de n variaram de 11 a 89, sendo mais influenciadas por variações na delta, seguidas de alfa e beta.

controle de lactação; distribuição F; erro tipo I (alfa); poder do teste (1-beta); simulação


The objective of this work was to evaluate a method to estimate the number of individuals (n) to be used in experiments involving multivariate analyses of repeated measurements over time on the same experimental unit. The method was tested with data from milk production taken monthly up to complete 10 controls (t = 1, 2, ... , 10) or evaluation conditions of Holstein cows. The estimates of n were obtained by a SAS program considering a t-variate normal distribution, zero mean vector, and covariance matrix sigma, Hotelling T² statistical, F-distribution with noncentrality parameter delta²delta. The link of the observed data with the method is made by means of the variance-covariance matrix. The method estimates the value of n required to detect significative differences (delta) between any two means on each t > 2 evaluation condition, considering combinations of levels of type I error (alpha), power of the test F (1-beta) and delta. For the 10 evaluation conditions the n ranged from 11 to 89 and was affected mostly by variation in delta, followed by alpha and beta.

F distribution; lactation controls; power of test (1-beta); simulation; type I error (alpha)


MÉTODO PARA ESTIMAR O TAMANHO AMOSTRAL EM ANÁLISES DE MEDIDAS REPETIDAS1 1 Aceito para publicação em 24 de maio de 1999.

ALFREDO RIBEIRO DE FREITAS2 2 Eng. Agrôn., Ph.D., Embrapa-Centro de Pesquisa de Pecuária do Sudeste (CPPSE), Caixa Postal 239, CEP 13560-970 São Carlos, SP. Bolsista do CNPq. E-mail: ribeiro@cppse.embrapa.br

RESUMO - O objetivo do trabalho foi avaliar um método para estimar o número de indivíduos (n) a ser utilizado em experimentos que envolvam análises multivariadas de medidas repetidas no tempo, avaliadas sobre a mesma unidade experimental. O método foi testado com dados de produção de leite com 10 controles mensais (t = 1, 2, ... , 10) ou condições de avaliação de vacas da raça Holandesa. As estimativas de n foram obtidas por meio de um programa desenvolvido no Statistical Analysis System (SAS), considerando distribuição normal t variada, vetor de média zero e matriz de covariância S, estatística T2 de Hotelling e distribuição F com parâmetro de não-centralidade d2D. A ligação dos dados observados com o método é feita por meio da matriz de variância-covariância. Para t > 2 condições de avaliação, o método estima o valor de n que permite detectar diferença mínima significativa (D) entre médias de condições de avaliação, considerando diferentes níveis de erros do tipo I (a), poder do teste F (1-b) e D. Para as 10 condições de avaliação consideradas, as estimativas de n variaram de 11 a 89, sendo mais influenciadas por variações na D, seguidas de a e b.

Termos para indexação: controle de lactação, distribuição F, erro tipo I (a), poder do teste (1-b), simulação.

METHOD TO ESTIMATE SAMPLE SIZE IN REPEATED MEASUREMENT ANALYSES

ABSTRACT - The objective of this work was to evaluate a method to estimate the number of individuals (n) to be used in experiments involving multivariate analyses of repeated measurements over time on the same experimental unit. The method was tested with data from milk production taken monthly up to complete 10 controls (t = 1, 2, ... , 10) or evaluation conditions of Holstein cows. The estimates of n were obtained by a SAS program considering a t-variate normal distribution, zero mean vector, and covariance matrix S, Hotelling T2 statistical, F-distribution with noncentrality parameter d2D. The link of the observed data with the method is made by means of the variance-covariance matrix. The method estimates the value of n required to detect significative differences (D) between any two means on each t > 2 evaluation condition, considering combinations of levels of type I error (a), power of the test F (1-b) and D. For the 10 evaluation conditions the n ranged from 11 to 89 and was affected mostly by variation in D, followed by a and b.

Index terms: F distribution, lactation controls, power of test (1-b), simulation, type I error (a).

INTRODUÇÃO

As medidas repetidas no tempo, tomadas sobre a mesma unidade experimental, como, por exemplo, estudos de crescimento nos animais e vegetais, controles de lactação, ensaios de digestibilidade, cortes sucessivos de forrageiras, entre outras, têm grande aplicação na pesquisa agropecuária. A análise desses dados por meio de técnicas multivariadas tem recebido grande atenção nos últimos anos, principalmente por sua eficiência comparada a delineamentos tradicionais como os tratamentos aleatorizados em blocos com parcelas divididas ou subdivididas (Vonesh & Schork, 1986; SAS Institute, 1993; Davidian & Giltinan, 1996; Mead et al., 1996). No melhoramento genético, em particular, as avaliações repetidas no tempo são importantes pois consideram as oscilações de variâncias genéticas e residuais com o tempo, possibilitando estimar herdabilidades diferenciadas para cada idade.

Apesar de a abordagem teórica desses métodos, tais como a modelagem das diferentes estruturas da matriz de covariâncias, estimativas de parâmetros por máxima verossimilhança e razão de verossimilhança ser ampla (Berk, 1987; Geary, 1989; Mansour et al.,1991; Scheiner & Gurevitch, 1993; Davidian & Giltinan, 1996), não têm sido constatados estudos sobre a determinação do tamanho amostral mínimo que auxilie o pesquisador a escolher a precisão com que se deseja testar os tratamentos.

O objetivo deste trabalho foi avaliar um método para estimar o número de indivíduos necessário em experimentos envolvendo dados de produção de leite com 10 controles mensais ou condições de avaliação por vaca, possibilitando-se escolher a precisão com que se deseja detectar diferença significativa entre médias.

MATERIAL E MÉTODOS

Foram utilizados dados de 10 controles mensais de produção de leite (t = 1, 2, ... , 10) ou condições de avaliação de 158 vacas da raça Holandesa paridas de 1994 a 1995 na Fazenda Canchim, base física da Embrapa-Centro de Pesquisa de Pecuária do Sudeste (CPPSE), em São Carlos, SP. As vacas eram mantidas em regime de pasto, com suplementação de volumosos e concentrados de acordo com a produtividade individual de leite, e ordenhadas mecanicamente duas vezes ao dia. Utilizando-se a matriz de variância-covariância amostral e o vetor de médias dos 10 controles mensais de produção de leite, foram geradas 5.000 observações por meio da distribuição normal multidimensional (Graybill, 1976).

Considerando-se apenas um tratamento (g = 1), as t condições de avaliação mensais da produção de leite de uma vaca representam um vetor de observação yi, de dimensão t x 1. O modelo simplificado de análise é do tipo yi = m + ei, em que yi' = (yi1, ..., yit) é o vetor de produção de leite da vaca i nas t condições de avaliação; m' = (m1,..., mt), o vetor de resposta média, e ei, o erro experimental com distribuição normal t variada, identicamente distribuído, com vetor de média zero e matriz de covariância å.

O teste para aceitar ou rejeitar a hipótese de nulidade Ho: m1 =... = mt, ou seja, a igualdade das t condições de avaliação, éa estatística de T2 de Hotelling, definida por T2 = n ´C(C'SC)-1C' , em que é o vetor de média, S = (Sni=1(yi -) (yi -)')/(n-1), a matriz de covariância amostral, positiva definida, e C qualquer matriz de contraste ortogonal (t -1) x t (Vonesh & Schork, 1986). A estatística T2possui (t-1) e (n-1) graus de liberdade e parâmetro de não-centralidade d2=nm´C(C´åC)-1 C´m.

Sob Ho, obtém-se F= (n - t + 1)/[( n - 1 )( t - 1 )] T2, que possui distribuição F com v1 = (t - 1), v2 = (n - t + 1) graus de liberdade e parâmetro de não-centralidade d2. Para um dado a, rejeita-se Ho se F > F(v1,v2; d2).

Especificou-se entre quaisquer duas médias de condições de avaliação j e k uma diferença mínima significativa (D), cuja significância se deseja comprovar a um nível a de probabilidade e poder do teste F (1-b), sujeito à restrição ½m j - mk½> D, (j ¹ k) (Scheffé, 1959). O valor mínimo de d2sujeito à restrição ½mj - mk½ = D, definido por d2D é igual a nD2/max j<k {s2j+s2k - 2sjk}, em que s2jes2k (j < k) são as variâncias e sjk, a covariância, associadas às características j e k, respectivamente. Considerando-se S, qualquer matriz de variância-covariância, positiva definida, pode ser demonstrado (Vonesh & Schork, 1986) que a expressão nD2/[(2s2max (1-rmin )] < d2D, em que rmin é o menor coeficiente de correlação entre as medidas repetidas, s2max = máximo(s2j) e ainda D medido em unidades de sMAX, é apropriada para estimar o tamanho amostral n.

Estimativas de n para t > 2, em função de v1, v2, a, poder do teste (1-b) e de d2D, foram obtidas interativamente por meio do programa abaixo que utiliza as funções FPROB e FINV (Hardison et al., 1983; Vonesh & Schork, 1986 ):

proc iml; options ps=30000;

var_max = 53.9045;

do k = 1 to 2 by .5;

do beta = 0.01 to 0.05 by 0.04;

do alfa = 0.01 to 0.05 by 0.04;

do r_min = 0 to 1 by .2;

p = 1-alfa;

trat = 2;

do while (trat < 11);

inicialn = trat+1;

beta_n = 1;

n = inicialn-1;

do while (beta_n > beta);

gl1 = trat-1;

n = n + 1;

gl2 = n-trat+1;

nc =(var_max*n*k**2)/(2*var_max*(1-r_min));

beta_n=probf(finv(p,gl1,gl2,0),gl1,gl2,nc);

end;

print, k beta alfa trat n r_min;

trat = trat+1;

end;

end;

end;

end;

end;

O programa avalia a integral

em que fF denota a função densidade de probabilidade da distribuição F não-central e Fa(v1,v2) representa a porcentagem 100(1- a) dessa distribuição. O valor de n é estimado da desigualdade 1 - b(n) > 1- b; considerando a (0,01 e 0,05), poder do teste (0,95 e 0,99), D assumindo os valores 1,0sMAX, 1,5sMAX e 2,0sMAX e a correlação amostral entre medidas repetidas (r) os valores de 0,0, 0,2, 0,4, 0,6, 0,8 e 1,0.

RESULTADOS E DISCUSSÃO

Da matriz de variância-covariância, positiva definida (Tabela 1), obtida dos dados simulados, utilizaram-se a maior variância (s2MAX = 53,9045) e respectivo desvio-padrão (sMAX = 7,3420), que associados a valores de D (D = 1,0smax, 1,5smax e 2,0smax) e de r (r = 0,0, 0,2, 0,4, 0,6, 0,8 e 1,0) calcularam-se o parâmetro de não-centralidade dado por d2D = nD2 / (2s2MAX(1 - r)). Esta expressão associada a valores de v1, v2, a e b e a utilização da integral da função densidade de probabilidade da distribuição F não-central possibilitaram as estimativas de n.

As estimativas de n estão representadas nas Figs. 1 a 3 , as quais estão diferenciadas de acordo com o valor de D. As seis linhas das figuras, em ordem decrescente de n, indicam valores de correlação de 0,0, 0,2, 0,4, 0,6, 0,8 e 1,0, respectivamente. Estimativas de n para as demais correlações (0,1, 0,3, 0,5, 0,7 e 0,9) podem ser facilmente obtidas por meio de interpolação linear das linhas dessas figuras.


Observando-se as Figs. de 1 a 3 , fica evidente, para uma correlação constante, que o valor de n para se detectar diferença significativa entre médias aumenta em função do número de avaliações feitas no mesmo indivíduo e diminui para valores crescentes da correlação entre condições de avaliação. Analisando-se a Fig. 1A, por exemplo, observa-se para r = 0,6 (quarta linha em ordem decrescente de n), que n varia de 23 (t = 2) a 43 indivíduos (t = 10). Nesse exemplo, quando a correlação entre condições de avaliação varia de 0,0, 0,2, 0,4, 0,6, 0,8 e 1,0, há necessidade, respectivamente, de 89, 74, 59, 43, 28 e 11 indivíduos. Independentemente do valor de D e da correlação entre condições de avaliação, para se detectar diferença mínima significativa entre médias quando a passa de 0,05 para 0,01, há necessidade que o número de indivíduos seja cerca de 30% e 35% maior, respectivamente, quando o poder do teste F passa de 99% para 95%. Independentemente de a, b e do número de condições de avaliação, mudança no valor de D de 1,0s para 1,5s, de 1,0s para 2,0s e de 1,5s para 2,0s, implica redução do tamanho amostral em cerca de 2,0, 3,0 e 1,5 vezes, respectivamente. Tal fato significa que as estimativas de n são mais influenciadas por variações na D do que para valores de a e b. Contudo, para determinado valor de D, a, b e correlação, a amplitude de n é grande para os tratamentos considerados (t = 2, ..., 10), ou seja, varia de 11 a 89.

Vonesh & Schork (1986) estudaram o tamanho amostral de três a seis condições de avaliação, sete valores de D (1,0s a 3,0s), poder do teste (0,80 e 0,90), correlação mínima variando de 0,1 a 0,9 e a igual a 0,01 e 0,05. Foi observada redução acentuada nas estimativas de n quando D passou de 1,0s para 1,25s, observando-se redução proporcionalmente menor daí por diante. Vale salientar que a eficiência do tamanho amostral é dependente da acurácia na obtenção da matriz de variância-covariância amostral.

CONCLUSÕES

1. O número de indivíduos necessários para se detectar significância entre médias de controles mensais de produção de leite de vacas da raça Holandesa é muito influenciado pela diferença mínima significativa (D) entre médias, erro do tipo I (a), poder do teste F (1-b) e pelo número de condições de avaliação.

2. O número de vacas a ser utilizado em experimentos considerando 10 controles mensais de produção de leite variou de 11 a 89, sendo mais influenciado por variações na diferença mínima significativa entre médias do que por variações de erros do tipo I (a) e do tipo II (b).

3. Para se detectar diferença mínima significativa entre médias quando a passa de 0,05 para 0,01, há necessidade que o número de indivíduos seja cerca de 30% e 35% maior, respectivamente, quando o poder do teste F passa de 99% para 95%.

4. Independentemente de a, b e do número de condições de avaliação, mudança no valor de D de 1,0s para 1,5s, de 1,0s para 2,0s e de 1,5s para 2,0s, implica redução do tamanho amostral em cerca de 2,0, 3,0 e 1,5 vezes, respectivamente.

  • BERK, K. Computing for incomplete repeated measures. Biometrics, Alexandria, v.43, n.2, p.385-398, 1987.
  • DAVIDIAN, M.; GILTINAN. D.M. Nonlinear models for repeated measurement data 2.ed. London : Chapman & Hall, 1996. 359p.
  • GEARY, D.N. Modelling the covariance structure of repeated measurements. Biometrics, Alexandria, v.45, n.4, p.1183-1195, 1989.
  • GRAYBILL, F.A. Theory and application of the linear model. Massachusetts : Duxbury, 1976. 704p.
  • HARDISON, C.D.; QUADE, D.; LANGSTON, R.E. Nine functions for probability distributions. In: SAS INSTITUTE (Cary, Estados Unidos). SUGI supplemental library user´s guide Cary, 1983. p.229-236.
  • MANSOUR, H.; JENSEN, E.L.; JOHNSON, L.P. Analysis of covariance structure of repeated measurements in holstein conformation traits. Journal of Dairy Science, Champaign, v.74, n.8, p.2757-2766, 1991.
  • MEAD, R.; CURNOW, R.N.; HASTED, A.M. Statistical methods in agriculture and experimental biology 2.ed. London : Chapman Hall, 1996. 415p.
  • SAS INSTITUTE (Cary, Estados Unidos). SAS/STAT user´s guide: statistics versão 6. 4.ed. Cary, 1993. v.2.
  • SCHEFFÉ, A. The analysis of variance Brisbane : J. Wiley, 1959. 497p.
  • SCHEINER, S.M.; GUREVITCH, J. Design and analysis of ecological experiments New York : Chapman & Hall, 1993. 445p.
  • VONESH, E.F.; SCHORK, M.A. Sample size analysis of repeated measurement. Biometrics, Alexandria, v.42, n.3, p.601-610, 1986.
  • 1
    Aceito para publicação em 24 de maio de 1999.
  • 2
    Eng. Agrôn., Ph.D., Embrapa-Centro de Pesquisa de Pecuária do Sudeste (CPPSE), Caixa Postal 239, CEP 13560-970 São Carlos, SP. Bolsista do CNPq. E-mail:
  • Datas de Publicação

    • Publicação nesta coleção
      10 Out 2001
    • Data do Fascículo
      Abr 2000

    Histórico

    • Aceito
      24 Maio 1999
    Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
    E-mail: pab@embrapa.br