Comparação de métodos no ajustamento de curvas de lactação de bovinos por meio de Simulação

Ferreira, Eric Batista; Bearzoti, Eduardo

doi:10.1590/S1413-70542003000400019

Resumos

Curvas de lactação representam a produção de leite de uma fêmea leiteira em função do tempo. Uma vez que tais curvas variam aleatoriamente de animal para animal, devido a fatores tanto genéticos quanto ambientais, o modelo misto conhecido como regressão aleatória é apropriado para ajustar os dados de produção de um rebanho. A regressão aleatória foi avaliada neste estudo mediante simulação de dados. Produções de cinco animais em cinco idades foram simuladas em mil conjuntos de dados independentes, em três níveis de precisão, ou seja, a razão entre a variância de regressão e a total igual a 0,9 (variância alta), 0,5 (variância média) e 0,1 (variância baixa) e três graus médios de parentesco entre os animais. A regressão aleatória foi utilizada de duas maneiras, admitindo-se ou não que as variâncias genéticas e de meio fossem conhecidas, comparando-a com o método de quadrados mínimos ordinário. Pelos resultados pode-se concluir que, com baixa precisão, os modelos tiveram comportamento semelhante quanto ao erro quadrático médio e desvios absolutos médios. O nível de precisão foi o fator mais influente do que o grau de parentesco no desempenho relativo dos modelos. De maneira geral, a regressão aleatória com variâncias conhecidas propiciou predições mais precisas, seguida da regressão aleatória estimando-se tais variâncias. Concluiu-se que a regressão aleatória é potencialmente útil sob condições de alta variabilidade ambiental relativa, mesmo com variâncias desconhecidas.

Regressão aleatória; modelos mistos; curva de lactação

Lactation curves represent milk production of a dairy dam as a function of time. Since such curves vary randomly among individuals, due to environment and genetic factors, the mixed model known as random regression is suitable for fitting such curves, and it was evaluated in this study through data simulation. Milk production of five animals in five ages was simulated in one thousand random and independent data sets, considering three precision levels, variation due to the model in relation to the residual variation of 0,9 (high variance), 0,5 (medium variance) and 0,1 (low variance) and three average degrees of relationship. Random regression was used in two ways, admitting or not that the variances of the model (genetic and of environment) were known, and compared to the ordinary least squares method. Results showed that, under low variance, the models had similar fits, with regard mean square error and mean absolute deviation. The level of precision was more influential than the degree of relationship on relative performance of models. In general, random regression with known variances yielded the most precise predictions, followed by random regression estimating such variances. Results suggest that random regression is potentially useful under high environmental heterogeneity, even if variances are unknown.

Random regression; mixed models; lactation curve

ESTATÍSTICA E ESPERIMENTAÇÃO AGROPECUÁRIA

Comparação de métodos no ajustamento de curvas de lactação de bovinos por meio de Simulação

Comparison of methods for fitting lactation curves in dairy cattle by simulation

Eric Batista Ferreira^I; Eduardo Bearzoti^II

^I Técnico em Laticínios, bolsista do CNPq, ericbferreira@netscape.net, Departamento de Ciências Exatas, UNI-VERSIDADE FEDERAL DE LAVRAS/UFLA, Caixa Postal 37, 37200-000 - Lavras, MG.

^II Professor do Departamento de Ciências Exatas,UFLA, bearzoti@ufla.br.

RESUMO

Curvas de lactação representam a produção de leite de uma fêmea leiteira em função do tempo. Uma vez que tais curvas variam aleatoriamente de animal para animal, devido a fatores tanto genéticos quanto ambientais, o modelo misto conhecido como regressão aleatória é apropriado para ajustar os dados de produção de um rebanho. A regressão aleatória foi avaliada neste estudo mediante simulação de dados. Produções de cinco animais em cinco idades foram simuladas em mil conjuntos de dados independentes, em três níveis de precisão, ou seja, a razão entre a variância de regressão e a total igual a 0,9 (variância alta), 0,5 (variância média) e 0,1 (variância baixa) e três graus médios de parentesco entre os animais. A regressão aleatória foi utilizada de duas maneiras, admitindo-se ou não que as variâncias genéticas e de meio fossem conhecidas, comparando-a com o método de quadrados mínimos ordinário. Pelos resultados pode-se concluir que, com baixa precisão, os modelos tiveram comportamento semelhante quanto ao erro quadrático médio e desvios absolutos médios. O nível de precisão foi o fator mais influente do que o grau de parentesco no desempenho relativo dos modelos. De maneira geral, a regressão aleatória com variâncias conhecidas propiciou predições mais precisas, seguida da regressão aleatória estimando-se tais variâncias. Concluiu-se que a regressão aleatória é potencialmente útil sob condições de alta variabilidade ambiental relativa, mesmo com variâncias desconhecidas.

Termos para indexação: Regressão aleatória, modelos mistos, curva de lactação.

ABSTRACT

Lactation curves represent milk production of a dairy dam as a function of time. Since such curves vary randomly among individuals, due to environment and genetic factors, the mixed model known as random regression is suitable for fitting such curves, and it was evaluated in this study through data simulation. Milk production of five animals in five ages was simulated in one thousand random and independent data sets, considering three precision levels, variation due to the model in relation to the residual variation of 0,9 (high variance), 0,5 (medium variance) and 0,1 (low variance) and three average degrees of relationship. Random regression was used in two ways, admitting or not that the variances of the model (genetic and of environment) were known, and compared to the ordinary least squares method. Results showed that, under low variance, the models had similar fits, with regard mean square error and mean absolute deviation. The level of precision was more influential than the degree of relationship on relative performance of models. In general, random regression with known variances yielded the most precise predictions, followed by random regression estimating such variances. Results suggest that random regression is potentially useful under high environmental heterogeneity, even if variances are unknown.

Index terms: Random regression, mixed models, lactation curve.

INTRODUÇÃO

Curva de lactação é uma forma gráfica usual de representação da produção de leite de uma fêmea leiteira, principalmente de gado bovino, em função do tempo, durante uma lactação completa. Ela pode representar a lactação de apenas um animal, a lactação média de um rebanho, de uma raça, de uma espécie, etc.

A importância da curva de lactação reside na caracterização ampla da produção do animal durante toda a lactação, podendo ser identificados: tempo de ascensão ao pico, pico de produção, tempo de queda (persistência de produção ou da lactação), duração da lactação, duração do período seco, duração da gestação, além de quedas bruscas de produção, respostas a dietas, manejo, etc.

Uma curva de lactação estimada deve representar o mais fielmente possível a previsão da produção leiteira do animal e, com isso, fornecer subsídios para a implantação de um manejo correto e também para o auxílio na seleção de animais com determinadas características desejáveis.

A primeira tentativa de descrever a forma completa da lactação foi feita por Wood (1967), por meio de um modelo não-linear. Vários outros modelos foram propostos desde então, tanto lineares como não-lineares (Cobuci, 1999). Embora o método dos quadrados mínimos ordinário tenha sido freqüentemente utilizado em seu ajuste, o uso de modelos mistos (lineares ou não) utilizando-se regressão aleatória é mais vantajoso.

A regressão aleatória é um método de ajuste de curvas que leva em consideração os efeitos fixos (como rebanho, idade, número de lactações, época de parto, etc.) e efeitos variáveis (aleatórios) de animal para animal, determinando curvas de produção diferentes para cada um. Além disso, aproveita as informações de parentesco entre os animais que, por meio das covariâncias genéticas, ajudam a explicar aquela produção observada. A regressão aleatória tem sido amplamente utilizada em bovinos (Kettunen et al., 1997; Jamrozik e SCHAEFFER, 1997; Jamrozik et al., 1997).

Em presença de efeitos aleatórios, a melhor predição linear não-viesada seria teoricamente superior a abordagens tradicionais de quadrados mínimos, se os componentes da variância fossem conhecidos. Essa otimalidade não é garantida se tais componentes têm de ser estimados.

Conduziu-se este trabalho com o objetivo de avaliar a eficiência da regressão aleatória no ajuste de dados de produção de leite de bovinos utilizando-se dados simulados, com variâncias conhecidas ou não.

MATERIAL E MÉTODOS

A simulação de dados foi feita por meio do modelo polinomial de segundo grau, pelo fato de as propriedades desse modelo representar adequadamente uma curva de lactação, como, por exemplo, ascensão e queda da produção de leite, pico de lactação, etc.

y_jk = α_0j + α_1j A_k + α_2jA_k² + ε_jk

sendo y_jk a produção de leite do animal j no tempo k, representado por A_k; α_ij são parâmetros de regressão (i = 0, 1, 2) e ε_jk é o resíduo. Esse modelo pode ser expandido (Schaeffer, 1997), decompondo cada α_ij, como segue:

α_ij = μ_i + a_ij + p_ij + e_ij

sendo μ_i o efeito da média geral do rebanho ou população de referência; a_ij é o efeito genético aditivo aleatório; p_ij é o efeito aleatório de meio permanente; e_ij é o efeito residual aleatório.

Substituindo-se e arranjando-se os termos, tem-se o modelo:

y_jk = (μ₀ + μ₁A_k + μ₂A_k²)+(α_0j + α_1jA_k + α_2jA_k²)+(p_0j + p_1jA_k + p_2jA_k²) + ε_jk

o qual pode ser expresso matricialmente por:

y=Xb+Za+Zp+e

em que b contém os efeitos fixos; a, os efeitos a_ij e p, os efeitos p_ij; X e Z são as respectivas matrizes de incidência. Os vetores b, a e p podem ser preditos/estimados pelas equações do modelo misto de Henderson (1984):

sendo A a matriz de parentesco entre os animais (suposta conhecida), e G e P, as matrizes de covariâncias dos vetores aleatórios a e p; R é a matriz de covariâncias residuais, admitida como Iσ² neste estudo; e ⊗ é o produto de Kronecker.

Os vetores b, a e p são facilmente obtidos por tais equações se G e P são conhecidas. Não sendo esse o caso, pode-se implementar o algoritmo de esperança-maximização, fornecendo estimativas de máxima verossimilhança restrita de G e P (o chamado algoritmo EM-REML). Maiores detalhes sobre a implementação desse algoritmo podem ser encontrados em Schaeffer (1997).

Os dados de produção foram simulados por meio da geração aleatória de vetores a e p. Para tanto, vetores contendo variáveis normais padronizadas independentes eram gerados, sendo, então, pré-multiplicados pelo fator de decomposição de Cholesky das matrizes de covariâncias de cada um. Esse é um processo padrão para a geração de vetores aleatórios com distribuição normal multivariada (Khattree e NAIK, 1995).

Os parâmetros fixos da curva de lactação (vetor b) foram estabelecidos de maneira a determinar a curva média expressa na figura 1, a qual procurou representar uma curva de lactação, no sentido em que apresenta um pico nítido e uma interrupção aos 305 dias. Na figura 1, as idades são expressas como razões entre dias após o parto (DAP) e a duração média da lactação (305 dias).

A partir dessa curva foram simulados efeitos genéticos, permanentes de ambiente e um erro aleatório para gerar as produções de cada animal. Assim, a partir das curvas de cada animal (sem o erro aleatório), variâncias entre as idades foram calculadas (variâncias de regressão). Os efeitos residuais foram então gerados por meio de uma distribuição normal com média 0 e com variância tal que a razão entre a variância de regressão e a total fosse igual a 0,9, 0,5 e 0,1, variância alta (Va), média (Vm) e baixa (Vb), respectivamente. Pode-se referir à variância alta usando-se a expressão "alta precisão", à variância média usando-se "média precisão", e à variância baixa usando-se "baixa precisão".

Consideraram-se as seguintes matrizes paramétricas:

Foram simuladas produções de mil conjuntos de cinco animais em cinco idades. Essas foram expressas como dias após o parto (DAP), divididas por 305 (duração da lactação). As idades foram, portanto, DAP/305 = 0,2, 0,4, 0,6, 0,8 e 1. Consideraram-se três níveis de parentesco: alto (Pa), médio (Pm) e baixo (Pb), designados pelas matrizes A_a, A_m e A_b, respectivamente:

Tais matrizes foram geradas de modo a serem positivas definidas. Combinando-se os três níveis de precisão e os três níveis de parentesco, um total de nove situações foi simulado (PaVa, PaVm, PaVb, PmVa, PmVm, PmVb, PbVa, PbVm, PbVb).

As curvas de lactação foram estimadas por meio de quadrados mínimos ordinários, e regressão aleatória, com variâncias e covariâncias conhecidas e estimadas por meio do algoritmo EM-REML. Esses dois últimos enfoques foram implementados com o objetivo de se avaliar a eficiência da regressão aleatória com a estimação dos componentes de variância. As rotinas de simulação e análise foram desenvolvidas utilizando-se a linguagem Delphi. Os métodos de ajustamento foram comparados por meio de dois critérios: o desvio absoluto médio entre as estimativas e os valores reais de cada coeficiente da curva de cada animal, e o erro quadrático médio das produções preditas dos animais em cada idade.

No caso do algoritmo EM-REML, estipulou-se um máximo de 500 iterações, sendo a convergência atingida quando a diferença entre o valor da iteração anterior e o da atual era inferior a 0,001. Mediu-se o número médio de iterações até a convergência em cada grupo de animais. Também foi calculada a porcentagem de casos nos quais ocorria convergência.

Resultados e Discussão

Os resultados das médias dos desvios absolutos (MDA) entre as estimativas da regressão aleatória com variâncias conhecidas (RAc), da regressão aleatória com variâncias desconhecidas (RAd) e do método dos quadrados mínimos ordinário (QMO) e dos valores reais estão apresentados nas Figuras 2, 3 e 4, referentes, respectivamente, aos parâmetros: intercepto, coeficiente linear e coeficiente quadrático. Como tendência geral, as menores médias de desvios absolutos foram observadas com a metodologia de regressão aleatória com variâncias conhecidas. Esse resultado está de acordo com o esperado, uma vez que esse enfoque leva em conta a natureza aleatória dos parâmetros.

Na figura 2 nota-se que o parâmetro intercepto, nas três situações avaliadas, apresenta maiores valores de MDA à medida que o nível de parentesco entre os animais se reduz, principalmente nos casos de baixa variância explicada pela regressão, ou seja, baixa precisão. A regressão aleatória com variâncias estimadas apresenta estimativas mais precisas em relação ao método dos quadrados mínimos ordinário, apesar de serem equivalentes naqueles casos de alta variância explicada pela regressão, ou seja, alta precisão.

Também na figura 2 pode-se verificar que os piores ajustes foram obtidos naqueles casos de baixa variância explicada pelo modelo, ou seja, baixa precisão, qualquer que tenha sido o grau de parentesco. Na estimação do coeficiente linear, a regressão aleatória com variâncias estimadas foi superior ao método dos quadrados mínimos ordinário. E mais uma vez, essa superioridade foi mais significativa naqueles casos de baixa precisão. Aqui também o grau de parentesco entre os animais não resultou em significativa diferença.

Já na figura 3 observa-se que, mesmo naqueles casos de alta variância explicada pela regressão, ou seja, alta precisão, o método dos quadrados mínimos ordinário resultou em estimativas menos precisas quando comparado com a regressão aleatória. O comportamento do coeficiente quadrático quanto ao nível de parentesco entre os animais foi semelhante ao do intercepto e coeficiente linear das Figuras 2 e 3.

A superioridade da regressão aleatória com variâncias conhecidas é teoricamente esperada; não é evidente, a princípio, a magnitude da perda em precisão ao se estimar tais variâncias. As figuras 2, 3 e 4 mostram, contudo, que, embora haja de fato perda em precisão, a regressão aleatória continua sendo superior ao método usual de quadrados mínimos ordinário. Nas condições de alta precisão, esse último apresentou qualidade de ajuste no máximo semelhante à da regressão aleatória. Ou seja, em condições ideais (baixos efeitos residuais), os modelos têm qualidade semelhante, independentemente de se considerar ou não a aleatoriedade dos parâmetros.

A diferença de precisão entre os parâmetros torna-se mais evidente à medida que a precisão se reduz. Assim, sob tais condições, é recomendável o uso de regressão aleatória em detrimento do método dos quadrados mínimos ordinário.

O grau de parentesco entre os animais apresentou efeito menos pronunciado que o da precisão. De maneira geral, houve tendência de se obter maiores médias de desvios absolutos com menor grau de relacionamento genético entre os animais. Ou seja, aumentando-se o parentesco médio entre os animais, obtém-se melhoria de ajuste, sendo esse efeito mais pronunciado para o intercepto e o coeficiente linear (Figuras 2 e 3).

Na figura 5 é apresentado o comportamento do erro quadrático médio (EQM) das predições em relação aos valores reais de produção, ao longo da curva de lactação. Aqui, tendências semelhantes às das médias de desvios absolutos foram observadas. Com baixos efeitos residuais e parentesco médio a alto, contudo, o EQM foi maior com a regressão aleatória de variâncias desconhecidas, inferindo-se que o método usual de quadrados mínimos poderia ser usado nesses casos, para fins de predição da produção de leite. À medida que os efeitos residuais aumentam, justifica-se o uso da regressão aleatória. Quanto à variação no nível de parentesco, não houve padrão claro quanto ao comportamento do EQM.

É importante salientar que, embora este estudo tenha se baseado em uma única curva média de lactação (figura 1), é razoável supor que comportamentos semelhantes devam ser observados em casos que se dispõe de várias curvas, como curvas individuais, de lote, de rebanho, etc.

Em uma situação real, as variâncias em um modelo de regressão aleatória são, na maioria das vezes (se não sempre), desconhecidas, tendo-se que ser estimadas por processos numéricos iterativos. O algoritmo EM, utilizado neste estudo, em geral é tido como robusto, embora possa ser de convergência extremamente lenta em algumas situações (Meng e DYK, 1998). Para visualizar a eficiência desse algoritmo e sua demanda computacional, estão apresentados nas Figuras 6 e 7 o número médio de iterações necessárias e a taxa de convergência, respectivamente. Na interpretação de tais figuras, é importante levar em conta o número máximo de iterações (500), em função do grande tempo despendido em alguns casos. Ou seja, a falta de convergência observada aqui em um dado conjunto de dados simulados não implica que a convergência não seja atingida com número maior de iterações.

De acordo com a figura 6, pode-se observar que, novamente, a magnitude dos efeitos residuais foi mais relevante que o grau médio de parentesco. À exceção dos casos de parentesco alto, houve clara tendência de se necessitar de mais iterações para se atingir a convergência, à medida que os efeitos residuais aumentavam. Isso esteve de acordo com o esperado, pois em casos de alta precisão, os dados distribuem-se mais proximamente ao modelo.

Da mesma forma, houve maior divergência com efeitos residuais elevados (figura 7). Nota-se, por exemplo, taxas de convergência próximas a apenas 20% nos casos estudados de menor precisão.

Embora menos evidente do que a influência dos efeitos residuais, o grau médio de parentesco também afetou a qualidade da convergência, com tendência predominante (embora não exclusiva) de menor dificuldade de convergência com a diminuição do nível de parentesco. Possivelmente isso pode ser relacionado com o fato de que a matriz de parentesco, à medida que o relacionamento genético entre os animais aumenta, tende a ser mais mal condicionada. A condição de uma matriz corresponde ao produto de sua norma pela norma de sua inversa, sendo a norma o valor máximo entre as somas de elementos de cada uma das linhas. No presente contexto, à medida que o parentesco entre os animais tende à unidade, a condição da matriz de parentesco aumenta, tendendo, assim, à singularidade (tornando-se mal condicionada). A condição das matrizes de parentesco alto, médio e elevado foi respectivamente igual a 1156,4, 11,0 e 3,6, ou seja, houve uma grande variação na condição das matrizes, devendo ter afetado o desempenho do processo numérico.

Com esses resultados, em conjunto com aqueles das Figuras 2, 3, 4 e 5, pode-se concluir que as situações em que a regressão aleatória é mais indicada também são aquelas em que maiores problemas numéricos são observados. Isso evidencia a necessidade do desenvolvimento e do uso de algoritmos numéricos mais eficientes, tais como as modificações sugeridas por Meng e Dyk (1998), no sentido de acelerar a convergência do algoritmo EM.

CONCLUSÕES

a) A estimação de curva de lactação em bovinos por meio de regressão aleatória com variâncias conhecidas é mais eficiente do que pelo método de quadrados mínimos ordinário.

b) O efeito do grau de parentesco entre os animais é menos importante do que os níveis de precisão quanto à qualidade de ajuste do modelo.

c) A regressão aleatória foi mais eficiente para a estimação de curva de lactação em bovinos do que o método de quadrados mínimos ordinário, principalmente quando se têm maiores efeitos residuais. Para situações de alta precisão, independentemente do grau de parentesco entre os animais, o método de quadrados mínimos ordinário pode ser utilizado sem perda de eficiência de precisão.

d) Na estimação de variâncias, à medida que aumentam os efeitos residuais, a convergência se torna mais difícil; nessas situações, o uso da regressão aleatória se mostrou como o mais adequado no ajuste de curvas de lactação em bovinos.

AGRADECIMENTOS

Ao CNPq, pelo financiamento deste trabalho.

Cobuci, J. A. Estudo da curva de lactaçăo em vacas da raça Guzerá 1999. Dissertaçăo (Mestrado) - Universidade Federal de Viçosa, Viçosa, 1999.
Henderson, C. R. Applications of linear models in animal breeding. Ontario: University of Guelph, 1984. 462 p.
Jamrozik, J.; Schaeffer, L. R. Estimates of genetic parameters for a test day model with random regression for yield traits of first lactation Holsteins. Journal of Dairy Science, Champaign, v. 80, p. 762-770, 1997.
Jamrozik, J.; Schaeffer, L. R.; Dekkers, J. C. M. Genetic evaluation of dairy cattle using test day yields and random regression model. Journal of Dairy Science, Champaign, v. 80, p. 1217-1226, 1997.
Kettunen, A.; Mäntysaari, E. A.; Strandén, I.; Pösö, J. Genetic parameters for test day milk yields of finnish Ayrshires with random regression model. Journal of Dairy Science, Champaign, v. 80, 1997. Suplement 1.
Khatree, R.; Naik, D. N. Applied Multivariate Statistics with SASâ Software Cary: SAS Institute, 1995. 396 p.
Meng, X. L.; Dyk, D. A. van. Fast EM-type implementations for mixed effects models. Journal of the Royal Statistical Society, London, v. 60, p. 559-578, 1998.
Schaeffer, L. R. Random regression models. In: Schaeffer, L. R.; van der Werf, J. Course notes Ontario: University of Guelph, 1997. 104 p.
Wood, P. D. P. Algebraic model of the lactation curve in cattle. Nature, Londres, v. 216, p. 164-165, 1967.

Datas de Publicação

Publicação nesta coleção
25 Fev 2011
Data do Fascículo
Ago 2003

This work is licensed under a Creative Commons Attribution 4.0 International License.

[1] Cobuci, J. A. Estudo da curva de lactaçăo em vacas da raça Guzerá 1999. Dissertaçăo (Mestrado) - Universidade Federal de Viçosa, Viçosa, 1999.

[2] Henderson, C. R. Applications of linear models in animal breeding. Ontario: University of Guelph, 1984. 462 p.

[3] Jamrozik, J.; Schaeffer, L. R. Estimates of genetic parameters for a test day model with random regression for yield traits of first lactation Holsteins. Journal of Dairy Science, Champaign, v. 80, p. 762-770, 1997.

[4] Jamrozik, J.; Schaeffer, L. R.; Dekkers, J. C. M. Genetic evaluation of dairy cattle using test day yields and random regression model. Journal of Dairy Science, Champaign, v. 80, p. 1217-1226, 1997.

[5] Kettunen, A.; Mäntysaari, E. A.; Strandén, I.; Pösö, J. Genetic parameters for test day milk yields of finnish Ayrshires with random regression model. Journal of Dairy Science, Champaign, v. 80, 1997. Suplement 1.

[6] Khatree, R.; Naik, D. N. Applied Multivariate Statistics with SASâ Software Cary: SAS Institute, 1995. 396 p.

[7] Meng, X. L.; Dyk, D. A. van. Fast EM-type implementations for mixed effects models. Journal of the Royal Statistical Society, London, v. 60, p. 559-578, 1998.

[8] Schaeffer, L. R. Random regression models. In: Schaeffer, L. R.; van der Werf, J. Course notes Ontario: University of Guelph, 1997. 104 p.

[9] Wood, P. D. P. Algebraic model of the lactation curve in cattle. Nature, Londres, v. 216, p. 164-165, 1967.

Brasil

Brasil

Comparação de métodos no ajustamento de curvas de lactação de bovinos por meio de Simulação

Comparison of methods for fitting lactation curves in dairy cattle by simulation

Resumos

Datas de Publicação