Acessibilidade / Reportar erro

Identification of informative performance traits in swine using principal component analysis

Seleção de variáveis de desempenho de suínos por meio da análise de componentes principais

Abstracts

Using principal component analysis, records of 435 animals from an F2 swine population were used to identity independent and informative variables of economically important performance. The following performance traits were recorded: litter size at birth (BL), litter size at weaning (WL), teat number (TN), birth weight (BW), weight at 21 (W21), 42 (W42), 63 (W63) and 77 (W77) days of age, average daily gain (ADG), feed intake (FI) and feed:gain ratio (FGR) from 77 to 105 days of age. Six principal components expressed variation lower than 0.7 (eigen values lower than 0.7) suggesting that six variables could be discarded with little information loss. The discarded variables present significant simple linear correlation with the retained variables. Retaining variables BL, TN, W77, FI and FGR and eliminating all the rest would retain most of the relevant information in the original data set.

swine; multivariate analysis; correlation; discard; growth; litter size; performance


Dados de 435 animais de uma população F2 de suínos foram utilizados para avaliar a possibilidade de redução da dimensão do espaço multivariado, por meio da técnica de componentes principais. Foram avaliadas as seguintes características de desempenho: tamanho da leitegada ao nascer (TLN), tamanho da leitegada à desmama (TLD), número de tetos (NT), pesos ao nascer (PN), aos 21 (P21), aos 42 (P42), aos 63 (P63) e aos 77 (P77) dias de idade e ganho médio de peso diário (GPD), consumo de ração (CR) e conversão alimentar (CA) dos 77 aos 105 dias de idade. Seis componentes principais, obtidos a partir da matriz de correlação, apresentaram variância inferior a 0,7 (autovalores inferiores a 0,7), o que sugere seis variáveis para descarte, por apresentarem maiores coeficientes, em valor absoluto, a partir do último componente principal. As variáveis descartadas apresentaram correlação linear simples significativa com as demais. Em razão do grande número de variáveis redundantes, 54,5% delas podem ser eliminadas, sendo recomendada a avaliação de apenas TLN, NT, P77, CR e CA, sem que haja perda considerável da informação.

suíno; análise multivariada; correlação; crescimento; descarte; desempenho; tamanho da leitegada


ZOOTECNIA E TECNOLOGIA E INSPEÇÃO DE PRODUTOS DE ORIGEM ANIMAL

Seleção de variáveis de desempenho de suínos por meio da análise de componentes principais

Identification of informative performance traits in swine using principal component analysis

L. BarbosaI; P.S. LopesII, * * Autor para correspondência ( corresponding author) E-mail: leandro.b@vicosa.ufv.br ; A.J. RegazziIII; S.E.F. GuimarãesII; R.A. TorresII

IEstudante de Pós-Graduação – UFV

IIDepartamento de Zootecnia – UFV – Viçosa, MG Av. P.H. Rolfs, s/n 36571-000 – Viçosa, MG

IIIDepartamento de Informática – UFV – Viçosa, MG

RESUMO

Dados de 435 animais de uma população F2 de suínos foram utilizados para avaliar a possibilidade de redução da dimensão do espaço multivariado, por meio da técnica de componentes principais. Foram avaliadas as seguintes características de desempenho: tamanho da leitegada ao nascer (TLN), tamanho da leitegada à desmama (TLD), número de tetos (NT), pesos ao nascer (PN), aos 21 (P21), aos 42 (P42), aos 63 (P63) e aos 77 (P77) dias de idade e ganho médio de peso diário (GPD), consumo de ração (CR) e conversão alimentar (CA) dos 77 aos 105 dias de idade. Seis componentes principais, obtidos a partir da matriz de correlação, apresentaram variância inferior a 0,7 (autovalores inferiores a 0,7), o que sugere seis variáveis para descarte, por apresentarem maiores coeficientes, em valor absoluto, a partir do último componente principal. As variáveis descartadas apresentaram correlação linear simples significativa com as demais. Em razão do grande número de variáveis redundantes, 54,5% delas podem ser eliminadas, sendo recomendada a avaliação de apenas TLN, NT, P77, CR e CA, sem que haja perda considerável da informação.

Palavras-chave: suíno, análise multivariada, correlação, crescimento, descarte, desempenho, tamanho da leitegada

ABSTRACT

Using principal component analysis, records of 435 animals from an F2 swine population were used to identity independent and informative variables of economically important performance. The following performance traits were recorded: litter size at birth (BL), litter size at weaning (WL), teat number (TN), birth weight (BW), weight at 21 (W21), 42 (W42), 63 (W63) and 77 (W77) days of age, average daily gain (ADG), feed intake (FI) and feed:gain ratio (FGR) from 77 to 105 days of age. Six principal components expressed variation lower than 0.7 (eigen values lower than 0.7) suggesting that six variables could be discarded with little information loss. The discarded variables present significant simple linear correlation with the retained variables. Retaining variables BL, TN, W77, FI and FGR and eliminating all the rest would retain most of the relevant information in the original data set.

Keywords: swine, multivariate analysis, correlation, discard, growth, litter size, performance

INTRODUÇÃO

A grande maioria das características de importância econômica submetidas à seleção é de natureza quantitativa. Tais características são relacionadas em magnitude e sentido variáveis, de tal forma que a seleção em uma provoca mudanças em outras, razão pela qual, se não forem consideradas, podem levar a erros na avaliação dos indivíduos (Sakaguti, 1994). Entretanto, dentro de um conjunto de variáveis, algumas provêm informações redundantes em razão de suas correlações e podem ser de difícil mensuração ou de custos elevados. Em virtude dos altos custos dos programas de melhoramento, a recomendação geral dos pesquisadores tem sido medir o máximo possível de características, o que tem tornado, por vezes, tais programas ainda mais onerosos e com considerável acréscimo de trabalho. O problema tem sido definir as características que deveriam ser medidas em programas de melhoramento. Para contorná-lo, uma opção seria definir, por meio de técnicas de análise multivariada, as características quantitativas ou o conjunto delas que seriam responsáveis pela maior parte da variação total observada, ou seja, avaliar a informação adicional provida por algumas medidas quando outras já estiverem disponíveis. Segundo Liberato (1995), desde que, na prática, não haja limite para o número de medidas que possam ser obtidas em qualquer problema, é relevante examinar se algumas não estão em excesso na presença de outras.

A técnica de componentes principais, um dos procedimentos multivariados, visa, como um dos propósitos na pesquisa animal, resumir um grande conjunto de características em outro menor, de sentido biológico, além de examinar as correlações entre as características estudadas, avaliar a importância de cada caráter e promover a eliminação daquelas que contribuem pouco.

O trabalho objetivou reduzir a dimensão de um conjunto original de variáveis medidas em suínos, com a menor perda de informação possível, eliminando as informações redundantes existentes em decorrência da correlação entre variáveis e descartando as de pouca contribuição para a variação total.

MATERIAL E MÉTODOS

Os dados são provenientes de uma geração F2 de suínos, desenvolvida no Departamento de Zootecnia da Universidade Federal de Viçosa, em Viçosa, MG, obtidos no período de novembro de 1998 a julho de 2001.

Foram formadas, inicialmente, duas famílias provenientes do cruzamento de dois varrões da raça nativa brasileira (Piau) com 18 fêmeas originadas de linhagem desenvolvida na UFV, pelo acasalamento de animais das raças Landrace, Large White e Pietran. A geração F1 nasceu nos meses de março a maio de 1999 e era formada por 106 fêmeas e 134 machos. Foram selecionados 11 varrões F1 provenientes de diferentes leitegadas, os quais foram acasalados (monta natural) com 54 fêmeas, evitando-se o acasalamento de parentes. Os acasalamentos ocorreram entre os meses de fevereiro e outubro de 2000, para produção da geração F2, que nasceu entre junho de 2000 e fevereiro de 2001. Assim, foram obtidos 844 animais F2, divididos em cinco lotes: lote 1, composto por animais nascidos entre 20/06/00 e 03/07/00; lote 2, animais nascidos entre 03/08/00 e 23/08/00; lote 3, animais nascidos entre 16/09/00 e 01/11/00; lote 4, animais nascidos entre 30/11/00 e 25/12/00; e lote 5, animais nascidos entre 19/01/01 e 12/02/01. Os três primeiros lotes foram obtidos de fêmeas do primeiro parto e os dois últimos, de fêmeas de segunda parição.

Informações detalhadas sobre o manejo dos animais foram descritas por Pires (2003).

Após ser feita a consistência dos dados, 435 observações foram utilizadas na análise. Preliminarmente, foi realizado um teste para diagnóstico do efeito da multicolinearidade ou dependência linear entre as variáveis, o qual pode levar à formação de matrizes singulares ou mal condicionadas. Após essa análise, foi identificada e descartada a variável peso aos 105 dias de idade, visto que provocou forte multicolinearidade nas características de desempenho.

Foram avaliadas as seguintes características de desempenho: tamanho da leitegada ao nascer (TLN), tamanho da leitegada na desmama – 21 dias (TLD), número de tetos (NT), peso ao nascer (PN), pesos aos 21 (P21), 42 (P42), 63 (P63) e 77 (P77) dias de idade, ganho de peso médio diário (GPD), consumo de ração (CR) e conversão alimentar, dos 77 aos 105 dias de idade (CA).

Os dados submetidos à análise de componentes principais foram previamente ajustados para efeitos fixos e covariáveis. O modelo estatístico adotado foi:

, em que:

gijk = característica observada no animal k, do lote j e do sexo i;

µ = constante inerente a toda observação;

Si = efeito fixo do sexo i, i = 1, 2 (1 = macho castrado e 2 = fêmea);

Lj = efeito fixo do lote j, j = 1, 2, 3, 4, 5;

Cijk = valor observado da covariável, no animal k, do lote j, do sexo i;

= média da covariável;

b = coeficiente de regressão linear da característica, em função da covariável;

eijk= erro aleatório associado a cada observação.

Com base no trabalho de Pires (2003), para ajuste dos dados, foram utilizadas as seguintes características e respectivas covariáveis: PN – TLN; P21, P42, P63 e P77 – TLD; CR, GPD e CA – P77.

O método de análise de componentes principais, discutido por Barbosa (2003), a partir da matriz de correlação, consiste em transformar um conjunto de variáveis Z1, Z2, ..., Zp em novo conjunto de variáveis Y1 (CP1), Y2 (CP2), ..., Yp (CPp), não-correlacionadas entre si e arranjadas numa ordem decrescente de variância. A idéia principal desse procedimento é de que poucos, dentre os primeiros componentes principais, contenham a maior variabilidade dos dados originais, assim, os demais componentes podem ser descartados, o que reduz o número de variáveis.

Em razão do grande número de variáveis medidas em unidades diferentes, foi necessária a padronização dessas variáveis Xj (j = 1, 2, ..., p); nesse caso, a estrutura de dependência de Xj foi dada pela matriz de correlação R.

Para descarte, a variável que domina (aquela com maior correlação) no componente principal de menor autovalor (menor variância) deve ser menos importante para explicar a variância total e, portanto, passível de descarte (Regazzi, 2002).

Para o descarte de variáveis, adotou-se a recomendação de Jolliffe (1972, 1973) pela qual o número de variáveis descartadas deveria ser igual ao número de componentes cuja variância (autovalor) fosse inferior a 0,7.

Utilizou-se o programa SAS System for WindowsNT, versão 8.0, licenciado pela Universidade Federal de Viçosa (SAS, 1999).

RESULTADOS E DISCUSSÃO

O número de observações, as médias corrigidas e os desvios-padrão das características de desempenho são apresentados na Tab. 1.

TLN - tamanho da leitegada ao nascer; TLD - tamanho da leitegada no desmame; NT - número de tetos; PN - peso ao nascer, P21 – peso aos 21, P42 - peso aos 42, P63 - peso aos 63 e P77 - peso aos 77 dias de idade; GPD - ganho de peso médio diário; CR - consumo de ração; e CA - conversão alimentar, dos 77 aos 105 dias de idade.

Desvio-padrão dos dados corrigidos para efeitos fixos e covariáveis.

Os resultados obtidos para os componentes principais, os autovalores e as percentagens da variância explicada pelos componentes são apresentados na Tab. 2.

Os três primeiros componentes principais explicaram 67,9% da variação total. Seis variáveis (54,5% das 11 características avaliadas) podem ser descartadas, de acordo com o critério de Jolliffe (1972, 1973), pois o número de componentes que apresentaram autovalores menores que 0,7 foi seis.

Strapasson et al. (2000), ao utilizarem a análise de componentes principais em forrageiras do gênero Paspalum, observaram redução de 53, 68 e 43% nos descritores reprodutivos, vegetativos e agronômicos, respectivamente, do conjunto inicialmente considerado.

As seis variáveis que apresentaram maiores coeficientes, em valor absoluto, a partir do último componente principal, são passíveis de descarte, conforme apresentado na Tab. 3. A razão para isso é que variáveis altamente correlacionadas com os componentes principais de menores variâncias representam variação praticamente insignificante. As variáveis passíveis de descarte são, respectivamente, em ordem de menor importância para explicar a variação total: GPD, P63, P42, TLD, P21 e PN. Com base nesses resultados, recomendam-se as seguintes variáveis para serem mantidas em experimentos futuros: TLN, NT, P77, CR e CA.

Do ponto de vista econômico, a CA deve receber atenção especial, pois a alimentação representa considerável parte do custo total de produção de suínos. Uma restrição à avaliação dessa característica, para fins de melhoramento genético, é o custo elevado de sua mensuração, uma vez que os animais têm de ser criados em baias individuais e o fornecimento de ração deve ser anotado. Mesmo assim, as referências encontradas justificam o custo de mensuração, visto que o ganho genético obtido nessa característica é compensador (Torres Filho, 2001).

Pires (2003) encontrou QTL (loco de característica quantitativa) significativo para consumo de ração. Segundo o autor, um mesmo gene ou grupo gênico localizado em torno de 100cM do cromossomo 6 pode atuar nas características CR e GPD, o que sugere correlação significativa entre essas duas variáveis. Neste trabalho, a correlação foi de 0,62 (Tab. 4), o que explica, em parte, o fato de a variável GPD ter sido sugerida para descarte.

Apesar de terem sido avaliadas cinco pesagens, apenas uma foi selecionada, sendo as demais redundantes. Além disso, a redução no número de pesagens causaria menos estresse ao animal na avaliação dessas características.

O tamanho da leitegada é o principal componente de produtividade da matriz, e seu melhoramento genético é de importância crescente em mercados nos quais outras características, como espessura de toucinho, estão alcançando níveis satisfatórios (Sorensen, 1991), ou em mercados em que o aumento na produtividade da porca reduz, substancialmente, os custos de produção. No aspecto econômico, o tamanho da leitegada é uma característica importante, já considerada em vários programas de melhoramento (Rydhmer, 2000). Como os tamanhos da leitegada ao nascer e na desmama são fortemente correlacionados (Tab. 4), a análise de componentes principais sugeriu, para descarte, o TLD, por ela ser redundante. Omtvedt et al. (1966) verificaram correlação positiva entre TLN e TLD (rp=0,70). Johansson e Kennedy (1983) relataram correlações genéticas positivas entre o tamanho da leitegada ao nascer e no desmame.

Adicionalmente, observou-se que as variáveis sugeridas para descarte apresentaram correlação linear simples significativa com as demais, ou seja, foram redundantes, e as correlações entre as variáveis selecionadas foram menores (Tab. 4). Desse modo, cada variável selecionada deve ser responsável por um tipo de informação biológica exclusiva, e a ação conjunta delas será complementar para descrição geral da população ou dos indivíduos estudados.

CONCLUSÕES

Em razão do grande número de variáveis redundantes, 54,5% delas podem ser descartadas, resultando em economia de tempo e custo do experimento, sem que haja perda considerável da informação.

Recebido para publicação em 12 de maio de 2004

Recebido para publicação, após modificações, em 10 de fevereiro de 2005

  • BARBOSA, L. Utilização de técnicas de análise multivariada na avaliação de características quantitativas de uma população F2 de suínos. 2003. 80f. Dissertação (Mestrado em Zootecnia) Universidade Federal de Viçosa, Viçosa, MG.
  • JOHANSSON, K.; KENNEDY, B.W. Estimation of genetics parameters for reproduction traits in pigs. Acta Agric. Scand., v.35, p.421-431, 1983.
  • JOLLIFFE, I.T. Discarding variables in a principal component analysis. I. Artificial data. Appl. Stat., v.21, p.160-173, 1972.
  • JOLLIFFE, I.T. Discarding variables in a principal component analysis. II. Real data. Appl. Stat., v.22, p.21-31, 1973.
  • LIBERATO, J.R. Aplicação de técnica de análise multivariada em fitopatologia. 1995. 144f. Dissertação (Mestrado em Fitopatologia) Universidade Federal de Viçosa, Viçosa, MG.
  • OMTVEDT, I.T.; WHATLEY Jr., J.A.; WILLHAM, R.L. Some production factors associated with weaning records in swine. J. Anim. Sci., v.25, p.373-376, 1966.
  • PIRES, A.V. Mapeamento de locos de características quantitativas, no cromossomo seis suíno. 2003. 86f. Dissertação (Doutorado em Genética e Melhoramento) Universidade Federal de Viçosa, Viçosa, MG.
  • REGAZZI, A.J. Análise multivariada. Viçosa: Universidade Federal de Viçosa, 2002. (INF-766) (notas de aula).
  • RYDHMER, L. Genetics of sow reproduction, including puberty, oestrus, pregnancy, farrowing and lactation. Livest. Prod. Sci., v.66, p.1-12, 2000.
  • SAKAGUTI, E.S. Utilização de técnicas de análise multivariada na avaliação de cruzamento dialélicos em coelhos. 1994. 170f. Dissertação (Mestrado em Genética e Melhoramento) Universidade Federal de Viçosa, Viçosa, MG.
  • SAS. Software: versão 8.0. Cary, NC: SAS Institute Inc., 1999.
  • SORENSEN, D.A. Predicted breeding values for litter size with an animal model used in the Danish pig breeding program. Report from the Natl. Inst. Anim. Sci., v.1, p.27, 1991.
  • STRAPASSON, E.; VENCOVSKY, R.; BATISTA, L.A.R. Seleção de descritores na caracterização de germoplasma de paspalum sp. por meio de componentes principais. Rev. Bras. Zootec., v.29, p.373-381, 2000.
  • TORRES FILHO, R.A. Avaliação genética de características de desempenho e reprodutivas em suínos. 2001. 79f. Dissertação (Mestrado em Genética e Melhoramento) Universidade Federal de Viçosa, Viçosa, MG.
  • *
    Autor para correspondência (
    corresponding author)
    E-mail:
  • Publication Dates

    • Publication in this collection
      18 Apr 2006
    • Date of issue
      Dec 2005

    History

    • Accepted
      10 Feb 2005
    • Received
      12 May 2004
    Universidade Federal de Minas Gerais, Escola de Veterinária Caixa Postal 567, 30123-970 Belo Horizonte MG - Brazil, Tel.: (55 31) 3409-2041, Tel.: (55 31) 3409-2042 - Belo Horizonte - MG - Brazil
    E-mail: abmvz.artigo@gmail.com