Acessibilidade / Reportar erro

Uso de redes neurais artificais na predição de valores genéticos para peso aos 205 dias em bovinos da raça Tabapuã

Use of artificial neural networks in breeding values prediction for weight at 205 days in Tabapuã beef cattle

Resumos

Dados de 19240 animais Tabapuã, provenientes de 152 fazendas localizadas em diversos estados brasileiros, nascidos entre 1976 e 1995, foram utilizados para predição do valor genético do peso aos 205 dias de idade (VG_P205) por meio de redes neurais artificiais (RNAs) e usando o algoritmo LM - Levenberg Marquardt - para treinamento dos dados de entrada. Por se tratar de rede com aprendizado supervisionado, foram utilizados, como saída desejada, os valores genéticos preditos pelo BLUP para a característica P205. Os valores genéticos do P205 obtidos pela RNA e os preditos pelo BLUP foram altamente correlacionados. A ordenação dos valores genéticos do P205 oriundos das RNAs e os valores preditos pelo BLUP (VG_P205_RNA) sugeriram que houve variação na classificação dos animais, indicando riscos no uso de RNAs para avaliação genética dessa característica. Inserções de novos animais necessitam de novo treinamento dos dados, sempre dependentes do BLUP.

redes neurais artificiais; avaliação genética; melhor preditor linear não viesado


Data from 19,240 Tabapuã animals from 152 farms located in different states of Brazil, born from 1976 to 1995, were used to predict the genetic value of body weight at 205 days of age (BV_P205) of Tabapuã beef cattle using Artificial Neural Networks (ANN) and LM algorithm - Levenberg Marquardt training for data entry. Due to the use of networks with supervised learning, the predicted breeding values for P205 from BLUP were used as desired output. The breeding values for P205 obtained from RNA and those predicted by BLUP were highly correlated. The ranked breeding values for body weight at 205 days through RNA and those predicted by BLUP (VG_P205_RNA) showed a variation in the classification of animals indicating risks in the use of ANNs procedure for genetic evaluation of this trait. Insertions of new animals require new training data always dependent on BLUP.

beef cattle; artificial neural networks; genetic evaluation; best linear unbiased predictor


ZOOTECNIA E TECNOLOGIA E INSPEÇÃO DE PRODUTOS DE ORIGEM ANIMAL ANIMAL SCIENCE AND TECHNOLOGY AND INSPECTION OF ANIMAL PRODUCTS

Uso de redes neurais artificais na predição de valores genéticos para peso aos 205 dias em bovinos da raça Tabapuã

Use of artificial neural networks in breeding values prediction for weight at 205 days in Tabapuã beef cattle

R.V. VenturaI; M.A. SilvaII,IV; T.H. MedeirosV; N.L. DionelloIII; F.E. MadalenaII,IV; A.B. FridrichI; B.D.ValenteI; G.G. SantosI; L.S. FreitasI; R.R. WenceslauI; V.P.S. FelipeI; G.S.S. CorrêaVI

IAluno de pós-graduação - EV-UFMG – Belo Horizonte, MG, E-mail: rvventura@gmail.com

IIEscola de Veterinária - UFMG - Belo Horizonte, MG

IIIDepartamento de Zootecnia - FAEM-UFPel - Pelotas, RS

IVBolsista de produtividade do CNPq

VDepartamento de Ciencias Exatas e Aplicadas - UFOP - João Monlevade, MG

VIUniversidade Federal do Mato Grosso - Cuiabá, MT

RESUMO

Dados de 19240 animais Tabapuã, provenientes de 152 fazendas localizadas em diversos estados brasileiros, nascidos entre 1976 e 1995, foram utilizados para predição do valor genético do peso aos 205 dias de idade (VG_P205) por meio de redes neurais artificiais (RNAs) e usando o algoritmo LM - Levenberg Marquardt - para treinamento dos dados de entrada. Por se tratar de rede com aprendizado supervisionado, foram utilizados, como saída desejada, os valores genéticos preditos pelo BLUP para a característica P205. Os valores genéticos do P205 obtidos pela RNA e os preditos pelo BLUP foram altamente correlacionados. A ordenação dos valores genéticos do P205 oriundos das RNAs e os valores preditos pelo BLUP (VG_P205_RNA) sugeriram que houve variação na classificação dos animais, indicando riscos no uso de RNAs para avaliação genética dessa característica. Inserções de novos animais necessitam de novo treinamento dos dados, sempre dependentes do BLUP.

Palavras-chave: redes neurais artificiais, avaliação genética, melhor preditor linear não viesado

ABSTRACT

Data from 19,240 Tabapuã animals from 152 farms located in different states of Brazil, born from 1976 to 1995, were used to predict the genetic value of body weight at 205 days of age (BV_P205) of Tabapuã beef cattle using Artificial Neural Networks (ANN) and LM algorithm - Levenberg Marquardt training for data entry. Due to the use of networks with supervised learning, the predicted breeding values for P205 from BLUP were used as desired output. The breeding values for P205 obtained from RNA and those predicted by BLUP were highly correlated. The ranked breeding values for body weight at 205 days through RNA and those predicted by BLUP (VG_P205_RNA) showed a variation in the classification of animals indicating risks in the use of ANNs procedure for genetic evaluation of this trait. Insertions of new animals require new training data always dependent on BLUP.

Keywords: beef cattle, artificial neural networks, genetic evaluation, best linear unbiased predictor

INTRODUÇÃO

Segundo Pereira (2004), o objetivo do melhoramento genético animal é alterar geneticamente populações de animais. Faz-se isto no intuito de aumentar a frequência de alelos e de genótipos desejáveis, com o consequente reflexo favorável no mérito fenotípico médio de características destas populações que sejam importantes economicamente. No Brasil, a partir do final dos anos 80, começaram a surgir vários grupos independentes de avaliação genética para bovinos de corte e de leite. Estes grupos têm publicado sumários de touros com lista do valor genético aditivo para várias características. São calculados os valores genéticos aditivos dos animais dos diferentes rebanhos. O uso desses resultados nos programas de seleção viabiliza e acelera os objetivos preestabelecidos do programa de melhoramento.

Para que os objetivos estabelecidos pelo produtor sejam alcançados, é necessário obter informações confiáveis dos animais que serão selecionados para acasalamento. A exatidão dessas avaliações e os acertos das decisões de acasalamento são, entre outros fatores, determinantes das taxas de progresso genético que indicam a eficácia dos programas de seleção. As técnicas ótimas de avaliação envolvem, simultaneamente, a predição de valores genéticos e a estimação de componentes de (co)variância, sob modelos estatísticos em nível de indivíduos (Neves, 2007).

RNAs têm sido utilizadas nos últimos anos em larga escala no setor agropecuário. Mendes et al. (2009) estudaram redes neurais artificiais do tipo perceptron multicamadas nas predições univariada e bivariada do peso ao sobreano em bovinos de corte. Os autores tiveram o objetivo de estudar a predição do peso ao sobreano da progênie (P550BN) de fêmeas da raça Nelore, por meio de análises univariada e bivariada. Na análise univariada, utilizou-se a característica peso ao desmame da vaca (P205N) como variável de entrada, sendo que, na análise bivariada, as características de entrada foram peso ao desmame da vaca (P205N) e peso ao ano da vaca (P365N). A rede neural artificial (RNA) realizou a predição do fenótipo peso ao sobreano da progênie (P550BN), com erro quadrático médio (EQM) igual a 0,0001 na interação de ambas as análises. A correlação linear entre os valores reais (VR) e os valores preditos (VPR) pela rede neural artificial (RNA) foi 0,8657 para a análise univariada e 0,7016 para a análise bivariada.

Em estudos visando à previsão de mastite bovina, as RNAs foram usadas como sistema de diagnóstico precoce baseado em dados de monitoramento diário coletados durante as ordenhas e armazenados em uma base de conhecimento para, assim, detectar com antecedência o surgimento da mastite bovina nos animais em estudo (Cavero et al., 2008; Heald et al., 2000).

Neves (2007) estudou RNAs do tipo perceptron multicamadas para predição dos valores genéticos em características relacionadas à produção em gado de leite e comparou os resultados dessa metodologia com os obtidos pelo melhor preditor linear não viesado (Best Linear Unbiased Predictor – BLUP), gerados por análises feitas por meio do programa Multiple Trait Derivative Free Restricted Maximum Likelihood (MTDFREML). Para os dados de entrada da rede, foram utilizados registros, coletados entre 1998 e 2002, referentes à produção de leite total, de gordura total, período de lactação e idade da vaca ao parto de 2.500 vacas da raça Pardo-Suíça. Por se tratar de uma rede com aprendizado supervisionado, foram utilizados como saída desejada os valores genéticos preditos pelo BLUP de cada uma dessas características. A comparação entre os resultados da RNA com os do BLUP apresentou uma correlação positiva moderada, indicando o potencial das RNAs na avaliação genética em bovinos de leite.

Meirelles (2005) estudou RNAs na avaliação e predição de valores genéticos para ganho de peso em bovinos de corte de raças zebuínas brasileiras. As características estudadas foram peso ao nascimento, peso ao desmame, peso ao sobreano e ganho de peso do desmame ao sobreano (GP345). Segundo a pesquisadora, os resultados apresentados indicaram o potencial das RNAs na avaliação genética, grande melhoria na velocidade de obtenção dos dados e menor custo computacional necessário, fatos que justificam a continuidade dessa linha de pesquisa. Bertazzo (2006) pesquisou RNAs na predição do mérito genético de bovinos de corte, justificando seu uso em programas de melhoramento genético.

Embora a rede neural artificial (RNA) tenha provado ser eficiente ferramenta de classificação e de regressão, a compreensão das relações estabelecidas entre a entrada e as variáveis de saída é um problema. O reconhecimento de padrões é definido como o processo de identificação de estrutura de dados válidos, potencialmente úteis e compreensíveis (Bradley et al., 1999).

O presente estudo tem por objetivo avaliar o uso das RNAs na predição de valores genéticos do peso aos 205 (P205) dias de idade de animais da raça Tabapuã e avaliar alterações dos resultados classificatórios desses animais quando se faz uso de RNAs treinadas por meio do algoritmo de treinamento Levenberg Marquardt.

MATERIAL E MÉTODOS

As informações utilizadas neste estudo são de animais Tabapuã, nascidos entre 1976 e 1995, provenientes de 152 fazendas dos diversos estados brasileiros, agrupados em quatro regiões distintas - Sul (R1), Sudeste (R2), Centro-Oeste (R3) e Norte/Nordeste (R4) - incluídos no Controle de Desenvolvimento Ponderal da Associação Brasileira de Criadores de Zebu (ABCZ) e cedidos pela Embrapa Gado de Corte, localizada em Campo Grande, MS.

A característica estudada foi o peso do animal aos 205 (P205) dias de idade. Os pesos foram padronizados por interpolação, e o intervalo considerado entre as pesagens foi, no máximo, de 40 dias, de acordo com o sistema de avaliação genética adotado pelo Controle de Desenvolvimento Ponderal da ABCZ. Foram utilizados, como base de dados inicial no presente estudo, 19240 registros de animais da raça Tabapuã contidos no banco de dados, após restrições aplicadas a eles. Foram consideradas duas estações de nascimento, de acordo com as épocas das águas e das secas das regiões. Foram também definidos os "touros de conexão", isto é, touros com número mínimo de duas progênies em cada uma de três ou mais regiões. Em seguida, os grupos contemporâneos (GC) foram formados por ano de nascimento, fazenda, estação de nascimento e sexo. As regiões que apresentavam número de GC menor do que três foram eliminadas.

Para obtenção dos valores genéticos por meio do melhor preditor linear não viesado (Best Linear Unbiased Predictor – BLUP), utilizou-se o software WOMBAT (Meyer, 2006), alimentado com registros referentes ao identificador do animal (ANI), pai, mãe, grupo contemporâneo (GC), identificador da região (REG), idade da mãe ao parto (IDMP) e peso aos 205 dias (P205). Consideraram-se como efeito fixo as variáveis GC e REG, e a variável IDMP foi considerada como covariável no modelo. A Tab. 1 contém amostras desses dados para melhor compreensão.

Na Tab. 2, apresentam-se os valores da média geral e coeficiente de variação para as variáveis peso ao nascimento, peso aos 205 dias de idade e idade da mãe ao parto dos dados utilizados neste estudo.

Neste trabalho, utilizou-se a rede neural artificial (RNA) do tipo perceptron multicamada (MultiLayer Perceptron - MLP) e algoritmo de treinamento supervisionado Levenberg Marquardt para reconhecimento de padrões, comparação da saída RNA com os parâmetros obtidos no BLUP e futura classificação dos animais de acordo com a saída BLUP e saída RNA. Segundo Meirelles (2005), na fase de treinamento, a rede aproxima a saída ao valor desejado e executa o algoritmo de treinamento escolhido.

Para desenvolvimento da RNA, utilizou-se a toolbox ou biblioteca NEURAL NETWORK TOOLBOX do Matlab (2006). O algoritmo utilizado no estudo Levenberg Marquardt é definido nesse software como TRAINLM, como aperfeiçoamento do tradicional algoritmo Backpropagation. O algoritmo LM utiliza o erro quadrático médio ou MSE - mean squared error - para corrigir os pesos da rede quando sua saída for diferente da saída desejada, denominadas pelos targets. (Meirelles, 2005).

Como entradas da RNA, foram inseridas as variáveis idade da mãe ao parto (IDMP), estação - seca ou águas codificadas como "1" ou "2", respectivamente -, região, peso aos 205 dias de idade (P205) e o valor genético obtido pelo BLUP sendo "target" ou objetivo da RNA. O estudo em questão é dependente das saídas dos valores genéticos obtidos pelo BLUP, após utilização do software WOMBAT (Meyer, 2006).

Segundo o mesmo procedimento adotado por Neves (2007), para tornar o treinamento da rede mais eficiente, as entradas da RNA foram normalizadas para o intervalo [-1,1] pela faixa de variação listada abaixo:

em que, xnorm é o valor normalizado correspondente ao valor original x, e xmine xmax são o valor mínimo e máximo entre todos os dados. O trecho abaixo descreve código fonte, desenvolvido em linguagem MATLAB para tal processo de normalização.

% --------------------------------------------------------;

% TRECHO DO PROGRAMA MATLAB;

% Faz a normalizacao dos dados para valores entre -1 e 1;

[DTn,minDTn,maxDTn] = premnmx(DT);

[TTn,minTTn,maxTTn] = premnmx(TT);

% Transformação dos dados usando min e max pré-calculado;

[DVn] = tramnmx(DV,minDTn,maxDTn);

[TVn] = tramnmx(TV,minTTn,maxTTn);

% -------------------------------------------------------.

A base de dados foi dividida em dois conjuntos de dados, destinados ao treinamento e à validação. No primeiro e segundo conjuntos, usaram-se 14.430 (75%) e 4810 (25%) dados, respectivamente. O primeiro conjunto destina-se ao ajuste de pesos sinápticos, e o segundo à fase de avaliação e desempenho da rede.

A camada de entrada é composta por quatro neurônios, sendo estes formados pelos componentes idade da mãe ao parto (IDMP), estação - seca ou águas codificadas como "1" ou "2", respectivamente -, região e peso aos 205 dias de idade (P205). A camada oculta é composta por N neurônios, de acordo com os testes de desempenho realizados e demonstrados na Tab. 3. A camada de saída é composta pelo valor genético obtido pela RNA (VG_RNA) após processo de treinamento e posterior validação (Fig. 1).


Segundo Neves (2007), o número de camadas intermediárias e de neurônios presentes nessa camada deve ser projetado mantendo o compromisso com a convergência para uma solução, sem, no entanto, prejudicar a habilidade de generalização da rede neural. Dessa forma, foram desenvolvidas e comparadas diferentes propostas de arquiteturas de redes MLP, que se diferenciaram pelo número de neurônios presentes na camada intermediária e taxa de aprendizado. A taxa de aprendizagem (η) influencia as mudanças nos pesos entre as conexões dos neurônios artificiais. Taxas de aprendizagem muito pequenas (próximas de zero) implicam tempo de treinamento longo; contudo, taxas de aprendizagem elevadas podem provocar oscilações em torno da solução.

Todas as arquiteturas tiveram como método de treinamento o algoritmo Levenberg Marquardt (TRAINLM – Matlab, 2006) e o conjunto de pesos inicializado aleatoriamente dentro do intervalo [-1,1]. Como parâmetros de treino têm-se: função de ativação, quantidade máxima de épocas ou iterações, taxa de aprendizagem e valor da tolerância ao erro. As funções de ativações, utilizadas nas camadas intermediária e de saída, foram tangente hiperbólica (TANSIG) e linear (PURELIN), respectivamente.

Para o treinamento da RNA, o número de épocas foi escolhido como critério de parada, de acordo com a Tab. 4, assim como os valores de neurônios ocultos e a taxa de aprendizado.

Após obtenção da melhor arquitetura de RNA para predição do valor genético, análise adicional foi realizada com esta arquitetura para avaliar o poder da RNA na predição dos valores genéticos de animais que fossem inseridos posteriormente ao último ano adotado como limite de treinamento da rede neural. Foi realizado treinamento da rede neural com informações de animais contidas na base de dados até o ano de 1990, e para o processo de validação, foram utilizadas informações de animais pertencentes aos anos 1991 a 1995, divididos em duas classes (1991-1993 e 1994-1995).

RESULTADOS E DISCUSSÃO

O valor de erro pode interromper prematuramente o processo de aprendizagem ou fazer com que a rede perca sua capacidade de generalização (Haykin, 2001). De acordo com Neves (2007), o desempenho de cada arquitetura foi observado com base no erro quadrático médio (MSE ou EQM), obtido pela média dos quadrados das diferenças entre a saída real e a saída prevista pela rede, demonstrado a seguir:

Pela Tab. 4, a proposta D, com o menor EQM de teste, é constituída por 45 neurônios na camada intermediária e taxa de aprendizado igual a 0,008.

Entretanto, como observado, o fato relevante para o desempenho da RNA foi o número de camadas ocultas seguido pela taxa de aprendizado. O número de iterações não interferiu de forma significativa no valor EQM, sendo este estabilizado em todas as propostas por volta da 15a época, conforme ilustra a Fig. 2.


Segundo Pereira (2004), o termo correlação descreve a associação entre duas variáveis, e o grau de relacionamento entre elas é medido pelo coeficiente de correlação, que pode oscilar de zero a um, de forma positiva ou negativa.

Os valores genéticos oriundos do BLUP (VG_P205_BLUP) foram comparados aos obtidos pela RNA (VG_P205_RNA) estabelecida pela proposta D - melhor desempenho da RNA -, por intermédio da estimativa do coeficiente de correlação de Pearson (r), de 0,8503. Este alto coeficiente de correlação entre os valores genéticos preditos pela RNA e os obtidos pelo BLUP indica que as variáveis envolvidas no estudo estão muito associadas e têm magnitude de variação no mesmo sentido. Conforme Fig. 3, a RNA reconheceu o padrão de comportamento dos dados e conseguiu prever de forma satisfatória o valor genético para peso aos 205 dias, para os dados estudados. Os resultados assemelham-se aos obtidos por Meirelles (2005) e Neves (2007), em análise de outras características por meio de RNAs, r = 0,877 e r = 0,65, respectivamente. Caso haja inserção de novos animais para nova avaliação genética, novo treinamento deverá ser efetuado e novos targets deverão ser gerados para construção da RNA, sempre dependentes do BLUP.


Após ordenar os valores genéticos para característica peso aos 205 dias (VG_P205_RNA), oriundos da RNA, percebeu-se variação na classificação dos animais em comparação à classificação obtida pelo BLUP, indicando riscos no uso de RNAs para avaliação genética para esta característica (Tab. 5).

Após classificação baseada em valores genéticos de peso aos 205 dias, preditos pelo BLUP e RNA, foram calculadas as porcentagens de coincidência de classificação entre os trezentos primeiros colocados das duas classificações (Tab. 5). Os primeiros 100 classificados por meio da RNA não coincidiram em 66% com a classificação obtida por meio do BLUP. As classificações posteriores apresentaram menor valor de coincidência (30 e 22%, respectivamente) do que a apresentada na primeira faixa, pelo fato de os valores genéticos dos animais pertencentes a essa classe apresentarem menores desvios.

Na Tab. 7, mostram-se as correlações obtidas entre saídas da RNA e valor BLUP original para animais que foram inseridos na análise após processo de treinamento ter sido finalizado no ano de 1990. O primeiro grupo foi representado por animais inseridos no processo de avaliação a partir do ano de 1991 até 1993 e apresentou menor correlação com os dados de saída BLUP (r = 0,74) do que o valor encontrado na análise anterior, tendo base de dados formada por animais com informações nos anos de 1976 a 1995 (r = 0,8503). Para o processo de validação da RNA, por meio de informações do segundo grupo de animais inseridos na base de dados nos anos 1994 e 1995, a queda de associação foi ainda maior (r = 0,68).

Em análise complementar, foi utilizada mesma base de dados para execução do algoritmo MOBJ em comparação aos resultados obtidos pelo algoritmo Levenberg Marquardt (Tab. 8).

Os resultados obtidos pelo algoritmo MOBJ indicaram semelhança funcional quando comparados à saída do algoritmo LM (Tab. 4).

CONCLUSÕES

As RNAs demonstram grande versatilidade referente ao desempenho operacional e ao tempo de processamento, com grande vantagem em relação a outras metodologias de predição. Para mesmo banco de dados, sem inserção de novos animais, a RNA é eficaz no reconhecimento de padrões e predição do valor genético para a característica peso aos 205 dias, utilizando como target o valor genético oriundo da metodologia BLUP. Não é recomendado o uso de RNAs em avaliações genéticas quando se deseja inserir no futuro novos animais que não estejam contidos na base de dados treinados. A RNA é dependente da metodologia BLUP por não conter informações da matriz de relacionamento entre animais.

  • BERTAZZO, R.P. Utilização de redes neurais artificiais na predição do mérito genético de bovinos de corte. 2006. Tese (Doutorado) - Faculdade de Zootecnia e Engenharia de Alimentos, Universidade de São Paulo, Pirassununga, SP.
  • BRADLEY, P.S.; FAYYAD, U.M.; MANGASARIAN, O.L. Mathematical programming for data mining: formulations and challenges. J. Comput., v.11, p.217-238, 1999.
  • CAVERO, D.; TOLLE, K.H.; HENZE, C. et al. Mastitis detection in dairy cows by application of neural networks. Livest. Sci., v.114, p.280-286, 2008.
  • HAYKIN, S. Redes neurais: princípios e prática. Porto Alegre, RS: Bookman, 2001.
  • HEALD, C.W.; KIM, T.; SISCHO, W.M. et al. A computerized mastitis decision aid using farm based records: an artificial neural network approach. J. Dairy Sci., v.83, p.711-720, 2000.
  • MATLAB guide for personal computers. Version 7.3. Local: MATLAB Institute, 2006.
  • MEIRELLES, F.D.P. Modelo computacional de um rebanho bovino de corte virtual utilizando simulação Monte Carlo e redes neurais artificiais. 2005. 104f. Tese (Doutorado em Zootecnia) Faculdade de Zootecnia e Engenharia de Alimentos, Universidade de São Paulo, Pirassununga, SP.
  • MENDES, R.A.; BERTAZZO, R.P.; SILVA, D.C. et al. Sistemas especialistas na predição do fenótipo peso ao sobreano em bovinos da raça Brahman. In: SIMPÓSIO INTERNACIONAL DE INICIAÇÃO CIENTÍFICA DA USP (SIICUSP), 2009, Pirassununga SP. Anais... Pirassununga: USP, 2009.
  • MEYER, K.W. Digging deep for quantitative genetic analyses by restricted maximum likelihood. In: WORLD CONGRESS ON GENETIC APPLIED TO LIVESTOCK PRODUCTION, 8., 2006, Belo Horizonte. Proceedings... Belo Horizonte: Instituto Prociência, 2006. CD-ROM.
  • NEVES, A.R.M. Aplicação de redes neurais artificiais na predição de valores genéticos em bovinos de leite da raça Pardo-Suiça 2007. Dissertacao (Mestrado) - Instituto de Tecnologia,  Universidade Federal do Pará, Belém , PA.
  • PEREIRA, J.C. Melhoramento genético aplicado à produção animal. Belo Horizonte, FEP-MVZ, 2004. 610p.

Datas de Publicação

  • Publicação nesta coleção
    07 Maio 2012
  • Data do Fascículo
    Abr 2012
Universidade Federal de Minas Gerais, Escola de Veterinária Caixa Postal 567, 30123-970 Belo Horizonte MG - Brazil, Tel.: (55 31) 3409-2041, Tel.: (55 31) 3409-2042 - Belo Horizonte - MG - Brazil
E-mail: abmvz.artigo@gmail.com