SciELO - Scientific Electronic Library Online

 
vol.39 issue9Vigor tests for selection of sweet corn (sh2) seeds lotNumber replications for the comparison in common bean cultivars author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

Share


Ciência Rural

Print version ISSN 0103-8478On-line version ISSN 1678-4596

Cienc. Rural vol.39 no.9 Santa Maria Dec. 2009

https://doi.org/10.1590/S0103-84782009000900005 

ARTIGOS CIENTÍFICOS
FITOTECNIA

 

Agrupamento de cultivares de feijão em presença e em ausência de multicolinearidade

 

Cluster in common bean cultivars in the presence and absence of multicollinearity

 

 

Alberto Cargnelutti FilhoI, 1; Lindolfo StorckI; Nerinéia Dalfollo RibeiroI

IDepartamento de Fitotecnia, Centro de Ciências Rurais (CCR), Universidade Federal de Santa Maria (UFSM), 97105-900, Santa Maria, RS, Brasil. E-mail: cargnelutti@pq.cnpq.br

 

 


RESUMO

O objetivo deste trabalho foi estudar o efeito da multicolinearidade em análise de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), com base em características de produção, fenologia e morfologia, comparando os padrões obtidos em presença e em ausência de multicolinearidade. Para tanto, foram planejados dois conjuntos de dados, cada um com 10 indivíduos e nove variáveis, para demonstrar o efeito das diferentes escalas de medidas e da multicolinearidade no agrupamento. Também foram usados os dados de 13 cultivares de feijão avaliadas em nove experimentos conduzidos em Santa Maria, Estado do Rio Grande do Sul (latitude 29°42S, longitude 53°49W e 95m de altitude), entre os anos agrícolas de 2000/2001 e 2004/2005. Nos experimentos, foram avaliados os caracteres produtividade de grãos, número de vagens por planta, número de sementes por vagem, massa de cem grãos, população final de plantas, número de dias da emergência ao florescimento, número de dias da emergência à colheita, altura de inserção da primeira vagem, altura de inserção da última vagem e grau de acamamento. Os padrões de agrupamento de cultivares de feijão, com base em características de produção, fenologia e morfologia, diferem em presença e em ausência de multicolinearidade. O efeito da multicolinearidade deve ser contornado para proporcionar padrões de agrupamento adequados.

Palavras-chave: Phaseolus vulgaris L., distância euclidiana, ligação completa.


ABSTRACT

The aim of this research was to study the effect of multicollinearity in cluster analysis of common bean cultivars (Phaseolus vulgaris L.) based on productive, phenologic and morphologic traits, comparing the standard obtained in the presence and absence of multicollinearity. Thus, it was planned two data sets, each with ten individuals and nine variables, to demonstrate the effect of different scales and measures of multicollinearity in the cluster. Thirteen common bean cultivars were evaluated in nine experiments conducted in Santa Maria, in Rio Grande do Sul State, Brazil (latitude 29°42'S, longitude 53°49'W and altitude 95m) in the agricultural years from 2000/2001 to 2004/2005. The following characters were evaluated in the experiments: grain yield, number of pods per plant, number of seeds per pod, weight of 100 grains, plants final population , number of days of the emergency to flowering, number of days of the emergency to harvest, height of first pod insertion, height of the final pod insertion and degree of the down. Standart cluster of common bean cultivars based on productive, phenologic and morphologic traits, differ in the presence and absence of multicollinearity. The effect of multicollinearity must be controlled to provide standards to appropriate cluster.

Key words: Phaseolus vulgaris L., euclidian distance, complete linkage.


 

 

INTRODUÇÃO

Em programas de melhoramento de feijão, a análise de agrupamento, com base em diferenças morfológicas, fisiológicas e moleculares, tem sido utilizada para identificar os genótipos divergentes e com maior probabilidade de sucesso nos cruzamentos. A análise de agrupamento apresenta a finalidade de reunir, por algum critério de classificação, os genitores em grupos, de tal forma que exista homogeneidade dentro do grupo e heterogeneidade entre os grupos. Há diversas medidas de dissimilaridade, entre os pares de genótipos, que são utilizadas nos diversos métodos de agrupamento. As diferentes combinações entre essas medidas e os métodos podem levar a distintos padrões de agrupamento (CRUZ & REGAZZI, 1997; MINGOTI, 2005; MANLY, 2008).

Em estudos de divergência genética em feijão, comparações entre algumas medidas de dissimilaridade (MALUF & FERREIRA, 1983) e entre alguns métodos de agrupamento (BONETT et al., 2006; CARGNELUTTI FILHO et al., 2008) têm sido realizadas, revelando distintos níveis de concordância. Em análise de agrupamento, a padronização das variáveis tem sido recomendada para minimizar o efeito das diferentes escalas de medidas, fazendo com que todas as variáveis exerçam a mesma importância na definição dos grupos (CRUZ & REGAZZI, 1997; BARROSO & ARTES, 2003; HAIR et al., 2005; CORRAR et al., 2007).

A multicolinearidade é definida como o grau em que qualquer efeito de variável pode ser previsto ou explicado por outras variáveis e é um pressuposto básico em análise de agrupamento. A multicolinearidade entre as variáveis pode alterar os padrões de agrupamento, pelo fato dessas variáveis multicolineares serem implicitamente ponderadas com maior peso (HAIR et al., 2005; CORRAR et al., 2007). A multicolinearidade atua como um processo de ponderação não visível para o observador, mas que afeta a análise. Por essa razão, é necessário examinar as variáveis usadas em análise de agrupamento quanto à multicolinearidade (BARROSO & ARTES, 2003; CRUZ & CARNEIRO, 2003; HAIR et al., 2005; CORRAR et al., 2007).

O efeito de multicolinearidade entre os caracteres em análise de trilha tem sido destacado na cultura do pimentão (CARVALHO et al., 1999) e da canola (COIMBRA et al., 2005). De maneira geral, esses estudos revelam que, em presença de multicolinearidade moderada a severa, a análise de trilha produz resultados sem nenhuma importância biológica. No entanto, estudos dessa natureza, para a cultura do feijão, não foram encontrados na literatura. Assim, o objetivo deste trabalho foi estudar o efeito da multicolinearidade em análise de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), com base em características de produção, fenologia e morfologia, na região da Depressão Central do Estado do Rio Grande do Sul, comparando os padrões obtidos em presença e em ausência de multicolinearidade.

 

MATERIAL E MÉTODOS

Foram definidas as médias para dois bancos de dados (Casos 1 e 2, Tabela 1) com 10 indivíduos (1, 2, ..., 10) e nove variáveis (X1, X2, ..., X9). A definição dessas médias permite visualizar e evidenciar o efeito das diferentes escalas de medidas e do grau de multicolinearidade entre as variáveis na análise de agrupamento. Também foram utilizadas as médias de dados reais (Caso 3, Tabela 2) de 13 cultivares de feijão avaliadas em nove experimentos conduzidos no delineamento aleatorizado em blocos, com três repetições, na Universidade Federal de Santa Maria, Santa Maria, Rio Grande do Sul (latitude 29°42S, longitude 53°49W e 95m de altitude). Os experimentos foram conduzidos nos anos agrícolas de 2000/2001 a 2004/2005, em duas épocas de cultivo: safra (semeadura em setembro ou outubro) e safrinha (semeadura em janeiro ou fevereiro).

Em cada experimento, foram avaliados os caracteres produtividade de grãos, número de vagens por planta, número de sementes por vagem, massa de cem grãos, população final de plantas, número de dias da emergência ao florescimento, número de dias da emergência à colheita, altura de inserção da primeira vagem, altura de inserção da última vagem e grau de acamamento. Neste estudo, considerou-se a média de cada um desses caracteres.

Em cada banco de dados, os escores foram padronizados a fim de obter uma variável com média zero e desvio padrão um. Foi determinada a matriz de coeficientes de correlação linear de Pearson entre as variáveis, e foi realizado o diagnóstico de multicolinearidade (CRUZ, 2001) conforme critério de MONTGOMERY & PECK (1981).

Foram determinadas as matrizes de distância euclidiana entre os indivíduos (casos 1 e 2) e entre as cultivares (caso 3). Essas matrizes, em escala relativa, foram utilizadas como medida de dissimilaridade para a análise de agrupamento dos indivíduos e das cultivares pelo método hierárquico da ligação completa (vizinho mais distante), adotando-se o nível de 60% de parecença para a formação dos grupos (CRUZ, 2001; CRUZ & CARNEIRO, 2003).

Nos três casos, fez-se o agrupamento em situações extremas (sem padronização e com multicolinearidade, com padronização e com multicolinearidade e com padronização e sem multicolinearidade), além de algumas situações intermediárias nos casos 1 e 2, ou seja, com padronização e com diferentes graus de multicolinearidade.

A fim de validar os agrupamentos, fez-se a análise de variância univariada e teste F para verificar se as médias dos grupos diferem. Nos casos em que se tem mais de dois grupos, a conclusão do teste F, sobre a validade dos agrupamentos, é aproximada, pois informa somente que o contraste entre a maior e a menor média difere. Foram representadas as médias dos grupos em um gráfico de perfis de médias (BARROSO & ARTES, 2003). As análises foram realizadas com o auxílio da planilha eletrônica Office Excel e do programa Genes (CRUZ, 2001).

 

RESULTADOS E DISCUSSÃO

Os valores das variáveis X1, X2, ..., X8 (Tabela 1 - caso 1) sugerem a formação do grupo 1 (indivíduos 1, 2, 3, 4 e 5) e do grupo 2 (indivíduos 6, 7, 8, 9 e 10), com valores baixos e altos, respectivamente. Por outro lado, os valores da variável X9 sugerem a formação de quatro grupos de indivíduos: grupo 1, com os indivíduos 1, 2 e 3 (valores altos), grupo 2, com os indivíduos 4 e 5 (valores médios baixos), grupo 3, com os indivíduos 6 e 7 (valores médios altos) e o grupo 4, com os indivíduos 8, 9 e 10 (valores baixos). De maneira geral, as variáveis X1, X2, ..., X8 apresentam maior amplitude de variação quando comparadas à variável X9, caracterizando diferentes escalas de medidas e exercendo maior importância na definição dos grupos. Assim, a padronização das variáveis é um procedimento adequado para minimizar o efeito das diferentes escalas de medidas das variáveis, fazendo com que todas as variáveis exerçam importância equivalente na definição dos grupos (CRUZ & REGAZZI, 1997; BARROSO & ARTES, 2003; HAIR et al., 2005; CORRAR et al., 2007).

Os coeficientes de correlação linear de Pearson entre as variáveis X1, X2, ..., X8 foram significativos e de alta magnitude (Tabela 1 - caso 1), o que sugere a presença de multicolinearidade e que o uso de todas as variáveis na análise de agrupamento não é um procedimento adequado, devido a essas variáveis multicolineares, em análise de agrupamento, serem implicitamente ponderadas com maior peso (BARROSO & ARTES, 2003; CRUZ & CARNEIRO, 2003; HAIR et al., 2005; CORRAR et al., 2007). Diante dessas considerações, parece coerente que, para a análise de agrupamento, seja mantida a variável X9 e mais uma seja escolhida entre as oito primeiras variáveis. Fica evidente que, com base nessas duas variáveis, quatro grupos de indivíduos representam a realidade desse banco de dados.

O diagnóstico de multicolinearidade revelou que o número de condição (NC) oscilou entre 5186162 (situação 1 - multicolinearidade severa) a 2 (situação 6 - multicolinearidade fraca) (Figura 1). Na situação 1, o agrupamento foi realizado com base em todas as variáveis não padronizadas e, nesse caso, o efeito da escala de medida e da multicolinearidade age em sentido favorável à separação dos indivíduos em dois grupos de acordo com as variáveis X1, X2, ..., X7 e X8, e as diferenças existentes em relação a X9 não são evidenciadas.

Em um dendrograma, grande mudança de nível indica a união de indivíduos ou grupos heterogêneos (BARROSO & ARTES, 2003). Assim, na situação 1, o grupo 1 (indivíduos 1, 2 e 3) e o grupo 2 (indivíduos 4 e 5) são caracterizados como menos dissimilares que a realidade. O mesmo acontece com o grupo 3 (indivíduos 6 e 7) e 4 (indivíduos 8, 9 e 10). A percentagem de dissimilaridade entre esses grupos, destacados acima, se aproxima um pouco mais da realidade com a padronização das variáveis (situação 2). No entanto, ainda há o efeito da multicolinearidade que impede a expressão do verdadeiro grau de dissimilaridade entre os grupos. Da situação 2 até a situação 6, há redução gradativa do número de condição e aumento gradativo da percentagem de dissimilaridade entre os grupos com a exclusão de algumas variáveis, ilustrando, visualmente, a atuação da multicolinearidade na análise de agrupamento. Na situação 6, os efeitos da escala de medida e da multicolinearidade foram contornados, respectivamente, pela padronização e pela eliminação de variáveis, permitindo a separação dos indivíduos em quatro grupos, com base em 60% de parecença, proporcionando o agrupamento esperado (real), conforme demonstrado anteriormente.

Em relação à variável X9, nas situações 1, 2, 3, 4 e 5, o valor do teste F da análise de variância (1,4) foi não significativo (P>0,05), o que revela que a variância entre grupos não é superior à variância dentro de grupos. Isso significa que o agrupamento não está adequado, pois as médias dos grupos não diferem, diferentemente do que acontece na situação 6, em que as médias dos grupos diferem.

Em relação ao caso 2, os valores das variáveis X1, X2, ..., X8, altamente correlacionadas, sugerem a formação de quatro grupos de indivíduos: grupo 1 (indivíduos 1, 2 e 3, com valores altos), grupo 2 (indivíduos 6 e 7, com valores médios altos), grupo 3 (indivíduos 4 e 5, com valores médios baixos) e o grupo 4 (indivíduos 8, 9 e 10, com valores baixos) (Tabela 1 - caso 2). Já os valores da variável X9 sugerem a formação do grupo 1 (indivíduos 1, 2, 3, 4 e 5) e do grupo 2 (indivíduos 6, 7, 8, 9 e 10), com valores baixos e altos, respectivamente. De maneira semelhante ao caso 1, a padronização e a eliminação de variáveis são procedimentos adequados para contornar, respectivamente, os efeitos da escala de medida e da multicolinearidade entre as variáveis (CORRAR et al., 2007) e proporcionar um dendrograma que evidencie a formação de quatro grupos de indivíduos.

O que difere, em relação ao caso 1, é que, na situação 1 (agrupamento com base em todas as variáveis não padronizadas), o efeito da escala de medida age em sentido favorável à formação de dois grupos, devido à maior amplitude de variação de X9 em relação as demais, e o efeito da multicolinearidade atua favoravelmente para a separação dos indivíduos em quatro grupos de acordo com as variáveis X1, X2, ..., X7 e X8 (Tabela 1 - caso 2). Assim, com base em 60% de parecença, já na situação 1 quatro grupos são evidenciados (Figura 2), provavelmente, pela maior influência das variáveis X1, X2, ..., X7 e X8 quando comparadas a X9, que atua no sentido da formação de dois grupos. Salienta-se que há somente a variável X9 atuando na formação de dois grupos e ainda que a sua escala de medidas é cerca de duas vezes superior à escala das variáveis X1, X2, ..., X7 e X8. Com o aumento dessa relação, haveria direcionamento no sentido da formação de dois grupos.

Apesar da similaridade dos dendrogramas da situação 1 e da situação 6, o primeiro foi gerado em condições inadequadas (diferentes escalas de medidas e multicolinearidade severa entre as variáveis) e suas semelhanças são meramente casuais. Já na situação 6 os efeitos da escala de medida e da multicolinearidade foram contornados, respectivamente, pela padronização e eliminação de variáveis, permitindo a separação dos indivíduos em quatro grupos, com base em 60% de parecença, proporcionando o agrupamento esperado (Figura 2). Nas situações intermediárias a essas duas, o comportamento é semelhante ao caso 1. Os P-valores do teste F da análise de variância validam o agrupamento formado na situação 6 como adequado à realidade desses dados (Figura 2).

Do ponto de vista prático, destaca-se que, havendo multicolinearidade entre as variáveis, mesmo que seu impacto não seja percebido em uma análise de agrupamento, o seu efeito deve ser contornado para que o agrupamento expresse a realidade dos indivíduos que estão sendo agrupados. Diferentes cenários formados pela combinação de distintos número de indivíduos, número de variáveis, diferentes graus das escalas de medidas e graus de multicolinearidade, além do agrupamento por diversos métodos, com base em diferentes medidas de dissimilaridade poderiam ser simulados e estudados antes dessas informações serem generalizadas. Ainda, outras formas de contornar a multicolinearidade devem ser investigadas, pelo fato de o descarte de variáveis que causam multicolinearidade ser um procedimento que pode excluir variáveis importantes em um programa de melhoramento genético. Nesse sentido, a distância generalizada de Mahalanobis (D2), entre os pares de genótipos, tem sido amplamente utilizada como medida de dissimilaridade nos métodos de agrupamento. A distância D2 considera a existência de correlações entre os caracteres analisados por meio da matriz de variâncias e covariâncias residuais, porém, para ser calculada, necessita de experimentos com repetições e ainda que exista distribuição normal multidimensional e homogeneidade da matriz de covariâncias residuais, o que restringe o seu uso (CRUZ & REGAZZI, 1997; CRUZ & CARNEIRO, 2003).

Os dados do caso 3 revelam a dificuldade de estabelecer, a priori, qual a separação adequada das cultivares, diferentemente dos casos anteriores (Tabela 2). No entanto, o que deve ser considerado é que, existindo diferentes escalas de medidas e presença de multicolinearidade, estas devem ser contornadas para evitar agrupamentos inadequados. Apesar da dificuldade de visualização, caso existam esses problemas, estes atuarão gerando diferentes padrões de agrupamento não condizentes com a realidade.

Usando 60% de parecença como critério para a separação das cultivares de feijão, houve a formação de três grupos em presença do efeito de diferentes escalas de medida das variáveis e da multicolinearidade (Figura 3 - situação 1). Após a padronização das variáveis, houve a formação de quatro grupos de cultivares (Figura 3 - situação 2) e, após a minimização do efeito da escala de medida e da multicolinearidade (Figura 3 - situação 3), novamente, três grupos foram formados, porém as cultivares pertencentes em cada grupo foram diferentes. Portanto, pode-se inferir que os padrões de agrupamento de cultivares de feijão diferem em presença e em ausência de multicolinearidade. Na situação 3 (Figura 3), o p-valor das variáveis utilizadas para o agrupamento revelou a consistência deste. Outro aspecto que reforça a adequabilidade desse agrupamento é que a média de cada cultivar foi estimada com base em 27 observações (três repetições x nove experimentos), o que o torna uma estimativa confiável, caracterizando que existe homogeneidade dentro do grupo e heterogeneidade entre os grupos. A identificação de cultivares divergentes, com base em apenas um experimento, poderá ser pouco eficiente devido à variabilidade de resposta das cultivares frente às condições ambientais (interação cultivares × ambientes), e o uso dos dados de sete e seis experimentos, respectivamente, para os métodos de Ward e de Tocher, foi considerado suficiente para o agrupamento de cultivares de feijão (CARGNELUTTI FILHO et al., 2009).

 

CONCLUSÕES

Os padrões de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), com base em características de produção, fenologia e morfologia, na região da Depressão Central do Estado do Rio Grande do Sul, diferem em presença e em ausência de multicolinearidade. O efeito da multicolinearidade deve ser contornado para proporcionar padrões de agrupamento adequados.

 

AGRADECIMENTOS

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pela concessão de bolsa de Produtividade em Pesquisa aos autores deste trabalho.

 

REFERÊNCIAS

BARROSO, L.P.; ARTES, R. Análise multivariada. Lavras: UFLA, 2003. 151p.         [ Links ]

BONETT, L.P. et al. Divergência genética em germoplasma de feijoeiro comum coletado no estado do Paraná, Brasil. Semina, v.27, p.547-560, 2006.         [ Links ]

CARGNELUTTI FILHO, A. et al. Número necessário de experimentos para a análise de agrupamento de cultivares de feijão. Ciência Rural, v.39, p.371-378, 2009. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-84782009000200009&lng=pt&nrm=iso>. Acesso em: 26 jun. 2009. doi: 10.1590/S0103-84782008005000059.         [ Links ]

CARGNELUTTI FILHO, A. et al. Comparação de métodos de agrupamento para o estudo da divergência genética em cultivares de feijão. Ciência Rural, v.38, p.2138-2145, 2008. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-84782008000800008&lng=pt&nrm=iso>. Acesso em: 26 jun. 2009. doi: 10.1590/S0103-84782008000800008.         [ Links ]

CARVALHO, C.G.P. et al. Análise de trilha sob multicolinearidade em pimentão. Pesquisa Agropecuária Brasileira, v.34, p.603-613, 1999. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-204X1999000400011&lng=pt&nrm=iso>. Acesso em: 26 jun. 2009. doi: 10.1590/S0100-204X1999000400011.         [ Links ]

COIMBRA, J.L.M. et al. Consequências da multicolinearidade sobre a análise de trilha em canola. Ciência Rural, v.35, p.347-352, 2005. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-84782005000200015&lng=pt&nrm=iso>. Acesso em: 26 jun. 2009. doi: 10.1590/S0103-84782005000200015.         [ Links ]

CORRAR, L.J. et al. Análise multivariada para os cursos de administração, ciências contábeis e economia. São Paulo: Atlas, 2007. 542p.         [ Links ]

CRUZ, C.D. PROGRAMA GENES: versão Windows: aplicativo computacional em genética e estatística. Viçosa: UFV, 2001. 648p.         [ Links ]

CRUZ, C.D.; CARNEIRO, P.C.S. Modelos biométricos aplicados ao melhoramento genético. Viçosa: UFV, 2003. 585p.         [ Links ]

CRUZ, C.D.; REGAZZI, A.J. Modelos biométricos aplicados ao melhoramento genético. 2.ed. Viçosa: UFV, 1997. 390p.         [ Links ]

HAIR, J.F. et al. Análise multivariada de dados. 5.ed. Porto Alegre: Bookman, 2005. 593p.         [ Links ]

MALUF, W.R.; FERREIRA, P.E. Análise multivariada da divergência genética em feijão-vagem (Phaseolus vulgaris L.). Horticultura Brasileira, v.1, p.31-34, 1983.         [ Links ]

MANLY, B.J.F. Métodos estatísticos multivariados: uma introdução. 3.ed. Porto Alegre: Bookman, 2008. 229p.         [ Links ]

MINGOTI, S.A. Análise de dados através de métodos de estatística multivariada. Belo Horizonte: UFMG, 2005. 297p.         [ Links ]

MONTGOMERY, D.C.; PECK, E.A. Introduction to linear regression analysis. New York: John Wiley & Sons, 1981. 504p.         [ Links ]

 

 

Recebido para publicação 30.01.09
Aprovado em 24.08.09

 

 

1 Autor para correspondência.

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License