Acessibilidade / Reportar erro

Consistência do padrão de agrupamento de cultivares de feijão conforme medidas de dissimilaridade e métodos de agrupamento

Clustering pattern consistency of common bean cultivars by dissimilarity measures and clustering methods

Resumos

O objetivo deste trabalho foi avaliar a consistência do padrão de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), obtido a partir da combinação de oito medidas de dissimilaridade e oito métodos de agrupamento. Treze cultivares de feijão foram avaliadas em nove experimentos conduzidos entre os anos agrícolas de 2000/2001 e 2004/2005, e agrupadas de acordo com caracteres de produção (produtividade de grãos, número de vagens por planta), de fenologia (número de dias da emergência ao florescimento e da emergência à colheita) e de morfologia (altura de inserção da primeira e da última vagem). Foram realizadas análises de variância, de correlação, de diagnóstico de multicolinearidade, de agrupamento e de comparação de médias. A consistência do padrão de agrupamento foi avaliada por meio do coeficiente de correlação cofenética. Há variabilidade na consistência do padrão de agrupamento das cultivares de feijão, obtido a partir da combinação de diferentes medidas de dissimilaridade e métodos de agrupamento. Maior consistência nos padrões de agrupamento de cultivares de feijão é verificada com o método da ligação média entre grupo, obtido a partir da matriz de distância euclidiana.

Phaseolus vulgaris; algoritmos de agrupamento; coeficiente de correlação cofenética; medidas de dissimilaridade


The objective of this work was to evaluate the clustering pattern consistency in common bean cultivars (Phaseolus vulgaris L.) obtained from the combination of the eight dissimilarity measures and eight clustering methods. Thirteen common bean cultivars were evaluated in nine experiments conducted in the growing seasons between 2000/2001 and 2004/2005 and grouped according to productive (grain yield and number of pods per plant), phenological (number of days between seedling emergence and flowering, and number of days from emergence to harvest) and morphological (height of first pod insertion and height of the final pod insertion) characters. Analyses of variance, correlation, diagnoses of multicollinearity, cluster and comparison of means were carried out. Clustering pattern consistency was evaluated by the cophenetic correlation coefficient. There is variability in the clustering pattern consistency of common bean cultivars, derived from the combination of different dissimilarity measures and clustering methods. Greater clustering pattern consistency in common bean is found with the average linkage between groups method, based on the euclidian distance.

Phaseolus vulgaris; clustering algorithms; cophenetic correlation coefficient; dissimilarity measures


ESTATISTICA

Consistência do padrão de agrupamento de cultivares de feijão conforme medidas de dissimilaridade e métodos de agrupamento

Clustering pattern consistency of common bean cultivars by dissimilarity measures and clustering methods

Alberto Cargnelutti Filho; Nerinéia Dalfollo Ribeiro; Cláudia Burin

Universidade Federal de Santa Maria, Departamento de Fitotecnia, Avenida Roraima, nº 1.000, Bairro Camobi, CEP 97105-900 Santa Maria, RS. E-mail: cargnelutti@pq.cnpq.br, nerineia@hotmail.com, clauburin@yahoo.com.br

RESUMO

O objetivo deste trabalho foi avaliar a consistência do padrão de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), obtido a partir da combinação de oito medidas de dissimilaridade e oito métodos de agrupamento. Treze cultivares de feijão foram avaliadas em nove experimentos conduzidos entre os anos agrícolas de 2000/2001 e 2004/2005, e agrupadas de acordo com caracteres de produção (produtividade de grãos, número de vagens por planta), de fenologia (número de dias da emergência ao florescimento e da emergência à colheita) e de morfologia (altura de inserção da primeira e da última vagem). Foram realizadas análises de variância, de correlação, de diagnóstico de multicolinearidade, de agrupamento e de comparação de médias. A consistência do padrão de agrupamento foi avaliada por meio do coeficiente de correlação cofenética. Há variabilidade na consistência do padrão de agrupamento das cultivares de feijão, obtido a partir da combinação de diferentes medidas de dissimilaridade e métodos de agrupamento. Maior consistência nos padrões de agrupamento de cultivares de feijão é verificada com o método da ligação média entre grupo, obtido a partir da matriz de distância euclidiana.

Termos para indexação:Phaseolus vulgaris, algoritmos de agrupamento, coeficiente de correlação cofenética, medidas de dissimilaridade.

ABSTRACT

The objective of this work was to evaluate the clustering pattern consistency in common bean cultivars (Phaseolus vulgaris L.) obtained from the combination of the eight dissimilarity measures and eight clustering methods. Thirteen common bean cultivars were evaluated in nine experiments conducted in the growing seasons between 2000/2001 and 2004/2005 and grouped according to productive (grain yield and number of pods per plant), phenological (number of days between seedling emergence and flowering, and number of days from emergence to harvest) and morphological (height of first pod insertion and height of the final pod insertion) characters. Analyses of variance, correlation, diagnoses of multicollinearity, cluster and comparison of means were carried out. Clustering pattern consistency was evaluated by the cophenetic correlation coefficient. There is variability in the clustering pattern consistency of common bean cultivars, derived from the combination of different dissimilarity measures and clustering methods. Greater clustering pattern consistency in common bean is found with the average linkage between groups method, based on the euclidian distance.

Index terms:Phaseolus vulgaris, clustering algorithms, cophenetic correlation coefficient, dissimilarity measures.

Introdução

A identificação de cultivares divergentes, por meio de análise de agrupamento, tem sido empregada em programas de melhoramento de feijão. Para tanto, há diversas medidas de dissimilaridade entre pares de cultivares que são utilizadas nos diversos métodos de agrupamento. Os diferentes métodos de análise e combinações entre medidas levam a padrões de agrupamento distintos (Cruz & Regazzi, 1997; Mingoti, 2005; Manly, 2008).

O coeficiente de correlação linear de Pearson entre os elementos da matriz de dissimilaridade (matriz de distâncias entre as cultivares, obtida a partir dos dados originais) e os elementos da matriz cofenética (matriz de distâncias entre as cultivares, obtida a partir do dendrograma) é denominado coeficiente de correlação cofenética. Esse coeficiente pode ser utilizado para avaliar a consistência do padrão de agrupamento de métodos de agrupamento hierárquicos, sendo que valores próximos à unidade indicam melhor representação (Barroso & Artes, 2003; Cruz & Carneiro, 2003).

Comparações entre algumas medidas de dissimilaridade (Maluf & Ferreira, 1983) e entre alguns métodos de agrupamento (Bonett et al., 2006; Cargnelutti Filho et al., 2008) têm sido realizadas em estudos de divergência genética em feijão e revelado níveis de concordância variáveis. Entretanto, estudos comparativos entre os coeficientes de correlação cofenética obtidos por diferentes medidas de dissimilaridade e métodos de agrupamento, para a cultura do feijão, não foram encontrados na literatura.

O objetivo deste trabalho foi avaliar a consistência do padrão de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), obtido a partir da combinação de oito medidas de dissimilaridade e oito métodos de agrupamento.

Material e Métodos

Foram avaliadas 13 cultivares de feijão - Carioca, Diamante Negro, TPS Nobre, Guapo Brilhante, Guateian 6662, IAPAR 44, Macanudo, Macotaço, Minuano, Pérola, Rio Tibagi, TPS Bionobre e TPS Bonito - em nove experimentos, realizados em delineamento de blocos ao acaso, com três repetições, na Universidade Federal de Santa Maria, Santa Maria, Rio Grande do Sul (29º42'S, 53º49'W, a 95 m de altitude). As parcelas foram compostas de quatro fileiras de 4 m de comprimento, espaçadas de 0,50 m, e com área útil de 3 m2.

Os experimentos foram conduzidos nos anos agrícolas de 2000/2001 a 2004/2005, em duas épocas de cultivo: safra (semeadura em setembro ou outubro) e safrinha (semeadura em janeiro ou fevereiro). Em cada experimento, foram avaliados os caracteres de produção (produtividade de grãos a 13% de umidade e número de vagens por planta), de fenologia (número de dias da emergência da plântula ao florescimento e da emergência à colheita) e de morfologia (altura de inserção da primeira e última vagem).

Para avaliação dos efeitos das cultivares sobre esses caracteres, foi utilizada a análise de variância, com o teste F a 5% de probabilidade. Em seguida, em cada experimento, foi determinada a matriz de coeficientes de correlação linear de Pearson entre os caracteres (matriz fenotípica) e realizado o diagnóstico de multicolinearidade (Cruz, 2006), conforme critério de Montgomery & Peck (1982). Depois foram determinadas as seguintes matrizes de distância entre as cultivares: euclidiana (E), euclidiana padronizada (EP), euclidiana média (EM), euclidiana média padronizada (EMP), quadrado da distância euclidiana (QE), quadrado da distância euclidiana padronizada (QEP), Mahalanobis (M) e Mahalanobis padronizada (MP) (Cruz, 2006). Essas matrizes, em escala relativa, foram utilizadas como medida de dissimilaridade para a análise de agrupamento das cultivares pelos seguintes métodos hierárquicos: ligação simples (vizinho mais próximo), ligação completa (vizinho mais distante), Ward, mediana, ligação média dentro de grupo, ligação média entre grupo, Gower e Centroide (Cruz & Regazzi, 1997; Cruz & Carneiro, 2003; Cruz, 2006). Ao final, foram obtidos 576 dendrogramas a partir da combinação de nove experimentos, oito distâncias e oito métodos de agrupamento.

Para avaliar a consistência dos 576 agrupamentos, ou seja, verificar a capacidade do dendrograma em reproduzir as matrizes de dissimilaridade (E, EP, EM, EMP, QE, QEP, M e MP), calculou-se o coeficiente de correlação cofenética (Barroso & Artes, 2003; Cruz & Carneiro, 2003). A significância desse coeficiente foi verificada por meio do teste t de Student, a 5% de probabilidade, com n -2 = 76 graus de liberdade, em que n é igual a 78 distâncias resultantes da combinação de 13 cultivares, duas a duas. Compararam-se as médias dos coeficientes de correlação cofenética (média dos nove experimentos), das oito matrizes de distância dentro de cada método de agrupamento, e as médias dos oito métodos de agrupamento dentro de cada matriz de distância, por meio do teste t, a 5% de probabilidade. As análises estatísticas foram realizadas no programa Genes (Cruz, 2006).

Resultados e Discussão

Em relação aos caracteres avaliados em nove experimentos, o teste F da análise de variância revelou que o efeito de bloco foi significativo (p<0,05) em 16 casos (29,63%) (Tabela 1). Esse resultado evidencia que os blocos foram heterogêneos e que o uso do delineamento blocos ao acaso foi adequado.

Entre os 54 casos avaliados, houve efeito significativo para cultivares em 47 casos (87,04%), evidenciando a possibilidade de utilização da técnica de agrupamento para a identificação de cultivares superiores em razão da heterogeneidade observada no germoplasma avaliado (Tabela 1). Nos 47 casos com efeito significativo de cultivares, a média da acurácia seletiva foi de 0,87, enquanto que, nos sete casos em que não foram detectadas diferenças significativas, a média da acurácia seletiva foi de 0,55. Esses resultados revelaram que a não identificação de diferenças entre as cultivares está associada a menor precisão experimental (Cargnelutti Filho & Storck, 2007, 2009; Resende & Duarte, 2007).

O diagnóstico de multicolinearidade, na matriz de coeficientes de correlação linear de Pearson entre os caracteres avaliados, revelou que o número de condição (NC) oscilou entre 15 (Safrinha 2004) a 102 (Safrinha 2002) (Tabela 1). De acordo com Montgomery & Peck (1982), a matriz pode apresentar multicolinearidade fraca (NC<100), moderada a forte (100<NC<1.000) ou severa (NC>1.000). Em presença de multicolinearidade, o uso de todos os caracteres na análise de agrupamento não é um procedimento adequado, pois os caracteres multicolineares são implicitamente ponderados com maior peso (Barroso & Artes, 2003; Cruz & Carneiro, 2003; Hair et al., 2005; Corrar et al., 2007). Neste trabalho, em apenas um experimento o NC indicou multicolinearidade moderada a forte, porém próximo da multicolinearidade fraca encontrada nos outros oito experimentos. Dessa forma, o efeito da multicolinearidade não foi detectado e a análise de agrupamento com base nos seis caracteres foi considerada um procedimento adequado (Cargnelutti Filho et al., 2009b).

A identificação de cultivares divergentes, com base em apenas um experimento, comumente é pouco eficiente devido à variabilidade de resposta das cultivares às condições ambientais (interação genótipo x ambientes)(Bertanetal., 2006). O uso dos dados de sete e seis experimentos, respectivamente, para os métodos de Ward e deTocher, foi considerado suficiente para o agrupamento de cultivares de feijão (Cargnelutti Filho et al., 2009a). Assim, se a finalidade principal desse estudo fosse identificar cultivares divergentes, a análise conjunta dos nove experimentos seria adequada. No entanto, esse estudo teve por objetivo avaliar a consistência do padrão de agrupamento de cultivares de feijão, obtidos a partir da combinação de diferentes medidas de dissimilaridade e métodos de agrupamento, e a análise individual é particularmente importante, por proporcionar uma quantidade maior de cenários.

O coeficiente de correlação cofenética (CCC) oscilou entre 0,2437 e 0,9221 (Tabela 2). A média entre os 576 valores de CCC formados pela combinação de nove experimentos, oito distâncias e oito métodos de agrupamento foi de 0,6733, revelando variabilidade na consistência do padrão de agrupamento entre os experimentos, matrizes de distância e métodos de agrupamento. Embora os 576 CCC tenham sido significativos (p<0,05), deve-se avaliar a magnitude dos valores de CCC tendo-se em mente que os valores próximos à unidade indicam maior consistência do padrão de agrupamento (Barroso & Artes, 2003; Cruz & Carneiro, 2003) e devem ser os preferidos.

Para um mesmo método de agrupamento, três pares de matrizes de distâncias entre as cultivares [par 1: euclidiana (E) e euclidiana média (EM); par 2: euclidiana padronizada (EP) e euclidiana média padronizada (EMP); e par 3: Mahalanobis (M) e Mahalanobis padronizada (MP)] deram origem ao mesmo padrão de agrupamento. O coeficiente de correlação linear de Pearson entre esses pares de matrizes de distância foi igual a 1,00 e explica a relação direta e linear existente entre elas. Assim, são esperados os mesmos valores de CCC, em cada método, a partir desses três pares de matrizes de distância entre as cultivares (E e EM, EP e EMP, M e MP) (Tabela 2). Portanto, ao investigar o método que proporciona maior consistência no padrão de agrupamento, apenas uma matriz de distância de cada um desses três pares pode ser usada.

Há relação direta e quadrática entre o par de matriz de distância euclidiana (E) e euclidiana média (EM) com a matriz quadrado da distância euclidiana (QE). A mesma relação existe entre o par de matriz de distância euclidiana padronizada (EP) e euclidiana média padronizada (EMP) com a matriz quadrado da distância euclidiana padronizada (QEP). Esses resultados são esperados e explicados pelo estimador de cada distância (Cruz, 2006). Portanto, nessas relações, o coeficiente de correlação linear de Pearson entre as matrizes de distância não é adequado para avaliar a concordância entre as matrizes. Essas relações levam a diferentes padrões de agrupamento e, por consequência, a diferentes valores de CCC.

Independentemente do método de agrupamento, os coeficientes de correlação cofenética obtidos a partir das matrizes de distâncias euclidiana e euclidiana média foram maiores (p<0,05) que os alcançados a partir da matriz quadrado da distância euclidiana (Tabela 3).

Comportamento similar foi observado entre as matrizes de distâncias euclidiana padronizada e euclidiana média padronizada em relação à matriz quadrado da distância euclidiana padronizada, exceto em relação ao método de Gower. As matrizes de distâncias de Mahalanobis e de Mahalanobis padronizada apresentaram valores intermediários de CCC (Tabelas 2 e 3). Esses resultados evidenciam, de maneira geral, que as matrizes de distâncias euclidiana e euclidiana média proporcionaram agrupamentos mais consistentes. Em análise de agrupamento, a padronização das variáveis tem sido recomendada para minimizar o efeito das diferentes escalas de medidas, fazendo com que todas as variáveis exerçam a mesma importância na definição dos grupos (Cruz & Regazzi, 1997; Barroso & Artes, 2003; Hair et al., 2005; Corrar et al., 2007). Assim, valores distintos de CCC entre medidas de dissimilaridade com e sem padronização são esperados. No entanto, não é o foco deste trabalho julgar a necessidade de padronização desse conjunto de caracteres.

Com raras exceções, o método da ligação média entre grupo a partir das matrizes de distâncias euclidiana, euclidiana média, euclidiana padronizada, euclidiana média padronizada e quadrado da distância euclidiana apresentou maiores coeficientes de correlação cofenética, quando comparado aos demais métodos (Tabelas 2 e 4 ). Portanto, quando a opção for por uma dessas medidas de dissimilaridade, esse método de agrupamento deve ser o preferido, pois proporcionou melhor consistência do padrão de agrupamento. Resultados semelhantes foram observados por Sokal & Rohlf (1962). Por sua vez, os valores do CCC revelaram consistências similares nos padrões de agrupamento entre os oito métodos, quando eles foram expressos pelas matrizes quadrado da distância euclidiana padronizada, Mahalanobis e Mahalanobis padronizada.

De maneira geral, o método da ligação média entre grupo, obtido a partir da matriz de dissimilaridade expressa pelas distâncias euclidiana e euclidiana média, proporcionou maior consistência nos padrões de agrupamento. Diferentes cenários formados pela combinação de distintos números de indivíduos (cultivares), números de variáveis, diferentes graus das escalas de medidas, além do agrupamento por diversos métodos, com base em diferentes medidas de dissimilaridade poderiam ser simulados e estudados antes dessas informações serem generalizadas.

Conclusões

1. Há variabilidade na consistência do padrão de agrupamento de cultivares de feijão (Phaseolus vulgaris L.), obtido a partir da combinação de diferentes medidas de dissimilaridade e métodos de agrupamento.

2. Maior consistência nos padrões de agrupamento de cultivares de feijão é verificada com o método da ligação média entre grupo, obtido a partir da matriz de distância euclidiana.

Agradecimentos

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico, pela concessão de bolsas de estudo aos autores.

Recebido em 15 de outubro de 2009 e aprovado em 29 de janeiro de 2010

  • BARROSO, L.P.; ARTES, R. Análise multivariada Lavras: UFLA, 2003. 151p.
  • BERTAN, I.; CARVALHO, F.I.F. de; OLIVEIRA, A.C. de; VIEIRA, E.A.; HARTWIG, I.; SILVA, J.A.G. da; SHIMIDT, D.A.M.; VALÉRIO, I.P.; BUSATO, C.C.; RIBEIRO, G. Comparação de métodos de agrupamento na representação da distância morfológica entre genótipos de trigo. Revista Brasileira de Agrociência, v.12, p.279-286, 2006.
  • BONETT, L.P.; GONÇALVES-VIDIGAL, M.C.; SCHUELTER, A.R.; VIDIGAL FILHO, P.S.; GONELA, A.; LACANALLO, G.F. Divergência genética em germoplasma de feijoeiro comum coletado no estado do Paraná, Brasil. Semina: Ciências Agrárias, v.27, p.547-560, 2006.
  • CARGNELUTTI FILHO, A.; RIBEIRO, N.D.; JOST, E. Número necessário de experimentos para a análise de agrupamento de cultivares de feijão. Ciência Rural, v.39, p.371-378, 2009a.
  • CARGNELUTTI FILHO, A.; RIBEIRO, N.D.; REIS, R.C.P. dos; SOUZA, J.R. de; JOST, E. Comparação de métodos de agrupamento para o estudo da divergência genética em cultivares de feijão. Ciência Rural, v.38, p.2138-2145, 2008.
  • CARGNELUTTI FILHO, A.; STORCK, L. Estatísticas de avaliação da precisão experimental em ensaios de cultivares de milho. Pesquisa Agropecuária Brasileira, v.42, p.17-24, 2007.
  • CARGNELUTTI FILHO, A.; STORCK, L. Medidas do grau de precisão experimental em ensaios de competição de cultivares de milho. Pesquisa Agropecuária Brasileira, v.44, p.111-117, 2009.
  • CARGNELUTTI FILHO, A.; STORCK, L.; RIBEIRO, N.D. Agrupamento de cultivares de feijão em presença e em ausência de multicolinearidade. Ciência Rural, v.39, p.2409-2418, 2009b.
  • CORRAR, L.J.; PAULO, E.; DIAS FILHO, J.M. Análise multivariada: para os cursos de administração, ciências contábeis e economia. São Paulo: Atlas, 2007. 542p.
  • CRUZ, C.D. Programa GENES: análise multivariada e simulação. Viçosa: UFV, 2006. 175p.
  • CRUZ, C.D.; CARNEIRO, P.C.S. Modelos biométricos aplicados ao melhoramento genético Viçosa: UFV, 2003. 585p.
  • CRUZ, C.D.; REGAZZI, A.J. Modelos biométricos aplicados ao melhoramento genético 2.ed. Viçosa: UFV, 1997. 390p.
  • HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L.; BLACK, W.C. Análise multivariada de dados 5.ed. Porto Alegre: Bookman, 2005. 593p.
  • MALUF, W.R.; FERREIRA, P.E. Análise multivariada da divergência genética em feijão-vagem (Phaseolus vulgaris L.). Horticultura Brasileira, v.1, p.31-34, 1983.
  • MANLY, B.J.F. Métodos estatísticos multivariados: uma introdução. 3.ed. Porto Alegre: Bookman, 2008. 229p.
  • MINGOTI, S.A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada. Belo Horizonte: UFMG, 2005. 297p.
  • MONTGOMERY, D.C.; PECK, E.A. Introduction to linear regression analysis New York: John Wiley & Sons, 1982. 504p.
  • RESENDE, M.D.V. de; DUARTE, J.B. Precisão e controle de qualidade em experimentos de avaliação de cultivares. Pesquisa Agropecuária Tropical, v.37, p.182-194, 2007.
  • SOKAL, R.R.; ROHLF, F.J. The comparison of dendrograms by objective methods. Taxon, v.11, p.33-40, 1962.
  • Datas de Publicação

    • Publicação nesta coleção
      07 Jul 2010
    • Data do Fascículo
      Mar 2010

    Histórico

    • Recebido
      15 Out 2009
    • Aceito
      29 Jan 2010
    Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
    E-mail: pab@embrapa.br