Acessibilidade / Reportar erro

Método alternativo para análise de agrupamento

Alternative methodology for the cluster analysis

Resumos

O objetivo deste trabalho foi propor uma alteração no procedimento de agrupamento realizado pelo método de Tocher, passando-o de método simultâneo (original) para seqüencial. Para ilustrar e comparar os métodos, foram realizadas simulações de coleções de acessos com diferentes características, tanto para avaliação individual quanto para avaliação de experimentos com repetições. As simulações e as análises estatísticas foram realizadas com auxílio do programa GENES. O número de grupos formados com o método de Tocher seqüencial foi menor que o número de grupos formados pelo método de Tocher original. No método de Tocher seqüencial, não foi verificada influência dos genótipos já agrupados, no agrupamento dos genótipos mais distantes. O limite de acréscimo na média da distância intragrupo, estimado após a formação de um novo grupo, constitui uma estimativa da dissimilaridade existente entre os acessos dos grupos. O agrupamento dos genótipos com maior dissimilaridade é realizado com maior eficácia pelo método de Tocher seqüencial do que pelo método de Tocher original.

método de Tocher original; método de Tocher seqüencial; formação de grupos; genótipos


The objective of this work was to propose an alteration in the clustering procedure accomplished by the Tocher method, changing it from a simultaneous to a sequential method. Accession collections were generated through simulation to illustrate and compare the original and the sequential methodologies. In each collection, different characteristics for individual data as well as experiments with repetition were evaluated. The simulations and the statistical analyses were accomplished using the GENES applicative. The number of groups formed with the sequential method was smaller than the number formed with the original Tocher method. The genotypes clustering were not influenced by the most distant genotype when the sequential method was used. The increment limit in the mean of the intra-group distance, estimated after the formation of a new group, is an estimative of dissimilarity between the group's accessions. The sequential Tocher method grouped genotypes comprising higher dissimilarity with more effectiveness than the original Tocher method.

original Tocher method; sequential Tocher method; clustering; genotypes


GENÉTICA

Método alternativo para análise de agrupamento

Alternative methodology for the cluster analysis

Edmar Soares de Vasconcelos; Cosme Damião Cruz; Leonardo Lopes Bhering; Márcio Fernando Ribeiro Resende Júnior

Universidade Federal de Viçosa, Dep. de Biologia Geral, Bioagro, Av. P.H. Rolfs, s/nº, CEP 36571-000 Viçosa, MG. E-mail: vasconceloses@yahoo.com.br, cdcruz@ufv.br, leobhering@yahoo.com.br, marciopac@hotmail.com

RESUMO

O objetivo deste trabalho foi propor uma alteração no procedimento de agrupamento realizado pelo método de Tocher, passando-o de método simultâneo (original) para seqüencial. Para ilustrar e comparar os métodos, foram realizadas simulações de coleções de acessos com diferentes características, tanto para avaliação individual quanto para avaliação de experimentos com repetições. As simulações e as análises estatísticas foram realizadas com auxílio do programa GENES. O número de grupos formados com o método de Tocher seqüencial foi menor que o número de grupos formados pelo método de Tocher original. No método de Tocher seqüencial, não foi verificada influência dos genótipos já agrupados, no agrupamento dos genótipos mais distantes. O limite de acréscimo na média da distância intragrupo, estimado após a formação de um novo grupo, constitui uma estimativa da dissimilaridade existente entre os acessos dos grupos. O agrupamento dos genótipos com maior dissimilaridade é realizado com maior eficácia pelo método de Tocher seqüencial do que pelo método de Tocher original.

Termos para indexação: método de Tocher original, método de Tocher seqüencial, formação de grupos, genótipos.

ABSTRACT

The objective of this work was to propose an alteration in the clustering procedure accomplished by the Tocher method, changing it from a simultaneous to a sequential method. Accession collections were generated through simulation to illustrate and compare the original and the sequential methodologies. In each collection, different characteristics for individual data as well as experiments with repetition were evaluated. The simulations and the statistical analyses were accomplished using the GENES applicative. The number of groups formed with the sequential method was smaller than the number formed with the original Tocher method. The genotypes clustering were not influenced by the most distant genotype when the sequential method was used. The increment limit in the mean of the intra-group distance, estimated after the formation of a new group, is an estimative of dissimilarity between the group's accessions. The sequential Tocher method grouped genotypes comprising higher dissimilarity with more effectiveness than the original Tocher method.

Index terms: original Tocher method, sequential Tocher method, clustering, genotypes.

Introdução

Estudos de dissimilaridade atendem a determinados objetivos dos melhoristas por propiciarem informações acerca do grau de semelhança ou de diferença entre dois ou mais genótipos. Entretanto, o número de estimativas de dissimilaridade obtido é relativamente elevado quando se tem grande número de genótipos, o que torna, às vezes, impraticável o reconhecimento de grupos homogêneos por um simples exame visual. Portanto, o uso de métodos que agrupem os genótipos pode ser uma das melhores alternativas para análise e interpretação dos dados (Cruz & Carneiro, 2006).

Há inúmeros métodos de agrupamento, que se distinguem pelo tipo de resultado a ser fornecido e pelas diferentes formas de definir a proximidade entre um indivíduo e um grupo já formado, ou entre dois grupos quaisquer. Entre esses métodos, o de Tocher apresenta uma inconveniência no agrupamento dos genótipos com maior dissimilaridade: na maioria dos casos, cada genótipo forma um grupo específico (um grupo de apenas um genótipo) em virtude de este agrupamento ser influenciado pela distância dos genótipos já agrupados.

O método de agrupamento por otimização ou método de Tocher, apresentado em Cruz & Carneiro (2006), constitui um método de agrupamento simultâneo, o qual realiza a separação dos genótipos em grupos de uma só vez. Esse método utiliza um único critério de agrupamento e possui a particularidade de apresentar a distância média dentro dos grupos sempre menor que a distância média entre os grupos.

O método de Tocher vem sendo amplamente empregado no estudo da divergência genética entre acessos. A exemplo do trabalho de Souza et al. (2005), que avaliaram a divergência genética entre 31 genótipos de melancia, por meio de técnicas de agrupamento e de variáveis canônicas. No trabalho de Oliveira et al. (2004), também utilizou-se o método de Tocher na avaliação de divergência genética entre genótipos de alface. Silva et al. (2005) utilizaram esse método a fim de avaliar a diversidade genética de genótipos de cana-de-açúcar. Marchioro et al. (2003) utilizaram o método de agrupamento de Tocher para avaliação da dissimilaridade genética entre genótipos de aveia. Em tomateiro, Karasawa et al. (2005) usaram esse método para avaliar a divergência genética entre acessos de bancos de germoplasma, permitindo indicação de genitores potenciais para a utilização em programas de melhoramento.

No estudo de diversidade genética, pode-se, ainda, utilizar o método de agrupamento de Tocher com critério de aglomeração inverso (Vasconcelos et al., 2007). Por meio desse processo procura-se realizar o agrupamento de indivíduos com maior dissimilaridade. O método, com tais características, foi proposto, principalmente, para avaliação de acessos de bancos de germoplasma visando a estabelecer uma coleção nuclear.

O objetivo deste trabalho foi propor alteração no procedimento de agrupamento realizado pelo método de Tocher, passando-o de método simultâneo para seqüencial. Esta proposta muda a forma de agrupamento dos indivíduos e estabelece grupos que possam propiciar maior interesse em certas áreas da pesquisa, por melhorar o agrupamento entre os indivíduos mais divergentes.

Material e Métodos

Para ilustrar a comparação entre os métodos de Tocher original e seqüencial, foi utilizado um exemplo em que foram simulados valores de sete variáveis para 30 tratamentos (acessos), cujas médias e variâncias são apresentadas na Tabela 1.

No método de otimização de Tocher, realiza-se a partição do conjunto de acessos em subgrupos não-vazios e mutuamente exclusivos, por meio da maximização ou minimização de alguma medida preestabelecida. Nesse método, adota-se o critério de que a média das medidas de dissimilaridade, dentro de cada grupo, deve ser menor que as distâncias médias entre quaisquer grupos.

A partir de uma matriz de dissimilaridade, identificou-se o par de acessos mais similar. Esses acessos formaram o grupo inicial. Em seguida, se avaliou a possibilidade de inclusão de novos acessos, de forma que a distância média dos acessos dentro do grupo fosse menor que as distâncias médias entre quaisquer grupos.

Nesse método, adotou-se o valor máximo da medida de dissimilaridade encontrado no conjunto das menores distâncias envolvendo cada progenitor (designado por a, para os dados avaliados, correspondeu a a = 1,076, acessos 27 e 29) (Tabela 2) como o limite de acréscimo na média da distância intragrupo, ou seja, para a formação ou inclusão de acesso a um grupo.

Na formação do grupo 1, foram selecionados acessos com distâncias menores, no caso, os acessos 17 e 23 com distância de 0,124, menor que o valor de a estabelecido. Uma vez formado este grupo, obtiveram-se as medidas de dissimilaridade entre os acessos e o grupo recém-formado, por meio de d(ij)k = dik + d jk, em que d é qualquer medida de dissimilaridade.

Com base nas distâncias entre acessos-grupo, constatou-se, no exemplo, que o acesso 20 foi o mais similar (menor valor de d(ij)k) ao grupo inicial. O acréscimo médio no valor da distância dentro do grupo foi dado por:

,

em que C3,2 e C2,2 são combinações de três, dois a dois, e de dois, dois a dois, respectivamente.

Como o valor de d(17,23)20 = 0,3345 é inferior a a, a inclusão do acesso 20 no grupo inicial foi permitida. Novamente, foram obtidas as distâncias dos acessos ainda não agrupados, em relação ao grupo em formação e, da mesma forma, se realizou novo teste, a fim de incluir um outro acesso ao grupo em formação. Quando, na inclusão de um novo acesso ao grupo inicial, obtinha-se um valor no acréscimo da distância, dentro do grupo, superior ao valor de a, o acesso não entrava no grupo e fechava, assim, o grupo 1.

A formação do grupo 2 ocorreu de forma semelhante à do grupo 1, porém com uso da matriz de dissimilaridade apenas dos genótipos ainda não agrupados, contudo, com base no mesmo valor de a.

Se o valor do acréscimo da distância intragrupo fosse menor ou igual ao valor de a, o acesso testado entraria no grupo e a inclusão de novos acessos era testada. Contudo, se o valor de acréscimo médio na distância dentro do grupo superasse o valor de a, então, o grupo era fechado e o acesso avaliado, excluído. A formação dos demais grupos foi realizada de maneira similar à descrita para o grupo 2. O agrupamento de Tocher original, para os dados analisados, está apresentado na Figura 1.


No método de Tocher seqüencial, a obtenção de a e a formação do grupo 1 foi realizada da mesma forma descrita no item anterior, porém, para a formação do grupo 2, foi obtido um novo valor de a, voltando assim ao início da divisão em grupos (antes da formação do grupo 1). A matriz, da qual se extraiu o novo valor de a, era composta apenas pelos acessos ainda não-agrupados. Assim, esse valor de a foi obtido do valor máximo da medida de dissimilaridade, encontrado no conjunto das menores distâncias, envolvendo cada progenitor ainda não-agrupado. Isso propicia um novo valor do critério de agrupamento após a formação de cada novo grupo, e não um critério único, conforme o método de Tocher original. Dessa forma, o método de Tocher passou a ter característica de um método seqüencial (Figura 2).


Com a finalidade de exemplificar a comparação dos métodos e avaliar a eficácia dos agrupamentos, foi realizado um estudo do agrupamento de pontos estrategicamente conhecidos e em um espaço bidimensional (para apenas duas variáveis X e Y) (Figura 3). Na Figura 3 A, os pontos encontram-se distribuídos de maneira a se obter uma estrutura quadrada. Na Figura 3 B, além da estrutura quadrada, foram acrescentados pontos distantes dessa estrutura a fim de verificar se possuíam influência no agrupamento inicial. Na Figura 3 C, os pontos encontram-se distribuídos de maneira a se obter uma estrutura circular, e acrescentaram-se novos pontos distantes dos iniciais para verificar a influência no agrupamento (Figura 3 D).





Na obtenção de maior destaque entre os agrupamentos obtidos pelos métodos de Tocher original e seqüencial, realizou-se a avaliação de outros dois grupos de genótipos, também em um espaço bidimensional (Figura 4).




Com a finalidade de estabelecer outro exemplo do emprego dos métodos discutidos neste trabalho, foram simuladas cinco variáveis para uma coleção de 100 acessos, em que as médias e as respectivas variâncias se encontram apresentadas na Tabela 3. Realizou-se, ainda, a simulação de um experimento em delineamento em blocos ao acaso, constituído de 50 tratamentos, com quatro repetições. As características deste experimento, com genótipos de alface (Tabela 4), foram retiradas do trabalho de Oliveira et al. (2004). As simulações e as análises estatísticas foram realizadas com auxílio do programa GENES (Cruz, 2006).

Resultados e Discussão

Na Figura 3, são apresentados os genótipos simulados para duas variáveis (X e Y), em que é possível verificar que não existe diferença no padrão de agrupamentos entre os métodos de Tocher original e o seqüencial, tanto para o esquema na forma quadrática quanto na forma circular. O agrupamento manteve o padrão apresentado inicialmente, mesmo quando foram incluídos pontos distantes dos agrupados inicialmente, isto para ambos os métodos de agrupamento empregados (comparação da Figura 3 A com Figura 3 B e da Figura 3 C com Figura 3 D). Estes resultados evidenciam que o método de agrupamento de Tocher seqüencial pode proporcionar resultados semelhantes ao do método de Tocher original, dependendo dos materiais avaliados.

Na Figura 4 A, os genótipos agrupados pelo método original geraram sete grupos. Na Figura 4 B os mesmos genótipos, submetidos ao método seqüencial, geraram um agrupamento diferente do anterior. O método de agrupamento de Tocher seqüencial além de manter a característica de menor distância dentro do grupo do que entre grupos ainda propiciou um agrupamento dos genótipos com maior proximidade com a inclusão, por exemplo, do genótipo 9 no grupo 3, além da formação de novo grupo com os genótipos 15 e 16.

Com relação à Figura 4 C e D , pode ser verificado que nos grupos 1 e 2 não houve diferença para os diferentes métodos de agrupamento. Contudo, o método de Tocher original agrupou apenas os genótipos 7, 9 e 10 no grupo 3, ao passo que o método seqüencial, além dos genótipos 7, 9 e 10, também agrupou o 8 e o 6 nesse grupo, o que seria esperado, já que os genótipos são apresentados próximos no gráfico. Esses resultados evidenciam que o método de agrupamento de Tocher seqüencial, neste caso, foi melhor que o método de Tocher original, já que dispôs genótipos de maior proximidade em grupos semelhantes.

Na Figura 4, era esperado que os genótipos de maior proximidade estivessem em um mesmo grupo, o que foi observado com o uso do método Tocher seqüencial, enquanto o método original separou esses genótipos em maior número de grupos. O método Tocher seqüencial, portanto, apresentou um melhor desempenho, neste caso, do que o método simultâneo.

O agrupamento dos 150 acessos simulados é apresentado na Tabela 5. Estes resultados possibilitam afirmar que o agrupamento pelo método de Tocher seqüencial reduziu o número de grupos formados, quando comparado ao método original (o que era esperado, já que os genótipos já agrupados não afetam o agrupamento dos demais), além de ser obtido aumento no valor máximo da medida de dissimilaridade, presente no conjunto das menores distâncias envolvendo cada progenitor (valor de a) na formação de novos grupos. Assim, à medida que se realiza o agrupamento dos acessos, reduz-se a exigência no acréscimo médio da distância, proporcionado pela inclusão de um novo acesso ao grupo em formação.

O critério de seleção, neste trabalho, possibilitou agrupar genótipos que apresentaram comportamentos próximos, mas que, por apresentarem distância maior que a distância entre grupos próximos, seriam agrupados separadamente pelo método de Tocher original. O valor máximo da medida de dissimilaridade encontrado no conjunto das menores distâncias, envolvendo cada progenitor ainda não-agrupado, é restabelecido após a formação de um novo grupo. Dessa forma, não existe influência dos genótipos já agrupados no agrupamento dos demais, pelo método de Tocher seqüencial.

O valor de a, estimado após a formação de um novo grupo, no método seqüencial, teve relação apenas com os acessos ainda não-agrupados, não dependendo do grupo 1, o qual possui a menor distância média entre os acessos, tendo menor valor de a. O último grupo (no nosso exemplo o grupo 10) é o que teve maior distância média intragrupo, que é dependente de a.

Os resultados obtidos pelo emprego dos métodos de Tocher original e seqüencial, sobre os dados simulados com as características de variáveis de alface avaliadas por Oliveira et al (2004), encontram-se apresentados na Tabela 6. O número de grupos formados pelo método de Tocher seqüencial também foi menor que o número de grupos formados pelo método de Tocher original. O valor de a aumentou com a formação dos grupos, ou seja, o grupo 1 foi formado utilizando-se um valor de a menor que o utilizado para a formação do grupo 4, uma vez que a formação do grupo 4 não foi influenciada pelos genótipos integrantes do grupo 1.

Conclusões

1. Na utilização do método de Tocher seqüencial não existe influência dos genótipos já agrupados.

2. O valor de a, estimado após a formação de um novo grupo, possui proporcionalidade quanto à dissimilaridade existente entre os acessos dos grupos.

3. O agrupamento dos genótipos com maior dissimilaridade é realizado com maior eficácia pelo método de Tocher seqüencial.

Recebido em 10 de julho de 2007 e aprovado em 31 de agosto de 2007

  • CRUZ, C.D. Programa GENES: análise multivariada e simulação. Viçosa: UFV, 2006. 175p.
  • CRUZ, C.D.; CARNEIRO, P.C.S. Modelos biométricos aplicados ao melhoramento genético 2.ed. Viçosa: UFV, 2006. 585p.
  • KARASAWA, M.; RODRIGUES, R.; SUDRÉ, C.P.; SILVA, M.P.; RIVA, E.M.; AMARAL JÚNIOR, A.T. Aplicação de métodos de agrupamento na quantificação da divergência genética entre acessos de tomateiro. Horticultura Brasileira, v.23, p.1000-1005, 2005.
  • MARCHIORO, V.S.; CARVALHO, F.I.F. de; OLIVEIRA, A.C. de; CRUZ, P.J.; LORENCETTI, C.; BENIN, G.; SILVA, J.A.G. da; SCHMIDT, D.A.M. Dissimilaridade genética entre genótipos de aveia. Ciência e Agrotecnologia, v.27, p.285-294, 2003.
  • OLIVEIRA, A.C.B. de; SEDIYAMA, M.A.N.; PEDROSA, M.W.; GARCIA, N.C.P.; GARCIA, S.L.R. Divergência genética e descarte de variáveis em alface cultivada sob sistema hidropônico. Acta Scientiarum Agronomy, v.26, p.211-217, 2004.
  • SILVA, C.M.; GONÇALVES-VIDIGAL, M.C.; VIDIGAL FILHO, P.S.; SCAPIM, C.A.; DAROS, E.; SILVÉRIO, L. Genetic diversity among sugarcane clones (Saccharum spp.). Acta Scientiarum Agronomy, v.27, p.315-319, 2005.
  • SOUZA, F.F.; QUEIRÓZ, M.A.; DIAS, R.S.C. Divergência genética em linhagens de melancia. Horticultura Brasileira, v.23, p.179-183, 2005.
  • VASCONCELOS, E.S. de; CRUZ, C.D.; BHERING, L.L. FERREIRA, A. Estratégias de amostragem e estabelecimento de coleções nucleares. Pesquisa Agropecuária Brasileira, v.42, p.507-514, 2007.
  • Datas de Publicação

    • Publicação nesta coleção
      22 Out 2007
    • Data do Fascículo
      Out 2007

    Histórico

    • Aceito
      31 Out 2007
    • Recebido
      10 Jul 2007
    Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
    E-mail: pab@embrapa.br