Acessibilidade / Reportar erro

Teste de hipótese sobre o coeficiente de coancestria de populações haplóides

Test of hypothesis on the coefficient of coancestry in haploid populations

Resumos

Neste trabalho foram estudadas as distribuições dos quadrados médios na análise de variância com as freqüências alélicas em amostras de indivíduos extraídas em populações haplóides, procurando avaliar o uso do teste F para testar a hipótese de nulidade do coeficiente de coancestria. Foi demonstrado que as expressões da soma de quadrados entre populações e da soma de quadrados entre indivíduos dentro de populações divididas pelas respectivas esperanças de quadrados médios possuem distribuições dechi² aproximadas, indicando que o quociente entre os quadrados médios na análise de variância tem distribuição F aproximada. Um estudo de simulação foi realizado comparando-se os valores experimentais simulados com os da distribuição teórica de F, procurando-se avaliar a validade das aproximações sugeridas. Os resultados mostraram que o teste F pode ser usado para testar a hipótese de nulidade do coeficiente de coancestria quando se trabalha com pelo menos cinco populações apresentando freqüência alélica média entre 0,3 e 0,7 utilizando-se no mínimo 50 indivíduos.

ascendência; haploidia; genética de população; análise estatística


The distribution of the allelic frequency mean squares in the analysis of variance of samples of individuals from haploid populations were studied to evaluate the Snedecor F test, for testing the null hypothesis relative to the coancestry coefficient. It was found that the distribution of the sum of the squares among populations and the sum of squares among individuals within the populations divided by the respective expected mean squares had distribution following approximately the chi², indicating that the quotient among the mean squares of the analysis of variance approximate the F distribution. A simulation study to validate the suggested approximations, comparing the simulated values to those of the theoretic Fdistribution, was carried out. The results showed that the F test may be used to test the coancestry coefficient null hypothesis, when the allelic frequency is between 0.3 and 0.7, working with 50 individuals.

ancestry; haploidy; population genetics; statistical analysis


Teste de Hipótese sobre o coeficiente de coancestria de populações haplóides(1 (1 ) Aceito para publicação em 11 de fevereiro de 2000. Financiado pelo CNPq )

Joel Augusto Muniz(2 (2 ) Dep. de Ciências Exatas (DEX), Universidade Federal de Lavras (UFLA), Caixa Postal 37, CEP 37200-000 Lavras, MG. Bolsista do CNPq. E-mail: joamuniz @ufla.br, scsartori@hotmail.com, danielff@ufla.br (3 ) DEX, UFLA, E-mail: delly@ufla.br ), Silvio César Sartori Ito(2 (2 ) Dep. de Ciências Exatas (DEX), Universidade Federal de Lavras (UFLA), Caixa Postal 37, CEP 37200-000 Lavras, MG. Bolsista do CNPq. E-mail: joamuniz @ufla.br, scsartori@hotmail.com, danielff@ufla.br (3 ) DEX, UFLA, E-mail: delly@ufla.br ),Daniel Furtado Ferreira(2 (2 ) Dep. de Ciências Exatas (DEX), Universidade Federal de Lavras (UFLA), Caixa Postal 37, CEP 37200-000 Lavras, MG. Bolsista do CNPq. E-mail: joamuniz @ufla.br, scsartori@hotmail.com, danielff@ufla.br (3 ) DEX, UFLA, E-mail: delly@ufla.br ) e Ruben Delly Veiga(3 (2 ) Dep. de Ciências Exatas (DEX), Universidade Federal de Lavras (UFLA), Caixa Postal 37, CEP 37200-000 Lavras, MG. Bolsista do CNPq. E-mail: joamuniz @ufla.br, scsartori@hotmail.com, danielff@ufla.br (3 ) DEX, UFLA, E-mail: delly@ufla.br )

RESUMO - Neste trabalho foram estudadas as distribuições dos quadrados médios na análise de variância com as freqüências alélicas em amostras de indivíduos extraídas em populações haplóides, procurando avaliar o uso do teste F para testar a hipótese de nulidade do coeficiente de coancestria. Foi demonstrado que as expressões da soma de quadrados entre populações e da soma de quadrados entre indivíduos dentro de populações divididas pelas respectivas esperanças de quadrados médios possuem distribuições de c2 aproximadas, indicando que o quociente entre os quadrados médios na análise de variância tem distribuição F aproximada. Um estudo de simulação foi realizado comparando-se os valores experimentais simulados com os da distribuição teórica de F, procurando-se avaliar a validade das aproximações sugeridas. Os resultados mostraram que o teste F pode ser usado para testar a hipótese de nulidade do coeficiente de coancestria quando se trabalha com pelo menos cinco populações apresentando freqüência alélica média entre 0,3 e 0,7 utilizando-se no mínimo 50 indivíduos.

Termos para indexação: ascendência, haploidia, genética de população, análise estatística.

Test of hypothesis on the coefficient of coancestry in haploid populations

ABSTRACT - The distribution of the allelic frequency mean squares in the analysis of variance of samples of individuals from haploid populations were studied to evaluate the Snedecor F test, for testing the null hypothesis relative to the coancestry coefficient. It was found that the distribution of the sum of the squares among populations and the sum of squares among individuals within the populations divided by the respective expected mean squares had distribution following approximately the c2, indicating that the quotient among the mean squares of the analysis of variance approximate the F distribution. A simulation study to validate the suggested approximations, comparing the simulated values to those of the theoretic Fdistribution, was carried out. The results showed that the F test may be used to test the coancestry coefficient null hypothesis, when the allelic frequency is between 0.3 and 0.7, working with 50 individuals.

Index terms: ancestry, haploidy, population genetics, statistical analysis.

INTRODUÇÃO

O conhecimento da estrutura genética fornece importantes subsídios para o entendimento da dinâmica evolutiva de populações, permitindo a estimação de parâmetros utilizados na área de Genética e Melhoramento de Plantas em estudos com as diversas espécies. A estimação de parâmetros genéticos de uma população com dados de freqüências alélicas, de acordo com Vencovsky (1992) e Weir (1996), pode ser feita no caso de populações diplóides utilizando a análise de variância em relação a uma variável binária y, que assume o valor 1, quando um determinado alelo, por exemplo A1 de um loco, está no indivíduo e assume o valor zero, quando este alelo está ausente e presentes os alelos A2, A3, ..., Au.

A técnica de análise é a mesma da Estatística Experimental, em que é feita a associação de um modelo aleatório que descreva a estrutura apresentada pelos dados. Esta técnica foi proposta inicialmente por Cockerham (1969), associando-se os conceitos de correlação como medida da probabilidade de identidade por descendência. No processo de estimação dos parâmetros, ocorrem algumas dificuldades, pois a variável indicadora y não apresenta distribuição normal. Além disto, em muitos casos os estimadores obtidos pelo método dos momentos correspondem ao quociente entre variáveis aleatórias que não têm distribuição estatística definida.

Cockerham & Weir (1983) apontaram os coeficientes de endogamia e de coancestria, bem como outras medidas de identidade por descendência dos genes, como parâmetros importantes em genética quantitativa e de populações. Esses parâmetros são úteis para informar sobre homozigosidade, deriva, endogamia e variação quantitativa. De acordo com Cockerham (1969), os conceitos e a maior parte da teoria envolvendo coancestria, endogamia, variância das freqüências alélicas e seus correspondentes tamanhos efetivos de população se deve aos trabalhos clássicos de Fisher & Wright.

Falconer (1964), e Hartl & Clark (1989) definiram endogamia como o acasalamento entre indivíduos relacionados por ascendência, tendo como primeiro efeito uma mudança nas freqüências genotípicas de Hardy-Weinberg, devido a um aumento na freqüência de genótipos homozigóticos à custa da freqüência de genótipos heterozigóticos.

Reynolds et al. (1983) utilizaram o coeficiente de coancestria q como base para uma medida da distância genética da evolução a curto prazo, quando a divergência entre populações com um ancestral comum pode ser considerada como sendo exclusivamente devido à deriva.

Weir & Cockerham (1984) consideraram, para o caso de um dos alelos de um loco, as seguintes definições e notações: F,a correlação entre genes dentro de indivíduos ou endogamia; q,a correlação entre genes de diferentes indivíduos da mesma população ou coancestria, e f,a correlação entre genes dentro de populações. Os três parâmetros correspondem às estatísticas F de Wright da seguinte forma:

F = FIT9, q = FST e f = FIS.

Os três parâmetros se relacionam através da expressão:

f = (F - q)/(1 - q).

Para testar a nulidade do coeficiente de endogamia de uma população diplóide com dois alelos, utilizando-se a análise de variância com as freqüências alélicas de um grupo de n indivíduos, Cockerham (1969) sugeriu admitir que o quociente envolvendo os quadrados médios entre indivíduos e dentro de indivíduos tem distribuição de F aproximada, podendo-se aplicar o teste F de Snedecor.

Muniz et al. (1999) avaliaram o teste F proposto por Cockerham (1969) para testar o coeficiente de endogamia de uma população diplóide. Os autores verificaram que o teste F pode ser utilizado quando a freqüência alélica da população estiver entre 0,3 e 0,7 trabalhando-se com pelo menos 30 indivíduos, entre 0,25 e 0,75 com pelo menos 50 indivíduos, e entre 0,20 e 0,80 com pelo menos 100 indivíduos.

O objetivo do presente trabalho foi estudar as expressões das distribuições dos quadrados médios na análise de variância das freqüências alélicas de amostras de indivíduos extraídas de populações haplóides, para avaliar a validade do uso do teste F para testar a nulidade do coeficiente de coancestria.

MATERIAL E MÉTODOS

No caso de populações de indivíduos haplóides com dois alelos, a descrição de amostras de indivíduos pode ser feita por:

Yij = p + ai + e(i)j,

sendo:

Yij a freqüência alélica do indivíduo j dentro da população i, correspondente aos valores de uma variável binária que assume o valor 1 se o alelo for A, e o valor zero, em caso contrário;

p a freqüência alélica média de todas as populações;

ai o efeito da população i, com i = 1, 2, ..., r;

e(i)j o efeito do indivíduo j dentro da população i, com j = 1, 2, ..., n.

Este modelo é considerado aleatório, e apresenta todos os parâmetros independentes, e portanto:

sendo q o coeficiente de coancestria entre os indivíduos das populações. As fontes de variação e as esperanças dos quadrados médios da análise de variância relativa ao modelo de acordo com Weir (1996) estão na Tabela 1.

Na Tabela 1, as expressões de E[QM] mostram que para testar a hipótese de nulidade do coeficiente de coancestria

H0: q = 0,

deve-se assumir que o quociente

C = QMP/QMI

tem distribuição F de Snedecor com v1=r1 e v2=r(n1) graus de liberdade.

A discussão sobre a validade deste critério é feita a partir do estudo das distribuições das somas de quadrados envolvidos, as quais, conforme o model o são definidas por:

SQPopulações:

e

SQIndivíduos / populações =

sendo:

a freqüência associada ao alelo A na amostra de indivíduos da população i;

a freqüência associada ao alelo A nos indivíduos amostrados em todas as populações.

O teste F foi avaliado por um estudo de simulação, utilizando-se um programa desenvolvido no software SAS (Statistical Analysis System), comparando-se a distribuição do quociente entre quadrados médios com a distribuição F de Snedecor, em diferentes combinações de tamanho de amostra e freqüências alélicas. Foram construídos conjuntos de três, cinco e dez populações com mesma freqüência alélica, isto é, admitindo-se a hipótese H0: q = 0, com as seguintes freqüências alélicas médias (p):0,10, 0,20, 0,30, 0,40, 0,50, 0,60, 0,70, 0,80 e 0,90 e simulados 1.000 experimentos para cada grupo de populações (r =3, 5 e 10), considerando-se os seguintes números de indivíduos (n) amostrados com reposição:10, 20, 30, 40, 50, 100 e 200, totalizando-se 279.000 experimentos em todos os grupos de populações.

Na simulação de cada experimento, utilizou-se a função RANUNI (SAS Institute, 1990) na geração dos efeitos aleatórios. Essa função produz valores de uma variável aleatória com distribuição uniforme no intervalo entre zero e 1.

Em cada tamanho de amostra, foram calculadas, nos 1.000 experimentos, as estatísticas: média , variância (s2), percentil 95 (P95) e percentil 99 (P99) para a abscissa na distribuição F de Snedecor associada à variável aleatória, nível de significância (ns), definida em linguagem SAS por:

ns = 1 - Prob F (x; ngl; dgl), sendo:

,

a probabilidade obtida diretamente no SAS, de que uma variável aleatória tendo distribuição F de Snedecor, com n graus de liberdade no numerador e d graus de liberdade no denominador, assuma valores menores que um determinado x, obtido em cada experimento pelo quociente

Os resultados das estatísticas nos 1.000 experimentos para cada conjunto de população, nos diversos tamanhos de amostra, foram comparados com os valores teóricos da distribuição F de Snedecor.

RESULTADOS E DISCUSSÃO

Subtraindo-se e somando-se a freqüência alélica média de todas as populações, p, na expressão que define a soma de quadrados de populações (SQP), na análise de variância da Tabela 1, obtém-se:

Admitindo a hipótese de nulidade do coeficiente de coancestria, H0: q = 0, a expressão que define a esperança do quadrado médio de populações na Tabela 1, corresponde a:

E[QMP] = p(1 - p),

podendo-se escrever a seguinte expressão:

Pode-se demonstrar que a freqüência associada ao alelo A na amostra de indivíduos tomada na população , tem distribuição binomial com média p e variância p(1 - p)/n, e que a freqüência associada ao alelo A nos indivíduos amostrados em todas as populações tem distribuição binomial com média p e variância p(1 - p)/rn e, em conseqüência Z1i e Z2 tem, respectivamente, distribuição aproximadamente normal com média zero e variância 1, se a hipótese de nulidade H0: q = 0 for verdadeira e se as freqüências e forem estimadas em amostras grandes extraídas de populações com a freqüência alélica média p que garanta a validade do teorema do limite central. Para estas condições, tem distribuição de c2 aproximada, com r graus de liberdade, enquanto Z22 tem distribuição de c2 aproximada com um grau de liberdade, e, conseqüentemente,

e

Pelo mesmo raciocínio, subtraindo-se e somando-se a freqüência paramétrica, p, na expressão que define a soma de quadrados de indivíduos dentro de populações (SQI), na análise de variância da Tabela 1, obtém-se:

Assumindo a hipótese de nulidade do coeficiente de coancestria, H0: q = 0, a expressão que define a esperança do quadrado médio de indivíduos dentro de populações na Tabela 1, pode ser escrita como

E [QMI] = p(1-p),

podendo-se escrever o seguinte quociente:

A freqüência alélica do indivíduo j dentro da população i, yij, corresponde aos valores de uma variável binária, que tem distribuição de Bernoulli com média p e variância p(1 - p). Mas a média da variável Zij é E[Zij]=0 e a variância é Var[Zij]=1, e portanto, Zij tem média e variância iguais à média e variância de uma distribuição normal padronizada, e, conseqüentemente,

,

corresponde à soma de rn valores ao quadrado de uma variável com as características semelhantes a uma distribuição normal padronizada, podendo ser considerada como uma variável com características semelhantes a uma c2 com rn graus de liberdade.

Portanto,

,

indicando que

.

Considerando mais uma vez a hipótese de nulidade H0:q = 0, então

E[QMP] = E[QMI] = p(1-p), e, conseqüentemente,

,

e portanto, os resultados obtidos no desenvolvimento teórico mostram que o quociente QMP/QMI na análise de variância apresentada na Tabela 1 tem distribuição aproximada de F, podendo ser usado como teste para a hipótese de nulidade H0: q = 0. Este teste F tem utilidade no estudo de estrutura de populações, quando se utilizam dados de freqüências alélicas.

A Tabela 2 apresenta os valores da média e da variância da distribuição F de Snedecor obtidos na análise de variância com três, cinco e dez populações haplóides, variando-se o número de indivíduos. Os valores foram obtidos usando-se as expressões teóricas:

, sendo:

n o número de graus de liberdade associados ao resíduo;

m o número de graus de liberdade associados a populações.

As Tabelas 3, 4 e 5 ilustram a distribuição dos valores da abcissa associada à variável aleatória nível de significância (ns), obtida em estudo de simulação para validação dos resultados teóricos, envolvendo amostras de diversos tamanhos, extraídas, respectivamente, em três, cinco e dez populações haplóides com dois alelos variando-se freqüências alélicas.

Comparando-se os valores das estatísticas: média, variância, percentil 0,95 e percentil 0,99 obtidos para a variável nível de significância nos 1.000 experimentos simulados nos diversos tamanhos de amostra e números de populações (Tabelas 3, 4 e 5), com os valores teóricos da distribuição F de Snedecor (Tabela 2), percebe-se que utilizando-se 50 indivíduos, o critério sugerido por Cockerham (1969) apresentou estatísticas similares à distribuição F quando as populações apresentaram freqüência alélica média entre 0,30 e 0,70, desde que o número de indivíduos seja de no mínimo 50. Neste caso, o teste F pode ser usado para testar a hipótese de nulidade H0: q = 0 associada ao coeficiente de coancestria de populações haplóides.

Para tamanho de amostra inferior a 50, ou nos casos em que as populações apresentaram frequência alélica média fora do intervalo (0,30; 0,70), as estatísticas obtidas no estudo de simulação não concordaram com os valores teóricos da distribuição de F. Neste caso, a utilização do teste F para testar a nulidade do coeficiente de coancestria não seria válida.

CONCLUSÃO

O teste F de Snedecor pode ser usado para testar a nulidade do coeficiente de coancestria de populações haplóides, desde que se tenham pelo menos cinco populações com freüência alélica média entre 0,3 e 0,7, trabalhando-se no mínimo com 50 indivíduos.

  • COCKERHAM, C.C. Variance of gene frequency. Evolution, Lawrence, v.23, n.1, p.72-74, 1969.
  • COCKERHAM, C.C.; WEIR, B.S. Variance of actual inbreeding. Theoretical Population Biology, San Diego, v.23, n.1, p.85-109, 1983.
  • FALCONER, D.S. Introduction of quantitative genetics New York : Ronald, 1964. 365p.
  • HARTL, D.L.; CLARK, A.G. Principles of population genetics Sunderland : Sinauer Associates, 1989. 681p.
  • MUNIZ, J.A.; BARBIN, D.; VENCOVSKY, R.; VEIGA, R.D. Teste de hipótese sobre o coeficiente de endogamia de uma populaçăo diplóide. Cięncia e Agrotecnologia, Lavras, v.23, n.2, p.410-420, 1999.
  • REYNOLDS, J.; WEIR, B.S.; COCKERHAM, C.C. Estimation of the coancestry coefficient: basis for a short-term genetic distance. Genetics, Bethesda, v.105, p.767-779, 1983.
  • SAS INSTITUTE (Cary, Estados Unidos). Statistical analysis system/graph software: reference: version 6. Cary, 1990. v.1, p.794.
  • VENCOVSKY, R. Análise de variância de freqüęncias alélicas. Brazilian Journal of Genetics, Ribeirăo Preto, v.15, n.1, p.56-60, 1992. Suplemento.
  • WEIR, B.S. Genetic data analysis II:methods for discrete population genetic data. Sunderland : Sinauer Associates, 1996. 445p.
  • WEIR, B.S.; COCKERHAM, C.C. Estimating F-statistics for the analysis of population structure. Evolution, Lawrence, v.38, n.6, p.1358-1370, 1984.
  • (1
    ) Aceito para publicação em 11 de fevereiro de 2000.
    Financiado pelo CNPq
  • (2
    ) Dep. de Ciências Exatas (DEX), Universidade Federal de Lavras (UFLA), Caixa Postal 37, CEP 37200-000 Lavras, MG. Bolsista do CNPq. E-mail:
    (3
    ) DEX, UFLA, E-mail:
  • Datas de Publicação

    • Publicação nesta coleção
      23 Maio 2001
    • Data do Fascículo
      Jan 2001

    Histórico

    • Recebido
      11 Fev 2000
    Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
    E-mail: pab@embrapa.br