Acessibilidade / Reportar erro

Análise exploratória de conjuntos de dados obtidos durante a maturação de sementes de milho

Exploratory data analysis from data set of corn seed maturation

Resumos

O objetivo deste trabalho foi o de indicar, ou não, distribuições alternativas e assimétricas para a análise de dados que foram obtidos com os testes de germinação, frio e envelhecimento, peso de matéria seca e porcentagem de umidade medidos durante a maturação de sementes de milho. Para isto foi realizada uma análise exploratória dos dados obtidos de um experimento em que foram semeados três híbridos em três épocas distintas e cujas plantas tiveram as espigas amostradas dentro de cada parcela. O intervalo de coleta variou em quatro dias começando após o 23º e terminando no 59º dia após o florescimento. As distribuições estudadas foram a Normal, a Lognormal, a de Gumbel e a de Weibull. O valor numérico do logaritmo da função verossimilhança foi usado como indicativo do grau de ajustamento. Os resultados indicaram que distribuições diferentes da Normal podem ser uma alternativa para dados em porcentagem obtidos durante a maturação. O maior valor do logaritmo da função de verossimilhança foi obtido com o ajuste da distribuição de Gumbel para os dados germinativos em percentagem e a de Weibull para o peso da matéria seca acumulada e porcentagem de umidade.

maturação; sementes; milho; distribuições estatísticas; germinação; vigor


This exploratory data analysis indicated the alternative use of asymetrical statistical distribution for data analysis from time to flowering until seed maturation is achieved. It was used data from the seed germination test, vigor tests, moisture content and seed dry weight as dependent variables. The hybrids corn seeds were planted in three diferent times of seeding and samples of plants were taken in each plot. The time interval of four days between each sample was used, starting in the 23rd and finishing in the 59th. The Normal, Lognormal, Gumbel and Weibull distribution was used to determine the highest numerical value of the loglikelihood as a test of goodness of fit. The highest numerical value of the loglikelihood was provided by the Gumbel distribution fit to the proportional data set but the seed dry weight and water content had a best fit to the Weibull distribution.

seed maturation; corn; statistical distributions; seeds; germination; vigour


Análise exploratória de conjuntos de dados obtidos durante a maturação de sementes de milho

Exploratory data analysis from data set of corn seed maturation

Carlos Alberto ScapimI; Terezinha Aparecida GuedesII, José Walter Pedroza CarneiroIII; Alessandro de Lucca e BracciniIV; Denilson do AmaralV

IDr., Prof. de Genética e Melhoramento de Plantas da UEM, Av. Colombo 5790, 87020-900, Maringá-PR

IIDrª em Engenharia de Produção, Profª do Depto. de Estatística da UEM

IIIMSc. em Fitotecnia, Prof. de Tecnologia de Sementes da UEM

IVDr. em Fitotecnia, Prof. de Tecnologia de Sementes da UEM; e-mail: albracini@uol.com.br

VMSc. em Agronomia, funcionário da UEM; e-mail: denamaral@ig.com.br

RESUMO

O objetivo deste trabalho foi o de indicar, ou não, distribuições alternativas e assimétricas para a análise de dados que foram obtidos com os testes de germinação, frio e envelhecimento, peso de matéria seca e porcentagem de umidade medidos durante a maturação de sementes de milho. Para isto foi realizada uma análise exploratória dos dados obtidos de um experimento em que foram semeados três híbridos em três épocas distintas e cujas plantas tiveram as espigas amostradas dentro de cada parcela. O intervalo de coleta variou em quatro dias começando após o 23º e terminando no 59º dia após o florescimento. As distribuições estudadas foram a Normal, a Lognormal, a de Gumbel e a de Weibull. O valor numérico do logaritmo da função verossimilhança foi usado como indicativo do grau de ajustamento. Os resultados indicaram que distribuições diferentes da Normal podem ser uma alternativa para dados em porcentagem obtidos durante a maturação. O maior valor do logaritmo da função de verossimilhança foi obtido com o ajuste da distribuição de Gumbel para os dados germinativos em percentagem e a de Weibull para o peso da matéria seca acumulada e porcentagem de umidade.

Termos para indexação: maturação, sementes, milho, distribuições estatísticas; germinação e vigor.

ABSTRACT

This exploratory data analysis indicated the alternative use of asymetrical statistical distribution for data analysis from time to flowering until seed maturation is achieved. It was used data from the seed germination test, vigor tests, moisture content and seed dry weight as dependent variables. The hybrids corn seeds were planted in three diferent times of seeding and samples of plants were taken in each plot. The time interval of four days between each sample was used, starting in the 23rd and finishing in the 59th. The Normal, Lognormal, Gumbel and Weibull distribution was used to determine the highest numerical value of the loglikelihood as a test of goodness of fit. The highest numerical value of the loglikelihood was provided by the Gumbel distribution fit to the proportional data set but the seed dry weight and water content had a best fit to the Weibull distribution.

Index terms: seed maturation, corn, statistical distributions, seeds, germination, vigour.

INTRODUÇÃO

Durante a maturação ocorre, em cada semente, uma série de modificações morfológicas, fisiológicas e funcionais (Popinigis, 1977). São transformações que necessitam ser estabilizadas quando estão maximizadas para que a população de sementes tenha condições qualitativas apropriadas no momento da semeadura.

Nos experimentos sobre maturação de sementes, são tomadas medidas de percentagens de ocorrências germinativas, do acúmulo de matéria seca, da porcentagem de umidade, e medidas adicionais de vigor usando as porcentagens de ocorrências germinativas após o uso do teste do frio (Cícero & Vieira, 1994) ou do envelhecimento precoce (Marcos-Filho, 1994).

A metodologia para escolher o melhor momento para a colheita das sementes é bastante conhecida e antiga no Brasil (Popinigis, 1977) e não carece de comentários adicionais. A metodologia para tratar os dados coletados é ainda merecedora de uma análise adicional. A literatura agronômica que trata deste tipo de avaliação assume que todo conjunto de dados atende aos pré-requisitos para o uso da distribuição Normal e para a aplicação dos testes de média, principalmente os de Tukey e Duncan, que estão generalizados na literatura tecnológica de sementes. Quando não, modelos lineares são ajustados aos dados obtidos no decorrer do tempo em que foram realizadas as amostragens (Santos, 1998).

Todavia, a literatura que orienta a análise de dados, de natureza biológica (Scheiner, 1993) e que pode perfeitamente ser extendido para a área agronômica, sugere uma seqüência metodológica que tem o seu início com a realização de uma análise exploratória. Esta é uma abordagem que não tem feito parte do "modus operandis" da análise de dados que é praticada na tecnologia de sementes. A análise exploratória é uma abordagem biométrica em que métodos gráficos (http://www.itl.nist.gov/div898/handbook/eda/section1/eda123.htm) procuram focalizar os dados coletados e relatá-los no que diz respeito à sua estrutura, pontos discrepantes e modelos sugeridos (http://www.itl.nist.gov/div898/handbook/eda/section1 /eda122.htm) pelo conjunto que está sendo analisado. A principal vantagem disto é tornar possível a escolha de modelos com significado biológico ou agronômico e com propriedades estatísticas que permitam, também, estimativas seguras dos parâmetros que serão usados para tomadas de decisões.

Relatos anteriores (Carneiro et al., 2001) têm indicado que as ocorrências germinativas, expressas em porcentagem, podem não ter aderência à distribuição Normal e isto sugere cautela com conjuntos de dados germinativos provenientes de outros experimentos.

O objetivo deste trabalho foi o de mostrar alternativas diferentes da distribuição Normal e que podem ser usadas para descrever conjuntos de dados obtidos, também, durante a maturação de sementes de milho.

MATERIAL E MÉTODOS

Os dados utilizados nesta análise foram obtidos de um experimento montado na fazenda experimental da Coodetec, em Cascavel, no Paraná, em uma área com solo roxo distrófico, na latitude de 24°56'S; na longitude de 53°26' e a 760m de altitude.

Foram semeados dois híbridos simples, CD 1723 e CD 5501 e um duplo, OC 705, de milho (Zea mays L.) em 30 de setembro de 1996; 28 de outubro de 1996 e 20 de novembro de 1996. Cada parcela, com 18m2 de área útil, continha cinco plantas por metro, adubadas com 240kg.ha-1 da fórmula 4-20-20 no plantio e 140kg.ha-1 de sulfato de amônio aplicado aos 30 dias após a emergência. Foram realizadas duas capinas para o controle de ervas daninhas (Santos, 1998). Nas parcelas foi realizada a casualização dos híbridos em função de cada época de plantio e no tempo foram realizadas amos-tragens usando intervalos regulares de quatro dias, com início 23 dias após o florescimento feminino e término aos 59.

Após cada coleta, foram realizados os testes de germinação com oito repetições de cinquenta sementes por rolo de papel do tipo germitest, umedecido com água destilada e deionizada numa quantidade equivalente a três vezes o peso do papel e foram colocados em germinadores a 25±1ºC, durante sete dias (Brasil, 1992), quando as plântulas normais foram avaliadas; o teste do frio foi realizado com oito repetições de cinquenta sementes, em rolos de papel do tipo germitest, sem solo, com os sacos plásticos colocados em câmara de germinação regulada a 10ºC, durante sete dias e depois transferidos para a temperatura de 25±1ºC. As contagens foram no quarto dia após a transferência (Cícero & Vieira, 1994 e Krzyzanowski et al. (1999); teste de envelhecimento com oito repetições de cinquenta sementes colocadas em uma câmara regulada a 42ºC, durante 96 horas (Marcos-Filho, 1994; Krzyzanowski et al., 1991). A matéria seca acumulada foi determinada com duas amostras de 200 sementes, usando uma balança com a precisão de milésimos de grama; a porecentagem de umidade foi determinado usando uma estufa com circulação forçada de ar regulada para 105±3ºC, durante 24 horas (Brasil, 1992).

Os demais procedimentos agronômicos antes e durante o crescimento das plantas utilizadas neste experimento podem ser obtidos consultando Santos (1998) que deu origem aos conjuntos de dados usados neste trabalho.

Numa primeira etapa, histogramas para verificar a existência de assimetria, ou não, foram construídos. Foi realizada, uma análise para verificar o ajuste do conjunto de dados à distribuição Normal usando para isto rotinas estatísticas disponíveis no SYSTAT (Wilkinson, 1990). Numa segunda etapa, cada conjunto foi ajustado à distribuições simétricas e assimétricas com o objetivo de verificar qual delas, em particular, é capaz de descrever com mais propriedade cada variável.

As medidas obtidas foram ajustadas a quatro distribuições estatísticas. No caso de uma distribuição simétrica foi usada a função de densidade de probabilidade da distribuição Normal em que

No caso de distribuições assimétricas, as funções de densidade de probabilidade da distribuição Lognormal é igual a

enquanto que a de Gumbel é

A parametrização da distribuição de Weibull ajustada neste trabalho é

O significado biológico de cada parâmetro usado para parametrizar cada distribuição pode ser encontrado na literatura (Mead, Curnow & Hasted, 1993; Carneiro, 1994; Gumbel, 1958 e Jonhson & Kotz, 1970a-b).

Histogramas da distribuição com melhor poder de aderência aos dados foram construídos para melhorar a visualização de cada conjunto usado nesta abordagem.

O ajustamento destas funções de distribuição à cada conjunto de dados foi obtido pelo método de máxima verossimilhança (Cooke et al., 1993) usando a rotina VTFIT. O valor numérico do logaritmo da função de máxima verossimilhança,

foi usado com indicativo do grau de ajustamento (Cooke, 1993 e Worley et al., 1990). Esta estimativa, que pode ser um número negativo, indica que quanto melhor é o ajuste conseguido maior é o valor obtido.

RESULTADOS E DISCUSSÃO

Os histogramas (a,b,c) na Figura 1 não sugerem a normalidade dos dados germinativos obtidos durante o tempo necessário para a ocorrência da maturação destas sementes de milho. Existe claramente uma assimetria à direita que é confirmada pelas curvas de probabilidade (a,b,c) na Figura 2. Pequenas assimetrias à esquerda também são observadas. Na Figura 2d é possível ver as porcentagens de umidade. É a melhor aderência à distribuição Normal dentre as quatro variáveis descritas por porcentagem e indicadas nesta Figura. Percebe-se, todavia, maiores freqüências nas extremidades conforme sugere a forma do histograma d da Figura 1. Isto cria a necessidade de se aprofundar mais nesta avaliação e o resultado disto será mostrado mais à frente.



Na Figura 3 estão os resultados obtidos com a matéria seca acumulada. Este é um caso típico em que a distribuição dos dados tem maior peso nas extremidades do que teria caso os dados seguissem a distribuição Normal (Neter et al., 1995). É possível comparar a similaridade deste histograma com outros de caráter didático e existentes na literatura (Mead et al., 1993; Sokal & Rohlf, 1981 e Neter et al., 1995). Ele sugere que existem fortes probabilidades de ocorrência de valores nas extremidades da distribuição. Apesar disto, tanto para a porcentagem de umidade quanto para a matéria seca acumulada, é possível destacar que existe mais proeminência no caso da matéria seca acumulada (Figura 3). No caso da umidade é possível afirmar que estes dados ocorreram com menor freqüência. No todo, estes são resultados que sugerem o uso de modelos diferentes para analisar cada conjunto de dados de um mesmo experimento.


Na Tabela 1 estão os resultados do logaritmo da função de verossimilhança obtidos com o ajuste do conjunto de dados às distribuições Normal, Lognormal, Gumbel e Weibull. O que estes resultados indicam é que existem alternativas assimétricas que favorecem mais os resultados e que podem ser usadas para analisar estes dados.

A distribuição com o maior valor do logarítmo da função de verossimilhança é a distribuição de Gumbel, para os dados germinativos expressos em porcentagem. A distribuição Normal teve o pior desempenho. Isto vem reforçar a falta de Normalidade que existe nestes conjuntos de dados em que os resultados são medidos em porcentagem (Scott et al., 1984 e Collet, 1993).

O peso da matéria seca foi melhor descrito pela distribuição Normal do que pela distribuição de Gumbel, mas a de Weibull teve a estimativa do logaritmo da função de verossimilhança ainda maior. É provável que isto se deva à maior flexibilidade da distribuição de Weibull que possui, no parâmetro que mede o desvio (spread), a causa do observado. Neste caso esta estimativa foi de 4,01 (Tabela 2). É um valor próximo a 3,6 e com o qual a distribuição de Weibull se aproxima da Normal. Havendo opção pelo uso da distribuição Normal é preciso ressaltar que a média da matéria seca observada foi de 0,2072g e o desvio padrão foi de 0,059 e que está bastante longe da média. Isto não inviabiliza o uso do valor médio destas observações, mas o coeficiente de variação foi igual a 28,75%. Para dados como estes, que possuem assimetria, a distribuição de Weibull é uma alternativa ao uso da distribuição Normal (http://home.clara.net.sisa/weibhlp.htm). Não se pode desprezar, também, numa análise como esta, que a repetição da amostragem no tempo, um fator sempre presente na estrutura experimental deste tipo de trabalho (Fox, 1993), pode ser o grande responsável pelo desempenho assimétrico que foi observado. Para superar isto é possível usar técnicas especiais de análises e que serão sugeridas ao final deste trabalho.

Na Figura 4 estão os histogramas e as curvas de densidade de probabilidades (a,b,c) obtidas com a distribuição de Gumbel para os dados em percentagem e na Figura 5 estão a de Weibull para os dados de matéria seca (a) e porcentagem de umidade (b). É provável que a forma acumulativa dos dados obtidos durante o processo de maturação seja a principal causa responsável por este desempenho favorável à Weibull. Isto poderá ser ressaltado pelo uso de modelos não lineares e capazes de descrever este tipo de conjunto de dados. O uso de curvas de resposta tem sido uma excelente opção (Potvin et al., 1990) e podem ser usadas neste caso.



Observando os parâmetros que foram estimados com a distribuição de Gumbel (Tabela 2) verifica-se um aumento, no valor da estimativa do parâmetro responsável pela dispersão dos dados ajustados à esta distribuição à medida que os resultados dos testes de germinação, frio e envelhecimento foram sendo usados. O teste que proporcionou maiores aumentos na dispersão dos dados foi o de envelhecimento.

Entender esta variação é um campo de trabalho muito promissor e que trará respostas surpreendentes para a tecnologia de sementes. O parâmetro de escala obtido mudou de 17,43, quando estimado com os dados do teste de germinação (TG), para 21,87, para os dados do teste de envelhecimento (TE). Com o ajuste da distribuição Normal a estimativa do coeficiente de variação aumentou de 29,52% para 47,74%, resultado das avaliações obtidas com esses dois testes (TG e TE). Observando a Figura 1c é possível atribuir às medidas próximas de zero, primeira coluna à esquerda, como as responsáveis, em parte, pela dispersão observada.

O que estes resultados sugerem é que deve existir uma cautela antes do uso da análise de variância convencional para avaliar, até mesmo, a matéria seca durante experimentos de maturação. Os percentuais germinativos devem ser submetidos à uma análise que permita o uso de dados que não sigam a distribuição Normal. Existem, neste caso, mais duas opções, além da curva de resposta, já citada. A primeira, é o uso de modelos lineares generalizados enquanto que a segunda usa modelos loglineares com possibilidade do ajuste da distribuição de Weibull. A forma da distribuição de Weibull (Demétrio, 1993) não permite o seu ajuste usando a primeira sugestão. O segundo caso é uma boa opção quando o erro segue a distribuição de Gumbel (Collet, 1994). Os efeitos de híbridos podem ser comparados por variáveis "dummy" e separados uns dos outros enquanto que a evolução do processo de maturação pode ser modelado usando regressões não lineares (Potvin et al., 1990) que geralmente possuem um maior poder de explicação do que as lineares.

O que se espera com este tipo de relato é alertar sobre a possibilidade de se poder fazer o uso de outras distribuições estatísticas. Estes resultados não encerram a busca por outras distribuições, diferentes das que aqui foram estudadas, e que possam a vir a ser motivo de investigação. Isto deve ser incentivado, na medida do possível.

CONCLUSÕES

♦ Outras distribuições diferentes da Normal podem ser usadas para descrever dados de maturação de sementes de milho;

♦ a distribuição de Gumbel possui o maior valor da função de verossimilhança para as porcentagens de ocorrências germinativas;

♦ a distribuição de Weibull pode ser uma alternativa para dados acumulados de matéria seca e percentagem de umidade de sementes de milho.

Aceito para publicação em 29.12.2001.

  • BRASIL. Ministério da Agricultura e da Reforma Agrária. Regras para análises de sementes Brasília, SNDA/DNDV/CLAV, 1992, 365p.
  • CARNEIRO, J.W.P. Avaliaçăo do desempenho germinativo de acordo com os parâmetros da funçăo de distribuiçăo de Weibull. Informativo Abrates, Londrina, v.4, n.2, p.75-83, 1994.
  • CÍCERO, S. & VIEIRA, R.D. Teste de frio. In: Vieira, R.D. & CARVALHO, N.M. (eds.). Testes de vigor em sementes Jaboticabal: Funep, 1994. p.151-164.
  • COLLET, D. Modeling binary data London: CRC Press, 1993. 369p.
  • COLLET, D. Modeling survival data in medical research London: Chapman & Hall, 1994. 347p.
  • COOKE, R.A.; MOSTAGHIMI, S. & WOESTE, F.E. VTFIT: A microcomputer-based routine for fitting probability distribution functions to data. American Society of Agricultural Engineers, St.Joseph, v.9, n.4, p.401-408, 1993.
  • COOKE, R.A. VTFIT: a routine for fitting homogenous probability density functions. User documentation Blacksburg: Department of Agricultural Engineering. Virginia Polytecnic Institute, 1993. 21p.
  • DEMÉTRIO, C.G.B. Modelos lineares generalizados na experimentaçăo agronômica. In: Simpósio de estatística aplicada ŕ experimentaçăo agronômica, 5, Porto Alegre, 1993. Resumos Porto Alegre: UFRGS, IM, DE, 1993. p.1-125.
  • DIXON, W.J. & MERDIEN, K. ANOVA and regression with BMDP 5V Los Angeles: Dixon Statistical Associates, 1992. 193p.
  • ELLISON, A.M. Exploratory data analysis and graphic display. In: Scheiner, S.M. & Gurevitch, J. (eds.). Design and analysis of ecological experiments New York: Chapman & Hall, 1993. p.14-45.
  • FOX, A.G. Failure-time analysis, emergence, flowering, survivorship, and other waiting times. In: Scheiner S.M. & Gurevitch, J. (eds.). Design and analysis of ecological experiments N. York: Chapman & Hall, 1993. p.253-289.
  • GUMBEL, E.J. Statistics of extremes New York: Columbia University Press, 1958. 357p.
  • JOHNSON, N.L. & KOTZ, S. Weibull distribution In: Distribution in statistics: continous univariate distribution, 1 New York: J. Willey & Sons, 1970a. p.250-271.
  • JOHNSON, N.L., & KOTZ, S. Extreme value distribution In: Distribution in statistics: continous univariate distribution, 1 New York: J. Willey & Sons, 1970b. p.272-295.
  • KRZYZANOWSKI, F.C.; VIEIRA, R.D. & FRANÇA-NETO, J.B. Vigor de sementes: conceitos e testes Londrina: Abrates, 1999. 218p.
  • MARCOS-FILHO, J. Teste de envelhecimento acelerado In: VIEIRA, R.D. & CARVALHO, N.M. (eds.). Testes de vigor em sementes Jaboticabal: Funep, 1994. p.133-149.
  • MEAD, R.; CURNOW, R.N. & HASTED, A.M. Statiscal methods in agriculture and experimental biology London: Chapman & Hall, 1993. 335p.
  • NETER, J.; KUTNER, M.H.; NACHTSHEIN, C.J. & WASSERMAN, W. Applied linear statistical models 4.ed. Chicago: IRWIN, 1996. 1408p.
  • POPINIGIS, F. Fisiologia da semente Brasília: AGIPLAN, 1977. 289p.
  • POTVIN, C.; LECHOWICZ, M.J. & TARDIF, S. The statistical analysis of ecophysiological response curves obtained from experiments involving repeated measures. Ecology, Washington, v.71, n.4, p.1389-1400, 1990.
  • SANTOS, C.T. Linha de solidificaçăo do endosperma como indicativo da qualidade fisiológica de sementes para a colheita de tręs híbridos de milho (Zea mays L.) Maringá: UEM, 1998. 91p. (Dissertaçăo Mestrado).
  • SCHEINER, S.M. Introduction: theories, hypotheses, and statistics. In: Scheiner, S.M. & Gurevitch, J. (eds.). Design and analysis of ecological experiments New York: Chapman & Hall, 1993. p.46-68.
  • SCOTT S.J.; JONES, R.A. & WILLIAMS, W.A. Review of data analysis methods for seed germination. Crop Science, Madson, v.24, n.2, p.1192-1199, 1984.
  • SOKAL, R.R. & ROHLF, J.F. Biometry New York: W.H. Freeman, 1981. 859p.
  • WILKINSON, L. Systat: The system for statistics Evanston: Systat Inc., 1990. 677p.
  • WORLEY, J.W.; BOLLINGER, J.A.; WOESTE, F.E. & KLINE, K.S. Graphic distribution analysis (GDA). American Society of Agricultural Engineers, St. Joseph, v.6, n.3, p.367-371, 1990.

Datas de Publicação

  • Publicação nesta coleção
    20 Abr 2011
  • Data do Fascículo
    2002
Associação Brasileira de Tecnologia de Sementes R. Raja Gabaglia, 1110 , 86060-190 Londrina - PR Brasil, Tel./Fax: (55 43) 3025 5120 - Londrina - PR - Brazil
E-mail: abrates@abrates.org.br