SciELO - Scientific Electronic Library Online

 
vol.37 issue9Morphological components and forage production of oat (Avena strigosa, Schreb) and annual ryegrass (Lolium multiflorum, Lam) pasture managed at different heightsSwine deep bedding amendment and legume sod-seeding to increase production and quality of natural pasture author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

  • Portuguese (pdf)
  • Article in xml format
  • How to cite this article
  • SciELO Analytics
  • Curriculum ScienTI
  • Automatic translation

Indicators

Related links

Share


Revista Brasileira de Zootecnia

Print version ISSN 1516-3598On-line version ISSN 1806-9290

R. Bras. Zootec. vol.37 no.9 Viçosa Sept. 2008

https://doi.org/10.1590/S1516-35982008000900003 

FORRAGICULTURA

 

Técnicas de análises exploratórias em dados de cultivares de alfafa

 

Exploratory data analysis techniques in cultivars of alfalfa

 

 

Alfredo Ribeiro de FreitasI; Waldomiro Barioni JúniorI; Reinaldo de Paula FerreiraI; Cosme Damião CruzII; Adônis MoreiraIII; Duarte VilelaIV

IEmbrapa Pecuária Sudeste, Caixa Postal 339, CEP: 13560-970, São Carlos, SP, Brasil
IIDepartamento de Biologia Geral da UFV, CEP: 36570-000, Viçosa, MG, Brasil
IIIEmbrapa Pecuária Sudeste, Caixa Postal 339, CEP: 13560-970, São Carlos, SP, Brasil. Pesquisador do CNPq
IVEmbrapa Gado de Leite, Rua Eugênio do Nascimento, 610 - Dom Bosco, CEP: 36038-330, Juiz de Fora, MG, Brasil

 

 


RESUMO

Objetivou-se utilizar técnicas de análises exploratórias em dados da produção de matéria seca (PMS) de 16 cortes de 92 cultivares de alfafa (Medicago sativa L.). A produção de matéria seca variou entre e dentro de cortes, uma vez que os coeficientes de variação oscilaram de 17,7% (corte 2) a 51,7% (corte 9). De modo geral, os dados de produção obtidos nos 16 cortes não se ajustaram à distribuição normal. Os coeficientes de simetria foram negativos nos cortes 1 a 4, 10 a 12, 14 a 16, enquanto os coeficientes de curtose foram negativos nos cortes 1, 9, 10, 12 e 16. As estimativas robustas do desvio-padrão obtidas por quatro métodos diferiram do desvio-padrão clássico (S) em todos os cortes, indicando que a estimativa S deve ser substituída por estimadores robustos.

Palavras-chave: medidas robustas de escalas, produção de matéria seca, testes de locação, testes de normalidade


ABSTRACT

The objective was to utilize exploratory data analysis techniques for evaluating dry matter production (DMP) obtained from 16 cuts of 92 accessions of alfalfa (Medicago sativa L.). A significant effect on DMP was observed both within and among cuts; the coefficient of variation ranged from 17.7% (cut 2) to 51.7% (cut 9). The DMP data obtained from 16 cuts of 92 accessions of alfalfa did not fit to the normal distribution. The skewness coefficients were negative for dry matter production data in cuts 1 to 4, 10 to 12, and 14 to 16, while kurtosis coefficients were negative in cuts 1, 9, 10, 12, and 16. Robust estimates of standard deviation obtained from four different methods were different from the traditional standard (S) in all cuts, showing that estimate S should be replaced by these robust estimators in statistical analysis.

Key Words: dry mater production, location tests, robust measures of scale, tests for normality


 

 

Introdução

O uso de alfafa em sistemas intensivos de produção de leite tem despertado o interesse de produtores, principalmente no estado de São Paulo, onde a atividade passa por crises e tem desaparecido em determinadas regiões. No entanto, a pecuária leiteira deve ser mantida, não só para atender ao mercado consumidor, mas também como alternativa de diversificação das propriedades rurais do estado. A alfafa, por ser uma forrageira de alta produção de matéria seca (MS) e elevada qualidade nutricional, pode ser uma alternativa na alimentação animal (Vilela, 1998).

Na pesquisa tem sido comum avaliar o comportamento de cultivares por meio do rendimento de MS determinado com cortes sucessivos no período das águas e da seca. É fundamental realizar um mínimo de medições, de modo que a seleção seja feita com acurácia e menor custo em termos de tempo e mão-de-obra. Esses dados, no entanto, em virtude da variabilidade inerente ao material e de problemas de coleta, podem apresentar outliers, correlações absurdas, afastamento da distribuição normal, heterogeneidade de variâncias, grau acentuado de simetria e de curtose, entre outras características que podem ocultar resultados importantes e influenciar as inferências obtidas. Essas anomalias em análises multivariadas são mais problemáticas que nas univariadas.

Com o propósito de conhecer adequadamente a natureza de variação dos dados de produção de matéria seca (PMS) de 16 cortes de 92 cultivares de alfafa (Medicago sativa L.) e proceder ao refinamento metodológico de modo a obter estimativas mais confiáveis, foram utilizadas técnicas de análises exploratórias de dados, que podem ser definidas como o conjunto de procedimentos e de técnicas de manejo de dados com os objetivos de construir gráficos e tabelas sem envolver grande teorização sobre o assunto; fornecer contribuições valiosas para avaliar a qualidade dos dados; gerenciar e monitorar a precisão da coleta dos dados; e calibrar instrumentos de mensuração, entre outros. Em síntese, a análise exploratória investiga características latentes nos dados que indiquem possíveis padrões, tendências ou modelos (Hartwig & Dearing, 1979; Cleveland, 1994; Digby & Kempton, 1996; Gower & Hand, 1996; Pearson, 2001; SAS, 2002-2003) e difere da análise clássica (AC) quanto à sequência de atividades. Na análise clássica, a seqüência é: problema => dados => modelo => análises => conclusões; na análise exploratória, é: problema => dados => análises => modelo => conclusões.

Este trabalho foi realizado com os objetivos de: analisar os dados por meio de diagramas de caixa (box-plots) e de dispersão (scatter plot) para visualizar a dispersão dos dados, detectar padrões de tendências, medidas de locação, grau e direção da simetria, presença de outliers, entre outras; comparar os testes de normalidade; obter estimadores robustos da média e do desvio-padrão das características; com base nas análises exploratórias, propor soluções para atender às pressuposições básicas de um modelo misto em estudos longitudinais; e propor alternativas de modelos de análise.

 

Material e Métodos

Utilizou-se o diagrama de caixa (Box-plot) para revelar características importantes, como a dispersão dos dados em torno da média, o grau e a direção da simetria, a existência de heterogeneidade de variâncias e a presença de outliers (Cleveland, 1994; Digby & Kempton, 1996; Gower & Hand. 1996). Possíveis outliers foram determinados a partir de quatro pontos calculados no gráfico: L1 = Q1-1,5(Q3-Q1); L2 = Q1-3,0(Q3-Q1); U1 = Q3+1,5(Q3-Q1) e U2 = Q3+3,0(Q3-Q1). Q1 e Q3 são os elementos de posição 25 e 75% da amostra ordenada e correspondem, respectivamente, ao primeiro e terceiro quartil. L1 e U1 são as delimitações internas; e L2 e U2 as delimitações externas. Neste trabalho, os dados menores que L2 e maiores que U2 foram considerados dados discrepantes da amostra (outliers).

Foram estudados a média aritmética, a mediana, a variância, o desvio-padrão, o erro-padrão da média, o coeficiente de variação e as medidas de simetria e de curtose. A mediana corresponde ao elemento de posição 50% da amostra ordenada. Se a distribuição é simétrica, a média é igual à mediana; se é assimétrica positiva, a média é maior que a mediana; e se é assimétrica negativa, a média é menor que a mediana.

Cinco testes de normalidade foram utilizados: Shapiro-Wilks (S-W) - apropriado para tamanho amostral menor ou igual a 2.000 (Bonett & Seierb, 2002). Testa a hipótese nula de que uma amostra x1, ... , xn pertence a uma população com distribuição normal e utiliza a estatística W (0 < W < 1); se W é igual a 1, os dados ajustam perfeitamente à distribuição normal, enquanto valores pequenos de W são evidências de desvios da normalidade; Kolmogorov-Smirnov (K-S) - avalia a discrepância entre a distribuição empírica Fn(y) e a distribuição normal considerada referência F(y), com parâmetros m e s estimados pela média e pelo desvio-padrão amostral; testa a hipótese Ho: Fn(y) = F(y) versus Ha: Fn(y) # F(y) e é mais sensível em pontos próximos da mediana da distribuição que nas caudas; Cramer-von Mises (W2) – é uma alternativa do teste de K-S; Anderson-Darling (A2) – usado para testar se uma amostra de dados pertence a uma distribuição específica.

Com exceção do Shapiro-Wilks, esses testes são apropriados para amostras grandes. Em todos os testes, a hipótese nula a ser testada é que os dados em estudo correspondem a uma amostra aleatória proveniente de uma distribuição normal.

O desvio-padrão amostral tradicional (S) é comumente usado para obter inferências de uma população, pois, juntamente com a média, caracterizam uma distribuição. Como o S é sensível a outliers, é importante o uso de estimadores robustos para esta estatística, principalmente para grandes arquivos de dados coletados em condições de campo, cuja qualidade muitas vezes é insatisfatória. Cinco estatísticas foram utilizadas para obter um estimador robusto do desvio-padrão: a) intervalo interquartílico, que é a diferença entre os quartis superior e inferior de uma distribuição: (Q3–Q1); b) diferença média de

Gini (G), em que G é dado por G =

c) desvio absoluto da mediana (DAM) - DAM = mediana i |yi - mediana j (yj)|, em que a mediana j (yj) é a mediana das n observações e a mediana i é a mediana dos n valores absolutos dos desvios em relação à mediana j. Para uma população normal, o estimador robusto do desvio-padrão pode ser obtido, respectivamente, por (Q3 – Q1)/1,34898, √ πG/2 e 1,4826DAM. Como a estatística DAM é pouco eficiente para a distribuição normal e inapropriada para distribuições simétricas, duas alternativas foram estudadas: Sn e Qn.

 

Resultados e Discussão

Na Figura 1 é apresentado o diagrama de caixa dos 16 cortes de alfafa. A linha horizontal cheia no meio da caixa indica a mediana, que é o elemento de posição 50% ou segundo quartil (Q2). As partes inferior e superior da caixa correspondem, respectivamente, ao quartil Q1 e Q3. As caixas estreitas (whiskers) acima e abaixo da caixa central possuem distância não superior a 1,5 vezes a distância interquartílica (Q1-Q3). Marcações individuais nos extremos das caixas estreitas são consideradas dados discrepantes da amostra. Os maiores valores de produção de PMS diferiram entre os cortes e, pela ordem, foram obtidos nos corte 2, 1, 3, 13, 14 e 15, enquanto os menores foram obtidos nos cortes 9, 8, 7, 6 e 16. Exceto os cortes 1 e 10 (Figura 1A), marcações individuais com prováveis ocorrências de outliers são observadas em todos os cortes.

 

 

Na Figura 1 consta o diagrama após a eliminação dos outliers conforme delimitações internas (L1 e U1) e externas (L2 e U2) do diagrama de caixa (Tabela 1). Os critérios são rigorosos para um dado ser considerado discrepante da amostra, isto é, ser menor que L2 ou maior que U2. No caso dos cortes 7, 8, 9 e 10, por exemplo, a produção de MS, kg/ha, deveria ser negativa. Para ser considerado outlier, como no corte 1, a PMS, kg/ha, deveria ser menor que 31,43 ou maior que 4.435,09.

 

 

A produção de matéria seca diferiu entre e dentro de cortes, uma vez que os coeficientes de variação (Tabela 2) oscilaram de 17,7% (corte 2) a 51,7% (corte 9). Nos cortes 2, 4, 5, 8, 9, 13, 14, observou-se a ocorrência de outliers. Nos dados originais, a média foi maior que a mediana nos cortes 3, 4, 6, 7, 8, 9, 15 e 16 e caracterizou-se simetria positiva e menor que a mediana nos cortes 1, 2, 5, 10, 11, 12, 13 e 14, caracterizando-se simetria negativa. A estimativa dessas estatísticas após a retirada dos outliers acarretou simetria nos dados, pois houve equivalência entre média e mediana sensível e também redução nos coeficientes de variação.

Os coeficientes de simetria foram negativos nos cortes 1 a 4, 10 a 12, 14 a 16 (Tabela 3). A simetria é uma medida da forma de distribuição dos dados quanto à distribuição da curva normal. Os resultados indicam que a cauda desta curva é viezada à esquerda. Do mesmo modo, os coeficientes de curtose foram negativos nos cortes 1, 9,10, 12 e 16 e indicam que a distribuição é mais achatada que a normal (platicúrtica). A curtose é uma medida do grau de achatamento de uma distribuição em relação à curva normal. Segundo Cochran & Cox (1978), a simetria, a curtose e a não-normalidade dos dados afetam as inferências obtidas, a estimação dos efeitos fixos, o uso dos testes t e F e a heterogeneidade da variância do erro e são mais problemáticas em análises multivariadas.

 

 

Pelo teste de Shapiro-Wilks, analisou-se a distribuição dos dados de produção de matéria seca dos cortes, considerando ordem de afastamento da distribuição normal os cortes 3, 7, 1, 10, 11, 16, 6, 12, 15, 4, 5, 14, 13, 9, 8 e 2 (Tabela 4). Por meio desse teste, usam-se a estatística W (0< W < 1) e sua probabilidade (0< Prob < 1); valores próximos de zero, tanto para a estatística quanto para sua probabilidade, indicam que a distribuição dos dados se afasta da curva normal. A retirada dos outliers melhorou a aproximação dos dados à distribuição normal, no entanto, no corte 5, a estatística W passou de 0,0001 para 0,8633 e, no corte 13, de <0,0001 para 0,3061, ou seja, a distribuição dos dados foi aproximadamente normal.

Nos dados observados, houve tendência de as estimativas obtidas pelo método tradicional ser inferiores às estimativas robustas nos cortes 1, 9, 10, 12 e 16; superior nos cortes 2, 4, 5, 8, 13 e 14; e semelhante nos demais. Quando os outliers foram eliminados, as estimativas robustas obtidas pela maioria dos métodos diminuíram.

De modo geral, as estimativas robustas do desvio-padrão proporcionadas pelos métodos diferiram das estimadas pelo método tradicional (S), indicando que o uso desse método nas aplicações estatísticas para eliminar dados extremos de uma amostra (média + 3S) e em rotinas para simular dados com distribuição normal nos testes de hipóteses de médias, nos intervalos de confiança, entre outras aplicações, deve ser substituído pelos estimadores robustos. Segundo Hartwig & Dearing (1979), os desvios-padrão e as correspondentes variâncias são sensíveis a dados extremos, falta de normalidade, dados assimétricos e presença de outliers. Singha & Nocerinob (2002), em pesquisa com dados de contaminantes ambientais censorados, obtiveram estimativas confiáveis de parâmetros populacio-nais de média e desvio-padrão. Segundos esses autores, após a eliminação de outliers, é possível obter estimativas robustas que correspondam às estimativas clássicas.

 

Tabela 5

 

Conclusões

A aplicação das técnicas de análises exploratórias na avaliação da produção de matéria seca de alfafa indicou grande variabilidade entre os cortes em 92 cultivares, o que sugere boas possibilidades de sucesso no melhoramento genético. Observaram-se valores negativos e positivos para os coeficientes de simetria e de curtose, não ajuste dos dados de produção de matéria seca à distribuição normal e diferença do desvio-padrão clássico em relação aos estimadores robustos para esta estatística. Portanto, na análise de dados de produção de matéria seca em alfafa, o uso de estatísticas descritivas para a retirada de outliers, transformação de dados e uso de desvio-padrão robusto pode ser uma atividade de rotina anterior à escolha do modelo de análise: problema => dados => análises => modelo => conclusões.

 

Literatura Citada

BONETT, D.G.; SEIERB, E. A test of normality with high uniform power. Computational Statistics & Data Analysis, v.40, n.3, p.435-445, 2002.         [ Links ]

CLEVELAND, W.S. The elements of graphing data. New Jersey: AT&T Bell Laboratories; Murray Hill, 1994. 297p.         [ Links ]

COCHRAN, W.G.; COX, D.F. Deseno experimentales. Mexico: Trillas, 1978. 661p.         [ Links ]

DIGBY, P.G.N.; KEMPTON, R.A. Multivariate analysis of ecological communities. London: Chapman & Hall, 1996. 206p.         [ Links ]

GOWER, J.C.; HAND, D.J. Biplots. London: Chapman & Hall, 1996. 277p.         [ Links ]

HARTWIG, F.; DEARING, B.E. Exploratory data analysis. In: SULLIVAN, J.L. (Ed.) Series: quantitative applications in the social science. Newbury Park: 1979. 83p. (Sage University Paper, 16).         [ Links ]

PEARSON, R.K. Exploring process data. Journal of Process Control, v.11, n.2, p.179-194, 2001.         [ Links ]

STATISTICAL ANALYSES SYSTEM - SAS. SAS/INSIGHT User's guide. versão 9.1.3 - versão para Windows. Cary: SAS Institute, 2002/2003. (CD-ROM).         [ Links ]

SINGHA, A.; NOCERINOB, J. Robust estimation of mean and variance using environmental data sets with below detection limit observations. Chemometrics and Intelligent Laboratory Systems, v.60, n.1-2, p.69-86, 2002.         [ Links ]

VILELA, D. Intensificação da produção de leite. Estabelecimento e utilização da alfafa. Juiz de Fora: Embrapa Gado de Leite, 1998. 28p. (Documentos, 26).         [ Links ]

 

 

Este artigo foi recebido em 29/1/2007 e aprovado em 13/3/2008.

 

 

Correspondências devem ser enviadas para ribeiro@cppse.embrapa.br.

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License