Acessibilidade / Reportar erro

Não normalidade multivariada e multicolinearidade na análise de trilha em milho

Multivariate nonnormality and multicollinearity in path analysis in corn

Resumos

O objetivo deste trabalho foi avaliar a interferência da não normalidade multivariada e da multicolinearidade na análise de trilha, em milho. Foram utilizados os dados de 13 ensaios de competição de cultivares de milho. Foram mensuradas a variável principal (produtividade de grãos) e sete variáveis explicativas (número de dias até o florescimento, estatura de plantas, altura de inserção da espiga, posição relativa da espiga, número de plantas, número de espigas e prolificidade), em cada cultivar. Procedeu-se, então, à transformação dos dados e ao diagnóstico de normalidade univariada e multivariada. Antes e após a transformação de dados, foram calculados os coeficientes de correlação e realizado o diagnóstico de multicolinearidade. A análise de trilha foi realizada por três métodos: tradicional; sob condições de multicolinearidade (análise de trilha em crista); e tradicional com eliminação de variáveis. A transformação de dados reduz o grau de multicolinearidade e a variabilidade das estimativas dos efeitos diretos, na análise de trilha tradicional com alto grau de multicolinearidade. A multicolinearidade exerce maior impacto sobre a estimativa dos efeitos diretos nas análises de trilha do que a não normalidade multivariada. A análise de trilha tradicional com eliminação de variáveis é mais adequada do que a análise de trilha em crista.

Zea mays; análise em crista; eliminação de variáveis; transformações Box‑Cox


The objective of this work was to evaluate the effect of multivariate nonnormality and multicollinearity in the path analysis of corn. We used data from 13 corn cultivar competition trials. The response variable (grain yield) and seven explanatory variables (number of days to tasseling, plant height, ear height, relative ear position, number of plants, number of ears and prolificity) were measured in each cultivar. Then, data transformation and the univariate and multivariate normality diagnosis were proceeded. The correlation coefficients were calculated and the diagnosis of multicollinearity was performed, before and after data transformation. The path analysis was done according to three methods: traditional; under multicollinearity (ridge path analysis); and traditional with variable elimination. Data transformation reduces the degree of multicollinearity and the variability of the direct effects, in the traditional path analysis with high multicollinearity. Multicollinearity exerts more impact on the estimation of the direct effects in path analysis than multivariate nonnormality. The traditional path analysis with elimination of variables is more appropriate than the ridge path analysis.

Zea mays; ridge analysis; elimination of variables; Box‑Cox transformations


ESTATÍSTICA

Não normalidade multivariada e multicolinearidade na análise de trilha em milho

Multivariate nonnormality and multicollinearity in path analysis in corn

Marcos Toebe; Alberto Cargnelutti Filho

Universidade Federal de Santa Maria, Departamento de Fitotecnia, Avenida Roraima, nº 1.000, Camobi, CEP 97105‑900 Santa Maria, RS. E‑mail: m.toebe@gmail.com, alberto.cargnelutti.filho@gmail.com

RESUMO

O objetivo deste trabalho foi avaliar a interferência da não normalidade multivariada e da multicolinearidade na análise de trilha, em milho. Foram utilizados os dados de 13 ensaios de competição de cultivares de milho. Foram mensuradas a variável principal (produtividade de grãos) e sete variáveis explicativas (número de dias até o florescimento, estatura de plantas, altura de inserção da espiga, posição relativa da espiga, número de plantas, número de espigas e prolificidade), em cada cultivar. Procedeu-se, então, à transformação dos dados e ao diagnóstico de normalidade univariada e multivariada. Antes e após a transformação de dados, foram calculados os coeficientes de correlação e realizado o diagnóstico de multicolinearidade. A análise de trilha foi realizada por três métodos: tradicional; sob condições de multicolinearidade (análise de trilha em crista); e tradicional com eliminação de variáveis. A transformação de dados reduz o grau de multicolinearidade e a variabilidade das estimativas dos efeitos diretos, na análise de trilha tradicional com alto grau de multicolinearidade. A multicolinearidade exerce maior impacto sobre a estimativa dos efeitos diretos nas análises de trilha do que a não normalidade multivariada. A análise de trilha tradicional com eliminação de variáveis é mais adequada do que a análise de trilha em crista.

Termos para indexação:Zea mays, análise em crista, eliminação de variáveis, transformações Box‑Cox.

ABSTRACT

The objective of this work was to evaluate the effect of multivariate nonnormality and multicollinearity in the path analysis of corn. We used data from 13 corn cultivar competition trials. The response variable (grain yield) and seven explanatory variables (number of days to tasseling, plant height, ear height, relative ear position, number of plants, number of ears and prolificity) were measured in each cultivar. Then, data transformation and the univariate and multivariate normality diagnosis were proceeded. The correlation coefficients were calculated and the diagnosis of multicollinearity was performed, before and after data transformation. The path analysis was done according to three methods: traditional; under multicollinearity (ridge path analysis); and traditional with variable elimination. Data transformation reduces the degree of multicollinearity and the variability of the direct effects, in the traditional path analysis with high multicollinearity. Multicollinearity exerts more impact on the estimation of the direct effects in path analysis than multivariate nonnormality. The traditional path analysis with elimination of variables is more appropriate than the ridge path analysis.

Index terms:Zea mays, ridge analysis, elimination of variables, Box‑Cox transformations.

Introdução

Pesquisas têm sido realizadas na cultura de milho, a fim de identificar a direção e a intensidade das relações lineares entre variáveis (caracteres). Além do estudo das correlações fenotípicas, genotípicas e ambientais, trabalhos complementares com o uso de análise de trilha vêm sendo realizados (Carvalho et al., 2001; Ahmad & Saleem, 2003; Alvi et al., 2003; Mohammadi et al., 2003; Saidaiah et al., 2008; Bello et al., 2010; Kumar et al., 2011; Pavan et al., 2011; Selvaraj & Nagarajan, 2011; Toebe & Cargnelutti Filho, 2013), para identificar as verdadeiras relações de causa e efeito entre os caracteres (Cruz & Regazzi, 1997) .

Para que os resultados da análise de trilha sejam fidedignos, é necessário que as pressuposições do modelo sejam atendidas, como por exemplo, a normalidade dos dados (Hair et al., 2009). Em caso de não atendimento da normalidade, pode-se realizar a transformação de dados por meio da família de transformações Box‑Cox (Box & Cox, 1964), utilizada de forma eficiente com a cultura de abobrinha italiana (Couto et al., 2009). Além do diagnóstico de normalidade, é importante verificar o grau de multicolinearidade entre as variáveis explicativas (Cruz & Carneiro, 2006). Caso a análise de trilha seja realizada com alto grau de multicolinearidade, as estimativas dos efeitos diretos e indiretos podem ser viesadas, com valores em módulo superiores a 1 e, portanto, sem sentido biológico, conforme já verificado nas culturas de pimentão (Carvalho et al., 1999), milho (Carvalho et al., 2001; Toebe & Cargnelutti Filho, 2013), soja (Bizeti et al., 2004) e canola (Coimbra et al., 2005). Na presença de elevado grau de multicolinearidade, tem sido recomendado fazer a análise de trilha sob multicolinearidade (análise de trilha em crista), com acréscimo de um valor k aos elementos da diagonal da matriz de correlação, ou realizar a análise de trilha tradicional, com a eliminação de variáveis altamente correlacionadas (Cruz & Carneiro, 2006).

Em 14 ensaios de milho, com distribuição normal multivariada e elevado grau de multicolinearidade entre as variáveis explicativas, Toebe & Cargnelutti Filho (2013) constataram que a realização da análise de trilha tradicional, com eliminação de variáveis altamente correlacionadas, foi mais adequada do que a realização da análise de trilha em crista, para a estimação precisa dos efeitos diretos das variáveis explicativas sobre a produtividade de grãos. No entanto, não foram encontrados estudos que mostrassem o efeito da não normalidade multivariada sobre a estimação dos coeficientes de trilha, ou que avaliassem os possíveis efeitos da não normalidade multivariada de acordo com os níveis de multicolinearidade e as técnicas de análise de trilha utilizadas.

O objetivo deste trabalho foi avaliar a interferência da não normalidade multivariada e da multicolinearidade, na análise de trilha em milho.

Material e Métodos

Os dados utilizados neste estudo foram provenientes de 13 ensaios (experimentos) de competição de cultivares de milho, realizados no Estado do Rio Grande do Sul, nos anos agrícolas 2002/2003, 2003/2004 e 2004/2005 (Tabela 1). Esses dados foram obtidos de Relatórios, Atas e Resumos das Reuniões Técnicas Anuais de Milho e Sorgo, de 2003, 2004, 2005, coordenados pela Fundação Estadual de Pesquisa Agropecuária (Fepagro), do Estado do Rio Grande do Sul (Tabela 1). O delineamento de blocos ao acaso foi utilizado nos 13 ensaios, com uso de três repetições. Cada parcela foi composta por uma cultivar, semeada em duas linhas de 5 m de comprimento, com 0,7 ou 0,8 m entre linhas. O número de cultivares nos ensaios variou entre 12 e 40.

Em cada cultivar, de cada ensaio, foram mensuradas sete variáveis explicativas – número de dias até o florescimento masculino (FM), estatura de plantas à colheita (EP), altura da inserção da espiga à colheita (AIE), posição relativa da espiga (PRE, obtida pela divisão de AIE por EP), número de plantas à colheita (NP), número de espigas à colheita (NE), e, prolificidade (PLI, obtida pela divisão de NE por NP) –, além da variável principal produtividade de grãos, que foi ajustada a 13% de umidade. Para cada variável mensurada, foram utilizadas as médias obtidas a partir das três repetições utilizadas nos ensaios.

Para cada variável, em cada ensaio, foi realizado o diagnóstico de normalidade univariada dos resíduos, por meio do teste de Shapiro-Wilk (Shapiro & Wilk, 1965). Em seguida, em cada ensaio, foi realizado o diagnóstico de normalidade multivariada (NM) dos resíduos, por meio do teste de normalidade de Shapiro‑Wilk generalizado por Royston (1983), conforme descrito por Ferreira (2008). Em seguida, procedeu-se à transformação dos dados das variáveis que não se ajustaram à distribuição normal (p≤0,10). Para isso, utilizou-se a família de transformações Box‑Cox (Box & Cox, 1964), com valores de potência λ no intervalo de ‑5≤λ≤5. Após a transformação dos dados, procedeu-se novamente ao diagnóstico da normalidade univariada e multivariada, a fim de se verificar a eficiência da transformação dos dados. Nos ensaios 1 e 8, não se obteve normalidade multivariada após a transformação das variáveis. Assim, todas as variáveis desses dois ensaios foram transformadas, independentemente da distribuição normal univariada, e mantiveram-se os dados transformados nos casos em que representavam acréscimo no valor-p da normalidade univariada.

Em seguida, foram calculados os coeficientes de correlação linear de Pearson entre as oito variáveis mensuradas, antes (distribuição multivariada não normal) e depois da transformação de dados (distribuição multivariada normal), nos 13 ensaios. Esses coeficientes foram alocados em uma matriz de correlação simétrica de dimensão 8×8, que foi posteriormente divida em duas matrizes menores. Uma foi denominada de matriz de correlação simétrica X'X, de dimensão 7×7, na qual foram alocados os coeficientes de correlação obtidos entre as sete variáveis explicativas apenas; a outra foi denominada matriz de correlação X'Y, de dimensão 7×1, na qual foram alocados os coeficientes de correlação de cada uma das sete variáveis explicativas com a variável dependente (produtividade de grãos).

O diagnóstico de multicolinearidade foi realizado em cada ensaio (antes e após a transformação de dados), com base na matriz de correlação X'X, tendo-se considerado as seguintes situações: as sete variáveis explicativas; as sete variáveis explicativas após a adição de uma constante k à diagonal da matriz de correlação X'X; e após a eliminação de variáveis explicativas altamente correlacionadas.

O diagnóstico de multicolinearidade foi realizado por meio de dois métodos: fator de inflação de variância (FIV) e número de condição (NC). No primeiro método, o FIV de cada variável explicativa foi obtido na diagonal da inversa da matriz de correlação X'X, ou seja, na diagonal da matriz X'X‑1 (Cruz & Carneiro, 2006; Hair et al., 2009). De forma alternativa, o FIV pode ser obtido pelo inverso da tolerância (FIV = 1/tolerância), em que a tolerância indica a proporção da variação de uma variável explicativa que independe das demais variáveis explicativas. Assim, Tolerância = 1 ‑ RX2, em que, RX2 é o coeficiente de ajuste da regressão (coeficiente de determinação do modelo) da variável explicativa X, em função das demais variáveis explicativas presentes (Fávero et al., 2009). Considerou-se haver multicolinearidade severa quando os valores de FIV foram maiores que 10 (Hair et al., 2009). No método NC, verificou-se o grau de multicolinearidade na matriz de correlação X'X, por meio do NC que representa a razão entre o maior e o menor autovalor da matriz de correlação X'X (Montgomery & Peck, 1982). Quando o NC resultante dessa divisão foi menor ou igual a 100, considerou-se haver multicolinearidade fraca entre as variáveis explicativas; para 100<NC<1.000, considerou-se haver multicolinearidade moderada a severa; e para NC≥1.000, considerou-se multicolinearidade severa.

Em cada ensaio (antes e após a transformação de dados), realizaram-se análises de trilha quanto à variável principal produtividade de grãos, em função das variáveis explicativas (FM, EP, AIE, PRE, NP, NE e PLI), conforme metodologia descrita por Cruz & Regazzi (1997) e Cruz & Carneiro (2006). Estimaram-se os efeitos diretos e indiretos das variáveis explicativas sobre a produtividade de grãos, mediante três métodos de análise de trilha: tradicional; em condições de multicolinearidade (análise de trilha em crista); e tradicional com eliminação de variáveis. Nos três métodos, considerou-se que cada variável explicativa exerce efeito direto sobre a produtividade de grãos, e atua indiretamente pelos seus efeitos nas demais variáveis explicativas.

Na análise de trilha tradicional, realizou-se a estimação dos efeitos diretos e indiretos, tendo-se desconsiderado os possíveis efeitos adversos da multicolinearidade. Para isso, inicialmente, realizou‑se a padronização das variáveis e estabeleceu-se o modelo da análise de trilha: produtividade de grãos =

1FM + 2EP + 3AIE + 4PRE + 5NP + 6NE + 7PLI + resíduo, em que 1, 2, 3, 4, 5, 6 e 7 são os estimadores dos efeitos diretos das variáveis FM, EP, AIE, PRE, NP, NE e PLI, respectivamente. A seguir, utilizou-se o sistema de equações normais X'X = X'Y, para a obtenção dos efeitos diretos e indiretos de cada variável explicativa sobre a produtividade de grãos, conforme Cruz & Regazzi (1997) e Cruz & Carneiro (2006).

Na análise de trilha em condições de multicolinearidade ou análise de trilha em crista (Carvalho & Cruz, 1996; Cruz & Carneiro, 2006), mantiveram-se as sete variáveis explicativas (FM, EP, AIE, PRE, NP, NE e PLI), para a estimação dos efeitos diretos e indiretos sobre a produtividade de grãos. No entanto, adicionou-se uma constante k à diagonal da matriz de correlação X'X, a fim de reduzir a variância associada ao estimador de mínimos quadrados da análise de trilha (Carvalho & Cruz, 1996). Dessa forma, o sistema de equações normais X'X = X'Y passou a ser (X'X + k) = X'Y. Testou-se a adição de 21 valores da constante k (k = 0,00, 0,05, 0,10, ..., 1,00) e escolheu-se o menor valor de k a partir do qual os coeficientes de trilha se estabilizaram, conforme preconizado por Carvalho & Cruz (1996).

Na análise de trilha tradicional com eliminação de variáveis, constatou-se elevada associação linear entre as variáveis EP, AIE e PRE e entre as variáveis NP, NE e PLI. Nos 13 ensaios, verificou-se que a redução a níveis satisfatórios de multicolinearidade somente foi obtida após a exclusão das variáveis AIE e NE. Assim, estas duas variáveis explicativas foram excluídas da análise de trilha de cada ensaio e, posteriormente, calcularam-se os efeitos diretos e indiretos de cinco variáveis explicativas (FM, EP, PRE, NP e PLI) sobre a produtividade de grãos. O modelo da análise de trilha foi o seguinte: produtividade de grãos =

1FM + 2EP + 3PRE + 4NP + 5PLI + resíduo, em que 1, 2, 3, 4 e 5, são os estimadores dos efeitos diretos das variáveis FM, EP, PRE, NP e PLI, respectivamente, sobre a produtividade de grãos. Da mesma forma que na análise de trilha tradicional, foi utilizado o sistema de equações normais X'X = X'Y, para a obtenção dos efeitos diretos e indiretos de cada variável sobre a produtividade de grãos.

Para cada ensaio e método de análise de trilha, foram calculados o coeficiente de determinação e o efeito da variável residual da análise de trilha, antes e após a transformação de dados. Maiores detalhes em relação à obtenção dos efeitos diretos, coeficientes de determinação, efeito da variável residual e diagramas causais das análises de trilha são fornecidos em Toebe & Cargnelutti Filho (2013). As análises estatísticas foram realizadas com auxílio do aplicativo Microsoft Office Excel e dos programas Genes (Cruz, 2006), Statistica 7.0 (StatSoft, Tulsa, OK, EUA) e R (R Development Core Team, Viena, Áustria).

Resultados e Discussão

O número de dias até o florescimento masculino (FM), o número de plantas (NP), o número de espigas (NE) e a prolificidade (PLI) foram as variáveis que violaram a pressuposição de normalidade (p≤0,10) com maior frequência (Tabela 2). As demais variáveis apresentaram distribuição normal, na maioria dos ensaios. A estatura de plantas (EP), a altura da inserção da espiga (AIE), a posição relativa da espiga (PRE) e a produtividade de grãos não se ajustaram à distribuição normal apenas em 3, 3, 2 e 1 dos 13 ensaios avaliados, respectivamente. Os 13 ensaios apresentaram distribuição multivariada não normal, antes da transformação de dados, e distribuição multivariada normal (p>0,10) após a transformação. Hair et al. (2009) destacam que o atendimento da pressuposição de normalidade univariada contribui para a obtenção da distribuição normal multivariada. Assim, o diagnóstico de normalidade e a transformação de dados univariados podem representar uma alternativa mais simples, em comparação ao diagnóstico de normalidade e a transformação multivariada de dados.

Nos 13 ensaios, a média do coeficiente de correlação entre FM e produtividade de grãos foi negativa e de baixa magnitude, com valor próximo aos obtidos por Kumar et al. (2011) e por Pavan et al. (2011). A média do coeficiente de correlação entre EP e produtividade de grãos foi positiva, porém de magnitude menor que a verificada por Alvi et al. (2003), Mohammadi et al. (2003), Saidaiah et al. (2008), Bello et al. (2010) e Kumar et al. (2011). As variáveis AIE e PRE também apresentaram reduzida associação com a produtividade de grãos, com valores de correlação semelhantes aos descritos por Alvi et al. (2003), Saidaiah et al. (2008) e Bello et al. (2010). Em razão da ampla oscilação verificada nos 13 ensaios quanto ao sentido e à intensidade das associações das variáveis FM, EP, AIE e PRE com a produtividade de grãos, é provável que essas variáveis não apresentem relação de causa e efeito (Cruz & Regazzi, 1997). No entanto, as variáveis NE, PLI e NP apresentaram os maiores coeficientes de correlação com a produtividade de grãos, o que sugere possível relação de causa e efeito (Cruz & Regazzi, 1997).

A fim de verificar a interferência da transformação de dados na magnitude e direção dos coeficientes de correlação estimados entre as variáveis explicativas e a produtividade de grãos, estimou-se a correlação entre os 13 coeficientes de correlação (13 ensaios) obtidos antes e os 13 coeficientes obtidos após a transformação de dados (Tabela 3). Constatou-se que os 13 coeficientes de correlação de cada variável explicativa com a produtividade de grãos, obtidos antes e após a transformação de dados, foram similares (0,96 ≤ r ≤ 1,00). Isso é indicativo de que a transformação de dados não alterou a intensidade e a direção das associações lineares das variáveis explicativas com a produtividade de grãos.

Nos 13 ensaios, o diagnóstico de multicolinearidade com base no fator de inflação de variância (FIV), realizado na matriz de correlação X'X com as sete variáveis explicativas, indicou que a variável FM não apresentou elevada correlação com as demais variáveis explicativas (FIV<10) (Tabela 4). As demais variáveis explicativas (EP, AIE, PRE, NP, NE e PLI) apresentaram elevado grau de multicolinearidade, em todos os ensaios (37,1≤FIV≤16.385,7). Nessas seis variáveis explicativas, altamente correlacionadas, verificaram-se reduções expressivas do FIV após a transformação dos dados. Assim, a transformação contribuiu para a redução do grau de multicolinearidade na matriz de correlação X'X. Segundo Hair et al. (2009), a transformação de dados, além de contribuir para corrigir violações da normalidade, pode contribuir para a melhoria das relações entre variáveis. Isso pode favorecer a redução do grau de multicolinearidade entre as variáveis explicativas que compõem a matriz X'X. Após a adição da constante k = 0,10, na diagonal da matriz de correlação X'X, todas as variáveis, nos 13 ensaios, apresentaram reduzido grau de multicolinearidade (FIV<10). A eliminação das variáveis AIE e NE também foi eficiente na redução do FIV, que apresentou valores similares, antes e após a transformação dos dados.

Com base no número de condição (NC), houve multicolinearidade severa, nos 13 ensaios, quando foi utilizada a matriz de correlação X'X com as sete variáveis explicativas (2.123≤NC≤86.390) (Tabela 5). Após a transformação dos dados, o número de condição diminuiu na maioria dos ensaios (308≤NC≤15.258). Esses resultados sugerem que a transformação de dados melhora o condicionamento da matriz de correlação X'X e pode reduzir os efeitos adversos do alto grau de multicolinearidade. No entanto, essa redução não foi suficiente para atingir níveis satisfatórios de multicolinearidade (NC≤100). Tanto a adição da constante k = 0,10 à diagonal da matriz de correlação X'X (23≤NC≤ 39), quanto à eliminação de variáveis (3≤NC≤ 25) foram eficientes para a redução do grau de multicolinearidade na matriz de correlação X'X, conforme também verificado por Toebe & Cargnelutti Filho (2013).

Em geral, a utilização da análise de trilha tradicional, após a eliminação das variáveis AIE e NE, resultou na redução do grau de multicolinearidade (menores valores de FIV e NC) e em maior poder preditivo da análise de trilha (maior coeficiente de determinação e menor efeito da variável residual), em comparação à análise de trilha sob multicolinearidade, adicionada de k = 0,10 na diagonal da matriz de correlação X'X (Tabelas 4 e 5). Assim, sugere-se, o uso preferencial da análise de trilha tradicional, após a eliminação de variáveis correlacionadas, o que pode em alguns casos representar economia de trabalho, em razão da necessidade de mensuração de um conjunto menor de variáveis explicativas. No presente estudo, isso não ocorreu, uma vez que as variáveis AIE e NE são requeridas para a obtenção das variáveis PRE e PLI.

A variável FM apresentou efeito direto médio negativo e de baixa magnitude sobre a produtividade de grãos, nas análises de trilha tradicional, na análise em crista e na análise tradicional com eliminação de variáveis (Tabela 6), em conformidade com os valores de correlação entre essas variáveis (Tabela 3). Os 13 valores de efeitos diretos de FM sobre a produtividade de grãos estimados antes e após a transformação de dados foram similares entre si (r = 0,94), o que indica reduzido efeito da transformação de dados na estimação dos efeitos diretos de FM sobre a variável principal (Tabela 6). As demais seis variáveis explicativas apresentaram elevado grau de multicolinearidade (Tabelas 4 e 5); os efeitos diretos dessas variáveis sobre a produtividade de grãos, na análise de trilha tradicional com alto grau de multicolinearidade, apresentaram ampla variação (‑23,20≤efeitos diretos≤29,21) (Tabela 6). As variáveis NE, PLI e AIE foram as variáveis que apresentaram maiores amplitudes de efeitos diretos sobre a produtividade de grãos. Essas variáveis também apresentaram maiores escores de FIV (Tabela 4), que são indicativos de que a maior amplitude dos efeitos diretos estimados está relacionada à presença de alto grau de multicolinearidade e que os efeitos diretos, em módulo, tendem a ser elevados na presença desta. Portanto, é provável que os elevados efeitos diretos e indiretos da análise de trilha em milho, obtidos por Ahmad & Saleem (2003) e Selvaraj & Nagarajan (2011), estejam associados ao elevado grau de multicolinearidade entre as variáveis explicativas. Elevados efeitos diretos e indiretos, em análises de trilha realizada com alto grau de multicolinearidade, também foram observados nas culturas de pimentão (Carvalho et al., 1999), milho (Carvalho et al., 2001; Toebe & Cargnelutti Filho, 2013), soja (Bizeti et al., 2004) e canola (Coimbra et al., 2005). Portanto, deve ser evitada a interpretação dos efeitos diretos e indiretos estimados em análises de trilha com alto grau de multicolinearidade, uma vez que eles não expressam valores reais de relações de causa e efeito entre variáveis.

Quando os dados foram transformados, verificou-se que o FIV diminuiu nas seis variáveis explicativas altamente correlacionadas (EP, AIE, PRE, NP, NE, PLI) (Tabela 4). Nessas mesmas variáveis, verificou-se que houve redução da amplitude dos efeitos diretos obtidos na análise de trilha tradicional com alto grau de multicolinearidade (‑8,16≤efeitos diretos≤8,94) (Tabela 6). No entanto, essa redução não foi suficiente para estabilizar os coeficientes estimados, e a utilização de outros métodos de análise de trilha foi necessária. Além disso, nas seis variáveis explicativas com alto grau de multicolinearidade, não houve correlação significativa entre os efeitos diretos estimados antes e após a transformação de dados, o que indica que, nessa condição, a transformação de dados altera a estimação dos efeitos diretos. A amplitude dos efeitos diretos, estimados antes e após a transformação de dados, indica que os mesmos efeitos não apresentam sentido biológico e não devem ser considerados na identificação das relações de causa e efeito.

Nos 13 ensaios (antes e após a transformação de dados), observou-se a estabilização dos efeitos diretos e indiretos após a adição de uma constante k = 0,10 (Tabela 6), cujo valor foi atribuído a todas as análises de trilha em condições de multicolinearidade (análise de trilha em crista). Essa técnica de análise de trilha também foi eficiente na estabilização dos efeitos diretos estimados nas culturas de pimentão (Carvalho et al., 1999), milho (Carvalho et al., 2001; Toebe & Cargnelutti Filho, 2013), soja (Bizeti et al., 2004) e canola (Coimbra et al., 2005). Os maiores coeficientes de correlação de NE, PLI e NP com a produtividade de grãos (Tabela 3) resultaram nos maiores efeitos diretos sobre essa variável (Tabela 6), o que confirma relações de causa e efeito (Cruz & Regazzi, 1997). Verificou-se também que os efeitos diretos, estimados nos 13 ensaios antes e após a transformação de dados, foram positivamente correlacionados (r≥0,55), o que indica que quando a multicolinearidade é contornada, a transformação de dados não altera de modo expressivo os escores de efeitos diretos.

Na análise de trilha tradicional, com eliminação das variáveis AIE e NE, também ocorreu a estabilização dos efeitos diretos (Tabela 6). Essa técnica de análise de trilha resultou em menores escores de FIV e NC, maiores coeficientes de determinação e menores efeitos da variável residual da análise de trilha, em comparação à análise de trilha em crista. Em 14 ensaios de milho, nos quais se verificou o atendimento da pressuposição de normalidade multivariada, Toebe & Cargnelutti Filho (2013) também concluíram que esse método de análise de trilha foi o mais adequado para a estimação dos efeitos diretos. Esse método de análise também foi eficiente na redução da multicolinearidade e na estabilização dos efeitos diretos e indiretos em pimentão (Carvalho et al., 1999) e em soja (Bizeti et al., 2004). Nos 13 ensaios, as variáveis PLI e NP apresentaram os maiores efeitos diretos sobre a produtividade de grãos, com provável relação de causa e efeito. Ainda, verificou-se alta correlação entre os 13 efeitos diretos estimados antes e os 13 efeitos diretos estimados após a transformação dos dados, para cada variável (r≥0,90), o que sugere pequena interferência da não normalidade multivariada, quando os efeitos adversos de multicolinearidade são contornados. Os efeitos indiretos foram calculados para os três métodos de análise de trilha, mas não foram apresentados.

Conclusões

1. A transformação de dados reduz o grau de multicolinearidade e a variabilidade das estimativas dos efeitos diretos, na análise de trilha tradicional com alto grau de multicolinearidade.

2. A multicolinearidade exerce maior impacto sobre a estimativa dos efeitos diretos nas análises de trilha do que a não normalidade multivariada.

3. A análise de trilha tradicional com eliminação de variáveis é mais adequada que a análise de trilha em crista.

Agradecimentos

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), por bolsas concedidas; ao Engenheiro Agrônomo José Paulo Guadagnin, da Fundação Estadual de Pesquisa Agropecuária, pela coordenação dos ensaios e cessão dos dados de avaliação de cultivares de milho, no Estado do Rio Grande do Sul.

Recebido em 27 de novembro de 2012 e aprovado em 17 de abril de 2013

  • AHMAD, A.; SALEEM, M. Path coefficient analysis in Zea mays L. International Journal of Agriculture and Biology, v.5, p.245‑248, 2003.
  • ALVI, M.B.; RAFIQUE, M.; TARIQ, M.S.; HUSSAIN, A.; MAHMOOD, T.; SARWAR, M. Character association and path coefficient analysis of grain yield and yield components maize (Zea mays L.). Pakistan Journal of Biological Sciences, v.6, p.136‑138, 2003. DOI: 10.3923/pjbs.2003.136.138.
  • BELLO, O.B.; ABDULMALIQ, S.Y.; AFOLABI, M.S.; IGE, S.A. Correlation and path coefficient analysis of yield and agronomic characters among open pollinated maize varieties and their F1 hybrids in a diallel cross. African Journal of Biotechnology, v.9, p.2633‑2639, 2010.
  • BIZETI, H.S.; CARVALHO, C.G.P. de; SOUZA, J.R.P. de; DESTRO, D. Path analysis under multicollinearity in soybean. Brazilian Archives of Biology and Technology, v.47, p.669‑676, 2004. DOI: 10.1590/S1516‑89132004000500001.
  • BOX, G.E.P.; COX, D.R. An analysis of transformations. Journal of the Royal Statistical Society: Series B ‑ Statistical Methodological, v.26, p.211‑252, 1964.
  • CARVALHO, C.G.P. de; BORSATO, R.; CRUZ, C.D.; VIANA, J.M.S. Path analysis under multicollinearity in S0 x S0 maize hybrids. Crop Breeding and Applied Biotechnology, v.1, p.263‑270, 2001.
  • CARVALHO, C.G.P. de; OLIVEIRA, V.R.; CRUZ, C.D.; CASALI, V.W.D. Análise de trilha sob multicolinearidade em pimentão. Pesquisa Agropecuária Brasileira, v.34, p.603‑613, 1999. DOI: 10.1590/S0100‑204X1999000400011.
  • CARVALHO, S.P. de; CRUZ, C.D. Diagnosis of multicollinearity: assessment of the condition of correlation matrices used in genetic studies. Brazilian Journal of Genetics, v.19, p.479‑484, 1996.
  • COIMBRA, J.L.M.; BENIN, G.; VIEIRA, E.A.; OLIVEIRA, A.C. de; CARVALHO, F.I.F.; GUIDOLIN, A.F.; SOARES, A.P. Consequências da multicolinearidade sobre a análise de trilha em canola. Ciência Rural, v.35, p.347‑352, 2005. DOI: 10.1590/S0103‑84782005000200015.
  • COUTO, M.R.M.; LÚCIO, A.D.; LOPES, S.J.; CARPES, R.H. Transformações de dados em experimentos com abobrinha italiana em ambiente protegido. Ciência Rural, v.39, p.1701‑1707, 2009. DOI: 10.1590/S0103‑84782009005000110.
  • CRUZ, C.D. Programa Genes: estatística experimental e matrizes. Viçosa: UFV, 2006.  285p.
  • CRUZ, C.D.; CARNEIRO, P.C.S. Modelos biométricos aplicados ao melhoramento genético 2.ed. Viçosa: Ed. UFV, 2006. v.2, 585p.
  • CRUZ, C.D.; REGAZZI, A.J. Modelos biométricos aplicados ao melhoramento genético 2.ed. Viçosa: Ed. UFV, 1997. 390p.
  • FÁVERO, L'P.; .A.; PRASANNA, B.M.; SINGH, N.N. Sequential path model for determining interrelationships among grain yield and related characters in maize. Crop Science, v.43, p.1690‑1697, 2003. DOI: 10.2135/cropsci2003.1690.
  • MONTGOMERY, D.C.; PECK, E.A. Introduction to linear regression analysis New York: J. Wiley, 1982. 504p.
  • PAVAN, R.; LOHITHASWA, H.C.; WALI, M.C.; GANGASHETTY, P.; SHEKARA, B.G. Correlation and path coefficient analysis of grain yield and yield contributing traits in single cross hybrids of maize (Zea mays L.). Electronic Journal of Plant Breeding, v.2, p.253‑257, 2011.
  • ROYSTON, J.B. Some techniques for assessing multivariate normality based on the Shapiro‑Wilk W Applied Statistics, v.32, p.121‑133, 1983. DOI: 10.2307/2347291.
  • SAIDAIAH, P.; SATYANARAYANA, E.; KUMAR, S.S. Association and path coefficient analyzis in maize (Zea mays L.). Agricultural Science Digest, v.28, p.79‑83, 2008.
  • SELVARAJ, C.I.; NAGARAJAN, P. Interrelationship and path‑coefficient studies for qualitative traits, grain yield and other yield attributes among maize (Zea mays L.). International Journal of Plant Breeding and Genetics, v.5, p.209‑223, 2011. DOI: 10.3923/ijpbg.2011.209.223.
  • SHAPIRO, S.S.; WILK, M.B. An analysis of variance test for normality (complete samples). Biometrika, v.52, p.591‑611, 1965.
  • STATSOFT. Statistica Version 7.0. Tucksa: StatSoft, 2005.
  • TOEBE, M.; CARGNELUTTI FILHO, A. Multicollinearity in path analysis of maize (Zea mays L). Journal of Cereal Science, v.57, p.453‑462, 2013. DOI: 10.1016/j.jcs.2013.01.014.

Datas de Publicação

  • Publicação nesta coleção
    12 Ago 2013
  • Data do Fascículo
    Maio 2013

Histórico

  • Recebido
    27 Nov 2012
  • Aceito
    17 Abr 2013
Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
E-mail: pab@embrapa.br