Acessibilidade / Reportar erro

Uso de alguns estimadores ridge na análise estatística de experimentos em entomologia

Use of some ridge estimators in the statistical analysis of experiments in entomology

Resumos

Inúmeros experimentos em ciências agrárias apresentam variáveis que podem dar origem a problemas de multicolinearidade. Em se tratando da aplicabilidade de modelos de regressão, o problema da multicolinearidade tem como principal consequência o inflacionamento dos erros padrão e, com isso, o valor da estatística t-student é reduzido de tal forma que interfere nos resultados inferenciais. Várias medidas são propostas, na literatura, para resolver o problema de multicolinearidade. Entretanto, o desempenho dessas medidas está sujeito ao grau de multicolinearidade que as variáveis poderão apresentar, bem como ao tamanho amostral. Frente a este problema, este trabalho tem por objetivo avaliar alguns estimadores ridge, utilizando simulação Monte Carlo, bem como, apresentar a aplicação desses estimadores em um experimento, com dados reais, na área de entomologia. Mediante esta aplicação, os resultados expressivos alcançados foram obtidos em função da eficiência dos estimadores ridge avaliados, em relação ao estimador de mínimos quadrados. Em se tratando dos resultados computacionais, concluiu-se que estimadores ridge avaliados são recomendáveis, em experimentos que considerem as variáveis com diferentes graus de multicolinearidade, para amostras maiores do que n=50.

multicolinearidade; tamanho amostral; modelos de regressão


A large number of experiments in agronomic sciences use variables that may give rise to problems of multicollinearity. About the applicability of regression models, the problem of multicollinearity results mainly in increased standard error, thus, the Student's t-value is reduced, affecting the inferential results. Many actions are proposed in the literature to solve the problems of multicollinearity, however, the performance of these measurements are subject to the degree that multicollinearity of the variables may present, as well as the sample size. To address this problem, this paper aims to evaluate some ridge estimators using the Monte Carlo's simulation and demonstrate their application using real data from an entomological experiment. The ridge estimators evaluated were effective, in comparison with the least squares estimator. The results showed that the ridge estimators evaluated can be applied to experimenst that consider the variables with different degrees of multicollinearity, for samples greater than n=50.

multicollinearity; sample size; regression models


ESTATÍSTICA STATISTICS

Uso de alguns estimadores ridge na análise estatística de experimentos em entomologia

Use of some ridge estimators in the statistical analysis of experiments in entomology

Gislene Araujo PereiraI; Letícia Lima MilaniII; Marcelo Ângelo CirilloIII

IEstatística, Doutora. Departamento de Ciências Exatas, Universidade Federal de Lavras, 37200-000, Caixa Postal 3037, Lavras, Minas Gerais, Brasil. gislene.araujo.p@gmail.com

IIEngenheira -Agrônoma, Doutora. Departamento de Ciências Exatas, Universidade Federal de Lavras, 37200-000, Caixa Postal 3037, Lavras, Minas Gerais, Brasil. rodrigues.milani.l@gmail.com

IIIEstatístico, Pós-Doutor. Departamento de Ciências Exatas, Universidade Federal de Lavras, 37200-000, Lavras, Caixa Postal 3037, Minas Gerais, Brasil. macufla@dex.ufla.br (autor para correspondência)

RESUMO

Inúmeros experimentos em ciências agrárias apresentam variáveis que podem dar origem a problemas de multicolinearidade. Em se tratando da aplicabilidade de modelos de regressão, o problema da multicolinearidade tem como principal consequência o inflacionamento dos erros padrão e, com isso, o valor da estatística t-student é reduzido de tal forma que interfere nos resultados inferenciais. Várias medidas são propostas, na literatura, para resolver o problema de multicolinearidade. Entretanto, o desempenho dessas medidas está sujeito ao grau de multicolinearidade que as variáveis poderão apresentar, bem como ao tamanho amostral. Frente a este problema, este trabalho tem por objetivo avaliar alguns estimadores ridge, utilizando simulação Monte Carlo, bem como, apresentar a aplicação desses estimadores em um experimento, com dados reais, na área de entomologia. Mediante esta aplicação, os resultados expressivos alcançados foram obtidos em função da eficiência dos estimadores ridge avaliados, em relação ao estimador de mínimos quadrados. Em se tratando dos resultados computacionais, concluiu-se que estimadores ridge avaliados são recomendáveis, em experimentos que considerem as variáveis com diferentes graus de multicolinearidade, para amostras maiores do que n=50.

Palavras-chave: multicolinearidade, tamanho amostral, modelos de regressão.

ABSTRACT

A large number of experiments in agronomic sciences use variables that may give rise to problems of multicollinearity. About the applicability of regression models, the problem of multicollinearity results mainly in increased standard error, thus, the Student's t-value is reduced, affecting the inferential results. Many actions are proposed in the literature to solve the problems of multicollinearity, however, the performance of these measurements are subject to the degree that multicollinearity of the variables may present, as well as the sample size. To address this problem, this paper aims to evaluate some ridge estimators using the Monte Carlo's simulation and demonstrate their application using real data from an entomological experiment. The ridge estimators evaluated were effective, in comparison with the least squares estimator. The results showed that the ridge estimators evaluated can be applied to experimenst that consider the variables with different degrees of multicollinearity, for samples greater than n=50.

Key words: multicollinearity, sample size, regression models.

INTRODUÇÃO

A multicolinearidade é observada, em um modelo de regressão, quando há evidências de um alto grau de correlação entre as variáveis regressoras. A principal consequência é verificada na inferência relacionada com as estimativas dos parâmetros, uma vez que os erros padrões das estimativas são inflacionados, resultando em intervalos de confiança com grandes amplitudes e, naturalmente, menos precisos.

Vários métodos têm sido propostos para resolver o efeito da multicolinearidade em modelos de regressão e maiores detalhes a respeito poderão ser vistos em Guilkey & Murphy (1975), Conniffe & Stone (1974). Contudo, a metodologia proposta por Hoerl & Kennard (1970), na qual se considera a redução na variância das estimativas com a inclusão de um parâmetro shrinkage, representado por k, tem sido a mais usual.

Convém ressaltar que o desempenho desse método depende do tamanho amostral e com o grau de multicolinearidade entre as covariáveis envolvidas em um experimento. Assim sendo, para que o método ridge (Kibria, 2003) possa ser utilizado adequadamente, é conveniente que o pesquisador tenha conhecimento da relação do tamanho amostral e do efeito da multicolinearidade, supostamente presente nas covariáveis a serem utilizadas no modelo de regressão.

Uma forma de avaliar o grau de multicolinearidade é por meio do fator de inflação da variância, definido por VIFj = , sendo R2j o coeficiente de correlação múltipla, resultante da regressão de Xj nos outros p-1 regressores. Quanto maior o grau de dependência de Xj nos regressores restantes e, assim, mais forte a colinearidade, maior será o valor de R2j.Percebe-se que esta medida indica que cada variável independente é explicada pelas demais variáveis independentes, de tal forma que a correlação entre as covariáveis é considerada na estimativa do VIF. A questão surge em classificar-se o grau de multicolinearidade em severo ou não. Alguns autores, como, por exemplo, Chatterjee & Hadi (2006), Petrini et al. (2012), sugerem que, se qualquer VIF exceder 10, então a multicolinearidade causará efeitos nos coeficientes de regressão. Outros autores, como Myers & Montgomery (2002), sugerem que VIF não deve exceder o valor de 4 ou 5 unidades.

Cabe argumentar que o conhecimento do pesquisador, em consonância com outras metodologias, como, por exemplo, o uso de simulações Monte Carlo, é de grande importância para a classificação do grau de multicolinearidade como severo, ou para a obtenção de um modelo de regressão. Neste sentido, os métodos de simulação Monte Carlo, representam uma contribuição relevante, no que tange à simulação de experimentos em diferentes cenários, que permitam avaliar as propriedades estatísticas de um modelo.

A título de ilustração, cita-se estudo realizado por Oliveira et al. (2011), em relação ao desempenho das medidas de curvaturas dos modelos de regressão, de Oswin (1946) e Halsey (1948), em função de diferentes níveis de atividade de água. Neste contexto, os autores concluíram que, em ambos os modelos, os resultados da medida de curvatura extrínseca evidenciaram que, para todas as faixas de atividade de água avaliadas, os modelos carecem de uma parametrização que possa garantir um comportamento mais próximo ao linear.

Em virtude do que foi mencionado, este trabalho tem por objetivo apresentar um estudo de simulação Monte Carlo e uma aplicação em dados entomológicos, em relação à viabilidade do uso de estimadores de regressão ridge em experimentos que apresentam efeito de multicolinearidade entre as variáveis regressoras.

MATERIAL E MÉTODOS

A fundamentação metodológica deste trabalho considerou o modelo de regressão linear múltiplo, dado por (1) Y = Xβ+ ξ, sendo Yn×1 o vetor de observações dependentes, βp×1 o vetor paramétrico dos coeficientes de regressão a serem estimados, X n×p uma matriz conhecida de variáveis explicativas e ξn×1 o vetor dos resíduos, em que cada componente ξi ~ N(0,σ2) (i = 1,..., n).

O estimador de mínimos quadrados dos coeficientes de regressão, mencionado por Farrar & Glauber (1967), é dado por, C=(XtX). Contudo, os autores ressaltam que, se as variáveis explicativas forem multicolineares, os coeficientes da regressão não poderão ser estimados, uma vez que C-1 será singular. Neste caso, a multicolinearidade é considerada severa e o modelo deverá ser revisto.

Diagnosticado o grau de multicolinearidade e frente ao problema de calcular a inversa C-1, procedeu-se à aplicação de estimadores ridge, propostos por Kibria (2003), considerando-se o modelo (1) e uma matriz ortogonal D, tal que DtCD = Λ, em que Λ contém os autovalores da matriz C = (XtX). Desta forma, o modelo linear geral (1), na forma canônica, foi reescrito por Y = X*+ å, sendo X* = XD e α = Dtβ. Com estas especificações, o estimador de mínimos quadrados, para o modelo na forma canônica, apresentado por Kibria (2003), é dado por = Λ-1 = (X*)t Y e os estimadores de regressão generalizada ridge são apresentados por (2)

sendo K uma matriz diagonal definida por K = diag (k1, k2,..., kp), kj > 0 (j = 1, ..., p )

Tendo por base esta regressão, Kibria (2003) propôs os estimadores para k, utilizando as média aritmética (3) e geométrica (4) e a mediana (5).

Em todas as situações, αi indicou o j-ésimo elemento de α e o quadrado médio residual obtido no modelo (1). Desta forma, com a matriz diagonal K=diag(Km); K=diag(Kg) e K=diag(Kmed) redefinida, respectivamente, para cada estimador, e substituindo no modelo (2), obtiveram-se os estimadores da regressão generalizada para os parâmetros do modelo de regressão múltipla definido em (1).

Para avaliar o desempenho desses estimadores, procedeu-se a um estudo de simulação, seguindo-se o procedimento especificado por Gibbons (1981), o que permitiu especificar os diferentes graus de correlação entre as variáveis explicativas, assumindo-se a relação (6).

zij correspondeu aos valores gerados por uma distribuição normal padrão e γ2 representou o grau de correlação (0 < γ2 >1) entre duas variáveis explicativas. Especificando-se o resíduo ζi (i = 1,...,n) ~ N(0,1) e os coeficientes β12,...,βp, e assumindo-se cada valor do autovetor normalizado, correspondente ao maior autovalor da matriz XtX , tornou-se possível gerar a variável resposta.

Seguindo-se este procedimento, os valores paramétricos assumidos no processo de simulação foram arbitrariamente definidos como σ2 = 4 e 20; p = 4; γ = 0,1; 0,5; 0,7 e 0,9 e, por fim, consideraram-se os tamanhos amostrais, definidos em n = 15, 50 e 100. Desta forma, dado os cenários envolvendo grau de multicolinearidade (γ) e os tamanhos amostrais (n), computou-se a distribuição empírica do erro quadrático médio (EQM), considerando-se os estimadores (3)-(5).

O valor esperado do (EQM), em 2.000 simulações Monte Carlo para cada estimador, foi obtido para os estimadores de regressão de mínimos quadrados (MQ) e ridge, mencionados anteriormente.

A fim de ilustrar a aplicação dos estimadores ridge em contexto agrário, considerou-se um experimento, cujo objetivo foi estudar a melhor combinação dos componentes (Tabela 1) a serem utilizados para a formulação de uma dieta energética, que proporcionasse maior tempo de vida das operárias de abelhas Apis mellifera. (Brighenti et al. 2010).

O delineamento experimental adotado foi extreme-vértice (Piepel & Cornell, 1987), pelo fato de que as proporções referentes aos componentes utilizados para a formação da mistura, no experimento, foram submetidas a restrições (Tabela 1). O modelo de regressão ajustado foi dado pela equação Yi = â0 + â1Xi1 + â2Xi2 + â3Xi3 + â4Xi4 + åi, para a i-ésimaunidade amostral (i=1,...,n=54), Yi correspondeu ao número de abelhas vivas, considerando-se a transformação raiz quadrada, X1i é o tempo (horas) de submissão à dieta, X2i a proporção de água na dieta, X3i é a proporção de açúcar granulado na dieta e X4i é a proporção de suco de limão Tahiti na dieta.

Por fim, para a realização deste trabalho, procedeu-se à elaboração de uma rotina computacional no programa R (Development Core Team, 2012).

RESULTADOS E DISCUSSÃO

Estudos de simulação Monte Carlo

Os resultados descritos na Tabela 2 evidenciaram que, nas situações simuladas, envolvendo fraca multicolinearidade, isto é, (γ = 0,1), para todos os tamanhos amostrais, os estimadores ridge apresentaram um erro quadrático bem inferior ao erro proporcionado pelo método de mínimos quadrados.

Reportando-se esses resultados a uma situação real, dado um modelo com p-variáveis regressoras, há evidências estatísticas de que, independentemente do tamanho amostral, na situação de fraca multicolinearidade o pesquisador não deverá utilizar o método de mínimos quadrados ordinários, uma vez que os estimadores ridge apresentaram resultados indicativos de melhor precisão e acurácia. Esta afirmativa é também verificada ao se analisarem os resultados obtidos em uma situação de grau de multicolinearidade considerado moderado, conforme resultados apresentados para (γ = 0,5). Porém, ao se considerar um grau elevado (γ = 0,7) e severo (γ = 0,9) de multicolinearidade, os valores do erro quadrático médio proporcionado pelos estimadores ridge foram aumentados, mas inferiores aos valores obtidos pelo estimador de mínimos quadrados, com exceção do tamanho amostral n = 15 dado (γ = 0,9), no qual, foram observados valores exorbitantes para o erro quadrático médio, ao se comparar com o valor obtido no método de mínimos quadrados. (Tabela 2).

Em consequência dos resultados obtidos, a comparação dos estimadores ridge, em considerando diferentes níveis de multicolinearidade torna-se relevante, pelo fato de que a multicolinearidade provoca uma redução da precisão das estimativas, condicionada aos dados. Como principal consequência, as variâncias são inflacionadas. Wetherill (1986) explica que dados mal condicionados são provenientes de covariáveis que estão escritas como combinações lineares das demais, portanto, apresentam pouca contribuição em qualquer estatística que envolva a variância das estimativas. Exemplos a serem considerados seriam os testes de significância para os coeficientes.

Aplicação em um experimento com dados reais

Com base nos resultados obtidos no experimento descrito na metodologia, foi estimado para cada variável o fator de inflação da variância e os valores estão apresentados na Tabela 3.

Aplicando-se os estimadores ridge descritos em (3), (4) e (5) e o estimador de mínimos quadrados para esse experimento, observou-se que todos os estimadores foram eficientes, em relação ao método dos mínimos quadrados, com destaque para o estimador Kmed, que apresentou maior precisão que os demais (Tabela 4). Desta forma, nota-se que o estimador ridge dado por Kmed corrigiu com maior precisão o efeito da multicolinearidade, proporcionando maior estabilidade, no sentido de que, em caso de alguma perturbação nos dados, o impacto nas estimativas dos parâmetros será pequeno.

Convém ressaltar que a maior precisão observada para o estimador Kmed, de certa forma foi concordante com os resultados simulados (Tabela 2). Por se tratar de estudo de simulação, no qual a variância dos dados previamente fixada, e por causa das oscilações do erro do método Monte Carlo, naturalmente alguma diferenciação nos valores obtidos é justificável, por este estudo.

CONCLUSÃO

Os estimadores ridge, propostos por Kibria (2003), podem ser utilizados em experimentos que considerem as variáveis com diferentes graus de multicolinearidade, para amostras maiores do que n=50, em Entomologia.

AGRADECIMENTOS

Os autores agradecem o auxílio financeiro recebido do CNPq.

Recebido para publicação em 04/03/2013 e aprovado em 10/10/2013.

  • Brighenti DM, Brighenti CRG, Cirillo MA & Santos CMB (2010) Optimization of the components of an energetic diet for africanized bees through the modelling of mixtures. Journal of Apicultural Research, 49:326-333.
  • Chatterjee S & Hadi AS (2006) Regression analysis by example. 4Şed. New York, John Wiley. 408p.
  • Conniffe D & Stone J (1974) A critical review of ridge regression. The Statistician, 22:181-187.
  • Farrar DE & Glauber RR (1967) Multicollinearity in regression analysis: The Problem Revisited. The review of economics and statistics, 49:92-107.
  • Gibbons DG (1981) A simulation study of some ridge estimators. Journal of the American Statistical Association, 76:131-139.
  • Guilkey DK & Murphy JL (1975) Directed ridge regression techniques in cases of multicollinearity. Journal of the American Statistical Association, 70:769-775.
  • Halsey G (1948) Physical adsorption on non-uniform surfaces. Journal of chemistry physics, 16:931-937.
  • Hoerl AE & Kennard RW (1970) Ridge regression: biased estimation for nonorthogonal problems. Technometrics, 12:55-67.
  • Kibria BMG (2003) Performance of Some New Regression Estimators. Communications in Statistic. Simulation and Computation, 32:419-435.
  • Myers RH & Montgomery DC (2002) Response surface methodology: process and product optmization using designed experiments. 2Şed. Nova York, John Wiley. 798p.
  • Oliveira IA, Cirillo MA & Borges SV (2011) Estudo da não linearidade dos modelos de Oswin e Halsey aplicados na construção de isotermas. Revista Ceres, 58:735-739.
  • Oswin CR (1946) The kinetics of package life. III. The isotherm. Journal of Chemistry and Industry, 56:419-423.
  • Petrini J, Dias RAP, Pertile SFN, Eler JP, Ferraz JBS & Mourão GB (2012) Degree of multicollinearity and variables involved in linear dependence. Pesquisa Agropecuária Brasileira, 47:1743-1750.
  • Piepel GF & Cornell JA (1987) Designs for mixture-amount experiments. Journal of Quality Technology, 19:11-28.
  • R Development Core Team (2012) R: A Language and environment for statistical computing. Vienna, R Foundation for Statistical Computing. Disponível em: <http://www.r-project.org/>. Acessado em: 01 de janeiro de 2012.
  • Wetherill GB (1986) Regression analysis with applications. New York, Chapman and Hall. 408p.

Datas de Publicação

  • Publicação nesta coleção
    28 Jul 2014
  • Data do Fascículo
    Jun 2014

Histórico

  • Recebido
    04 Mar 2013
  • Aceito
    10 Out 2013
Universidade Federal de Viçosa Av. Peter Henry Rolfs, s/n, 36570-000 Viçosa, Minas Gerais Brasil, Tel./Fax: (55 31) 3612-2078 - Viçosa - MG - Brazil
E-mail: ceres@ufv.br