Acessibilidade / Reportar erro

Uma análise de Monte Carlo do desempenho de estimadores de matrizes de covariância sob heterocedasticidade de forma desconhecida

Resumos

Este artigo analisa o desempenho em amostras finitas do estimador consistente de matrizes de covariância proposto por Halbert White. O comportamento deste estimador é estudado tanto sob homocedasticidade quanto sob heterocedasticidade usando métodos de simulação Monte Carlo. Este estimador pode apresentar viés significativo para amostras de tamanho pequeno a moderado. O desempenho em amostras finitas de estimadores de bootstrap e analiticamente corrigidos também é analisado. Os resultados numéricos favorecem os estimadores corrigidos analiticamente em relação ao estimador obtido a partir de um esquema de reamostragem de bootstrap. Três estimadores alternativos que são construídos como variações do estimador originalmente proposto por White são também analisados. Os resultados revelam, ainda, a influência de pontos de alta alavancagem sobre o desempenho dos diversos estimadores.

bootstrap; heterocedasticidade; homocedasticidade; matrizes de covariância; regressão linear; viés


This paper analyzes the finite-sample performance of the consistent covariance matrix estimator proposed by Halbert White under both homoskedasticity and heteroskedasticity using Monte Carlo simulation methods. It showns that this estimator can be quite biased in samples of small to moderate sizes, thus leading to associated quasi-t tests with large size distortions. The finite-sample performance of bootstrap and bias-corrected estimators is also investigated. The numerical results favor the analitically corrected estimators over the one obtained from a weighted bootstrapping scheme. The paper analyzes the finite-sample of three alternative estimators, which are defined as small variations of the White estimator. Finally, the results also show that the existence of points of high leverage in the regression matrix has a substantial impact on the finite-sample performance of the different covariance matrix estimators.


Uma análise de Monte Carlo do desempenho de estimadores de matrizes de covariância sob heterocedasticidade de forma desconhecida* * Os autores agradecem o apoio financeiro parcial do CNPq, bem como os comentários, críticas e sugestões de dois pareceristas anônimos.

Francisco Cribari-NetoI; Matheus Cabral de Araújo GoisII

IDepartamento de Estatística da Universidade Federal de Pernambuco

IICentro de Informática da Universidade Federal de Pernambuco

Sumário: 1. Introdução e motivação; 2. O modelo e estimadores; 3. Resultados; 4. Conclusões.

Este artigo analisa o desempenho em amostras finitas do estimador consistente de matrizes de covariância proposto por Halbert White. O comportamento deste estimador é estudado tanto sob homocedasticidade quanto sob heterocedasticidade usando métodos de simulação Monte Carlo. Este estimador pode apresentar viés significativo para amostras de tamanho pequeno a moderado. O desempenho em amostras finitas de estimadores de bootstrap e analiticamente corrigidos também é analisado. Os resultados numéricos favorecem os estimadores corrigidos analiticamente em relação ao estimador obtido a partir de um esquema de reamostragem de bootstrap. Três estimadores alternativos que são construídos como variações do estimador originalmente proposto por White são também analisados. Os resultados revelam, ainda, a influência de pontos de alta alavancagem sobre o desempenho dos diversos estimadores.

Palavras-chave: bootstrap; heterocedasticidade; homocedasticidade; matrizes de covariância; regressão linear; viés.

Códigos JEL: C51, C52, C13 e C12.

ABSTRACT

This paper analyzes the finite-sample performance of the consistent covariance matrix estimator proposed by Halbert White under both homoskedasticity and heteroskedasticity using Monte Carlo simulation methods. It showns that this estimator can be quite biased in samples of small to moderate sizes, thus leading to associated quasi-t tests with large size distortions. The finite-sample performance of bootstrap and bias-corrected estimators is also investigated. The numerical results favor the analitically corrected estimators over the one obtained from a weighted bootstrapping scheme. The paper analyzes the finite-sample of three alternative estimators, which are defined as small variations of the White estimator. Finally, the results also show that the existence of points of high leverage in the regression matrix has a substantial impact on the finite-sample performance of the different covariance matrix estimators.

1. Introdução e Motivação

Muitas aplicações práticas envolvem modelagem de regressão onde o comportamento de uma variável de interesse é explicado a partir de sua relação com variáveis auxiliares, em geral assumindo-se que esta relação seja linear. Uma suposição constantemente feita é a de homocedasticidade , ou seja, assume-se que todos os erros do modelo possuem variâncias idênticas. Contudo, esta suposição é violada em muitas situações, especialmente quando o interesse reside na modelagem de dados de corte transversal. Neste caso, é muito comum que os dados apresentem heterocedasticidade , ou seja, variâncias condicionais não-constantes. O estimador de mínimos quadrados ordinários (EMQO) dos parâmetros lineares de regressão permanece não-viesado e consistente mesmo que incorretamente se assuma homocedasticidade, não sendo mais, contudo, o melhor estimador linear não-viesado. O estimador de MQO da matriz de covariância das estimativas dos parâmetros de regressão passa a ser viesado e inconsistente. Uma prática comum é a utilização de estimativas de MQO quando se suspeita da presença de heterocedasticidade, já que estas são não-viesadas e consistentes, juntamente com uma estimativa de sua matriz de covariância que seja consistente tanto sob homocedasticidade quanto sob heterocedasticidade. Por exemplo, Jeffrey Wooldridge escreve em seu livro-texto de econometria (Wooldridge, 2000:249): ''In the last two decades, econometricians have learned to adjust standard errors, t, F and LM statistics so that they are valid in the presence of heteroskedasticity of unkown form. This is very convenient because it means we can report new statistics that work, regardless of the kind of heteroskedasticity present in the population''.

O estimador consistente da matriz de covariância do EMQO mais utilizado é o proposto por Halbert White (1980). O objetivo deste artigo é investigar, através de simulações de Monte Carlo, o desempenho deste estimador em amostras de tamanho pequeno a moderado. Consideramos também duas alternativas ao estimador de White, a saber: a seqüência de estimadores de White corrigidos, proposta por Cribari-Neto, Ferrari e Cordeiro (2000), e o estimador de bootstrap ponderado, proposto por Wu (1986). São, ainda, apresentados resultados para três estimadores propostos por MacKinnon e White (1985), denotados HC1, HC2 e HC3. Estes estimadores possuem forma semelhante ao de White, incorporando apenas diferentes formas de ajuste para amostras finitas.

Note que as simulações apresentadas neste artigo são mais gerais que as apresentadas por MacKinnon e White (1985), uma vez que incluem uma classe mais ampla e rica de estimadores.

Os resultados sugerem que os estimadores corrigidos analiticamente propostos por Cribari-Neto, Ferrari e Cordeiro (2000) tipicamente apresentam desempenho superior ao estimador de White e ao de bootstrap no que diz respeito ao comportamento de testes associados a estes estimadores. No que se refere aos estimadores HC1, HC2 e HC3, o artigo mostra que HC2 possui menor viés, HC1 possui menor erro quadrático médio e HC3 domina quando os estimadores são utilizados para construir estatísticas quase-t e realizar inferência sobre parâmetros. Os resultados mostram também que a presença de observações de alta alavancagem nos regressores do modelo causa uma deterioração substancial no desempenho dos estimadores considerados.

2. O Modelo e Estimadores

O modelo de interesse é o linear de regressão, onde uma variável de interesse y é associada a um conjunto de variáveis explicativas de forma linear:

y = Xb + u,

onde y é um vetor n × 1 de observações da variável dependente, X é uma matriz fixa de posto completo de dimensão n × p (p < n) contendo observações sobre as variáveis explicativas, b = (b1,¼, bp)' é um vetor p × 1 de parâmetros desconhecidos e u é um vetor n × 1 de distúrbios aleatórios (erros) com média 0 e matriz de covariância W = diag(,¼,). Quando os erros são homocedásticos, então = s2 > 0, ou seja, W = s2In, onde In é a matriz identidade de ordem n. O estimador de mínimos quadrados ordinários de b é dado por = (X'X)-1X'y, cuja média é b (isto é, ele é não-viesado) e cuja variância é dada por

Y = (X'X)-1X'WX(X'X)-1.

Quando todos os erros possuem a mesma variância, ou seja, W = s2In, esta expressão é simplificada para s2(X'X)-1, podendo ser facilmente estimada como (X'X)-1, onde = '/(n – p). Aqui, = (I – X(X'X)-1X')y = My representa o vetor n × 1 de resíduos de mínimos quadrados, com I denotando a matriz identidade de ordem n.

Muitas aplicações envolvem estruturas de erros que não se caracterizam por variâncias constantes. Nestes casos, torna-se importante a utilização de estimativas mais confiáveis da matriz de variância de . Um estimador consistente para Y foi proposto por White (1980) e pode ser escrito como

= (X'X)-1X'

X(X'X)-1,

onde = diag(,¼, ). Ou seja, é uma matriz diagonal formada a partir do vetor contendo os quadrados dos resíduos de mínimos quadrados. Este estimador é tipicamente consistente quando os erros são homocedásticos e quando os erros são heterocedásticos (White, 1980). Entretanto, o estimador de White pode apresentar viés substancial em amostras de tamanho finito, conforme revelado por estudos de simulação, como os de Cribari-Neto e Zarkos (1999a) e MacKinnon e White (1985).

Cribari-Neto, Ferrari e Cordeiro (2000) obtiveram uma seqüência de estimadores aplicando transformações ao estimador de White. Trata-se de uma cadeia de estimadores corrigidos, onde a cada iteração do processo alcança-se uma redução na ordem do viés, esperando-se, assim, que a correção reduza o erro sistemático do estimador. Seja A uma matriz diagonal de ordem n e defina o operador M(1)(A) = {HA (H – 2I)}d, onde H = X(X'X)-1X' e o subescrito d indica que os elementos não-diagonais da matriz foram substituídos por zeros (isto é, uma matriz diagonal foi formada a partir da matriz original). Sejam ainda M(2)(A) = M(1){ M(1)(A)}, M(3)(A) = M(1){ M(2)(A)}, M(4)(A) = M(1){ M(3)(A)} etc., e M(0)(A) = A. Esses autores definiram uma seqüência de estimadores para Y, {, k = 1,2,¼}, onde

e P = (X'X)-1X'. É possível mostrar que, sob certas condições de regularidade, o viés de é de ordem (n-(k+2)). Ou seja, quanto maior o número de iterações da seqüência de correção de viés, mais rápida a convergência para 0 do viés do estimador quando n ¥.

Nas simulações realizadas e descritas na próxima seção, consideramos quatro estimadores analiticamente corrigidos obtidos a partir do estimador de White. Estes estimadores correspondem aos quatro primeiros estágios da seqüência de correção de viés proposta por Cribari-Neto, Ferrari e Cordeiro (2000), isto é, com k = 1,2,3,4.

Uma alternativa computacionalmente intensiva reside na utilização do método bootstrap, proposto por Bradley Efron em 1979 (Efron, 1979). Este método procura obter medidas estatísticas de precisão baseadas em simulações computacionais e geralmente fornece uma aproximação para a estatística de interesse que é mais precisa do que aquela obtida a partir de sua aproximação assintótica de primeira ordem.1 1 Para detalhes, ver Davison e Hinkley (1997) e Efron e Tibshirani (1993). Em sua forma mais simples, o algoritmo de bootstrap pode ser descrito da seguinte forma:

a) obtenha uma amostra aleatória ,¼, de com reposição;

b) forme uma amostra de bootstrap: y* = X + u*, onde u* = (,¼, )';

c) obtenha a estimativa de MQO de b: b* = (X'X)-1X'y*;

d) repita os passos anteriores um grande número (digamos, B) de vezes;

e) calcule a variância dos B vetores de estimativas obtidas usando os passos (a) a (d).

Contudo, este esquema de bootstrap não leva em consideração o fato que as variâncias das observações são diferentes quando há heterocedasticidade. De fato, estimativas de bootstrap obtidas como descrito acima não são nem consistentes nem assintoticamente não-viesadas quando os dados provêm de um mecanismo gerador heterocedástico; (Wu, 1986). Um estimador de bootstrap robusto à presença de heterocedasticidade foi proposto por Wu (1986) e pode ser descrito da seguinte forma:

a) para cada i, i = 1,¼, n, obtenha aleatoriamente de uma distribuição com média 0 e variância 1;

b) forme a amostra de bootstrap (y*,X), onde = Xi + /, hi sendo o i-ésimo elemento diagonal da ''matriz chapéu'' H = X(X'X)-1X' e Xi a i-ésima linha da matriz modelo X.

Os passos (c) a (e) permanecem inalterados. Note que a variância (no esquema de bootstrap) de não é constante quando os erros originais não são homocedásticos. Desta forma, este esquema de ''bootstrap ponderado'' leva em consideração a possível não-constância das variâncias dos erros.

No que se refere à amostragem de t*, uma possibilidade é utilizar a seguinte população: a1,¼, an, onde

com = n-1; quando o modelo de regressão contiver um intercepto, temos que = 0.

Por fim, é importante ressaltar que há algumas variantes do estimador de White que foram propostas e que incorporam diferentes ajustes para amostras finitas (MacKinnon e White, 1985). Na primeira variante, denotada por HC1, o estimador de White é multiplicado pelo fator n/(n – p). As outras duas variantes, denotadas respectivamente por HC2 e HC3, constroem a matriz utilizada na definição do estimador de White não como = diag{,¼, }, como proposto por White, mas como = diag{/(1 – h1), ¼, /(1 – hn)} e = diag{/(1 – h1)2, ¼,/(1 – hn)2}. O estimador HC3, em particular, representa uma aproximação para o estimador de jackknife considerado por MacKinnon e White (1985).2 2 Para maiores detalhes sobre estes estimadores alternativos, ver Davidson e MacKinnon (1993).

3. Resultados

Adotou-se para as simulações um modelo de regressão simples da forma yi = b1 + b2xi+ siui, i = 1,¼, n. Os tamanhos amostrais considerados foram n = 50,100,150,200. Para n = 50, os valores de xi foram obtidos exponenciando números aleatórios de uma distribuição normal padrão e foram mantidos constantes ao longo das simulações. Para os demais tamanhos amostrais os valores da covariável foram replicados; ou seja, cada valor de xi foi replicado duas vezes quando n = 100, três vezes quando n = 150 e quatro vezes quando n = 200. Esta replicação de covariáveis garante que o grau de heterocedasticidade permaneça constante à medida que o número de observações aumenta. Os ui (erros do modelo de regressão) são independente e identicamente distribuídos seguindo uma distribuição (0,1) e, para a geração dos dados, b0 = b1 = 1. Quando o modelo utilizado na geração de dados é homocedástico, si = 1, ao passo que para a geração de dados heterocedásticos utilizou-se

O grau de heterocedasticidade pode ser medido usando = (max ) / (min ); ou seja, sob homocedasticidade = 1 e sob heterocedasticidade > 1. Quanto mais forte a heterocedasticidade, maior . Todas as simulações foram realizadas utilizando 10 mil réplicas de Monte Carlo e 500 réplicas de bootstrap, totalizando assim 5 milhões de réplicas por experimento. As simulações foram realizadas utilizando a linguagem de programação C e o compilador GNU C (Stallman, 1999) no sistema operacional Linux (MacKinnon, 1999). O gerador de números pseudo-aleatórios usado foi o gerador proposto por George Marsaglia em 1997, que utiliza o método multiply-with-carry e possui período aproximadamente igual a 260.3 3 Este gerador passou por testes de aleatoridade bastante estritos, como a bateria de testes DieHard, sem acusar nenhuma detecção de padrões determinísticos e se encontra atualmente implementado em linguagens matriciais, como Ox e R . A fonte original deste gerador é Marsaglia (1997) e seu código fonte em C é dado no anexo deste artigo. Os estimadores considerados foram o de mínimos quadrados ordinários (MQO), o de White (white), o estimador obtido do esquema de bootstrap ponderado (boot) e os quatro estimadores corrigidos analítica e sucessivamente (BCW1, BCW2, BCW3 e BCW4, respectivamente). Os resultados são apresentados nas tabelas 1 a 3.

A tabela 1 apresenta os vieses relativos totais dos diferentes estimadores, ou seja, a soma dos valores absolutos dos vieses relativos individuais dos elementos diagonais (variâncias) da matriz de covariância das estimativas de mínimos quadrados. O viés relativo individual de um estimador é aqui definido como a média das estimativas menos o valor verdadeiro do parâmetro, sendo esta diferença dividida pelo valor verdadeiro do parâmetro. O viés relativo total mede, assim, o viés agregado das estimativas das variâncias.

Em primeiro lugar, nota-se, como esperado, que o estimador de mínimos quadrados ordinários das variâncias é não-viesado quando g = 0 (homocedasticidade) e bastante viesado quando o processo gerador de dados apresenta heterocedasticidade. Por exemplo, quando g = 0,08 e n = 100, o seu viés relativo total ultrapassa 100%. O viés deste estimador não converge para 0 quando n aumenta.

Segundo, o estimador de White se mostra bastante viesado, independentemente de os dados virem de um mecanismo gerador homo ou heterocedástico. Por exemplo, quando n = 100 e g = 0,08, o viés relativo total deste estimador fica próximo de 25%.

Terceiro, tanto o estimador de bootstrap quanto os estimadores corrigidos analiticamente se mostram superiores ao estimador de White. Quando o tamanho amostral é pequeno (n = 50), o estimador de bootstrap apresenta desempenho semelhante ao estimador corrigido de primeira ordem (BCW1). Contudo, quando n aumenta, o viés relativo total do estimador analiticamente corrigido de primeira ordem converge para 0 mais rapidamente do que o do estimador de bootstrap. Os estimadores corrigidos de ordem superior apresentam desempenho ainda melhor. Por exemplo, quando n = 100 e g = 0,10, o viés relativo total do estimador de White é 26,44%, ao passo que a mesma medida para o estimador de bootstrap e para os quatro estimadores corrigidos vale 8,44%, 5,21%, 1,82%, 1,23% e 1,12%, respectivamente. Ou seja, o viés relativo total do estimador corrigido de segunda ordem é quase 15 vezes menor do que o do estimador de White e quase cinco vezes menor do que o do estimador de bootstrap.

Quarto, os resultados apresentados na tabela 1 sugerem que duas iterações no processo sequencial de correção de viés são suficientes para que se obtenha um estimador com viés baixo em amostras de tamanho pequeno a moderado. Em suma, os resultados na tabela 1 revelam que o estimador de White pode ser muito viesado em amostras finitas, que o estimador de bootstrap apresenta um desempenho superior ao de White e que os estimadores corrigidos analiticamente apresentam, em geral, desempenho superior ao do estimador de bootstrap. Por exemplo, o estimador corrigido de ordem 2 apresenta viés relativo total, quando n = 100 e g = 0,14, mais de quatro vezes menor do que o viés relativo total do estimador de bootstrap para g = 0,14, mas com o estimador de bootstrap sendo obtido com base em 200 observações. Ou seja, mesmo com metade do número de observações o estimador corrigido analiticamente alcança uma precisão substancialmente maior do que o estimador de bootstrap.

A tabela 2 apresenta as raízes quadradas das somas dos erros quadráticos médios individuais para os diferentes estimadores (REQM). Estas quantidades medem, assim, tanto o viés quanto a variabilidade dos estimadores. Os resultados contidos na tabela 2 revelam que o esquema de correção de viés analítico conduz a um aumento da variância, ou seja, conduz à inflação da variância. O mesmo ocorre com o estimador de bootstrap, que apresenta erro quadrático médio total superior ao do estimador de White.

Os resultados apresentados nas tabelas 1 e 2 mostram que tanto o estimador de bootstrap quanto os estimadores corrigidos apresentam viés notadamente inferior ao do estimador de White, mas ao custo de um aumento de variância. Desta forma, torna-se importante investigar se há ganhos de inferência em usar os estimadores de bootstrap e corrigidos analiticamente para construir estatísticas de teste quase-t. Ou seja, considere o teste da hipótese nula : bj = , j = 1,¼, p, onde é uma dada constante, sendo a hipótese alternativa bicaudal. A estatística de teste pode ser escrita como

onde () denota a variância estimada de obtida a partir de um dos estimadores consistentes considerados.

Sob a hipótese nula, esta estatística de teste possui distribuição assintótica (0,1) e, assim, o teste é realizado comparando o valor da estatística ao valor crítico de nível a obtido de uma tabela normal padrão. O interesse recai sobre a seguinte pergunta: qual estimador consistente da variância conduz a testes quase-t com menor distorção de tamanho?

A tabela 3 apresenta os tamanhos estimados dos testes quase-t da hipótese nula : b2 = 1 ao nível nominal (probabilidade de erro do tipo I) a = 5%. (As entradas desta tabela são porcentagens de rejeição da hipótese nula quando esta é de fato verdadeira.) As conclusões que podem ser obtidas destes resultados de simulação são, em primeiro lugar, que o teste que usa o estimador de mínimos quadrados da variância apenas apresenta desempenho confiável sob homocedasticidade, como esperado. Segundo, o teste construído usando o estimador de White da variância apresenta taxas de rejeição consideravelmente superiores ao nível assintótico, independentemente da presença de heterocedasticidade. Por exemplo, quando n = 100 e g = 0,10, este teste rejeita a hipótese nula 10,98% das vezes, ou seja, com freqüência mais de duas vezes superior à esperada com base no tamanho assintótico selecionado. Em geral, os testes construídos a partir do estimador de bootstrap e dos estimadores corrigidos analiticamente apresentam distorções de tamanho ligeiramente inferiores às verificadas para o teste construído a partir do estimador de White. Ou seja, a redução de viés alcançada por estes estimadores domina o aumento de variância no que diz respeito ao desempenho de tamanho de testes quase-t associados. Contudo, todos os testes apresentam taxas de rejeição superior ao nível nominal (assintótico, 5%), tendência que é tanto mais acentuada quanto mais forte a heterocedasticidade.

Nosso interesse central reside na comparação do desempenho dos estimadores corrigidos analiticamente e do estimador de bootstrap, já que estes são obtidos a partir de enfoques bem distintos, a saber: correções analíticas versus esquemas de reamostragem computacionalmente intensivos. Contudo, torna-se interessante também avaliar o desempenho destes estimadores relativamente às variantes do estimador de White descritas anteriormente. As tabelas 4 a 6 apresentam resultados similares aos apresentados nas tabelas 1 a 3, respectivamente, mas agora para os estimadores HC1, HC2 e HC3.

Em termos de viés absoluto total, o estimador HC2 apresenta tipicamente menor viés que HC1 e HC3, com HC3 superando HC1. Por exemplo, quando n = 100 e g = 0,10, os vieses relativos totais dos estimadores HC1, HC2 e HC3 são, respectivamente, 22,90%, 7,93% e 12,87%. Note que o viés de HC2 é semelhante ao do estimador de bootstrap (8,44%) e consideravelmente mais elevado que os vieses dos quatro estimadores corrigidos (5,12%, 1,82%, 1,23% e 1,12%). Em suma, o estimador HC2 domina os estimadores HC1 e HC3 em termos de erros sistemáticos, ligeiramente supera o estimador de bootstrap e apresenta desempenho inferior aos estimadores propostos por Cribari-Neto, Ferrari e Cordeiro (2000).

Quando o critério de comparação é o REQM, contudo, o estimador HC1 domina os estimadores HC2 e HC3, com o estimador HC2 apresentando desempenho superior ao estimador HC3. Uma comparação entre as tabelas 2 e 5 revela, ainda, que os estimadores HC1 e HC2 apresentam tipicamente REQMs ligeiramente inferiores aos dos estimadores de bootstrap e corrigidos analiticamente. Em suma, entre as variantes do estimador de White, o estimador HC2 apresenta melhor desempenho em termos de viés e o estimador HC1 supera os outros dois no que diz respeito a erro quadrático médio.

Um cenário completamente diferente, contudo, é obtido quando o critério de comparação passa a ser distorção de tamanho de testes quase-t associados aos estimadores (tabela 6). Aqui, verifica-se que o estimador HC3 apresenta desempenho que em muito supera os desempenhos dos estimadores HC1 e HC2. Por exemplo, quando n = 100 e g = 0,10, os tamanhos estimados ao nível nominal de 5% dos testes associados aos estimadores HC1, HC2 e HC3 são, respectivamente, 10,59%, 9,44% e 7,81%. O desempenho do estimador HC3 aqui supera, inclusive, os desempenhos do estimador de bootstrap e dos estimadores analiticamente corrigidos de Cribari-Neto, Ferrari e Cordeiro (2000). Contudo, testes associados ao estimador HC3 continuam a ser liberais dado o fato de rejeitarem a hipótese nula, quando esta é verdadeira, com freqüência maior que a esperada com base no tamanho nominal do teste.

Os valores da covariável x foram gerados de uma distribuição lognormal padrão e apresentam pontos de alta alavancagem, o que pode ter efeito sobre os resultados. Estes pontos podem apresentar uma contribuição substancial para as estimativas dos parâmetros lineares. Uma forma de identificar observações potencialmente influentes é analisando os correspondentes elementos diagonais (hi) da matriz-chapéu H = X(X'X)-1X'. Pode ser mostrado que 0 < hi < 1 para todo i, onde p denota o posto da matriz X. Desta forma, os hi's têm valor médio p/n. Uma regra prática usada por econometristas e estatísticos é que valores de hi superiores a duas ou três vezes a média (ou seja, 2p/n e 3p/n) são tomados como influentes e merecedores de uma análise mais detalhada (Judge et alii, 1988:893). Das 50 observações de x que formam a amostra base, três possuem valores associados diagonais da matriz-chapéu superiores a 3p/n = 0,12. Um novo conjunto de simulações foi realizado retirando estas observações, substituindo-as por três outras realizações da mesma distribuição, checando se há observações influentes no novo conjunto de valores da covariável, substituindo-as caso sejam detectadas (de acordo com a mesma regra) e repetindo o processo até se obter um conjunto de valores de x que não apresente nenhum hi superior a 3p/n. Esta amostra de 50 valores de x foi, então, usada, via replicação de valores, para gerar amostras de tamanho 100, 150 e 200. Os resultados correspondentes aos apresentados nas tabelas 1 a 3 encontram-se apresentados nas tabelas 7 a 9. Os valores de g foram alterados para evitar que o grau de heterocedasticidade fosse substancialmente reduzido.

Uma comparação entre os resultados apresentados na tabela 1 (vieses relativos totais com pontos de alavancagem) e aqueles na tabela 7 (vieses relativos totais sem pontos de alavancagem) revela que quando a matriz de covariáveis não apresenta observações dominantes o desempenho dos estimadores das variâncias apresenta melhora substancial. Considere o caso onde n = 100 e » 204 na tabela 1. O viés relativo total do estimador de White é de aproximadamente 30%, esta medida valendo cerca de 10% para o estimador de bootstrap e 5% para o primeiro estimador corrigido analiticamente. Quando não há pontos de alavancagem na matriz X (tabela 7, com n = 100 e » 253), o viés do estimador de White é reduzido para aproximadamente 11%, o do estimador de bootstrap para menos de 3% e o do estimador BCW1 para menos de 1%. Ou seja, a presença de pontos de alta alavancagem nos regressores deteriora substancialmente o desempenho dos estimadores no que diz respeito a comportamento de viés em amostras finitas.

Uma comparação similar de resultados, mas desta vez entre as tabelas 2 e 8 (raiz quadrada do erro quadrático médio total) revela uma conclusão intrigante: o erro quadrático médio dos estimadores aumentou quando os pontos de alta alavancagem da matriz X foram substituídos por pontos que não são influentes. A explicação se encontra no fato de que os estimadores medem a variabilidade das estimativas dos parâmetros lineares, e esta variabilidade é artificialmente reduzida quando há observações dominantes na matriz X, uma vez que estas observações tendem a dominar o ajuste, resultando, assim, em baixa variabilidade para as estimativas dos parâmetros de regressão.4 4 Lembre que o erro quadrático médio é dado pela soma do quadrado do viés do estimador com sua variância.

Os resultados nas tabelas 1, 2, 7 e 8, quando contrastados, mostram que a presença de pontos de alta alavancagem nos regressores aumenta o viés dos estimadores e reduz sua variância.5 5 O mesmo ocorre com os estimadores HC1, HC2 e HC3 (ver tabelas 5 e 11 ). Torna-se, assim, importante investigar qual o efeito que pontos influentes nas covariáveis têm sobre o desempenho em amostras finitas de testes quase-t associados aos diferentes estimadores. Os tamanhos estimados dos testes correspondentes aos realizados para a situação onde estes pontos existem (tabela 3), agora para o caso onde não há observações dominantes, são apresentados na tabela 9, na qual mais uma vez representam porcentagens de rejeições da hipótese nula. Um contraste entre as tabelas 3 e 9 deixa claro que a presença de observações influentes deteriora consideravelmente o desempenho de testes quase-t baseados em estimadores consistentes das variâncias dos estimadores de mínimos quadrados dos parâmetros de regressão. Esta deterioração vem, como visto através dos resultados nas tabelas 1 e 7, do aumento do viés causado por observações influentes.

Os resultados para as simulações envolvendo os estimadores HC1, HC2 e HC3 estão nas tabelas 10 a 12. Os vieses destes estimadores também são reduzidos quando não há pontos de alavancagem nos regressores. O estimador HC2 continua sendo o que possui menor viés, superando os estimadores HC1 e HC3. A tabela 12 apresenta as taxas de rejeição sob a hipótese nula dos testes que utilizam os três estimadores da variância de e revela que o estimador HC3 é o que fornece as menores distorções de tamanho quando utilizado para construir estatísticas quase-t.

4. Conclusões

É prática comum a utilização de variâncias estimadas das estimativas de mínimos quadrados de parâmetros lineares de regressão quando se suspeita da presença de heterocedasticidade nos dados. Este artigo investiga o desempenho deste estimador e de testes construídos a partir dele quando o tamanho amostral é pequeno ou moderado. Os resultados de simulação apresentados revelam que o estimador de White pode ser bastante viesado em amostras de tamanho típico. O viés ocorre no sentido de se subestimar as variâncias verdadeiras, conduzindo, assim, a testes quase-t liberais.

Investigou-se também o desempenho do estimador de bootstrap, obtido a partir de esquemas de reamostragem de resíduos e construção de pseudo-amostras, e também de estimadores de White corrigidos, ou seja, estimadores obtidos a partir do estimador originalmente proposto por Halbert White aplicando-se transformações a este estimador que visam a reduzir o seu viés em amostras finitas. Tanto os estimadores de bootstrap quanto os corrigidos se mostraram superiores ao estimador de White em amostras de tamanho pequeno a moderado no que diz respeito ao seu viés e à inferência associada a partir de testes quase-t.

Os resultados revelaram, ainda, que os estimadores corrigidos propostos por Cribari-Neto, Ferrari e Cordeiro (2000) apresentam desempenho superior ao do estimador de bootstrap em amostras finitas. Entre as variantes do estimador de White consideradas, o estimador HC1 mostrou melhor desempenho no que diz respeito a erro quadrático médio, o estimador HC2 dominou quando o critério era viés e o estimador HC3 se mostrou o mais confiável para utilização em testes quase-t.

Os resultados neste artigo mostraram que a presença de pontos de alta alavancagem na matriz de regressores exerce um papel central no desempenho dos diversos estimadores, este desempenho claramente deteriorando quando tais pontos existem.

Por fim, vale notar que as simulações sugerem duas linhas futuras de pesquisa. Em primeiro lugar, parece importante obter estimadores analiticamente corrigidos a partir dos estimadores HC1, HC2 e HC3, generalizando assim os resultados de Cribari-Neto, Ferrari e Cordeiro (2000), principalmente porque o estimador HC3 é o que apresenta melhor desempenho quando utilizado na construção de testes quase-t, mas apresenta viés bem superior ao dos estimadores corrigidos a partir do estimador de White. A segunda linha de pesquisa é a obtenção de estimadores da matriz de covariância que sejam ''robustos'' à presença de pontos de alavancagem na matriz de variáveis explicativas do modelo. Estas duas pesquisas estão sendo desenvolvidas pelo primeiro autor.

Artigo recebido em out. 2000 e aprovado em fev. 2001

Anexo

Este anexo contém o código fonte em C do gerador de números aletórios utilizado nas simulações de Monte Carlo. Este gerador se encontra, ainda, implementado nas linguagens matriciais de programação Ox (Doornik, 1999) e R (Cribari-Neto & Zarkos, 1999b).

  • Cribari-Neto, F.; Ferrari, S. L. P. & Cordeiro, G. M. Improved heteroscedasticity-consistent covariance matrix estimators. Biometrika, 87:907-18, 2000.
  • ______ & Zarkos, S. G. Bootstrap methods for heteroskedastic regression models: evidence on estimation and testing. Econometric Reviews, 18:211-28, 1999a.
  • ______ & ______. R: yet another econometric programming environment. Journal of Applied Econometrics, 14:319-29, 1999b.
  • Davidson, R. & MacKinnon, J. G. Estimation and inference in econometrics New York, Oxford University Press, 1993.
  • Davison, A. C. & Hinkley, D. V. Bootstrap methods and their application New York, Cambridge University Press, 1997.
  • Doornik, J. A. Object-oriented matrix programming using Ox 3 ed. Kent, Timberlake Consultants, 1999. http://www.nuff.ox.ac.uk/Users/Doornik
  • Efron, B. Bootstrap methods: another look at the jackknife. Annals of Statistics, 7:1-26, 1979.
  • ______ & Tibshirani, R. J. An introduction to the bootstrap New York, Chapman & Hall, 1993.
  • Judge, G. C.; Hill, R. C.; Griffiths, W. E.; Lutkepohl, H. & Lee, T.-C. Introduction to the theory and practice of econometrics 2 ed. New York, Wiley, 1988.
  • MacKinnon, J. G. The Linux operating system: Debian GNU/Linux. Journal of Applied Econometrics, 14:443-52, 1999.
  • ______ & White, H. Some heteroskedasticity-consistent covariance matrix estimators with improved finite sample properties. Journal of Econometrics, 29:305-25, 1985.
  • Marsaglia, G. A random number generator for C. In: Sci. stat. Math. 1997. (Mensagem circulada no grupo de discussăo.)
  • Stallman, R. M. Using and porting the GNU compiler collection Boston, The Free Software Foundation, 1999.
  • White, H. A heteroskedasticity-consistent covariance matrix and a direct test for heteroskedasticity. Econometrica, 48:817-38, 1980.
  • Wooldridge, J. M. Introductory econometrics: a modern approach Cincinnati, South-Western College Publishing, 2000.
  • Wu, C. F. J. Jackknife, bootstrap and other resampling methods in regression analysis. Annals of Statistics, 14:1261-95, 1986.
  • *
    Os autores agradecem o apoio financeiro parcial do CNPq, bem como os comentários, críticas e sugestões de dois pareceristas anônimos.
  • 1
    Para detalhes, ver Davison e Hinkley (1997) e Efron e Tibshirani (1993).
  • 2
    Para maiores detalhes sobre estes estimadores alternativos, ver Davidson e MacKinnon (1993).
  • 3
    Este gerador passou por testes de aleatoridade bastante estritos, como a bateria de testes DieHard, sem acusar nenhuma detecção de padrões determinísticos e se encontra atualmente implementado em linguagens matriciais, como Ox
    e R
    . A fonte original deste gerador é Marsaglia (1997) e seu código fonte em C é dado no anexo deste artigo.
  • 4
    Lembre que o erro quadrático médio é dado pela soma do quadrado do viés do estimador com sua variância.
  • 5
    O mesmo ocorre com os estimadores HC1, HC2 e HC3 (ver
    tabelas 5 e
    11
    ).
  • Datas de Publicação

    • Publicação nesta coleção
      27 Jun 2003
    • Data do Fascículo
      2002

    Histórico

    • Aceito
      Fev 2001
    • Recebido
      Out 2000
    Fundação Getúlio Vargas Praia de Botafogo, 190 11º andar, 22253-900 Rio de Janeiro RJ Brazil, Tel.: +55 21 3799-5831 , Fax: +55 21 2553-8821 - Rio de Janeiro - RJ - Brazil
    E-mail: rbe@fgv.br