Acessibilidade / Reportar erro

O atrito nas pesquisas longitudinais: o caso da pesquisa mensal de emprego (PME/IBGE)

Resumos

O objetivo deste artigo é estimar os determinantes da permanência de pessoas no painel da Pesquisa Mensal de Emprego (PME) e, além disso, testar se ignorar a não-aleatoriedade do desgaste no painel causa algum viés em análises de regressão. Os resultados apontam que há uma forte correlação da taxa de atrito com as características geralmente associadas a uma mobilidade geográfica maior. Além disso, tanto características do processo de entrevista quanto fatores socioeconômicos estão significativamente relacionados à probabilidade de atrito no painel. Nos modelos adotados para testar o viés do desgaste no painel, assim como de outros critérios de seleção amostral, constatamos que todos estes são endógenos, apesar de alguns não estarem diretamente correlacionados com a equação de interesse. Por fim, mostramos que a ausência do controle para seleção amostral, o que inclui a retenção no painel, pode incorrer em algumas análises enviesadas.

Pesquisa Mensal de Emprego; desgaste de painel; viés de atrito; correção para viés de seleção


This article aims to estimate the determinants of attrition/permanence of people in the panel of the Brazilian Monthly Employment Survey (PME/IBGE) and also to test the bias emerged from ignorability of attrition selection in regression analyses. Results point out a strong correlation between attrition rate and characteristics closely related to geographic mobility. In addition, both survey design aspects and socioeconomic events are significantly related to the probability of attrition. In selection correction models, we find that all selection mechanisms are endogenous, even though they are not directly correlated with the equation of interest. Finally, we show that ignoring the endogeneity of sample selection, such as attrition, may imply to a biased analysis. However, controlling for only some selection mechanism, not controlling for all, may provide estimators even more biased than no controlling.

Brazilian Monthly Employment Survey; panel attrition; attrition bias; bias selection corrections


O atrito nas pesquisas longitudinais: o caso da pesquisa mensal de emprego (PME/IBGE)

Rafael Perez RibasI; Sergei Suarez Dillon SoaresII

IUniversity of Illinois at Urbana-Champaign. Endereço para contato: Department of Economics - 419 David Kinley Hall - 1407 W. Gregory Dr. - Urbana - IL 61801 - USA. E-mail: ribas1@illinois.edu

IIInstituto de Pesquisa Econômica Aplicada / Diretoria de Estudos Sociais. E-mail: sergei.soares@ipea.gov.br

RESUMO

O objetivo deste artigo é estimar os determinantes da permanência de pessoas no painel da Pesquisa Mensal de Emprego (PME) e, além disso, testar se ignorar a não-aleatoriedade do desgaste no painel causa algum viés em análises de regressão. Os resultados apontam que há uma forte correlação da taxa de atrito com as características geralmente associadas a uma mobilidade geográfica maior. Além disso, tanto características do processo de entrevista quanto fatores socioeconômicos estão significativamente relacionados à probabilidade de atrito no painel. Nos modelos adotados para testar o viés do desgaste no painel, assim como de outros critérios de seleção amostral, constatamos que todos estes são endógenos, apesar de alguns não estarem diretamente correlacionados com a equação de interesse. Por fim, mostramos que a ausência do controle para seleção amostral, o que inclui a retenção no painel, pode incorrer em algumas análises enviesadas.

Palavras-Chave: Pesquisa Mensal de Emprego, desgaste de painel, viés de atrito, correção para viés de seleção

ABSTRACT

This article aims to estimate the determinants of attrition/permanence of people in the panel of the Brazilian Monthly Employment Survey (PME/IBGE) and also to test the bias emerged from ignorability of attrition selection in regression analyses. Results point out a strong correlation between attrition rate and characteristics closely related to geographic mobility. In addition, both survey design aspects and socioeconomic events are significantly related to the probability of attrition. In selection correction models, we find that all selection mechanisms are endogenous, even though they are not directly correlated with the equation of interest. Finally, we show that ignoring the endogeneity of sample selection, such as attrition, may imply to a biased analysis. However, controlling for only some selection mechanism, not controlling for all, may provide estimators even more biased than no controlling.

Keywords: Brazilian Monthly Employment Survey, panel attrition, attrition bias, bias selection corrections

JEL Classification: C33, C81, J60

1 Introdução

A Pesquisa Mensal de Emprego (PME), conduzida pelo Instituto Brasileiro de Geografia e Estatística (IBGE), é uma pesquisa amostral domiciliar de periodicidade mensal e seu levantamento é realizado em seis Regiões Metropolitanas do Brasil. Além da disponibilização mensal de microdados, o painel da PME, que acompanha as unidades amostrais por até oito entrevistas, permite a investigação de fenômenos socioeconômicos no nível individual/domiciliar que ocorrem de forma longitudinal. Contudo, como todo painel domiciliar, a PME está sujeita ao problema de perda das unidades amostrais ao longo do tempo, o chamado desgaste ou atrito do painel.

Para Peracchi e Welch (1995), são duas as principais causas para o desgaste em um painel. A primeira causa de desgaste em uma pesquisa longitudinal está relacionada diretamente à mudança de endereço das pessoas na amostra. Na PME, este problema é ainda maior que em outras pesquisas em painel, como o PSID (Panel Study of Income Dynamics) e o BHPS (British Household Panel Survey), que se esforçam em encontrar as pessoas em outros endereços. No caso da PME, se os indivíduos deixam seus domicílios, eles são automaticamente excluídos da pesquisa. A segunda causa para o desgaste é a recusa de entrevista. Neste caso, a hipótese é de que, após participar repetidas vezes de uma determinada pesquisa, os participantes podem se tornar desinteressados, recusando-se a ser entrevistados novamente. Existem ainda outras causas de menor proporção para o desgaste, como a morte de indivíduos e o fato de o entrevistador não encontrar nenhum morador no momento em que visita o domicílio.

Independente da perda no número absoluto de observações, um problema maior em qualquer análise de transição ocorre quando o atrito não é aleatório. Por exemplo, indivíduos com elevada mobilidade geográfica tendem a diferir daqueles com maior estabilidade em seu endereço. Com isso, o problema surge quando um determinado grupo de indivíduos torna-se sub-representado na amostra em decorrência do próprio fenômeno socioeconômico analisado.

Neri et al. (1997), por exemplo, aponta que, particularmente no caso em que estavam analisando, não havia diferenças significativas nas características demográficas e econômicas entre as amostras atritadas e não atritadas. Por outro lado, o trabalho de Lopes (2002) aponta que algumas características individuais, como a situação de desemprego e a idade, e do domicílio, como o sexo do chefe, estão significativamente relacionadas com o desgaste no painel. Independente disso, Falaris e Peters (1998) salientam que, mesmo quando a sub-amostra de atritados apresenta estatísticas semelhantes às dos demais, a estimação sem os termos de correção do viés pode incorrer em resultados inconsistentes.

O objetivo deste artigo é estimar os determinantes do atrito/permanência no painel da PME e, além disso, testar se ignorar a não-aleatoriedade deste desgaste causa algum viés na análise de regressões. Na seção seguinte a esta introdução, apresentamos uma revisão sobre viés e controle da seleção amostral não aleatória causados pelo atrito em painéis. Em seguida, é apresentada uma descrição sobre a PME e particularmente sobre a estrutura do seu painel. Na quarta seção, são apontados os resultados das regressões sobre a probabilidade de as pessoas permanecerem no painel da PME na entrevista seguinte. A seção posterior apresenta os resultados sobre as implicações de se ignorar um possível viés de atrito em alguns tipos de análises com o painel da PME. Cabe deixar claro que este trabalho não tem a intenção de discutir os temas específicos envolvendo estes resultados. A discussão apresentada está relacionada apenas aos aspectos metodológicos das estimativas. Por fim, algumas conclusões são traçadas com base nos resultados encontrados.

2 Revisão da Literatura

Uma pesquisa longitudinal é aquela na qual uma unidade amostral é entrevistada mais de uma vez, o que quer dizer que se pode montar um painel de dados.1 1 Exemplos no Brasil são o Censo Escolar, no qual cada escola é entrevistada a cada ano; a Relação Anual de Informações Sociais (RAIS), nas quais as empresas e unidades de produção são entrevistadas repetidas vezes; e a Pesquisa Mensal de Emprego (PME), na qual cada domicílio e, potencialmente, cada morador, é entrevistado até oito vezes. Ademais, o IBGE estuda a transformação da Pesquisa Nacional por Amostragem de Domicílios (PNAD) em uma pesquisa contínua com um painel rotativo de domicílios. Em geral, dados em painel permitem análises mais precisas que dados cross-section ou "transversais", possibilitando, por exemplo, o controle de efeitos fixos e de condições iniciais. Os painéis, por outro lado, apresentam alguns problemas, e o principal deles é o desgaste.

Se a morte, nascimento ou troca de endereço fossem eventos que ocorressem de forma aleatória - i.e., sem nenhuma correlação com variáveis observadas ou não observadas - o atrito seria um problema apenas na medida em que reduzisse o tamanho da amostra, aumentando o intervalo de confiança. Caso contrário, se o atrito é baseado em fatores que são sistematicamente relacionadas à variável resposta, um problema de seleção amostral poderá ocorrer, tornando a análise enviesada.

Hausman e Wise (1979) enfatizam que o atrito não aleatório não torna necessariamente as estimativas de um modelo enviesadas. O atrito relacionado somente a variáveis exógenas não causa problemas, desde que essas variáveis sejam controladas na estatística. Basicamente, o problema de viés de seleção ocorre somente quando o atrito está relacionado aos erros aleatórios da equação de interesse.

Embora na literatura de amostragem o tema de desgaste de painéis seja tratado há mais tempo (e.g. HORVITZ; THOMPSON, 1952), o trabalho de Hausman e Wise foi um dos primeiros a levantar a questão na literatura econométrica. O estudo em questão era sobre o impacto de um experimento (Gary Income Maintenance Experiment) sobre os rendimentos de trabalhadores negros. Com a perda de 35% da amostra no período seguinte, o viés de atrito foi identificado como um problema nas avaliações mais parcimoniosas. Porém, esse viés diminuiu com a incorporação de mais variáveis exógenas no modelo. Para correção do viés, os autores propuseram uma função de verossimilhança muito próxima da utilizada por Heckman (1974).

Apesar da extensa literatura sobre viés de atrito, publicada após os trabalhos de Hausman e Wise (op. cit.) e Heckman (op. cit.; 1979), alguns trabalhos empíricos continuam não se atendo ao problema.2 2 Como exemplos de trabalhos que não utilizam técnicas de correção para o viés de atrito podemos citar os de Duryea (1998), Duryea, Lam e Levison (2007), Neri et al. (2000), Corseuil e Carneiro (2001), Lemos (2002), Woltermann (2002), Penido e Machado (2003), Gonzaga e Reis (2005), Machado, Ribas e Penido (2007). A prática mais comum utilizada nestes trabalhos é descartar as unidades com observações ausentes nos períodos subsequentes. Dessa forma, algo fortemente relacionado a fatores econômicos e sociais de interesse, como a estabilidade da unidade familiar, acaba sendo imposto como uma exigência de entrada na amostra.

Uma das razões para a frequente ausência de preocupação com o viés de atrito é que, de acordo com Verbeek e Nijman (1992) e Ziliak e Kniesner (1998), a estimação de um modelo de efeitos fixos pode eliminar muita das formas de heterogeneidade não observada. Entre elas, a heterogeneidade na seleção amostral. Contudo, Vella (1998) salienta que outras formas de viés de seleção e heterogeneidade podem não ser eliminadas com o uso de um modelo de efeitos fixos. Este é o caso quando a seleção da amostra está relacionada com os termos idiossincráticos aleatórios da equação de interesse.

Além disso, para estimação de um modelo de efeitos fixos é necessária uma amostra com unidades acompanhadas em três ou mais períodos. Nicoletti e Peracchi (2001), por exemplo, não utilizam um modelo de efeitos fixos para estimar transições na força de trabalho no BHPS (British Household Panel Survey). Eles concluem que um choque na probabilidade de permanência na amostra é positivamente correlacionado com um choque na probabilidade de desemprego. A explicação é que o atrito é mais comum entre aqueles que se mudaram por razões relacionadas ao trabalho, sendo impossível estabelecer um novo contato.

Van den Berg e Lindeboom (1998) também estimam a relação entre desgaste do painel e emprego/desemprego, porém utilizando dados do Labour Supply Panel Survey da OSA (Netherlands Organization for Strategic Labour Market Research). Com uma taxa de atrito elevada, entre 25% e 30%, eles evidenciam uma forte correlação entre os componentes não observados determinantes do tempo de emprego e desemprego e os componentes não observados determinantes do tempo de participação no painel.

Um ponto importante levantado por Falaris e Peters (op. cit.) é que, mesmo quando a subamostra de atritados apresenta estatísticas semelhantes às dos demais, a estimação sem os termos de correção pode incorrer em resultados enviesados. Zabel (1998), por outro lado, apresenta um caso onde o padrão de atrito é contrário deste último. A primeira evidência foi que atritados apresentavam maior variabilidade em suas horas trabalhadas e em seus salários e menor taxa de participação na força de trabalho que os não atritados. Além disso, as estimativas da equação de oferta de trabalho eram distintas entre as amostras de atritados e não atritados. Contudo, comparando as regressões com e sem o termo de correção, os resultados são de que não há viés de atrito na equação de horas de trabalho ofertadas, mas somente na equação de salários.

Outra forma de seleção amostral ocorre quando pessoas não desaparecem do painel, mas algumas variáveis se tornam não observadas em algum dos períodos. Um exemplo é a estimação de uma equação salarial usando um painel de indivíduos. A população de interesse são pessoas que estão trabalhando no período inicial, porém algumas dessas pessoas poderão ficar desempregadas em períodos subsequentes. Esta situação é diferente de um problema de desgaste, onde pessoas saem completamente da amostra e, normalmente, não reaparecem nos períodos seguintes.

Cappelari e Jenkins (2004a, 2004b) investigam o viés de atrito sobre duas equações um pouco distintas, e ambas envolvem transições entre estados discretos e outros mecanismos de seleção. No primeiro caso (2004b), que investiga as transições entre baixos e altos salários considerando a probabilidade de o adulto estar empregado, a conclusão é que as correções de viés a partir da condição inicial e seletividade do mercado de trabalho são relevantes. A existência de um viés de atrito, porém, não passa no teste de hipótese. No segundo trabalho (2004a), que investiga as probabilidades de permanência na pobreza ou transição para ela, os autores encontram evidências sobre o viés de atrito e de condição inicial. Porém, eles concluem que negligenciar a endogeneidade da condição inicial é mais problemático que negligenciar o controle sobre o desgaste do painel.

Lillard e Panis (1998), que estimaram os efeitos do estado civil sobre a dinâmica da renda familiar e sobre o risco de morte utilizando o PSID, tiveram uma conclusão semelhante à de Cappelari e Jenkins (2004a). Apesar da evidência de significativa seletividade no atrito, o viés introduzido ao ignorar o problema é muito baixo. Cabe salientar que a taxa de atrito neste trabalho também era baixa, apenas 2% por ano.

Fitzgerald, Gottschalk e Moffitt (1998) colocam que não há necessariamente uma relação entre tamanho da amostra atritada e magnitude do viés gerado. Elevadas taxas de atrito podem não causar viés se elas forem aleatórias.

2.1 Como Controlar a Seleção Não Aleatória

As formas de não-aleatoriedade do atrito que causam viés na estimação são apresentadas a seguir. Considere um modelo geral onde yit é a variável de interesse e dit é uma dummy igual a 1 se a unidade permaneceu na amostra do período, ou seja, yit é observado, e igual a 0 caso contrário, tal que:

onde i,(i = 1, ... , N), representa o indivíduo e t,(t = 1, ... , T), representa o período. A variável dependente na primeira equação é observada somente para as unidades que satisfazem a regra de seleção (). Para introduzir o viés de seleção é assumido que os erros podem ser divididos em efeitos individuais fixos (µ1, i µ2,i) e efeitos aleatórios idiossincráticos (e1,it e e1,it), e que cada componente do erro é assumido ser normalmente distribuído e correlacionado com o componente da mesma dimensão na outra equação.3 3 Para simplificar, os efeitos aleatórios agregados de períodos estão junto das variáveis explicativas do modelo. Para simplificar, definimos que ε1, it = µ 1,i + e1, it e ε2,it = µ2,i + e 2,it.

Uma forma de atrito não aleatório é quando a seleção ocorre sobre os componentes específicos e invariantes dos indivíduos:

Neste caso, não é necessário utilizar técnicas de correção de viés, desde que seja utilizado um modelo de estimação com efeitos fixos. Porém, cabe salientar que, caso não seja possível estimar os efeitos fixos, não é possível isolar os termos µ 1,i de ε1,it e µ2,i de ε2,it. Dessa forma, o comportamento de atrito seria tratado como dentro de um segundo grupo de estimativas, juntamente com aquelas onde a seleção ocorre sobre os componentes não observados, tal que:

Neste caso, a esperança condicional de na amostra não atritada será:

onde h é uma função com parâmetros desconhecidos que pode ser escrita como:

sendo ρ12 a correlação entre ε1,it e ε2,it e σ1σ1 o desvio padrão de ε1,it. Para se chegar à função (7), a distribuição conjunta de ε1,it e ε2,it deve ser independente de .

Aplicações deste modelo geralmente assumem uma distribuição bivariada para ε1,it e ε 2,it . Com as estimativas dos parâmetros da equação de retenção (ou atrito) ou com a probabilidade predita de retenção (ou atrito), a equação (7) se torna uma função em que os parâmetros podem ser consistentemente estimados.

Basicamente, existem duas formas de estimação neste caso, maximizando uma única função de verossimilhança com componentes de distribuição multivariada ou utilizando a estimação em dois estágios proposta inicialmente por Heckman (1979). Mesmo atualmente, processos de estimação baseados na maximização de uma função de verossimilhança única são difíceis de se trabalhar, particularmente quando são mais de um os mecanismos de seleção (ARENDt; HOLM, 2006). Por isso, alguns trabalhos ainda preferem a estimação em dois estágios.4 4 Sobre estimação em dois estágios quando há mais de um mecanismo de seleção da amostra, ver Fishe et al. (1981). Sobre métodos que corrigem viés de seleção sobre não observáveis, ver Vella ( op. cit.). Segundo Nicoletti e Perracchi (op. cit.) e Arendt e Holm (op. cit.), este tipo de estimação também gera resultados consistentes quando a variável de interesse é binária. Cabe salientar que, de acordo com Bourguignon et al. (2007), quando o mecanismo de seleção não é uma variável binária, o que não é geralmente o caso de atrito/permanência no painel, a estimação em dois estágios pode gerar resultados enviesados.

Independente da forma de estimação, a identificação de β1 implica uma restrição de exclusão, que exista satisfazendo a propriedade de independência de e na qual não seja igual a zero. Segundo Fitzgerald et al. (op. cit.), encontrar tal variável instrumental é mais difícil para os casos de não-resposta que em outras aplicações, pois são poucas as variáveis que afetam não-resposta que podem ser confiavelmente excluídas da equação de interesse. Para os autores, características individuais que são potenciais fontes de instrumentos geralmente estão relacionadas à variável comportamental yit. As variáveis instrumentais mais promissoras são aquelas externas ao indivíduo, tais como características do entrevistador ou do processo de entrevista.

Outra forma de atrito não aleatório, com seleção amostral sobre observáveis, ocorre quando:

Neste caso, a variável crítica é , que afeta a probabilidade de atrito, mas está, ao mesmo tempo, relacionada à densidade de yitcondicionada à x 1,it. Ou seja, é endógena à . Dessa forma, uma estimação por mínimos quadrados da equação (1) sobre uma amostra de não atritados geraria estimadores inconsistentes de β1 e uma densidade que não corresponde à densidade da população, pois a permanência na amos tra está relacionada à através de . Esta situação em particular ocorre quando há um interesse em investigar somente o efeito de x1,it sobre yit, sem condicioná-lo a x2,it, pois a inclusão de x2,it na equação de interesse iria enviesar a estimativa do efeito desejado. Fitzgerald et al. (ibidem) afirmam que, em um painel, os valores defasados da variável de interesse, etc., podem cumprir o papel de variável endógena auxiliar x2,it.

A solução para eliminar o viés de atrito sobre observáveis é a utilização do método de Ponderação pela Probabilidade Inversa (IPW). Sendo a densidade conjunta de yit e x2,it da população e a densidade da amostra de não atritados, então:

Logo, que, integrando dos dois lados em relação a , é reescrito como:

onde

é o peso normalizado a ser utilizado na regressão sobre a amostra de não atritados da equação (1) para estimar

5 5 Wooldridge (2001) aponta que o método IPW pode ser aplicado a qualquer estimador M, o que inclui modelos não lineares. As propriedades assintóticas do método IPW são demonstradas por este autor. ).

3 O Painel da PME

A Pesquisa Mensal de Emprego (PME) do Instituto Brasileiro de Geografia e Estatística (IBGE) é uma pesquisa amostral domiciliar de periodicidade mensal que abrange seis Regiões Metropolitanas (RMs) brasileiras - Rio de Janeiro, São Paulo, Porto Alegre, Belo Horizonte, Recife e Salvador.

De janeiro de 1980 a janeiro de 1982, a PME era parte integrante da Pesquisa Nacional por Amostra de Domicílios (PNAD), utilizando-se do mesmo desenho amostral. Em fevereiro de 1982, deu início à implantação gradativa de reformulações na amostra e, em maio daquele mesmo ano, introduziu-se também um novo e mais amplo questionário. Este questionário deveria ser respondido por pessoas com 10 ou mais anos de idade residentes no domicílio selecionado para a amostra. Para obter resultados para cada RM separadamente, a PME incorporou aspectos de um plano amostral autoponderado. Dentro de cada RM, a probabilidade de um domicílio ou de uma pessoa qualquer pertencer à amostra é constante e igual à fração amostral.

Para atender às mudanças na estrutura produtiva, na alocação da mão de obra e nas relações de trabalho, juntamente com as recomendações da Organização Internacional do Trabalho (OIT) para a investigação da força de trabalho, o IBGE realizou, no início da década de 2000, uma revisão da PME em todos os seus aspectos, metodológicos e processuais. Assim, em março de 2002, foi a campo uma nova PME.6 6 Os principais objetivos da revisão foram: implementação de algumas mudanças conceituais no tema trabalho; ampliação da investigação para se ter melhor conhecimento da População Economicamente Ativa (PEA) e da População em Idade Ativa (PIA); e melhor operacionalização dos quesitos para captação das informações de forma a aprimorar a mensuração dos fenômenos (IBGE, 2002). Em relação ao desenho amostral, aumentou-se em quase 500 o número de setores selecionados e calculou-se uma nova fração amostral, que diminuiu a probabilidade de um domicílio qualquer pertencer à amostra. Por consequência, a nova pesquisa reduziu em quase 3 mil casos o número de unidades domiciliares selecionadas. Em relação ao questionário, houve uma ampliação e algumas seções passaram a ser respondidas também por pessoas com menos de 10 anos de idade.

Tanto na antiga PME, que foi realizada até dezembro de 2002, como na nova PME, levantada a partir de março de 2002, existe um esquema de rotação de painéis que entrevista o mesmo grupo de domicílio durante certo período. A principal razão para este acompanhamento é a maior segurança nas comparações mensais dos resultados sobre o mercado de trabalho, garantindo que as variações verificadas não estão sendo provocadas pela troca de informantes. Mesmo assim, para minimizar o cansaço imposto aos informantes, os mesmos domicílios não são entrevistados durante todos os meses de pesquisa, mas eles entram e saem da amostra de acordo com um padrão pré-definido (IBGE, 2002).

Na antiga PME, um painel equivale a um conjunto de domicílios selecionados que é dividido em quatro grupos rotacionais correspondentes cada qual a uma remessa de setores entrevistados em uma semana específica do mês. Os grupos rotacionais são indicados por uma letra, que identifica o painel, acompanhada de um subscrito correspondente à semana do mês. Se no mês t, por exemplo, for aplicado o painel B (B1, B2, B3, B4), no mês t + 1 será aplicado apenas 75% do seu todo (B1, B2, B3), entrando um quarto do painel seguinte C (C4), e assim sucessivamente. Assim, há a garantia de que 75% dos domicílios são comuns em dois meses consecutivos.

O esquema de rotação, chamado 4-8-4, determinava que, de outubro de um ano ímpar a setembro do ano seguinte, todo mês um grupo de domicílios entrava na pesquisa e era entrevistado por quatro meses consecutivos. Do quinto ao décimo segundo mês, este grupo saía da amostra, retornando no décimo terceiro mês e sendo entrevistado por mais quatro vezes. Os domicílios saíam da amostra definitivamente dezesseis meses depois de sua entrada. Importante salientar que, de outubro de um ano par a setembro do ano seguinte, nenhum grupo novo de domicílios entrava na amostra. Neste período, a cada mês, apenas retornavam os grupos entrevistados que estavam no intervalo de oito meses sem entrevista. Por consequência, a cada par de anos, 100% da amostra se repetia.

No caso da nova PME, o padrão 4-8-4 foi mantido, mas houve um ajustamento no processo de rotação para dar mais condições de acompanhamento longitudinal dos resultados. Os grupos rotacionais foram sincronizados de tal forma que não aconteça o chamado blackout a cada dois anos, quando toda a amostra era trocada. Dessa forma, aumentou-se o número de grupos rotacionais de quatro para oito, rodando dois grupos por mês ao invés de apenas um, como era anteriormente.

Conhecer o esquema de rotação da PME e as variáveis que identificam o mesmo domicílio na pesquisa é o primeiro passo para reconstituir o painel de indivíduos ou famílias a partir dos microdados. Ademais, Ribas e Soares (2008) apontam outros problemas que dificultam esta reconstituição. Em decorrência dos domicílios que, em períodos subsequentes, passam a ser inexistentes, estão fechados ou cujos habitantes se recusaram a responder à pesquisa, o emparelhamento dos domicílios não é perfeito. Como a identificação do domicílio é precisa, nada se pode fazer com relação a esta forma de desgaste no painel. A segunda forma de desgaste - pessoas não emparelhadas porque seu domicílio não foi entrevistado ou porque elas não faziam parte do domicílio no momento da entrevista - é obviamente maior.

De acordo com Ribas e Soares (ibidem), em ambas as PMEs, as taxas de atrito no intervalo de um mês são em torno de 4% para domicílios e de 13% para indivíduos, sendo crescentes com o aumento no intervalo dos meses. No intervalo de 12 meses, a perda proporcional de domicílio chega a perto de 10%. Porém, as perdas relativas de indivíduos são muito mais altas na PME nova a partir dos nove meses de intervalo, com mais de 50% de perda, chegando a quase 70% no 16º mês. Na antiga PME, a taxa de atrito de indivíduos varia de 20% a 30% a partir dos nove meses de intervalo.

No entanto, Ribas e Soares (ibidem) apontam, ainda, que estas taxas de atrito para indivíduos estão possivelmente contaminadas com o chamado "falso atrito". Isso ocorre porque a informação utilizada para o emparelhamento de indivíduos pode não ser tão precisa quanto a informação utilizada no emparelhamento de domicílios. Assim, a sobreposição de pessoas pode ser subestimada, desde que haja algum erro na informação individual reportada em algum dos meses. Para minimizar este problema, os autores propõem um algoritmo para reconstituição do painel que utiliza critérios não só de exatidão nas variáveis de identificação, mas também de proximidade nas respostas. Após a utilização deste algoritmo, é possível recuperar, em ambas PMEs, entre 7 e 10 pontos percentuais da amostra nos primeiros meses de intervalo. Nos intervalos maiores, recuperaram-se entre 5 e 6 pontos percentuais da amostra na antiga PME e entre 15 e 25 pontos percentuais da amostra na nova PME.

Para evitar o problema de 'falso atrito' causado por erro de informação, todos os painéis utilizados neste artigo foram reconstituídos através do algoritmo proposto por Ribas e Soares (ibidem). Para maiores informações sobre o painel da PME, consultar IBGE (1998, 2002), Lopes (op. cit.) e Ribas e Soares (op. cit.).

4 Estimativa dos Determinantes da Permanência no Painel da PME

Peracchi e Welch (1995) analisam o problema do desgaste na CPS (Current Population Survey). A CPS é uma pesquisa mensal semelhante à PME, possuindo oito grupos rotativos de domicílios e um esquema de rotação 4-8-4. Seus resultados apontam que a principal causa do atrito nesta pesquisa é o fracasso em seguir os jovens em idade de frequentar a universidade em domicílios emparelhados e de acompanhar famílias de jovens que mudam de endereço. A conclusão de seu trabalho é que grande parte do desgaste da CPS resulta da mobilidade das pessoas ligada às decisões sobre educação, formação de novas famílias e procura de emprego.

Lopes (op. cit.) realiza uma análise semelhante à destes autores, porém na PME. Particularmente, Lopes utiliza dados de março de 1996, 1997, 1998 e 1999 para a Região Metropolitana do Rio de Janeiro para estimar a probabilidade de as pessoas permanecerem na amostra após um ano. Os resultados de seu trabalho apontam que a probabilidade de atrito é crescente até os 29 anos de idade da pessoa, depois ela se torna decrescente, maior entre os desempregados, e crescente com a renda do indivíduo. Além disso, cinco ou mais anos de estudo e residir em domicílio chefiado por mulher aumentam a probabilidade de permanecer na amostra. A condição de ocupação do chefe não é um fator determinante do atrito do domicílio.

Nesta seção, apresentamos os resultados sobre a probabilidade de as pessoas permanecerem na entrevista seguinte da PME. Os microdados utilizados são da antiga pesquisa7 7 A PME com a antiga metodologia foi a campo até dezembro de 2002. A partir de março de 2002, outra PME, com uma nova metodologia, passou a ser levantada (IBGE, 2002). , referentes aos anos de 1997, 1998 e 1999 para as seis Regiões Metropolitanas (RMs). A amostra é composta por todas as pessoas com 10 anos de idade ou mais inquiridas entre a primeira e a sétima entrevista. Além disso, considerando que existe uma correlação entre pessoas vivendo em um mesmo domicílio, as seguintes estimativas foram obtidas delimitando cada família como um cluster.8 8 Uma alternativa seria estimar cada modelo utilizando efeitos fixos por família. 9 A numeração do painel segue a numeração oficial da pesquisa estabelecida em IBGE (1998).

A Tabela 1 apresenta as estimativas dos efeitos marginais sobre a probabilidade de permanência na amostra, vis-à-vis o atrito. Podemos constatar que, dadas constantes as demais características observáveis, a probabilidade de desgaste é maior na RM de Recife (categoria de referência), seguida pelas RMs do Rio de Janeiro, São Paulo e Salvador. Para indivíduos de mesmas características, os com maiores probabilidades de permanência na amostra ao longo do painel residiam nas RMs de Belo Horizonte e Porto Alegre.

Em relação ao período de entrevista, os coeficientes mostram que o desgaste no painel tende a ser decrescente até o mês de agosto, com exceção para os meses de maio e junho, e crescente a partir de setembro. Dezembro é o mês no qual a probabilidade de desgaste é maior, seguido de novembro, janeiro e fevereiro. Uma possível razão para este resultado pode ser a ausência de pessoas nos domicílios para responder à entrevista nestes meses, considerados como dentro de um período de férias para algumas pessoas e de aumento de ocupações sazonais para outras.

O aumento de 1% no número de membros dividindo o mesmo domicílio aumenta em 1,4 pontos percentuais a probabilidade de pessoas permanecerem na amostra. Além disso, a probabilidade de atrito é menor nos domicílios com maior proporção de jovens e adolescentes. Claro que este resultado pode ser decorrente da própria correlação entre pessoas de uma mesma família. Corroborando o resultado de Lopes, identificamos que o desgaste é maior para os indivíduos entre 25 e 29 anos, sendo decrescente a partir desta idade. Podemos identificar também que as pessoas com ensino fundamental completo (oito anos de estudo ou mais), assim como as mulheres, são as com menor probabilidade de atrito.

De acordo com Justo e Silveira Neto (2008), homens, jovens, com pouca escolaridade e residentes em domicílios menores, geralmente unipessoais, compõem o grupo de pessoas mais propenso à migração. Ou seja, parte das características que estão relacionadas ao atrito está também relacionada à mobilidade geográfica. Contudo, salientamos que a mobilidade geográfica não é necessariamente a principal razão para o atrito. Outras razões incluem, por exemplo, o falecimento do indivíduo e a mudança no estado conjugal. Ainda nesse sentido, um resultado esperado é de que as pessoas do núcleo familiar (chefe, cônjuge e filho), principalmente o cônjuge, são as com maiores chances de permanência no painel.

Assim como para a idade da pessoa, a probabilidade de permanência no painel é crescente com a idade do chefe do domicílio a partir dos 30 anos e maior caso ele seja homem. Por outro lado, controlados os demais fatores, a escolaridade do chefe do domicílio não é um fator significativamente determinante do desgaste no painel.

Nas regressões apresentadas na Tabela 1, incluímos paulatinamente ainda conjuntos de variáveis relacionadas a características das entrevistas, potenciais instrumentos em modelos de seleção sobre não observáveis, e relacionadas a fatores socioeconômicos, de potencial uso em modelos de seleção sobre observáveis. De acordo com os testes de significância conjunta, o número da entrevista no domicílio é o fator, entre todos os demais incluídos, que mais explica a probabilidade de permanência no painel. Contudo, isso é decorrente do elevado desgaste entre a quarta e a quinta entrevista, que possuem um intervalo de oito meses entre si.

Os domicílios na quarta entrevista possuem uma probabilidade de permanência no painel 8 pontos percentuais menor que os domicílios na primeira entrevista. Com exceção da quarta entrevista, a probabilidade de permanência é crescente com o tempo de participação no painel. Isso, a princípio, refuta a hipótese de que as famílias se cansam e se recusam a responder à entrevista com o passar do tempo, ao menos na PME. Contudo, este resultado pode ser, na verdade, decorrente da heterogeneidade entre os indivíduos. Supondo que, ao longo do painel, o percentual de pessoas impacientes diminua e o de pessoas pacientes aumente consequentemente, essa mudança na composição da amostra seria a responsável por este resultado.

Em relação à época da entrevista, identificamos que as chances de desgaste são menores na primeira semana e maiores na última semana do mês. Este resultado pode ser explicado por fatores motivacionais tanto por parte dos entrevistados como por parte do entrevistador. Alguns conjuntos da amostra, chamados de "painéis", possuem ainda maior probabilidade de desgaste que outros. Essa diferença é possivelmente decorrente de mudanças, muitas vezes para melhor, no processo de entrevistas e na orientação repassada aos entrevistadores.

Entre as características socioeconômicas incluídas nas regressões, as relacionadas à ocupação do chefe do domicílio apresentam efeitos semelhantes às relacionadas à ocupação da pessoa em si. As pessoas inativas, assim como as residentes em domicílios chefiados por um inativo, possuem a maior probabilidade de permanência no painel. O desgaste, como esperado, está mais relacionado ao desemprego da pessoa ou do chefe. Entre os trabalhadores ocupados, os de maiores chances de permanecer no painel são os que estão nos setores de serviços (categoria de referência) e indústria. Os ocupados no setor de construção civil ou em outros setores diversos (exclusive comércio), considerados como os mais vulneráveis no mercado de trabalho, são os com maiores chances de atrito. Ainda nesse sentido, os empregados sem carteira assinada possuem maior probabilidade de desgaste que os demais trabalhadores ocupados.10 10 De maneira geral, os resultados utilizando a nova PME corroboram aqueles encontrados com a antiga PME. A única mudança significativa nas regressões foi em relação aos coeficientes das dummies de RMs. As RMs do Rio de Janeiro e de São Paulo que, na antiga pesquisa, estavam entre as com maiores taxas de atrito, agora se apresentam como as com maiores taxas de permanência no painel.

5 Comparando Modelos com e sem Controle para Seleção Amostral

Nesta seção, apresentamos os resultados de modelos estimados com e sem controle para seleção amostral, o que inclui, entre outras coisas, a restrição de permanecer no painel. O primeiro exercício é a estimação da probabilidade de transitar do emprego para o desemprego no intervalo de um mês. Para executá-lo, utilizamos a amostra da antiga PME, de 1995 a 2002, para a RM de São Paulo. No segundo exercício, utilizando dados da nova PME, de 2002 a 2006, incluindo todas as RMs, realizamos a estimação da probabilidade de progressão escolar para crianças entre 10 e 15 anos de idade. Esta estimação é inspirada nos trabalhos de Duryea (1998) e Duryea, Lam e Levison (2007), que buscam testar o efeito de choques transitórios no domicílio sobre o atraso escolar das crianças.

Ambos os exercícios iniciam com um modelo mais simples, sem controle para seleção amostral, que posteriormente é comparado com modelos de seleção sobre observáveis e sobre não observáveis. Como seleção amostral, consideramos ainda duas formas de ocorrência: possuir as características para pertencer à amostra, o chamado problema de condição inicial, e permanecer no painel, a chamada retenção. Com exceção dos modelos com seleção sobre observáveis, que foram estimados em dois-estágios, todos os outros foram estimados através da maximização de uma única função de verossimilhança; os modelos multivariados com três ou mais componentes foram estimados por máxima verossimilhança simulada.11 11 Modelos multivariados com mais de dois componentes endógenos só podem ser estimados utilizando técnicas de simulação ou por cálculo numérico de integrais. No nosso caso, utilizamos o estimador GHK de máxima verossimilhança simulada, proposto por Geweke (1991), Hajivassiliou (1990) e Keane (1994). Este estimador pode ser calculado em Stata através dos algoritmos apresentados por Cappelari e Jenkins (2006).

5.1 Transição para o desemprego

O modelo de transição para o desemprego é definido como:

onde x1,t-1 é o vetor que representa as condições no mercado de trabalho no mês anterior, x1,i representa as características idiossincráticas da pessoa i, α1 e β1 são os respectivos vetores de coeficientes, ε1,it é o termo aleatório não explicado da equação, e são as variáveis latentes que representam a propensão ao de semprego da pessoa i no mês t e no mês anterior ( t -1), respectivamente, tal que:

se e a pessoa é observada como desempregada,

se e a pessoa é observada como empregada.

Podemos notar que a transição para o desemprego está condicionada a um estado inicial. Ou seja, só há transição quando a pessoa i estiver empregada no período anterior. Essa condição inicial também pode ser definida através de uma equação, descrita da seguinte forma:

onde x2,t-1 e são os vetores que representam, respectivamente, as condições no mercado de trabalho e as características idiossincráticas, α2 e β 2 são os respectivos vetores de coeficientes, e ε2,it-1 é o termo aleatório não explicado da equação.

Outra restrição inicial imposta à equação (12) é que a pessoa i seja observada em dois pontos no tempo, t -1 e t. Essa restrição, chamada de retenção na amostra ou no painel, pode ser definida como:

onde x3,t-1 e x3,i são os vetores que representam, respectivamente, as condições no mercado de trabalho e as características idiossincráticas, α3 e β3 são os respectivos vetores de coeficientes, ε3,it é o termo aleatório não explicado da equação, e é a variável latente que representa a propensão da pessoa i em permanecer na amostra no tempo t, tal que:

se e a pessoa é observada no tempo t,

se e a pessoa não é observada no tempo t.

Se, de alguma forma, ε1,it, estiver correlacionado a a condição inicial de emprego será endógena no modelo. Da mesma forma, se ε1,it estiver correlacionado a , a permanência no painel será endógena. Se alguma dessas correlações for significativa, pertencer à amostra não é um fenômeno aleatório do ponto de vista da transição para o desemprego. No caso de , a correlação entre os resíduos é representada por ρ12, e, quando , a correlação é representada por ρ13. Ambos os parâmetros, assim como o que representa a correlação entre e 23 ), podem ser estimados conjuntamente com as equações (12), (13) e (14).

Para estimar os determinantes da transição para o desemprego, utilizamos uma amostra de pessoas, entre 18 e 65 anos, da RM de São Paulo, entrevistadas na antiga PME, entre 1995 e 2002. Foram cinco os modelos estimados utilizando esta amostra:

1) O modelo (1) é um probit univariado que estima a probabilidade de desemprego a partir de uma amostra de ocupados que permaneceram no painel durante, pelo menos, dois meses seguidos (modelo sem controle de seleção amostral);

2) O modelo (2) é um probit bivariado que estima simultaneamente a probabilidade de desemprego e a probabilidade de permanecer no painel, utilizando uma amostra de ocupados no mês anterior (modelo de seleção amostral sobre não observáveis);

3) O modelo (3) é um probit bivariado que estima simultaneamente a probabilidade de transição para desemprego e a probabilidade de estar inicialmente empregado, utilizando uma amostra de pessoas que permaneceram no painel durante, pelo menos, dois meses seguidos (modelo de seleção amostral sobre não observáveis);

4) O modelo (4) é um probit trivariado que estima simultaneamente a probabilidade de transição para desemprego, a probabilidade de estar inicialmente empregado e a probabilidade de permanecer no painel, tomando como amostra todas as pessoas economicamente ativas (modelo de seleção amostral sobre não observáveis);

5) O modelo (5) é um probit quase idêntico ao modelo (1), porém utilizando um peso amostral multiplicado pela probabilidade bivariada de estar inicialmente empregado e permanecer na amostra, tal como descrito na equação (11) (modelo de seleção amostral sobre observáveis).

Como variáveis instrumentais no modelo (2), utilizaram-se dummies identificando o número da entrevista no domicílio. No modelo (3), utilizou-se como variável instrumental a proporção de demais pessoas em idade ativa ocupadas no setor censitário. Todas estas variáveis também foram utilizadas no modelo (4). No modelo (5), as variáveis auxiliares foram os números de demais pessoas ocupadas e desempregadas no domicílio e, novamente, as dummies identificando o número da entrevista.

Tanto o número da entrevista quanto a proporção de demais pessoas ocupadas no setor censitário mostraram-se como excelentes variáveis para instrumentalizar, respectivamente, a probabilidade de retenção no painel e a probabilidade de estar inicialmente empregado. Ambas possuem um alto poder de explicação nas equações de seleção e um insignificante poder de explicação na equação de interesse, dada a inclusão das demais covariáveis. Para o modelo (5) de seleção sobre observáveis, as variáveis auxiliares mais adequadas que encontramos foram os números de demais pessoas ocupadas e desempregadas no domicílio. Essas características são claramente endógenas no processo de transição para o desemprego e explicam significativamente a condição inicial.

A Tabela 2 apresenta os resultados das estimativas dos modelos acima descritos. Primeiramente, podemos notar que, de acordo com a significância dos parâmetros de correlação entre os resíduos, ambos os critérios de seleção amostral são endógenos. No modelo (4), apesar de não encontrarmos uma correlação direta entre os resíduos das equações (12) e (14), a retenção no painel também é endógena, pois os resíduos das equações de seleção são significativamente correlacionados.

De maneira geral, os parâmetros de correlação apontam que os fatores não observados que aumentam a probabilidade de permanecer no painel diminuem a probabilidade de estar inicialmente desempregado. Essa redução na probabilidade inicial de desocupação aumenta, por sua vez, a probabilidade de transição para o desemprego. Isso pode significar que um trabalhador altamente condicionado ao desemprego, de acordo com suas características observáveis, que recebe uma oportunidade de ocupação, por exemplo, aumenta suas chances de permanecer no painel, porém possui poucas chances de permanecer ocupado.

De acordo com os coeficientes estimados, podemos notar que o efeito de variação na taxa de desemprego é sobre-estimado no caso de ausência do controle para a condição inicial. A ausência do controle para retenção (ou atrito) subestima, por sua vez, tanto o efeito da variação na taxa de desemprego quanto o efeito de variação no salário médio dos empregados da indústria. Comparando principalmente os modelos (1), (4) e (5), verifica-se que os demais coeficientes apresentam poucas diferenças entre as especificações. Contudo, cabe salientar que, neste caso, a inclusão do controle para somente um dos mecanismos de seleção incorreu em um viés sobre os coeficientes ainda maior do que se não fosse incluído nenhum mecanismo.

O modelo de progressão escolar, apresentado por Duryea (op. cit.), pode ser representado da seguinte forma:

onde representa as características da criança, assim como do domicílio em que vive, β1 é o respectivo vetor de coeficientes, é o termo aleatório não explicado da equação e é a variável latente que representa a propensão à progressão escolar da criança i no ano t, tal que:

se e a criança é aprovada na escola,

se e a criança é reprovada na escola.

O vetor Tit, associado ao vetor de coeficientes y1 na equação (15), é um indicador do choque transitório sobre a renda domiciliar. De acordo com Duryea, a melhor opção para medir o efeito destes choques é utilizar uma proxy de transição do chefe do domicílio para o desemprego.

Assim como o modelo anterior, o modelo de progressão escolar também depende de uma condição inicial. Essa condição é que a criança frequente a escola no período t. Seja a variável latente que representa a propensão à frequência à escola da criança i no período t. Podemos definir a seguinte equação:

onde x2,it é o vetor que representa as características da criança e do lugar onde vive, β2 é o respectivo vetor de coeficientes e ε2,it é o termo aleatório não explicado da equação.

Como estamos interessados em estimar o impacto da perda do emprego do chefe do domicílio sobre a progressão da criança, outra condição imposta à estimação da equação (15) é que este chefe esteja inicialmente empregado. Dessa forma, estimamos a probabilidade deste evento através da seguinte equação:

onde x3,ité o vetor de características explicativas, β é o respectivo vetor de coeficientes, ε3,it é o termo aleatório não explicado da equação, e é a variável latente que define se o chefe estava ou não inicialmente empregado.

Para estimar a equação (15), utilizamos uma amostra de crianças, entre 10 e 15 anos de idade, entrevistadas na nova PME, entre 2002 e 2007, em todas em RMs. Para captar o choque transitório e, ao mesmo, a progressão escolar, tomamos as informações da primeira à quarta entrevista do domicílio na PME, no ano t, e da quinta entrevista no ano seguinte. Para isso, é necessário restringir a amostra a crianças em domicílios entrevistados pela primeira vez entre os meses de janeiro a agosto, tal que as quatro primeiras entrevistas estejam dentro de um período escolar e a quinta entrevista esteja no período escolar seguinte.

As equações (16) e (17) definem a condição do chefe do domicílio e da criança justamente na primeira entrevista. Nas segunda, terceira e quarta entrevistas, é quando o possível choque transitório, que afetaria a progressão escolar, ocorre. Na quinta entrevista, é quando se confirma se a criança foi aprovada ou não no curso que frequentava.

Dessa forma, a última restrição imposta à equação (15) é que a criança i seja observada durante quatro meses no ano t e na primeira entrevista no ano t +1 . Assim, a retenção no painel pode ser especificada como:

onde x4,it é o vetor de características explicativas, β4 é o respectivo vetor de coeficientes, ε4,it é o termo aleatório não explicado da equação e é a variável latente que representa a propensão de a criança i em permanecer na amostra.

Para estimar os determinantes da progressão escolar, assim como a correlação ρ mn entre os resíduos εm,itεn,it, onde m n , utilizamos sete modelos distintos:

1) O modelo (1) é um probit univariado que estima a probabilidade de progressão escolar a partir de uma amostra de crianças que frequentavam a escola na primeira entrevista, ao mesmo tempo em que seus chefes estavam empregados, e que permaneceram no painel da primeira a quinta entrevista (modelo sem controle para seleção amostral);

2) O modelo (2) é um probit bivariado que estima simultaneamente a probabilidade de a criança progredir na escola e a probabilidade de estar frequentando a escola na primeira entrevista, utilizando uma amostra de crianças que permaneceram no painel e que seus chefes estavam empregados na primeira entrevista (modelo de seleção amostral sobre não observáveis);

3) O modelo (3) é um probit bivariado que estima simultaneamente a probabilidade de a criança progredir na escola e a probabilidade de seu chefe estar empregado na primeira entrevista, utilizando uma amostra de crianças que frequentavam a escola na primeira entrevista e permaneceram no painel até a quinta entrevista (modelo de seleção amostral sobre não observáveis);

4) O modelo (4) é um probit trivariado que estima simultaneamente a probabilidade de progressão, a probabilidade de frequentar a escola e a probabilidade de o chefe estar empregado na primeira entrevista, tomando como amostra todas as crianças que permaneceram no painel da primeira a quinta entrevista (modelo de seleção amostral sobre não observáveis);

5) O modelo (5) é um probit quase idêntico ao modelo (1), porém utilizando um peso amostral corrigido pela probabilidade bivariada de a criança frequentar a escola e do chefe estar empregado na primeira entrevista (modelo de seleção amostral sobre observáveis);

6) O modelo (6) é um probit bivariado que estima simultaneamente a probabilidade de progressão na escola e a probabilidade de permanecer no painel até a quinta entrevista, utilizando uma amostra de crianças que frequentavam a escola na primeira entrevista, ao mesmo tempo em que seus chefes estavam empregados (modelo de seleção amostral sobre não observáveis);

7) O modelo (7) é um probit tetravariado que estima simultaneamente a probabilidade de progressão, a probabilidade de frequentar a escola, a probabilidade de o chefe estar empregado e a probabilidade de permanecer no painel, tomando como amostra todas as crianças da pesquisa (modelo de seleção amostral sobre não observáveis).

Cabe salientar que os erros padrão de todos estes modelos foram calculados considerando o desenho amostral complexo da nova PME.

Para instrumentalizar a probabilidade de frequência à escola nos modelos (2), (4) e (7), utilizamos a proporção de demais crianças do setor censitário frequentando a escola. Nos modelos (3), (4) e (7), a probabilidade de o chefe estar empregado foi instrumentalizada através da proporção de demais chefes de domicílio ocupados no setor censitário. Ambos os instrumentos foram utilizados também como variáveis auxiliares no modelo (5). Nos modelos (6) e (7), a probabilidade de retenção no painel foi determinada, entre outras variáveis, pela semana de entrevista.

A variável de proporção de demais chefes ocupados, apesar de explicar bem a probabilidade de ocupação do chefe da criança, não pode ser considerada um instrumento ideal, pois possui um efeito significativo sobre a probabilidade de progressão escolar. Por isso, estimamos também o modelo (5) de seleção sobre observáveis, utilizando esta variável como auxiliar.

De acordo com os resultados apresentados na Tabela 3, verificamos que há correlações significativamente positivas entre os resíduos das equações de seleção. Dessa forma, uma maior probabilidade não explicada de o chefe do domicílio estar empregado está relacionada a uma maior probabilidade de a criança frequentar a escola e permanecer no painel. Em termos da correlação direta com a equação de interesse, no modelo (6), identificamos que uma maior probabilidade não explicada de progressão na escola está relacionada a uma maior probabilidade de atrito no painel. Contudo, essa correlação não se mantém significativa no modelo (7). Este último modelo apresenta, por outro lado, uma correlação significativamente positiva entre os resíduos das equações (15) e (16). Ou seja, quanto maiores as chances não explicadas de a criança frequentar a escola, menores são as chances de aprovação na série que frequenta.

Todos os testes de significância conjunta dos parâmetros de correlação apontam que os critérios de seleção amostral são endógenos. Contudo, o modelo probit univariado (1), sem o controle de seleção amostral, não apresenta grandes divergências em relação aos demais modelos. Os únicos coeficientes deste modelo que parecem estar um pouco sobreestimados são os da escolaridade do chefe. Comparando o modelo (1) com os modelos (2), (4), (6) e (7), constatamos que estes coeficientes estão sobre-estimados possivelmente devido à ausência do controle de seleção sobre a frequência à escola e sobre a retenção no painel.

Entretanto, deve-se ter cuidado na interpretação dos resultados do modelo (6), no qual somente o controle de retenção no painel é considerado. Os resultados deste modelo são muito divergentes dos apresentados nos demais. Portanto, assim como na estimação da transição para o desemprego na seção anterior, concluímos que a inclusão do controle para somente um dos mecanismos de seleção pode incorrer em um viés sobre os coeficientes ainda maior do que se não fosse incluído nenhum mecanismo.

6 Conclusão

Em relação aos determinantes do desgaste, identificamos que este possui certa sazonalidade, com maior taxa nos meses entre novembro e fevereiro, e forte correlação com as características geralmente associadas a maior mobilidade geográfica. A escolaridade do chefe do domicílio, por sua vez, não é um fator tão determinante do desgaste quanto à escolaridade da própria pessoa. Por fim, tanto características do processo de entrevista quanto fatores socioeconômicos são significativamente relacionados à probabilidade de retenção no painel. Nas características da entrevista, podemos destacar que, devido a melhoras no processo, a taxa de atrito tende a diminuir ao longo do tempo.

Para testar o viés do desgaste no painel, assim como de outros critérios de seleção amostral, sobre algumas análises de regressão, estimamos dois modelos utilizando os microdados da PME. Em ambos os casos, constatamos que todos os critérios de seleção amostral são endógenos, apesar de alguns não estarem diretamente correlacionados com a equação de interesse. No primeiro caso, verificamos que uma maior probabilidade não explicada de permanecer no painel está relacionada a uma maior probabilidade de estar inicialmente empregado. Contudo, esse aumento não explicado na probabilidade inicial de ocupação aumenta, por sua vez, a probabilidade de transição para o desemprego. No segundo caso, uma maior probabilidade não explicada de o chefe do domicílio estar empregado está relacionada a uma maior probabilidade de a criança frequentar a escola e de permanecer no painel. Além disso, quanto maiores as chances não explicadas de a criança frequentar a escola, menores são as chances de aprovação na série que frequenta.

De acordo com os resultados apresentados, a ausência do controle para seleção amostral, o que inclui a retenção no painel, pode incorrer em algumas análises enviesadas. Contudo, a inclusão do controle para somente alguns mecanismos de seleção pode fornecer estatísticas ainda mais inconsistentes do que se não fosse incluído nenhum mecanismo.

(Recebido em abril de 2008. Aceito para publicação em março de 2009).

  • ARENDT, J. N.; HOLM, A. 2006. Probit models with binary endogenous regressors. Department of Business and Economics, University of Southern Denmark, 2006. (Discussion Papers on Business and Economics No. 4/2006).
  • BOURGUIGNON, F.; FOURNIER, M.; GURGAND, M. Selection bias corrections based on the multinomial logit model: Monte Carlo comparisons. Journal of Economic Surveys, v. 21, n. 1, p. 174-205, 2007.
  • CAPPELARI, L.; JENKINS, S. P. Modelling low income transitions. Journal of Applied Econometrics, v.19, n. 5, p. 593-610, 2004a.
  • ______. Modelling low pay transition probabilities, accounting for panel attrition, non-response and initial conditions ISER, University of Essex, 2004b. (ISER Working Paper n. 2004-08)
  • ______. Calculation of multivariate normal probabilities by simulation, with application to maximum simulated likelihood estimation. Stata Journal, v. 6, n. 2, p. 156-189, 2006.
  • CORSEUIL, C. H.; CARNEIRO, F. G. Os impactos do salário mínimo sobre emprego e salários no Brasil: evidências a partir de dados longitudinais e séries temporais Rio de Janeiro: IPEA, 2001. (texto para Discussão, n. 849).
  • DURYEA, S. Children's advancement through school in Brazil: the role of transitory shocks to household income. Inter-American Development Bank, 1998. (RES Working Paper 376).
  • ______.; LAM, D.; LEVISON, D. Effects of economic shocks on children's employment and schooling in Brazil. Journal of Development Economics, v. 84, n. 1, p. 188-214, 2007.
  • FALARIS, E. M.; PETERS, H. E. Survey attrition and schooling choices. Journal of Human Resources, v. 33, n. 2, p. 531-554, 1998.
  • FISHE, R. P. H.; TROST, R. P.; LURIE, P. Labor force earnings and college choice of young women: an examination of selectivity bias and comparative advantage. Economics of Education Review, v. 1, n. 2, p. 169-191, 1981.
  • FITZGERALD, J.; GOTTSCHALK, P.; MOFFIT, R. An analysis of sample attrition in panel data: the Michigan panel study of income dynamics. Journal of Human Resources, v. 33, n. 2, p. 251-299, 1998.
  • GEWEKE, J. Efficient simulation from the multivariate normal and student-t distributions subject to linear constraints. In: COMPUTING SCIENCE AND STATISTICS: THE TWENTY-THIRD SYMPOSIUM ON THE INTERFACE, 23th, 1991, Seattle. Computer Science and Statistics: Proceedings of the Twenty-Third Symposium on the Interface Seattle: American Statistical Association, 1991. p. 571-578.
  • GONZAGA, G.; REIS, M. C. Os efeitos trabalhador adicional e desalento no Brasil. In: ENCONTRO NACIONAL DE ECONOMIA, 23. Anais... João Pessoa: ANPEC, 2005.
  • HAJIVASSILIOU, V. Smooth simulation estimation of panel data LDV models. Yale University, 1990. Manuscript.
  • HAUSMAN, J. A.; WISE, D. A. Attrition bias in experimental and panel data: the Gary income maintenance experiment. Econometrica, v. 47, n. 2, p. 455-474, 1979.
  • HECKMAN, J. Shadow prices, market wages, and labor supply. Econometrica, v. 42, n. 4, p. 679-694, 1974.
  • ______. Sample selection bias as a specification error. Econometrica, v. 47, n. 1, p. 153-162, 1979.
  • HORVITZ, D. G.; THOMPSON, D. J. A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, v. 47, n. 260, p. 663-685, 1952.
  • IBGE - Departamento de Emprego e Rendimento. Para Compreender a PME: (um texto simplificado). 4ª ed. Rio de Janeiro, 1998.
  • ______. Pesquisa Mensal de Emprego Rio de Janeiro, 2002. (Relatório Metodológico v. 23).
  • JUSTO, W. R.; SILVEIRA NETO, R. M. Quem são e para onde vão os migrantes no Brasil? O Perfil do Migrante Interno Brasileiro. In: XXXVI ENCONTRO NACIONAL DE ECONOMIA. Salvador: ANPEC, 2008.
  • KEANE, M. P. A computationally practical simulation estimator for panel data. Econometrica, v. 46, n. 6, p. 931-959, 1994.
  • LEMOS, S. The effects of the minimum wage on wages and employment in Brazil: a menu of minimum wage variables Department of Economics, University College London, 2002. (Discussion Paper 02-02).
  • LILLARD, L. A.; PANIS, C. W. Panel attrition from the panel study of income dynamics: household income, marital status, and mortality. Journal of Human Resources, v. 33, n. 2, p. 437-457, 1998.
  • LOPES, M. D. Avaliação de desgaste de painéis em estudos longitudinais: uma aplicação na Pesquisa Mensal de Emprego (PME/IBGE). 2002. Dissertação (Mestrado). Orientadora: Denise Britz do Nascimento Silva. ENCE, Rio de Janeiro.
  • MACHADO, A. F.; RIBAS, R. P.; PENIDO, M. Mobilidade entre estados de pobreza e inserção no mercado de trabalho: uma análise para o Brasil Metropolitano em 2004. Economia Aplicada, v. 11, n. 2, p. 253-279, 2007.
  • NERI, M.; COELHO, D.; ANCORA, M.; PINTO, A. Aspectos dinâmicos do desemprego e da posição na ocupação. Estudos Econômicos, v. 27, n. especial, p.: 137-159, 1997.
  • NERI, M. C., GUSTAFSSON-WRIGHT, E.; SEDLACEK, G.; COSTA, D. R. da; PINTO, A. 2000. Microeconometric instability and children's human capital accumulation: the effects of idiossyncratic shocks to father's income on child labor, school drop-outs and repetition rates in Brazil. In: LACEA 2000 ANNUAL MEETING, Rio de Janeiro, 2000.
  • NICOLETTI, C.; PERACCHI, F. Two-step estimation of binary response models with sample selection. In: BHPS 2001 CONFERENCE, Colchester, 2001.
  • PENIDO, M.; MACHADO, A. F. Duração do desemprego no Brasil Metropolitano. In: WAJNMAN, S.; MACHADO, A. F. (Ed.). Mercado de trabalho: uma análise a partir das pesquisas domiciliares no Brasil Editora UFMG, 2003, p. 203-218.
  • PERACCHI, F.; WELCH, F. How representative are matched cross-sections? Evidence from the current population survey. Journal of Econometrics, v. 68, n. 1, p. 153-179, 1995.
  • RIBAS, R. P.; SOARES, S. D. Sobre o painel da Pesquisa Mensal de Emprego (PME) do IBGE. Rio de Janeiro: IPEA, 2008. (Texto para Discussão, n. 1348)
  • VAN DEN BERG, G. J.; LINDEBOOM M. Attrition in panel survey data and the estimation of multi-state labor market models. Journal of Human Resources, v. 33, n. 2, p. 458-478, 1998.
  • VELLA, F. Estimating models with sample selection bias: a survey. Journal of Human Resources, v. 33, n. 1, p. 127-169, 1998.
  • VERBEEK, M.; NIJMAN, T. Testing for selectivity bias in panel data models. International Economic Review, v. 33, n. 3, p. 681-703, 1992.
  • WOLTERMANN, S. Job-search methods and labor market transitions in a segmented economy: some empirical evidence from Brazil. Ibero-America Institute for Economic Research (IAI), Georg-August-Universität Göttingen, 2002. (Discussion Paper 88).
  • WOOLDRIDGE, J. M. Inverse probability weighted M-estimators for sample selection, attrition, and stratification. Portuguese Economic Journal, v. 1, n. 2, p. 117-139, 2001.
  • ZABEL, J. E. An analysis of attrition in the panel study of income dynamics and the survey of income and program participation with an application to a model of labor market behavior. Journal of Human Resources, v. 33, n. 2, p. 479-506, 1998.
  • ZILIAK, J. P.; KNIESNER, T. J. The importance of sample attrition in life cycle labor supply estimation. Journal of Human Resources, v. 33, n. 2, p. 507-530, 1998.
  • 1
    Exemplos no Brasil são o Censo Escolar, no qual cada escola é entrevistada a cada ano; a Relação Anual de Informações Sociais (RAIS), nas quais as empresas e unidades de produção são entrevistadas repetidas vezes; e a Pesquisa Mensal de Emprego (PME), na qual cada domicílio e, potencialmente, cada morador, é entrevistado até oito vezes. Ademais, o IBGE estuda a transformação da Pesquisa Nacional por Amostragem de Domicílios (PNAD) em uma pesquisa contínua com um painel rotativo de domicílios.
  • 2
    Como exemplos de trabalhos que não utilizam técnicas de correção para o viés de atrito podemos citar os de Duryea (1998), Duryea, Lam e Levison (2007), Neri
    et al. (2000), Corseuil e Carneiro (2001), Lemos (2002), Woltermann (2002), Penido e Machado (2003), Gonzaga e Reis (2005), Machado, Ribas e Penido (2007).
  • 3
    Para simplificar, os efeitos aleatórios agregados de períodos estão junto das variáveis explicativas do modelo.
  • 4
    Sobre estimação em dois estágios quando há mais de um mecanismo de seleção da amostra, ver Fishe
    et al. (1981). Sobre métodos que corrigem viés de seleção sobre não observáveis, ver Vella (
    op. cit.).
  • 5
    Wooldridge (2001) aponta que o método IPW pode ser aplicado a qualquer estimador
    M, o que inclui modelos não lineares. As propriedades assintóticas do método IPW são demonstradas por este autor.
  • 6
    Os principais objetivos da revisão foram: implementação de algumas mudanças conceituais no tema trabalho; ampliação da investigação para se ter melhor conhecimento da População Economicamente Ativa (PEA) e da População em Idade Ativa (PIA); e melhor operacionalização dos quesitos para captação das informações de forma a aprimorar a mensuração dos fenômenos (IBGE, 2002).
  • 7
    A PME com a antiga metodologia foi a campo até dezembro de 2002. A partir de março de 2002, outra PME, com uma nova metodologia, passou a ser levantada (IBGE, 2002).
  • 8
    Uma alternativa seria estimar cada modelo utilizando efeitos fixos por família.
    9 A numeração do painel segue a numeração oficial da pesquisa estabelecida em IBGE (1998).
  • 10
    De maneira geral, os resultados utilizando a nova PME corroboram aqueles encontrados com a antiga PME. A única mudança significativa nas regressões foi em relação aos coeficientes das
    dummies de RMs. As RMs do Rio de Janeiro e de São Paulo que, na antiga pesquisa, estavam entre as com maiores taxas de atrito, agora se apresentam como as com maiores taxas de permanência no painel.
  • 11
    Modelos multivariados com mais de dois componentes endógenos só podem ser estimados utilizando técnicas de simulação ou por cálculo numérico de integrais. No nosso caso, utilizamos o estimador GHK de máxima verossimilhança simulada, proposto por Geweke (1991), Hajivassiliou (1990) e Keane (1994). Este estimador pode ser calculado em Stata através dos algoritmos apresentados por Cappelari e Jenkins (2006).
  • Datas de Publicação

    • Publicação nesta coleção
      25 Mar 2010
    • Data do Fascículo
      Mar 2010

    Histórico

    • Aceito
      Mar 2009
    • Recebido
      Abr 2008
    Departamento de Economia; Faculdade de Economia, Administração, Contabilidade e Atuária da Universidade de São Paulo (FEA-USP) Av. Prof. Luciano Gualberto, 908 - FEA 01 - Cid. Universitária, CEP: 05508-010 - São Paulo/SP - Brasil, Tel.: (55 11) 3091-5803/5947 - São Paulo - SP - Brazil
    E-mail: estudoseconomicos@usp.br