Acessibilidade / Reportar erro

Estimativas obtidas de um levantamento complexo

Estimates from a complex survey

Resumos

OBJETIVO: Avaliar o impacto do plano de amostragem e o efeito da ponderação, em dados provenientes da "Pesquisa Nacional sobre Demografia e Saúde" (PNDS-96). MÉTODOS: Análise de dados secundários, realizada para a amostra do Estado de São Paulo, com 1.355 mulheres entrevistadas. Tomou-se como referência o plano de amostragem da "Pesquisa Nacional por Amostra de Domicílios" (PNAD), com o município como unidade primária de amostragem. O estimador razão e a aproximação de Taylor para a variância foram calculados sobre as unidades primárias de amostragem e sobre diversas modalidades de ponderação. Intervalos de confiança, efeitos do desenho (Deff) e vícios foram os indicadores utilizados para avaliar precisão e validade. RESULTADOS: Para os quatro procedimentos, as diferenças da maior estimativa pontual de prevalência, em relação à menor, não ultrapassaram 10%. Quanto às amplitudes dos intervalos de confiança, as diferenças foram inferiores a 20%. Uso de camisinha e de injetável foram as variáveis que tiveram efeitos do delineamento superiores a 1,5 e vícios superiores a 0,20. CONCLUSÕES: A amostragem por conglomerados teve impacto sobre a precisão das estimativas, em duas das seis variáveis. Quanto à ponderação, não houve grande impacto sobre as estimativas.

Amostragem por conglomerados; Análise estatística; Levantamentos demográficos; Coleta de dados; Viés (epidemiologia); Amostragem; Reprodutibilidade de resultados; Levantamentos amostrais complexos; Ponderação; Precisão e validade


OBJECTIVE: To evaluate the impact of sampling design and the effect of weighting on data from the 1996 Brazilian National Survey on Demography and Health. METHODS: Secondary data analysis was performed using a sample of 1,355 interviewed women of the state of São Paulo. The sampling design of the National Survey of Household Sampling (PNAD) was used as a reference, and the municipality as primary sampling unit. The ratio estimator and Taylor's aproximation for variance were calculated using the primary sampling units and several modalities of weighting. The indicators used to evaluate precision and validity were confidence intervals, design effects (Deff) and biases. RESULTS: For the four procedures, the differences between upper and lower point estimates for prevalence were not greater than 10%. The differences on ranges of confidence intervals were less than 20%. Use of condom and hormone injection were the variables that showed design effects greater than 1.5 and biases greater than 0.20. CONCLUSIONS: According to the results, it could be said that the cluster sampling had an impact on the precision of the estimates for two out of six variables. The impact of weighting was not significant.

Cluster sampling; Statistical analysis; Population surveys; Bias (epidemiology); Sampling studies; Data collection; Reproductibility of results; Complex sample surveys; Weighting; Precision and validity


ARTIGOS ORIGINAIS

Estimativas obtidas de um levantamento complexo

Estimates from a complex survey

Maria Helena de SousaI; Nilza Nunes da SilvaII

ICentro de Pesquisas Materno-Infantis de Campinas. Campinas, SP, Brasil

IIDepartamento de Epidemiologia da Faculdade de Saúde Pública da Universidade de São Paulo. São Paulo, SP, Brasil

Endereço para correspondência Endereço para correspondência Maria Helena de Sousa Cidade Universitária Zeferino Vaz, s/n Caixa Postal 6181 13084-971 Campinas, SP, Brasil E-mail: mhsousa@cemicamp.org.br

RESUMO

OBJETIVO: Avaliar o impacto do plano de amostragem e o efeito da ponderação, em dados provenientes da "Pesquisa Nacional sobre Demografia e Saúde" (PNDS-96).

MÉTODOS: Análise de dados secundários, realizada para a amostra do Estado de São Paulo, com 1.355 mulheres entrevistadas. Tomou-se como referência o plano de amostragem da "Pesquisa Nacional por Amostra de Domicílios" (PNAD), com o município como unidade primária de amostragem. O estimador razão e a aproximação de Taylor para a variância foram calculados sobre as unidades primárias de amostragem e sobre diversas modalidades de ponderação. Intervalos de confiança, efeitos do desenho (Deff) e vícios foram os indicadores utilizados para avaliar precisão e validade.

RESULTADOS: Para os quatro procedimentos, as diferenças da maior estimativa pontual de prevalência, em relação à menor, não ultrapassaram 10%. Quanto às amplitudes dos intervalos de confiança, as diferenças foram inferiores a 20%. Uso de camisinha e de injetável foram as variáveis que tiveram efeitos do delineamento superiores a 1,5 e vícios superiores a 0,20.

CONCLUSÕES: A amostragem por conglomerados teve impacto sobre a precisão das estimativas, em duas das seis variáveis. Quanto à ponderação, não houve grande impacto sobre as estimativas.

Descritores: Amostragem por conglomerados. Análise estatística. Levantamentos demográficos. Coleta de dados. Viés (epidemiologia). Amostragem. Reprodutibilidade de resultados. Levantamentos amostrais complexos. Ponderação. Precisão e validade.

ABSTRACT

OBJECTIVE: To evaluate the impact of sampling design and the effect of weighting on data from the 1996 Brazilian National Survey on Demography and Health.

METHODS: Secondary data analysis was performed using a sample of 1,355 interviewed women of the state of São Paulo. The sampling design of the National Survey of Household Sampling (PNAD) was used as a reference, and the municipality as primary sampling unit. The ratio estimator and Taylor's aproximation for variance were calculated using the primary sampling units and several modalities of weighting. The indicators used to evaluate precision and validity were confidence intervals, design effects (Deff) and biases.

RESULTS: For the four procedures, the differences between upper and lower point estimates for prevalence were not greater than 10%. The differences on ranges of confidence intervals were less than 20%. Use of condom and hormone injection were the variables that showed design effects greater than 1.5 and biases greater than 0.20.

CONCLUSIONS: According to the results, it could be said that the cluster sampling had an impact on the precision of the estimates for two out of six variables. The impact of weighting was not significant.

Keywords: Cluster sampling. Statistical analysis. Population surveys. Bias (epidemiology). Sampling studies. Data collection. Reproductibility of results. Complex sample surveys. Weighting. Precision and validity.

INTRODUÇÃO

A inferência estatística tem como base a amostragem probabilística, na qual cada elemento da população tem uma probabilidade conhecida e diferente de zero de ser selecionado. Os métodos probabilísticos vão desde o mais simples (amostragem aleatória simples: AAS), até os mais complexos, entre eles a amostragem estratificada e a por conglomerados.8 A amostragem estratificada consiste em dividir a população em subgrupos homogêneos, e sortear uma amostra separada de cada um deles. A amostragem por conglomerados consiste em selecionar unidades amostrais que contêm vários elementos, sendo que a informação de qual é a unidade de primeiro estágio faz-se necessária no momento da análise.9,13 Para os métodos complexos, é útil calcular o efeito do desenho (Deff), que é a razão da variância estimada considerando as características reais do delineamento, sobre a variância estimada supondo os dados provenientes de uma AAS de mesmo tamanho.12

A amostragem por conglomerados com probabilidade proporcional ao tamanho (PPT) é o processo de sorteio em que cada unidade primária de amostragem (UPA) terá uma probabilidade de ser sorteada, que é diretamente proporcional ao seu tamanho. Quando se utiliza a amostragem com probabilidade proporcional ao tamanho estimado (PPTE), o tamanho final da amostra não é fixo, mas sim uma variável aleatória, e um dos estimadores que podem ser utilizados é o estimador razão, mais preciso que aquele simples, no qual, tanto no numerador quanto no denominador, haverá variáveis aleatórias. Este estimador é viciado, mas se o coeficiente de variação do tamanho final da amostra for pequeno (cvx<20%), pode-se considerar o vício desprezível.9

Um outro aspecto dos planos complexos é o peso de amostragem, utilizado para compensar as probabilidades desiguais dos elementos da amostra.7 Embora útil para redução de vício, estimativas ponderadas tendem a ser menos precisas, apresentando maior erro padrão, que aquelas não ponderadas.7,10,15

A "Pesquisa Nacional por Amostra de Domicílios" (PNAD) é um exemplo de levantamento complexo realizado no Brasil.5 Também são exemplos a "Pesquisa Nacional sobre Saúde Materno-Infantil e Planejamento Familiar" (PNSMIPF), executada em 1986,2 e a "Pesquisa Nacional sobre Demografia e Saúde" (PNDS), em 1996.3

Os pesquisadores que trabalham na área de amostragem, em países desenvolvidos, estão cientes de que programas computacionais específicos devem ser utilizados quando as análises são descritivas ou comparativas, e o desenho inclui conglomerados.4,10 Levantamentos realizados na área da saúde pública, em geral, adotam processo por conglomerados para o sorteio de suas amostras. Entretanto, muitos pesquisadores de países em desenvolvimento ainda utilizam os estimadores da AAS, usando programas estatísticos que não possuem módulos específicos para amostragem com delineamentos complexos.

Com isso, pretendeu-se avaliar a necessidade ou não de se considerar os aspectos do sorteio e alterações ocorridas no desenho original de amostragem, quando da escolha dos métodos de estimação para dados provenientes de planos complexos de amostragem. Assim, o presente trabalho teve por objetivo avaliar o impacto do conglomerado e o efeito da ponderação nas estimativas obtidas dos dados provenientes da PNDS-96.

MÉTODOS

O presente estudo foi conduzido utilizando-se dados secundários da "Pesquisa Nacional sobre Demografia e Saúde", de 1996,3 obtidos para o Estado de São Paulo. Essa pesquisa utilizou o cadastro de setores censitários da PNAD de 1995, realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) que, por sua vez, utilizou as informações do Censo Demográfico de 1991.5

O plano de amostragem adotado para a PNAD considerava uma estratificação dos municípios, definida separadamente para cada Unidade da Federação. Os dados de população provenientes do censo demográfico foram as medidas de tamanho usadas para os procedimentos de estratificação e de sorteio dos municípios. Os municípios (unidades primárias de amostragem - UPA) pertencentes à mesma microrregião geográfica foram agrupados em estratos com aproximadamente o mesmo tamanho de população e denominados "não auto-representativos" (no Estado de São Paulo foram 28 estratos). De cada estrato, foram selecionados dois municípios. Em geral, os municípios das regiões metropolitanas, incluindo a capital, e aqueles cuja população ultrapassou 80% do tamanho médio do estrato definido acima constituíram o grupo dos municípios "auto-representativos".1

Estágios da PNAD

No primeiro estágio, tem-se os municípios, que são as UPA.

• Estrato de municípios "não auto-representativos": foram sorteados dois municípios de cada estrato "não auto-representativo", por amostragem sistemática com PPTE. A medida de tamanho para os municípios foi a sua população, segundo o Censo Demográfico de 1991. A probabilidade de seleção no primeiro estágio, f1, foi obtida multiplicando-se o tamanho da população do município por dois (porque foram sorteadas duas unidades), e dividindo-o em seguida pelo tamanho total da população no estrato "não auto-representativo" correspondente.

• Estrato de municípios "auto-representativos": municípios da região metropolitana e aqueles cuja população ultrapassou 80% do tamanho médio dos estratos foram considerados, cada um, um estrato separado, ou seja, estiveram com certeza na amostra (f1=1). Definiu-se o tamanho médio do estrato em São Paulo, igual a 184.320 pessoas.

No segundo estágio, os setores censitários foram sorteados por amostragem sistemática com PPTE. Neste caso, a medida de tamanho foi o número de domicílios particulares ocupados no setor censitário, existentes à época do censo. Foram cinco setores sorteados para cada UPA selecionada em estratos "não auto-representativos", e um número variável (2 a 265) de setores sorteados para as UPA "auto-representativas". A probabilidade de seleção no segundo estágio, f2, foi obtida pelo produto do tamanho, em número de domicílios particulares ocupados, do setor censitário de determinado município, pelo número de setores sorteados conforme acima referido, dividido pelo tamanho total, também em número de domicílios, do município correspondente.

Partindo-se do nível da subamostragem de setor censitário da PNAD-95, a PNDS-96 apresentou dois estágios efetivos de amostragem. Foram entrevistados em São Paulo 1.637 domicílios, obtendo-se entrevistas de 1.355 mulheres. A Figura 1 apresenta a estrutura do plano de amostragem da PNDS-96, a partir da PNAD-95.


Estágios da PNDS-96

Foram sorteados, sistematicamente, 110 setores censitários com igual probabilidade. A probabilidade no primeiro estágio de subamostragem de setores, f1', foi obtida dividindo-se 110 por 857 (Figura 1).

A lista atualizada dos domicílios nesses setores selecionados, fornecida pelo IBGE para o ano de 1995, foi utilizada para o sorteio dos domicílios no segundo e último estágio. Definiu-se, ao final, o número de domicílios a serem sorteados em cada setor censitário, procurando-se manter uma fração amostral constante para cada domicílio, em cada região. A probabilidade de seleção neste segundo estágio, f2', foi obtida dividindo-se o número de domicílios selecionados para a PNDS-96 no setor censitário, pelo tamanho do setor censitário correspondente.

A probabilidade final de seleção para a PNDS-96, f, considerando-se os dois primeiros estágios da PNAD, resultou no produto: f = f1.f2.f1'.f2 '.

Variáveis

As variáveis que caracterizavam o plano de amostragem por conglomerados de tamanhos desiguais da PNAD foram recompostas com o intuito de classificar as UPA e a variável de estratificação de uma forma mais próxima à PNAD, assim como as definições dos pesos de acordo com a PNAD e PNDS.

• UPA (conglomerado): município.

• ESTR (estrato): foram considerados dois estratos, o "auto-representativo" (agrupando os municípios da região metropolitana e os grandes em termos populacionais) e o "não auto-representativo" (agrupando os demais municípios). Esta simplificação foi necessária porque, se fossem considerados cada um dos estratos, em muitos haveria apenas uma UPA e não seria possível estimar a variância.

• Pesos (descrição das três variáveis de ponderação):

– Ponderação devido ao plano de amostragem (w1): o peso base na PNDS-96 foi obtido pelo inverso da probabilidade final de seleção, ou seja, w1=1/f. Em seguida, houve a padronização deste peso (conforme explicação adiante), que passou a ser denominado de w1padr;

– Ponderação devido à ausência de resposta (w2): foi definida como o inverso da taxa de resposta, para domicílios e mulheres, em nível de UPA. A taxa de resposta para domicílio foi obtida dividindo-se o número de domicílios entrevistados pelo número de domicílios ocupados (elegíveis) selecionados. A taxa de resposta para mulheres foi obtida dividindo-se o número de mulheres entrevistadas pelo número de mulheres elegíveis nos domicílios entrevistados. Assim como o peso anterior, este também foi padronizado, w2padr;

– Peso global (w3): foi obtido multiplicando-se o peso de desenho pelo peso por não resposta, ambos padronizados, e com nova padronização, w3padr.

Os valores obtidos dos pesos foram padronizados com o intuito de obter o total ponderado da amostra igual ao total não ponderado. Isso foi feito porque a soma dos pesos em geral resulta diferente do tamanho da amostra, e tem a vantagem de não "enganar" o leitor quando apenas o "n" ponderado é apresentado nos resultados.4 A padronização é facilmente obtida por meio da multiplicação de cada peso não padronizado por um fator k. Esse fator corresponde ao tamanho total da amostra, dividido pela soma dos produtos de cada peso não padronizado pelo tamanho da amostra no estrato, município e setor censitário correspondentes.

As seis variáveis que foram escolhidas para a análise estatística referem-se ao uso atual dos seguintes métodos contraceptivos: laqueadura, pílula, camisinha, vasectomia, injetável e DIU. Todas as variáveis estão dicotomizadas, assumindo o código zero, quando a resposta é negativa, e um, quando é positiva.

Processamento e análise estatística

Os dados para a análise estatística foram obtidos do arquivo original, denominado "BRIR31.tda", por meio da estruturação de um arquivo específico, utilizando-se o módulo básico de manipulação de arquivos do programa interativo ISSA Integrated System for Survey Analysis, da Macro International Inc. 6 O banco de dados foi convertido para o SPSS, em seguida para o Dbase e, por último, para o Epi Info. Esse procedimento foi necessário porque o programa ISSA permite apenas as conversões de arquivos para SPSS ou SAS.

O Epi Info 6.04b é um programa epidemiológico e estatístico que apresenta um módulo para análise de dados de levantamentos complexos, chamado CSAMPLE. O programa opera em DOS, e o tipo básico de delineamento que pode ser analisado é a amostragem estratificada e por conglomerados em múltiplos estágios. A estimação da variância no CSAMPLE é feita usando-se aproximação pela série de Taylor. Optou-se em utilizar o Epi Info no presente estudo porque, para análise descritiva, ele é simples de ser manipulado, além de ser gratuito e de fácil acesso pela rede mundial de computadores.14

Métodos de estimação

O processo de estimação adotado aplica os estimadores razão e aproximação de Taylor para estimar variância, ao plano de amostragem por conglomerados de tamanhos desiguais, com os seguintes procedimentos:

• Sem ponderação, considerando apenas o efeito do conglomerado;

• Com ponderação devido ao plano de amostragem, para compensar as probabilidades desiguais de seleção;

• Com ponderação para compensar ausência de resposta;

• Com ponderação global, combinando os pesos amostrais com os pesos por ausência de resposta.

Portanto, os métodos de estimação visaram, primeiramente, obter estimativas pontuais da proporção de ocorrência (código 1: sim) das variáveis referidas e seus correspondentes erros padrão, sem e com os diversos procedimentos de ponderação acima descritos. Em seguida, compararam-se os resultados obtidos para os intervalos de confiança (IC 95%), os efeitos do desenho (Deff) e os vícios das estimativas. Todos os estimadores encontram-se detalhados em Anexo Anexo .

RESULTADOS

O plano de amostragem e os pesos estimados

Inicialmente, foram localizados os 31 municípios (UPA) "não auto-representativos" e, em seguida, os municípios "auto-representativos", sendo 14 pertencentes à região metropolitana, e 15 com populações grandes (superior a 80% do tamanho médio dos estratos). Portanto, foram totalizadas sessenta UPA, que podem ser visualizadas na Figura 2, que destaca os dois estratos: "auto-representativo" e "não auto-representativo".


A ponderação devido ao plano de amostragem, com padronização em função do número de mulheres entrevistadas (n=1.355), apresentou valor mínimo de 0,568, para o setor 366 do Município de Guarulhos no estrato AR, e valor máximo de 2,544, para o setor 8 de Cabreúva, no estrato NAR. A variação do maior peso em relação ao menor foi de 4,5 vezes. A ponderação por não-resposta variou de 0,693, no setor 3 do Município de Pilar do Sul (estrato NAR), até 2,597, no Município de Santos (setor 229, estrato AR). Portanto, a variação foi de 3,7 vezes (Tabela 1).

Finalmente, a ponderação global, obtida pelo produto do peso devido ao plano de amostragem com o peso por ausência de resposta, ambos padronizados, e novamente padronizado em função do número de mulheres entrevistadas (n=1.355), variou de 0,527, para o Município de São José do Rio Preto (setor número 254, estrato AR), até 2,705 para o Município de Santos (setor 229, estrato AR). Portanto, a variação do maior peso em relação ao menor foi de 5,1 vezes (Tabela 1).

Os tamanhos de amostra por UPA variaram de um mínimo de duas mulheres, em Santos, a um máximo de 392, no Município de São Paulo (dados não apresentados). Com isso, o coeficiente de variação dos tamanhos (xha) ultrapassou os 20%, ou seja, foi igual a 0,28, conforme expressão (6), em Anexo Anexo .

Estimativas obtidas para variáveis indicadoras de uso atual de métodos anticoncepcionais (MAC) específicos

Dentre os métodos contraceptivos específicos, a laqueadura apresentou a maior prevalência, de aproximadamente 23%, com 3% de diferença da maior em relação à menor prevalência. Os intervalos de confiança tiveram amplitudes entre 4,5 e 5,3 pontos percentuais e o maior Deff, de 1,35, foi para o método de estimação com ponderação devido ao plano de amostragem. Os vícios foram todos baixos, inferiores a 0,10 (Tabela 2).

As proporções de uso atual de pílula foram próximas a 17%, com variação de 2% da maior em relação à menor proporção, e os intervalos de confiança tiveram amplitudes não superiores a 4,5 pontos percentuais. Os efeitos do desenho foram de 1,1 e 1,2, respectivamente, para os dois primeiros e os dois últimos procedimentos de estimação. Os vícios foram inferiores a 0,20.

As proporções estimadas de uso atual de camisinha estiveram entre 6,45 e 7,00%, com diferença da maior em relação à menor de aproximadamente 9%. Os intervalos de confiança apresentaram amplitude de aproximadamente quatro pontos percentuais. Os Deff foram superiores a 2,3 e os vícios foram todos acima de 0,20. O maior deles resultou em 0,28, e foi verificado para o método com ponderação devido à ausência de resposta (Tabela 2).

O uso atual de vasectomia foi estimado em 3,7%, aproximadamente, sendo que a variação da maior para a menor proporção foi de aproximadamente 3%. As amplitudes dos intervalos de confiança estiveram entre 1,7 e 1,9 pontos percentuais e os Deff foram todos inferiores a 1,0 (Tabela 3).

As proporções estimadas de uso atual de injetável estiveram entre 1,42 e 1,52%, com diferença de 7% da maior em relação à menor proporção, respectivamente, quando se aplicou a ponderação devido ao plano de amostragem e à ausência de resposta. O maior Deff, de 2,06, foi para o procedimento com ponderação devido à ausência de resposta, que resultou também no maior vício, de aproximadamente 0,30.

A estimativa pontual para o uso atual de DIU foi igual a 1,11% para os quatro procedimentos, e os intervalos de confiança apresentaram amplitudes de menos de um ponto percentual. Os Deff foram todos próximos a 0,6 e os vícios relativos foram baixos, ou seja, inferiores a 0,10, para os quatro procedimentos de estimação (Tabela 3).

DISCUSSÃO

No presente trabalho houve uma tentativa de se recuperar o plano de amostragem da PNAD, com a expressa intenção de recompor as variáveis que o definem, bem como o cálculo dos pesos. Buscou-se uma aproximação ao plano original da amostra mestra, que foi a PNAD. Entretanto, como alguns estratos ficariam com apenas uma UPA, fez-se necessária uma outra classificação de UPA e/ ou estrato para obtenção das estimativas. Portanto, com a abordagem adotada, destaca-se a limitação e não solução da complexidade inerente ao processo de estimação da variância, tema chave da presente pesquisa.

Porém, ligado a esse fato, sabe-se que a estimação de variância, seja por meio de Taylor ou das várias técnicas de replicação, sofre uma limitação importante. Isso ocorre porque as técnicas são aproximadas e não dão conta de todos os possíveis planos de amostragem e estimadores desejados. Portanto, qualquer uma delas dará estimativas aproximadas de variância.16

A aplicabilidade das estimativas aqui obtidas deve enfocar, em grande parte, a utilização das prevalências estimadas, bem como dos intervalos de confiança obtidos. Quanto às proporções estimadas, a maior diferença entre os quatro métodos de estimação não ultrapassou 10%, ficando abaixo de 5% para quatro das seis variáveis estudadas. Como todos os métodos consideraram o plano de amostragem por conglomerados, pode-se considerar essas pequenas diferenças decorrentes das diversas ponderações. Uma padronização dos pesos foi aqui adotada com o intuito de evitar a confusão que ocorre quando a soma dos pesos não resulta igual ao tamanho da amostra.4

A construção de intervalos de confiança indica, com um determinado nível de confiança e sob uma distribuição de probabilidade, em qual amplitude de valores se espera que o valor populacional de interesse esteja contido.9,15 No presente trabalho, verificaram-se alterações não superiores a 20% nas amplitudes dos intervalos de confiança e nos erros padrão, entre os quatro procedimentos de estimação. Para apenas duas das seis variáveis as amplitudes foram superiores a 10%, comparando-se o maior com o menor IC ou erro padrão.

Para avaliação do erro de amostragem, um importante indicador é o efeito do desenho, que permite avaliar subestimativas ou mesmo superestimativas dos erros padrão, utilizando-se as diferentes características do plano de amostragem e diferentes métodos de estimação.9 Com os resultados obtidos, pode-se afirmar que o plano de amostragem por conglomerados teve impacto sobre a precisão das estimativas, para duas das seis variáveis. Nesses casos, os Deff resultaram superiores a 1,5, indicando que o conglomerado deve ser considerado na análise.10 Nesta situação, estimadores provenientes da amostragem aleatória simples produzem resultados subestimados para os erros padrão e respectivos intervalos de confiança. Entretanto, vale ressaltar a possível existência de heterogeneidade intraconglomerados para outras variáveis, cujos Deff foram inferiores a um, como observado em outras duas variáveis.

Segundo Korn & Graubard,10 o uso de conglomerados com alguma homogeneidade intraclasse aumentaria o erro padrão das estimativas. Em vista da afirmativa acima, esses autores sugeriram o uso de conglomerados nas análises como um procedimento conservador. Em um estudo posterior desses mesmos autores,11 foram apresentadas diversas recomendações baseadas no plano de amostragem. Eles afirmam que a dependência das observações, devido ao processo de amostragem por conglomerado, deve ser sempre levada em consideração na análise de grandes levantamentos de saúde.

Em relação aos vícios relativos, os maiores foram para as mesmas duas variáveis com Deff altos, ou seja, uso de camisinha e de injetável, cujos vícios em geral ultrapassaram 0,20. Os vícios relativos superiores a 0,20 têm um impacto direto na inferência que se faz utilizando os intervalos de confiança. Esse impacto corresponde a se ter intervalos que na realidade possuem menos de 95% de confiança.13 Também se pode afirmar que o vício não é desprezível, pois o coeficiente de variação do tamanho da amostra (cvx) no presente estudo resultou superior a 20%.

Para a maioria das variáveis, os procedimentos de ponderação não acrescentaram efeitos na precisão das estimativas aos já incluídos pelo plano por conglomerados. Portanto, a ponderação aqui não teve grande impacto sobre as estimativas. Porém, estudos posteriores deveriam avaliar, juntamente com a consideração das características específicas dos planos de amostragem, a necessidade de se ponderar os dados na análise. Além disso, o cálculo dos efeitos do desenho e sua publicação devem tornar-se prática usual na apresentação dos relatórios de pesquisa, tanto como iniciativa dos seus autores como das agências produtoras de informações e dos corpos editoriais de publicações científicas.

AGRADECIMENTOS

Ao Prof. Dr. Pedro Luís do Nascimento Silva, do IBGE, pelas valiosas sugestões; à Sra. Rosângela A. Almeida, do IBGE, pelos esclarecimentos em relação à PNAD; à MACRO International, pelos esclarecimentos complementares sobre o plano de amostragem das pesquisas Demographic and Health Surveys; à Adriane E. Olivatto pelas sugestões. Aos revisores da Revista de Saúde Pública pelas suas observações e sugestões.

Pesquisa financiada pela Organização Mundial da Saúde (OMS - Processo n. M8/181/4/S.479) e parcialmente pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq - Processo n. 137088/96-5)

Baseado na dissertação de mestrado, apresentada à Faculdade de Saúde Pública da Universidade de São Paulo, em 2001

Recebido em10/6/2002

Reapresentado em 20/3/2003

Aprovado em 23/4/2003

ANEXO

Estimador da proporção (Prop.)

Foi utilizado o estimador razão,8 pois ambos, o numerador e o denominador, são variáveis aleatórias. Ademais, a amostragem por conglomerados em dois estágios, com PPT, estratificada e com ponderação, demanda a utilização de estimadores mais complexos:

onde:

y = total ponderado dos elementos (mulheres) que possuem a característica de interesse (por exemplo, usam atualmente camisinha)

x = total ponderado de elementos da amostra

whab = peso para cada um dos objetivos específicos

yhab = valor observado da variável de interesse para a b-ésima mulher, do a-ésimo município (conglomerado), no h-ésimo estrato, podendo assumir os valores 0 (não possui a característica) ou 1 (possui a característica)

xhab = assume o valor 1 para a contagem do número de mulheres

H = número total de estratos

ah = número de municípios (UPA) na amostra do h-ésimo estrato

xha = número de mulheres no a-ésimo município (UPA) do h-ésimo estrato.

Estimador da variância de r

onde:

O estimador da variância na expressão acima é aplicado usando a técnica de ultimate cluster.5

Estimador do erro padrão de r

onde var(r) está definida acima.

Para a comparação dos resultados, foram utilizados os seguintes indicadores:

Intervalo de confiança (IC (1-a)%)

Com os dados da amostra, constrói-se o intervalo8 a seguir.

onde r é o estimador razão pontual segundo o delineamento em estudo, como na expressão (1); ta/2 é o nível crítico da distribuição de probabilidade (t de Student ou normal) com (1-a)% de confiança; ep(r) é o erro padrão, como na expressão (2).

Efeito do Desenho (Deff 8)

onde varatual(r) é a variância estimada segundo o delineamento em estudo, e varAAS(r) é a variância do estimador considerando-se o desenho como se fosse proveniente de uma AAS de mesmo tamanho, como apresentado a seguir.

Estimador da variância de r sob AAS

onde p é o estimador da proporção sob AAS.

Vício das estimativas

O vício de amostragem é a diferença entre o valor esperado do estimador e o correspondente valor populacional verdadeiro: Vício = [E(r) _ R].

Como não se conhece o valor populacional, R, o vício foi estimado através da seguinte expressão:8

Em seqüência, calculou-se o vício relativo:

O coeficiente de variação do tamanho da amostra foi calculado com o intuito de avaliar se o mesmo não ultrapassava 0,20 (20%). O coeficiente de variação de x é calculado como:

  • 1. Albieri S, Bianchini ZM. Uma revisão dos principais aspectos dos planos amostrais das pesquisas domiciliares realizadas pelo IBGE Rio de Janeiro: IBGE; 1998. (Textos para Discussão, 91).
  • 2. Arruda JM, Rutenberg N, Morris L, Ferraz EA. Pesquisa nacional sobre saúde materno-infantil e planejamento familiar: Brasil, 1986 Rio de Janeiro: BEMFAM/IRD; 1987.
  • 3
    [BEMFAM] Sociedade Civil Bem-Estar Familiar no Brasil. Pesquisa nacional sobre demografia e saúde, 1996 Rio de Janeiro: BEMFAM/ MACRO; 1997.
  • 4. Brogan DJ. Pitfalls of using standard statistical software packages for sample survey data. In: Armitage P, Colton T, editors. Encyclopedia of biostatistics New York : John Wiley and Sons; 1998. Avaliable from: http://www.fas.harvard.edu/~stats/survey-soft/donna-brogan.html> [2000 Mar 14]
  • 5. [FIBGE] Fundação IBGE. Pesquisa nacional por amostra de domicílios Rio de Janeiro; 1995.
  • 6. [ISSA] Macro International. Integrated system for survey analysis [computer program]. Version 5.0. Calverton; 1995
  • 7. [ISSA] Macro Internacional. Sampling manual: DHS III Calverton; 1996. (Basic Documentation, 6).
  • 8. Kalton G. Introduction to survey sampling Beverly Hills: Sage Publications; 1983. (Quantitative Applications in the Social Sciences, 35).
  • 9. Kish L. Survey sampling New York: John Wiley and Sons; 1965.
  • 10. Korn EL, Graubard BI. Epidemiologic studies utilizing surveys: accounting for the sampling design. Am J Public Health 1991;81:1166-73.
  • 11. Korn EL, Graubard BI. Analysis of large health surveys: accounting for the sampling design. J R Stat Soc 1995;158:263-95.
  • 12. Pessoa DGC, Nascimento Silva PL. Análise de dados amostrais complexos. In: 13o Simpósio Nacional de Probabilidade e Estatística; 1998 jul 27-31; Caxambu (MG). Caxambu: ABE; 1998.
  • 13. Silva NN. Amostragem probabilística: um curso introdutório São Paulo: EDUSP; 1998.
  • 14. Sousa MH, Silva NN. Comparação de softwares para análise de dados de levantamentos complexos. Rev Saúde Pública 2000;34:646-53.
  • 15. United Nations. Sampling errors in household surveys New York; 1993. (NHSCP Technical Study UNFPA/UN/INT-92-P80-15E).
  • 16. Wolter KM. Introduction to variance estimation New York: Springer Verlag; 1985.

Anexo

  • Endereço para correspondência
    Maria Helena de Sousa
    Cidade Universitária Zeferino Vaz, s/n
    Caixa Postal 6181
    13084-971 Campinas, SP, Brasil
    E-mail:
  • Datas de Publicação

    • Publicação nesta coleção
      25 Mar 2004
    • Data do Fascículo
      Out 2003

    Histórico

    • Aceito
      23 Abr 2003
    • Revisado
      20 Mar 2003
    • Recebido
      10 Jun 2002
    Faculdade de Saúde Pública da Universidade de São Paulo Avenida Dr. Arnaldo, 715, 01246-904 São Paulo SP Brazil, Tel./Fax: +55 11 3061-7985 - São Paulo - SP - Brazil
    E-mail: revsp@usp.br