Acessibilidade / Reportar erro

Agrupamento de países segundo indicadores de padrão de vida

Clustering of countries evaluated by standard of living indicators

Resumos

Foram estudados 125 países avaliados por um conjunto de 26 indicadores básicos, de saúde, econômicos e educacionais, usando-se três métodos estatísticos multivariados: Análise de Agrupamento, Análise de Componentes Principais e Análise de Variância Multivariada. As variáveis mais discriminatórias foram a expectativa de vida, as taxas de mortalidade infantil e de menores de cinco anos, as taxas de natalidade e de fertilidade e a taxa de matrícula no segundo grau para o sexo feminino. Os países foram ordenados de acordo com um "índice de padrão de vida" e separados em cinco grupos.

Qualidade de vida; Análise por conglomerados; Análise discriminante; Estatísticas de saúde


The position of 125 countries is studied on the basis of a collection of 26 basic, health, economic and educational indicators. Multivariate statistical methods were used, including Cluster Analysis, Principal Component Analysis and Multivariate Analysis of Variance. The most discriminating variables were life expectancy the child mortality rate, the mortality rate of children of less than five years of age, the birth and fertility rates and the high-school female matriculation rate. The first principal component was interpreted as a measure of the living standard which made it possible to place the countries in order. Five clusters of countries are suggested.

Quality of life; Cluster analysis; Discriminant analysis; Health statistics


Agrupamento de países segundo indicadores de padrão de vida

Clustering of countries evaluated by standard of living indicators

Paulo Roberto Curi

Serviço de Estatística e Computação da Faculdade de Medicina Veterinária e Zootecnia da UNESP - Botucatu, SP - Brasil

RESUMO

Foram estudados 125 países avaliados por um conjunto de 26 indicadores básicos, de saúde, econômicos e educacionais, usando-se três métodos estatísticos multivariados: Análise de Agrupamento, Análise de Componentes Principais e Análise de Variância Multivariada. As variáveis mais discriminatórias foram a expectativa de vida, as taxas de mortalidade infantil e de menores de cinco anos, as taxas de natalidade e de fertilidade e a taxa de matrícula no segundo grau para o sexo feminino. Os países foram ordenados de acordo com um "índice de padrão de vida" e separados em cinco grupos.

Descritores: Qualidade de vida. Análise por conglomerados. Análise discriminante. Estatísticas de saúde.

ABSTRACT

The position of 125 countries is studied on the basis of a collection of 26 basic, health, economic and educational indicators. Multivariate statistical methods were used, including Cluster Analysis, Principal Component Analysis and Multivariate Analysis of Variance. The most discriminating variables were life expectancy the child mortality rate, the mortality rate of children of less than five years of age, the birth and fertility rates and the high-school female matriculation rate. The first principal component was interpreted as a measure of the living standard which made it possible to place the countries in order. Five clusters of countries are suggested.

Keywords: Quality of life. Cluster analysis. Discriminant analysis. Health statistics.

Introdução

Diversas instituições entre as quais o Banco Mundial e a Organização das Nações Unidas se dedicam à publicação anual de indicadores econômicos, demográficos, de saúde, culturais e educacionais dos países. Estas informações, na maioria das vezes, têm sido utilizadas sem um enfoque comparativo abrangente e acabam servindo como elementos ilustrativos de reportagens publicadas em revistas não-científicas. Mesmo o informe "Situação Mundial da Infância - 1991"6, do qual foram extraídos muitos dos dados utilizados no presente artigo, faz uso parcial dessas estatísticas o que pode, em parte, ser creditado à dificuldade de seu manuseio face ao volume de dados nele inserido.

Visando modificar esta situação, tem sido proposta a utilização de métodos de análise multivariada que permitem explorar melhor essas tabelas de dados onde os países são caracterizados por conjuntos de variáveis2,3,4.

No presente artigo foram estudados 125 países, cujo critério de inclusão foi dependente da disponibilidade de informação para um conjunto de 26 indicadores sociais, econômicos, demográficos, de saúde, culturais e educacionais que possibilitassem uma visão ampla do padrão de vida dos mesmos.

O principal objetivo do presente artigo é mostrar a utilização de métodos de análise multivariada para discutir a capacidade discriminatória dos indicadores usados, no sentido de separar o conjunto dos países em grupos cujas características desejadas são a homogeneidade interna de seus componentes, a heterogeneidade entre membros de diferentes grupos e a caracterização dos grupos resultantes para o conjunto dos indicadores.

Não se pretendeu explicar exaustivamente os resultados do ponto de vista da determinação social do processo traduzido pelos indicadores utilizados.

Material e Método

Dentre as inúmeras variáveis que poderiam ser utilizadas, as escolhidas preencheram alguns critérios de seleção, tais como, disponibilidade da informação para a maioria dos países e importância à priori como indicadora do padrão de vida. As siglas de identificação e as definições das 26 variáveis usadas são apresentadas a seguir. Os dados encontram-se publicados6,7, não sendo aqui transcritos.

EXP: expectativa de vida ao nascer, ALF: taxa de alfabetização de adultos; NAT: taxa de natalidade; FERT: taxa de fertilidade; LEIT, MED, ENF: número de habitantes por leito hospitalar, por médico e por enfermeiro, respectivamente; TMM5: taxa de mortalidade de menores de 5 anos; TMI: taxa de mortalidade infantil; RNBP: percentagem de recém-nascidos com baixo peso ao nascer; CAL: suprimento calórico diário per capita como percentagem da necessidade; DPT, POL, SAR: percentagem de crianças com 1 ano imunizadas, respectivamente, com vacinas tríplice, para poliomielite e para sarampo; NAS: percentagem dos nascimentos (partos) realizados por pessoal especializado; MAT: taxa de mortalidade materna por causas relacionadas a gestação para cada 100.000 nascidos vivos; PNB: produto nacional bruto em dólares; M1G: taxa bruta de matrícula no primeiro grau escolar; RAD (TV): número de aparelhos de rádio (televisão) disponíveis por 1.000 habitantes; C1G: percentagem de matriculados na primeira série que concluem o primeiro grau; M2GM (M2GF): taxa de matrícula no segundo grau para o sexo masculino (feminino); CPOP: taxa de crescimento populacional; URB: taxa de população urbana; CURB: taxa de crescimento da população urbana. Maiores detalhes e explicações sobre as variáveis podem ser vistos em publicação da UNICEF6.

Outros indicadores que, pela sua importância, poderiam ser incluídos no estudo, não o foram em virtude de não estarem disponíveis para grande número de países. Pela mesma razão alguns países não fizeram parte do estudo. A relação dos 125 países, com seus respectivos números de identificação, encontra-se na Tabela 2.

Como as variáveis não apresentam a mesma escala (e/ou unidade) foi utilizada uma transformação de modo a torná-las adimensionais e com variação no intervalo de 0 a 1.

Para a análise estatística foram empregados três métodos multívariados apresentados, discutidos e exemplificados, entre outros, por Sneath e Solal5 e Curi1:

a) Análise de Agrupamento (AA) utilizada calculando-se a Distância Euclidiana Média entre os países, com o objetivo de separá-los em grupos (conglomerados ou "clusters") com o uso do algoritmo UPGMA. O resultado final da AA é um gráfico, denominado dendrograma, que auxilia a definir os agrupamentos de países similares para o conjunto das 26 variáveis;

b) Análise de Componentes Principais (ACP) utilizada primeiro para reduzir o conjunto das 26 variáveis originais correlacionadas a um conjunto de novas variáveis não correlacionadas que são os componentes principais. Cada componente principal (Y) é uma combinação linear das variáveis originais. Quando os dois primeiros componentes principais (Y1 e Y2) conseguem reter cumulativamente uma quantidade suficiente da informação total contida no conjunto das variáveis originais, cada país, que era definido pelas 26 variáveis, pode ser definido pelas duas novas variáveis (Y1 e Y2) o que possibilita sua localização como um ponto em um gráfico bidimensional. A Figura resultante neste processo, analisada em conjunto com o dendrograma da AA, permite inferir os agrupamentos de países. Os grupos devem se caracterizar pela maior homogeneidade interna de suas unidades e pela heterogeneidade entre unidades de diferentes grupos. A ACP possibilita, ainda, discutir a capacidade discriminatória das variáveis no processo de formação dos grupos o que é indicado pelo coeficiente de correlação ("peso") da variável na combinação linear que resultou o componente principal (quanto maior o valor absoluto do coeficiente de correlação maior o "peso"). A interpretação da combinação linear que forma o componente principal, em especial o primeiro (Y1), pode fornecer informação prática fundamental na análise dos resultados obtidos;

c) Análise de Variância Multivariada (MAV) utilizada com o objetivo de verificar se os agrupamentos de países resultantes com o emprego da ACP e da AA diferiram significativamente (heterogeneidade entre grupos) e para quais variáveis estas diferenças se verificaram. Possibilita, ainda, verificar a adequação de cada país ao seu respectivo grupo o que é feito por um processo probabilístico de reclassificação dos países, com o uso de funções driscriminantes lineares, geradas no processo. Quanto menores resultarem as taxas de erro de reclassificação, mais coerentes serão os agrupamentos propostos (homogeneidade dentro dos grupos). Como resultado final desta análise, os países podem ser representados em gráfico utilizando duas variáveis canônicas (CAN 1, CAN2) geradas no processo.

Portanto, a análise foi iniciada com um conjunto de 125 países caracterizados por 26 indicadores de seu padrão de vida, essa informação foi resumida a duas novas variáveis não correlacionadas, os países foram separados em grupos caracterizados pela homogeneidade interna e heterogeneidade externa, foi verificado o poder discriminatório das variáveis no processo de separação dos grupos e foi discutida a adequação da classificação de cada país no respectivo grupo.

Resultados e Discussão

A Tabela 1 apresenta os coeficientes de correlação entre as variáveis originais e os dois componentes principais (Y1 e Y2), bem como a ordenação das variáveis conforme sua capacidade discriminatória. As variáveis mais discriminatórias foram: EXP, TMI, NAT, M2GF, PERT e TMM5 enquanto as menos foram: ENF, LEFT, RNBP, SAR e MED.

As variáveis, à priori, podem ser separadas em duas classes: aquelas cujos valores elevados indicam melhor padrão de vida, referidas como sendo de classe 1 (EXP, ALF, CAL, DPT, POL, SAR, NAS, PNB, M1G, RAD, TV, C1G, M2GM, M2GF e URB) e as restantes, cujos valores elevados indicam padrão inferior, referidas como sendo de classe 2.

Pela Tabela 1 pode ser visto que Y1 foi positivamente correlacionado com as variáveis de classe 1, o contrário ocorrendo com as de classe 2. Assim sendo, quanto melhores forem os indicadores do país maior será seu respectivo Y1. Portanto, o primeiro componente principal, que reteve 68% da informação contida no conjunto das 26 variáveis originais, pode ser considerado como um "índice de padrão de vida" do país.

O segundo componente (Y2) apresentou maiores correlações positivas com PNB, RAD e TV e negativas com SAR, POL, DPT e CPOP. Os países com Y2 grande apresentaram ou pequenas taxas de imunização e crescimento populacional ou valores elevados de PNB, RAD e TV. Como Y2 reteve 8% da informação contida nas variáveis originais, seu significado prático mereceu pouco destaque. Os menores valores de Y2 ocorreram para Tanzânia (96), Botswana (69) (países com taxa de imunização maiores que 80%) e Omã (63) que associou altas taxas de imunização (maiores que 90%) com elevado PNB.

Na Tabela 2 os países estão listados em ordem decrescente de "padrão de vida", conforme indicado pelo valor de Y1 A Figura 1 construída utilizando-se os pares ordenados (Y1 e Y2) de cada país, obtidos na ACP, e a Figura 2, representando o dendrograma da AA, possibilitaram inferir a formação de 5 grupos de países. Na Tabela 2 os grupos estão separados por linhas horizontais e nas Figuras 1 e 2 estão delimitados. Pela análise conjunta das duas figuras verificou-se que, para dois países, não houve concordância: o Iêmen (58) foi classificado em G5 na Figura 1 e em G4 na Figura 2, e a Espanha (116) foi classificada em G1 na Figura 1 e em G2 na Figura 2. As demais classificações foram concordantes nas duas análises. Como a ACP é um procedimento estatístico mais rigoroso em seus aspectos matemáticos, optou-se pelos 5 agrupamentos por ela fornecidos.



Em G5 localizaram-se os países com os piores indicadores (menores valores de Y1 com média igual a -0,124 e desvio padrão de 0,013 para este componente). O grupo mostrou-se pouco homogêneo quanto aos valores de Y2, destacando-se países com os maiores valores para este componente (Afeganistão (30), Guiné (79), Chade (73), Somália (94), Nigéria (87) e Guiné-Bissau (78)), provavelmente devido a suas baixas taxas de imunização (DPT, POL e SAR entre 15 e 30%).

O G4 foi o mais heterogêneo dos grupos com relação aos valores de Y1 (média de 0,062 e desvio padrão de 0,025), sendo constituído por 37 países, em sua maioria africanos.

O grupo intermediário (G3) formado por 33 países, entre os quais se incluiu o Brasil (1) foi dos menos homogêneos (junto com G4) com valor médio de Y1 igual a 0,023 e desvio padrão de 0,021. O Líbano (62) e Omã (63) foram os países menos característicos do grupo, o que pode ser verificado nas Figuras 1 e 2.

O G2, com 19 países, mostrou-se bastante homogêneo, principalmente para valores de Y1 (média igual a 0,084 com desvio de 0,009).

O grupo dos países com melhores indicadores (G1) resultou bastante homogêneo tanto palores de Y1 (média de 0,120 e desvio de 0,010), como para valores de Y2, todos positivos e relativamente grandes, em conseqüência de PNB, RAD e TV elevados.

A ordenação pelo primeiro componente principal (Tabela 2) situou o Brasil em 54o lugar entre os 125 países estudados. Esta classificação do Brasil concordou com os resultados obtidos anteriormete2,4. Embora este tipo de enfoque, usando indicadores médios, possa não refletir particularidades dos países, é o possível de ser utilizado. No caso do Brasil, devido à sua dimensão territorial e a heterogeneidade entre suas regiões, o país "médio" aqui estudado, na verdade, não reflete sua multiplicidade de características. Uma complementação interessante do presente estudo seria verificar o comportamento dos Estados e ou das regiões brasileiras face aos demais países do Mundo. Os Estados das regiões Sul e Sudeste poderiam se localizar em G2 e os Estados das regiões Norte e Nordeste, talvez se localizassem em G4 ou G5.

A localização dos EUA em G1 era esperada2,4. Embora apresentando bolsões de pobreza, os indicadores médios dos EUA, principalmente aqueles de natureza econômica, devem ter sido responsáveis pelo valor máximo do primeiro componente entre todos os países. A mesma razão justifica a inclusão de países árabes como Kwait, Omã, Emirados Árabes Unidos e Arábia Saudita em G3.

Os antigos países comunistas da Europa se localizaram em G2, exceção feita a Albânia (G3). A China (48o) foi incluída em G3. Por outro lado, Cuba ficou na 23a posição (em G2), em virtude de seus excelentes indicadores de saúde, embora seu PNB seja baixo (US$ 1,170).

Dos países da América do Sul, Uruguai (29o), Argentina (32o) e Chile (34o) apresentaram é melhor desempenho, sendo incluídos em G2, o que confirmou os resultados obtidos anteriormente2,4. O pior desempenho ficou com a Bolívia (83o), localizada em G4. A inclusão de Trinidad-Tobago (36o) em G2 deve ser destacada.

A Austrália (11o) e a Nova Zelândia (18o), junto com Japão (5o), Canadá (8o) e EUA (1o), foram os únicos países não europeus incluídos em G1.

Os grupos G4 e G5 incluíram a totalidade dos países africanos.

Como os dois procedimentos usados (AA e ACP) não excluem uma certa subjetividade no processo de separação dos grupos1, o estudo foi completamentado com a Análise de Variância Multivariada (MAV). Esta análise, ao contrário das anteriores, tem como ponto de partida o conjunto dos 125 países divididos em 5 grupos. A comparação entre os mesmos para o conjunto das variáveis resultou significativa (distância generalizada de Mahalanobis: D2 = 4287,4; p < 0,001). Foi, também, significativa a diferença entre os grupos quando comparados dois a dois. Esses resultados mostraram que a separação dos países em 5 grupos foi coerente (heterogeneidade entre grupos).

Os países foram reclassificados em um dos 5 grupos, calculando-se o valor da probabilidade associada à reclassificação, utilizando-se as funções discriminantes lineares de cada grupo, geradas no processo. Assim procedendo foi possível afirmar que:

a) a taxa de erro de reclassificação em G1 foi de 5,6% com único país deste grupo, a Espanha, reclassificada em G2. Dos demais países corretamente reclassificados, a Nova Zelândia mostrou-se o menos típico de G 1, com probabilidade 0,95 de reclassificação correta;

b) a taxa de erro de reclassificação em G2 foi nula. O país menos típico de G2 foi Trinidad-Tobago (com probabilidade igual a 0,87);

c) para G3 a taxa de erro de reclassificação foi nula, sendo menos típicos deste grupo a Albânia e o Líbano;

d) em G4, também, foi nula a taxa de erro. Os países menos típicos deste grupo foram: Libéria (prob = 0,58) e Zimbábue (prob = 0,80);

e) em G5 houve uma reclassificação errônea (taxa de erro igual a 5,6%), com o lêmen sendo reclassificado em G4.

Foram geradas duas variáveis canônicas, responsáveis por 94,5% da informação total fornecida pelo conjunto das 26 variáveis originais. A Figura 3 apresenta a localização dos países como pontos no plano das variáveis canônicas (CAN1, CAN2). Foram calculados os pontos médios dos grupos, indicados pelos escores centroídes das duas variáveis canônicas: G1 (15,31; -2,33); G2 (9,78; 0,79); G3 (1,83; 1,46); G4 (-7,40; 0,48) e G5 (-13,79; -2,17).


Conforme se depreende dos resultados apresentados, a concordância conseguida com os três métodos de análise multivariada empregados foi excelente.

Na Tabela 3 são apresentados os valeres médios das variáveis nos 5 grupos e a comparação destes para cada variável. Os grupos menos separados foram G1 e G2 e, em menor escala, G4 e G5, com o G3 resultando significativamente diferente (intermediário) para a maioria das variáveis. Mesmo assim, conforme já foi ressaltado, os grupos G1 e G2 diferiram para o conjunto das variáveis conseqüência, principalmente, da diferença apresentada para PNB, RAD, TV, M2GM e M2GF. Para TMM5, TMI e MAT, entre outras; embora a diferença entre os dois grupos não tenha sido significativa ela deve ser ressaltada como sendo de relevância prática.

Pela Tabela 3 verificou-se que as taxas de imunização (DPT, POL, SAR) não diferiram em G1, G2 e G3, o que poderia ser explicado pelo fato dos países mais desenvolvidos não estarem promovendo programas intensos de vacinação, talvez em conseqüência da menor importância atribuída a pouca ocorrência de moléstias infecciosas.

Os precários indicadores educacionais, econômicos, culturais e de assistência à saúde nos grupos G4 e G5 foram acompanhados por expectativas de vida muito baixas e por taxas muito elevadas de mortalidade infantil e materna.

Recebido para publicação em 13.7.1992

Reapresentado em 23.4.1993

Aprovado para publicação em 26.4.1993

Separatas/Reprints: P. R. Curi - Rubião Júnior - Campus Universitário - 18618-000 - Botucatu, SP -Brasil.

  • 1. CURI, P. R. Resultados comparativos de alguns métodos de análise multivariada aplicados a um conjunto de dados. Rev. Matem. Estat.,1: 55-7,1983.
  • 2. CURI. P. R.; CONCEIÇĂO, E. P.; FELÍCIO, E. Análise de componentes principais e de agrupamento na avaliaçăo demográfica de países. Salusvita, 9: 45-62,1990.
  • 3. CURI, P. R.; ALVES, A.; BECKERS, P. J. e TERADA, L. Análise de agrupamento e de componentes principais na avaliaçăo de tabelas multivariadas (n x p). Rev. Matem. Estat., 9: 35-49,1991.
  • 4. NUNES, O. Z. G. S.; SILVA, M. S.; CURI, P. R. Agrupamento de países segundo indicadores básicos relacionados ŕ situaçăo mundial da infância. Rev. Cięnc. Bioméd. 12: 89-104,1991.
  • 5. SNEATH, P. H. A. & SOKAL, R. R. Numerical taxonomy. San Francisco, W. H. Freeman, 1973.
  • 6
    FUNDO DAS NAÇÕES UNIDAS PARA A INFÂNCIA (UNICEF). Situação mundial da infância-1991. Brasília, 1991.
  • 7
    WORLD Development Report 1990. WASHINGTON, World Bank, 1991.

Datas de Publicação

  • Publicação nesta coleção
    08 Out 2003
  • Data do Fascículo
    Abr 1993

Histórico

  • Aceito
    26 Abr 1993
  • Recebido
    13 Jul 1992
  • Revisado
    23 Abr 1993
Faculdade de Saúde Pública da Universidade de São Paulo Avenida Dr. Arnaldo, 715, 01246-904 São Paulo SP Brazil, Tel./Fax: +55 11 3061-7985 - São Paulo - SP - Brazil
E-mail: revsp@usp.br