SciELO - Scientific Electronic Library Online

 
vol.44 issue2Spatial and seasonal analysis on leptospirosis in the municipality of São Paulo, Southeastern Brazil, 1998 to 2006Recovery of the main causes of death in the Northeast of Brazil: impact on life expectancy author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Article

Indicators

Related links

Share


Revista de Saúde Pública

Print version ISSN 0034-8910

Rev. Saúde Pública vol.44 no.2 São Paulo Apr. 2010

http://dx.doi.org/10.1590/S0034-89102010000200009 

ARTIGOS ORIGINAIS

 

Classificação de microáreas de risco com uso de mineraçãode dados

 

Clasificación de microáreas de riesgo con uso de mineración de datos

 

 

Andreia MalucelliI; Altair von Stein JuniorII; Laudelino BastosIII; Deborah CarvalhoIV; Marcia Regina CubasV; Emerson Cabrera ParaísoI

IPrograma de Pós-Graduação em Informática. Pontifícia Universidade Católica do Paraná (PUC-PR). Curitiba, PR, Brasil
IISecretaria Estadual de Saúde do Paraná. Curitiba, PR, Brasil
IIIPrograma de Pós-Graduação em Computação Aplicada. Universidade Tecnológica Federal do Paraná. Curitiba, PR, Brasil
IVInstituto Paranaense de Desenvolvimento Econômico. Curitiba, PR, Brasil
VPrograma de Pós-Graduação em Tecnologia em Saúde. PUC-PR. Curitiba, PR, Brasil

Correspondência | Correspondence

 

 


RESUMO

OBJETIVO: Identificar, com o auxílio de técnicas computacionais, regras referentes às condições do ambiente físico para a classificação de microáreas de risco.
MÉTODOS: Pesquisa exploratória, desenvolvida na cidade de Curitiba, PR, em 2007, dividida em três etapas: identificação de atributos para classificar uma microárea; construção de uma base de dados; e aplicação do processo de descoberta de conhecimento em base de dados, por meio da aplicação de mineração de dados. O conjunto de atributos envolveu as condições de infra- estrutura, hidrografia, solo, área de lazer, características da comunidade e existência de vetores. A base de dados foi construída com dados obtidos em entrevistas com agentes comunitários de saúde, sendo utilizado um questionário com questões fechadas, elaborado com os atributos essenciais, selecionados por especialistas.
RESULTADOS: Foram identificados 49 atributos, sendo 41 essenciais e oito irrelevantes. Foram obtidas 68 regras com a mineração de dados, as quais foram analisadas sob a perspectiva de desempenho e qualidade e divididas em dois conjuntos: as inconsistentes e as que confirmam o conhecimento de especialistas. A comparação entre os conjuntos mostrou que as regras que confirmavam o conhecimento, apesar de terem desempenho computacional inferior, foram consideradas mais interessantes.
CONCLUSÕES: A mineração de dados ofereceu um conjunto de regras úteis e compreensíveis, capazes de caracterizar microáreas, classificando-as quanto ao grau do risco, com base em características do ambiente físico. A utilização das regras propostas permite que a classificação de uma microárea possa ser realizada de forma mais rápida, menos subjetiva, mantendo um padrão entre as equipes de saúde, superando a influência da percepção particular de cada componente da equipe.

Descritores: Bases de Dados como Assunto. Bases de Dados Factuais. Bases de Conhecimento. Inteligência Artificial. Indicadores Ambientais. Riscos Ambientais. Mapa de Risco.


RESUMEN

OBJETIVO: Identificar, con auxilio de técnicas computacionales, reglas relacionadas con las condiciones del ambiente físico para la clasificación de microáreas de riesgo.
MÉTODOS: Investigación exploratoria, desarrollada en la ciudad de Curitiba, Sur de Brasil, en 2007, dividida en tres etapas: identificación de atributos para clasificar una microárea; construcción de una base de datos; y aplicación del proceso de descubrimiento de conocimiento en base de datos, por medio de la aplicación de mineración de datos. El conjunto de atributos involucró las condiciones de infraestructura, hidrografía, suelo, área de diversión, características de la comunidad y existencia de vectores. La base de datos fue construida con datos obtenidos en entrevistas con agentes comunitarios de salud, siendo utilizado un cuestionario con respuestas cerradas, elaborado con los atributos esenciales, seleccionados por especialistas.
RESULTADOS: Fueron identificados 49 atributos, siendo 41 esenciales y ocho irrelevantes. Fueron obtenidas 68 reglas con la mineración de datos, las cuales fueron analizadas bajo la perspectiva de desempeño y calidad y divididas en dos conjuntos: las inconsistentes y las que confirman el conocimiento de especialistas. La comparación entre los conjuntos mostró que las reglas que confirmaban el conocimiento, a pesar de tener desempeño computacional inferior, fueron consideradas más interesantes.
CONCLUSIONES: La mineración de datos ofreció un conjunto de reglas útiles y comprensibles, capaces de caracterizar microáreas, clasificándolas con respecto al grado de riesgo, con base en características del ambiente físico. La utilización de las reglas propuestas permite que la clasificación de una microárea pueda ser realizada de forma más rápida, menos subjetiva, manteniendo un patrón entre los equipos de salud, superando la influencia de la percepción particular de cada componente del equipo.

Descriptores: Bases de Datos como Asunto. Bases de Datos Factuales. Bases del Conocimiento. Inteligencia Artificial. Indicadores Ambientales. Riesgos Ambientales. Mapa de Riesgo.


 

 

INTRODUÇÃO

A descentralização como princípio para construção do Sistema Único de Saúde inclui estratégias para mudança de modelo assistencial, dentre elas, a gestão em saúde a partir de uma abordagem territorial. Neste domínio, o território é entendido não apenas como espaço geográfico estanque, mas como território-processo, um espaço social no qual os homens, com suas características pessoais, se associam com outros homens, em movimentos sociais de transformação do seu território.6

Como base para elaboração de ações, as equipes de saúde realizam um processo de apropriação e análise de dados referentes às condições da comunidade de seu território de atuação, denominado de territorialização. Esse processo consiste na coleta sistemática de dados demográficos, socioeconômicos, político-culturais, epidemiológicos e sanitários, utilizados para construção de mapas básicos ou temáticos. Além de iniciar ou fortalecer o vínculo entre a equipe de saúde e a comunidade, este processo identifica as delimitações de pequenos espaços de formato assimétrico, denominados de microáreas.8,10

As microáreas são definidas como uma subdivisão de pequena extensão do território da Unidade Básica de Saúde, na qual seus habitantes possuem uma condição de vida homogênea, que pode determinar riscos à saúde.6

Os riscos de uma microárea podem ser classificados em diferentes níveis, dependendo das características que expõem os moradores aos riscos ou determinam o desenvolvimento de agravos à saúde.

O reconhecimento das microáreas de risco é fundamental para estabelecer prioridades a serem trabalhadas pelas equipes de saúde, assim como para planejar ações adequadas aos reais problemas da comunidade.6 Para tanto, são utilizadas fontes de dados primárias, que podem ser fruto de entrevistas com informantes-chaves, moradores da região; e fontes secundárias, oriundas de diversas bases de dados de sistemas de informação das secretarias municipais, ou de outros órgãos governamentais ou não governamentais.9

Uma técnica sugerida para coleta dos dados que identifica microáreas de risco é a estimativa rápida, a qual propõe etapas de levantamento de informações; preparo de questionários; conhecimento do território; formulação de hipóteses de subdivisões do território em microáreas; e identificação de informantes-chaves da comunidade para validar as informações coletadas.6

O resultado efetivo do processo de territorialização e, por conseqüência, a delimitação das microáreas ainda é fruto de análises subjetivas do conjunto de dados. Atualmente, as microáreas de risco são delimitadas pela equipe de saúde, apoiadas pelos agentes comunitários de saúde (ACS), conhecedores dos problemas locais, uma vez que os vivenciam por serem moradores da região.

Nessa perspectiva, a utilização de estratégias de análise da situação de saúde em áreas com condições de vida similares pode auxiliar na identificação e priorização de problemas de saúde. Da mesma forma, pode contribuir para a adoção de estratégias de intervenção intersetorial, capazes de modificar as condições de vida além das ações relacionadas com o "cuidado de saúde" propriamente dito.7

Perante este contexto e pela importância das informações decorrentes da análise dos dados de um território, este é um campo em que a área da computação pode oferecer suporte por meio de técnicas e ferramentas de manejo de dados, dentre elas, o processo de descoberta de conhecimento em base de dados - KDD (do inglês, Knowledge Discovery from Database).

O KDD é um processo que busca identificar padrões, associações, modelos ou informações relevantes, que permanecem ocultos em bases, repositórios e outras formas de armazenamento de dados. Permite identificar padrões válidos, novos, potencialmente úteis e compreensíveis e envolve diversas áreas da ciência como aprendizado de máquina, base de dados, estatística, reconhecimento de padrões, visualização, entre outras.2

Atualmente, o KDD é aplicado em diversas áreas como administração, análise de marketing e medicina.3 No entanto, para que os padrões identificados constituam, de fato, fonte para formar novos conhecimentos aplicáveis para o suporte à decisão, é importante que sejam interessantes, úteis e compreensíveis ao potencial gestor.

O KDD é composto das seguintes etapas: pré-processamento, mineração de dados e pós-processamento. A etapa de pré-processamento é considerada de grande importância e tem como objetivo adequar as bases para extrair padrões. Após a etapa de pré-processamento, inicia-se a fase de mineração de dados (data mining), a qual é considerada como a etapa central na descoberta do conhecimento e envolve a escolha e aplicação da ferramenta e algoritmo a ser utilizado. Dentre os possíveis algoritmos a serem utilizados nesta etapa estão os indutores de regras, os algoritmos genéticos, entre outros.4 Por fim, ocorre o pós-processamento, no qual os resultados obtidos são analisados e interpretados. Nesta fase os padrões descobertos são avaliados no sentido de verificar se satisfazem o critério necessário para constituir um elemento importante para o apoio à decisão.

Considerando que a análise para classificar microáreas de risco se constitui em um processo subjetivo de manipulação de dados e que a área da informática possui técnicas que podem tornar essa manipulação objetiva, o presente estudo teve por objetivo identificar, com o auxílio de técnicas computacionais, regras referentes as condições do ambiente físico capazes de contribuir para a classificação de microáreas homogêneas de risco.

 

MÉTODOS

Estudo exploratório em três etapas, desenvolvido na cidade de Curitiba, PR, em 2007.

Etapa 1 - identificação de atributos para a classificação de microáreas, cuja listagem inicial foi obtida a partir de revisão de literatura. Os grupos de atributos foram submetidos à validação por oito especialistas da área da saúde coletiva, sendo cinco enfermeiros e três médicos, que os classificaram em: atributos irrelevantes, importantes ou essenciais. Os critérios para a seleção dos especialistas foram: profissionais com atuação na saúde pública por, no mínimo, dois anos; vinculados à área acadêmica e com titulação mínima de mestre.

Etapa 2 - construção da base de dados. A partir dos atributos considerados essenciais pelos especialistas foi elaborado um questionário para coleta de dados a ser aplicado para os ACS da rede municipal de saúde. Foram excluídos apenas os ACS que, no momento da coleta, estavam de férias, licença ou ausentes de suas atividades. Os dados foram organizados em planilha eletrônica formando uma base de dados com 531 registros referentes ao ambiente físico das microáreas, representando uma amostra de 46,2% do total de microáreas em Curitiba.

Etapa 3 - aplicação do processo de KDD. Esta etapa seguiu as fases de pré-processamento por meio das tarefas de limpeza, seleção e transformação dos dados. Para a etapa de mineração de dados foi utilizada a ferramenta Waikato Environment for Knowledge Analysis (WEKA).ª Por se tratar de um problema de classificação, foi utilizado o algoritmo J48, que apresenta o resultado na forma de árvore de decisão, podendo ser transformada num conjunto de regras no formato: "SE... ENTÃO...".

A avaliação na etapa de pós-processamento foi realizada sob as perspectivas do desempenho computacional e da qualidade do conjunto de regras. Para a avaliação do desempenho computacional foram consideradas as medidas de cobertura e acerto, sendo estas entendidas como:

cobertura: indica o número de exemplos cobertos pelas condições das regras. Uma alta cobertura com alta taxa de acerto pode indicar uma regra de senso comum.

taxa de acerto: apresenta a percentagem de casos classificados corretamente em relação à cobertura, indicando a credibilidade da regra e foi calculada utilizando a seguinte expressão:

Taxa de acerto

Nesta expressão o erro é dado pelos casos classificados de forma incorreta pelo algoritmo.

Para avaliação sob a perspectiva da qualidade, foram consideradas as medidas de compreensibilidade e o quão interessante é a regra para especialistas que não estiveram envolvidos na etapa 1. Para avaliar a compreensibilidade foi considerado o tamanho da regra, ou seja, o número de condições por regra.

Para avaliar quão interessante são as regras, foram analisadas por três especialistas da área de saúde coletiva, selecionados pelos seguintes critérios: atuantes (assistenciais) na área de saúde pública por mais de dois anos e titulação mínima de especialista em saúde coletiva ou saúde da família. Os especialistas atribuíram para cada regra um dentre três valores possíveis: irrelevante (incompatível com a realidade); confirma seu conhecimento (confirmam o que já se sabe); e interessante (apresentam padrões condizentes com a realidade, mas até então desconhecidos). A estimativa do "quão interessante foi a regra" foi elaborada com base no valor atribuído pelos especialistas, em que, quanto maior a mediana, mais interessante é a regra.

O estudo foi aprovado pelo Comitê de Ética em Pesquisa da Pontifícia Universidade Católica do Paraná e pelo Comitê de Ética em Pesquisa da Secretaria Municipal de Saúde de Curitiba.

 

RESULTADOS

A partir de uma lista de 49 atributos (Tabela 1), os especialistas incluídos na etapa de identificação dos atributos classificaram 41 como essenciais e oito como irrelevantes. O conjunto de atributos envolve as condições de infra-estrutura, hidrografia, solo, área de lazer, características da comunidade e vetores. Foram considerados irrelevantes os atributos: supermercado, mercearia, bar, praças, terreno ondulado, clima, terreno úmido ocasionalmente e hospital.

 

 

Informações coletadas pelo questionário compuseram a base de dados, referente a 46,2% de um total de 1.149 ACS de Curitiba. Em alguns questionários foram assinalados múltiplos valores para um mesmo atributo, dificultando assim a classificação correta da microárea.

Para melhorar o desempenho do processo de mineração de dados, alguns atributos necessitaram de transformação dos valores. Como exemplo, o atributo "distribuição de energia elétrica" poderia ser assinalado duplamente: "regularizada" e "clandestina", desta forma o atributo passou a ser denominado "distribuição de energia elétrica regularizada", com as opções "sim", "não" e "parcialmente".

Esta transformação permitiu aumentar a taxa de acerto do classificador, de 87,5% para 88,7%; diminuir o número de regras geradas, de 130 para 79; diminuir o número de regras não cobertas pelos exemplos na base de dados, de 57 para 10; e apresentar regras de mais fácil compreensão devido ao valor do atributo no antecedente da regra ser mais objetivo.

As 68 regras obtidas foram expressas no seguinte formato:

Antecedente: SE <condição>

Conseqüente: ENTÃO <conclusão>

Os resultados estatísticos referentes à cobertura, a taxa de acerto e quantidade de condições por regra representando as medidas de desempenho e qualidade consideradas para avaliar o conjunto composto de 68 regras são apresentados na Tabela 2.

Considerando a mediana do valor atribuído à relevância da regra, o conjunto foi dividido em dois, denominados de Conjunto A, composto de 37 regras, consideradas inconsistentes - valor da mediana igual a um; e Conjunto B, composto por 31 regras que confirmam o conhecimento dos especialistas - valor da mediana igual a dois (Tabela 3). A Tabela 4 apresenta uma comparação entre o Conjunto A (regras consideradas inconsistentes) e o Conjunto B (regras que confirmam o conhecimento do especialista). Apesar de o número máximo da amostragem para a quantidade de condições por regras ser igual a 12, o Conjunto A possui 66,7% de regras próximas à média de 5,89 (DP=2,4). Em média, a quantidade de condições por regra no Conjunto A é discretamente maior em relação ao Conjunto B.

Em relação ao conjunto total de regras, a média (5,74; DP=2,11) da quantidade de condições por regra manteve-se próxima ao conceito de regra prática, ou seja, 73,5% se mantiveram entre quatro e sete condições. A média da taxa de acerto para o conjunto de regras foi de 91,6%, com (DP=14,00), mostrando um resultado satisfatório para o conjunto obtido.

As regras obtidas também foram utilizadas para identificar os atributos que melhor diferenciam as microáreas em baixo, médio ou alto risco. Assim, os atributos posicionados nas cinco primeiras condições e com maior freqüência foram considerados como os mais importantes (Tabela 5).

 

 

Dos atributos apresentados como essenciais pelos especialistas na etapa de identificação, seis não apareceram como condições nas regras, sendo eles: policiamento; gato; cachorro; pombos; vagas suficientes em creches; e iluminação pública. Logo, estes podem ser considerados com menor peso para a classificação das microáreas.

 

DISCUSSÃO

A identificação de áreas homogêneas de risco auxilia na priorização de ações coletivas, com ênfase na prevenção de doenças, direcionadas aos espaços territoriais onde as iniqüidades são maiores, o que resulta num maior impacto sobre as condições de risco.1

Assim, alguns dos atributos indicados como essenciais podem ser alterados por políticas públicas, dentre os quais, os equipamentos sociais e as áreas de lazer. Outros atributos são modificáveis com ações intersetoriais e com a contribuição da comunidade, como a existência de vetores. Assim, um sistema de informação que monitore as condições destes atributos pode colaborar para o planejamento de ações em nível local, regional e central. Ainda, permite apontar algumas condições a serem melhoradas por meio do incentivo à própria comunidade.

O fato de a quantidade de condições por regra no Conjunto A ser discretamente maior em relação ao Conjunto B pode indicar que a complexidade das regras não interferiu no momento em que os especialistas as avaliaram. Isso permite descartar a hipótese de que houve dificuldade de interpretação pelos especialistas, ao julgarem as regras deste conjunto como inconsistentes.

Entretanto, a média para cobertura do Conjunto B indica que há maior probabilidade de haver regras consideradas como senso comum. Apesar de se tratar de um conjunto com regras que confirmam o conhecimento dos especialistas, a taxa de acerto não superou a do Conjunto A.

A média de cobertura do Conjunto B foi muito superior em relação ao Conjunto A. Esta relação sugere que as regras contidas no Conjunto B tendem a representar o senso comum, o que foi confirmado pela opinião dos especialistas ao indicarem-nas como a confirmação do seu conhecimento.

Assim, as regras do Conjunto B (Tabela 3), apesar de terem menor desempenho computacional pela avaliação dos especialistas, são as que melhor classificam uma microárea em relação ao risco contido no ambiente físico.

Esta inesperada divergência entre a opinião dos especialistas e as medidas estatísticas indica que este conjunto pode conter algumas regras interessantes. Entretanto, ao avaliar as regras, os especialistas podem ter sido resistentes a aceitar novos padrões ou para compreender modelos que contrapõem o conhecimento prévio.

A diversidade presente, oriunda das diferentes percepções sobre o território, ao ser explicitada e discutida no coletivo dos envolvidos no processo de territorialização, colabora para uma aproximação entre os problemas identificados e suas possíveis resoluções, que deverão ser priorizados coletivamente.5

A mineração de dados ofereceu um conjunto de regras úteis e compreensíveis, capazes de caracterizar microáreas, classificando-as quanto ao grau do risco, quando consideradas as características do ambiente físico. No entanto, o ambiente físico não se constitui no único fator para classificar uma microárea, pois, para tornar a classificação efetiva, devem ser acrescentadas informações epidemiológicas da região, organizacionais da comunidade e administrativas.

A utilização das regras propostas permite que a classificação de uma microárea possa ser realizada de forma mais rápida, menos subjetiva e mantendo um padrão entre as equipes de saúde, superando a influência da percepção particular de cada componente da equipe.

Tal influência subjetiva pode ser justificada pelo fato de que diferentes atores sociais participantes do processo de avaliação possuem um conjunto de valores construídos com base na sua experiência e na sua inserção em diferentes contextos cultural, econômico e social. Isso influencia, sobremaneira, a importância de determinados atributos em detrimento de outros.11

Considerando que a classificação das microáreas de risco é uma importante ferramenta gerencial e assistencial, por envolver a distribuição dos recursos e cuidados para a população de um determinado território, realizá-la de forma a convergir a subjetividade inerente deste processo com métodos mais objetivos de análise, permitirá a otimização de ações e recursos.

 

REFERÊNCIAS

1. Chiesa AM, Westphal MF, Kashiwagi NM. Geoprocessamento e a promoção da saúde: desigualdades sociais e ambientais em São Paulo. Rev Saude Publica. 2002;36(5):559-67. DOI:10.1590/S0034-89102002000600004        [ Links ]

2. Fayyad U, Piatesky-Shapiro G; Smyth P. From data mining to knowledge discovery in databases. AI Magazine. 1996;17(3):37-54.         [ Links ]

3. Han J, Kamber M. Data mining: concepts and techniques. San Francisco: Morgan Kaufmann; 2001.         [ Links ]

4. Rezende SO, Plugliesi JB, Melanda EA, de Paula MF. Mineração de dados. In: Rezende SO, editor. Sistemas inteligentes: fundamentos e aplicações. Barueri: Manole; 2005. p.307-35.         [ Links ]

5. Ribeiro PT. Direito à saúde: integridade, diversidade e territorialidade. Cienc Saude Coletiva. 2007;12(6):1525-32. DOI:10.1590/S1413-81232007000600014        [ Links ]

6. Silva AMR, Oliveira MSM, Nunes EFPA, Torres ZF. A unidade básica de saúde e seu território. In: Andrade SM, Soares DA, Cordoni Junior L, organizadores. Bases da saúde coletiva. Londrina: UEL; 2001. p.145-60.         [ Links ]

7. Silva LMV, Paim JS, Costa MCN. Desigualdades na mortalidade, espaço e estratos sociais. Rev Saude Publica. 1999;33(2):187-97. DOI:10.1590/S0034-89101999000200011        [ Links ]

8. Souza CMN, Moraes LRS, Bernardes RS. Doenças relacionadas à precariedade dos sistemas de drenagem de águas pluviais: proposta de classificação ambiental e modelos causais. Cad Saude Coletiva (Rio J). 2005;13(1):157-68.         [ Links ]

9. Takeda S. A organização de serviços de atenção primária à saúde. In: Duncan BB, Schmidt MI, Giucliani WRJ, organizadores. Medicina ambulatorial: condutas clínicas em atenção primária baseadas em evidências. 3.ed. Porto Alegre: Artmed; 2004. p.76-87.         [ Links ]

10. Teixeira CF. Promoção e vigilância da saúde no contexto da regionalização da assistência à saúde no SUS. Cad Saude Publica. 2002;18(Supl):153-62. DOI:10.1590/S0102-311X2002000700015        [ Links ]

11. Uchimura KY, Bosi MLM. Qualidade e subjetividade na avaliação de programas e serviços em saúde. Cad Saude Publica. 2002;18(6):1561-9. DOI:10.1590/S0102-311X2002000600009        [ Links ]

 

 

Correspondência | Correspondence:
Andreia Malucelli
A/C PPGIa
R. Imaculada Conceição, 1155
Prado Velho
80215-901 Curitiba, PR, Brasil
E-mail: malu@ppgia.pucpr.br

Recebido: 18/5/2009
Revisado: 29/9/2009
Aprovado: 14/10/2009

 

 

Artigo baseado em dissertação de mestrado de Von Stein Júnior A, apresentada ao Programa de Pós-Graduação em Tecnologia em Saúde da Pontifícia Universidade Católica do Paraná, em 2008.
Os autores declaram não haver conflito de interesses.
a The University of Waikato. WEKA Version 3.5. [computer program]. [citado 2007 mar 02]. Disponível em: http://www.cs.waikato.ac.nz/ml/weka/