SciELO - Scientific Electronic Library Online

 
vol.50Self-perception of oral health in older adults from an urban population in Lisbon, PortugalCross-cultural adaptation and validation of the teamwork climate scale author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

Share


Revista de Saúde Pública

Print version ISSN 0034-8910On-line version ISSN 1518-8787

Abstract

OLIVEIRA, Gisele Pinto de et al. Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose. Rev. Saúde Pública [online]. 2016, vol.50, 49.  Epub Aug 22, 2016. ISSN 1518-8787.  https://doi.org/10.1590/S1518-8787.2016050006327.

OBJETIVO

Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes.

MÉTODOS

Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação – Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia.

RESULTADOS

A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas.

CONCLUSÕES

As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.

Keywords : Tuberculose, epidemiologia; Confiabilidade dos Dados; Sensibilidade e Especificidade; Vigilância Epidemiológica, estatística & dados numéricos.

        · abstract in English     · text in English | Portuguese     · English ( pdf ) | Portuguese ( pdf )