SciELO - Scientific Electronic Library Online

 
vol.135 issue3Relationship between periodontal disease and cardiovascular risk factors among young and middle-aged Brazilians. Cross-sectional studyRandomized clinical study on the analgesic effect of local infiltration versus spinal block for hemorrhoidectomy author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

Share


Sao Paulo Medical Journal

Print version ISSN 1516-3180On-line version ISSN 1806-9460

Abstract

OLIVERA, André Rodrigues et al. Comparação de algoritmos de aprendizagem de máquina para construir um modelo preditivo para detecção de diabetes não diagnosticada - ELSA-Brasil: estudo de acurácia. Sao Paulo Med. J. [online]. 2017, vol.135, n.3, pp.234-246. ISSN 1516-3180.  http://dx.doi.org/10.1590/1516-3180.2016.0309010217.

CONTEXTO E OBJETIVO:

Diabetes tipo 2 é uma doença crônica associada a graves complicações de saúde, causando grande impacto na saúde global. O objetivo foi desenvolver e validar modelos preditivos para detectar diabetes não diagnosticada utilizando dados do Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil) e comparar o desempenho de diferentes algoritmos de aprendizagem de máquina.

TIPO DE ESTUDO E LOCAL:

Comparação de algoritmos de aprendizagem de máquina para o desenvolvimento de modelos preditivos utilizando dados do ELSA-Brasil.

MÉTODOS:

Após selecionar 27 variáveis candidatas a partir da literatura, modelos foram construídos e validados em 4 etapas sequenciais: (i) afinação de parâmetros com validação cruzada (10-fold cross-validation); (ii) seleção automática de variáveis utilizando seleção progressiva, estratégia “wrapper” com quatro algoritmos de aprendizagem de máquina distintos e validação cruzada para avaliar cada subconjunto de variáveis; (iii) estimação de erros dos parâmetros dos modelos com validação cruzada; e (iv) teste de generalização em um conjunto de dados independente. Os modelos foram criados com os seguintes algoritmos de aprendizagem de máquina: regressão logística, redes neurais artificiais, naïve Bayes, K vizinhos mais próximos e floresta aleatória.

RESULTADOS:

Os melhores modelos foram criados utilizando redes neurais artificiais e regressão logística alcançando, respectivamente, 75,24% e 74,98% de média de área sob a curva na etapa de estimação de erros e 74,17% e 74,41% na etapa de teste de generalização.

CONCLUSÃO:

A maioria dos modelos preditivos produziu resultados semelhantes e demonstrou a viabilidade de identificar aqueles com maior probabilidade de ter diabetes não diagnosticada com dados clínicos facilmente obtidos.

Keywords : Aprendizado de máquina supervisionado; Técnicas de apoio para a decisão; Mineração de dados; Modelos estatísticos; Diabetes mellitus tipo 2.

        · abstract in English     · text in English     · English ( pdf )