Validação de um Algoritmo de Inteligência Artificial para a Predição Diagnóstica de Doença Coronariana: Comparação com um Modelo Estatístico Tradicional

Luis Correia Daniel Lopes João Vítor Porto Yasmin F. Lacerda Vitor C. A. Correia Gabriela O. Bagano Bruna S. B. Pontes Milton Henrique Vitoria de Melo Thomaz E. A. Silva André C Meireles Sobre os autores

Resumo

Fundamento:

A análise prognóstica multivariada tem sido realizada tradicionalmente por modelos de regressão. No entanto, muitos algoritmos surgiram, capazes de traduzir uma infinidade de padrões em probabilidades. A acurácia dos modelos de inteligência artificial em comparação à de modelos estatísticos tradicionais não foi estabelecida na área médica.

Objetivo:

Testar a inteligência artificial como um algoritmo preciso na predição de doença coronariana no cenário de dor torácica aguda, e avaliar se seu desempenho é superior a do modelo estatístico tradicional.

Métodos:

Foi analisada uma amostra consecutiva de 962 pacientes admitidos com dor torácica. Dois modelos probabilísticos de doença coronariana foram construídos com os primeiros 2/3 dos pacientes: um algoritmo machine learning e um modelo logístico tradicional. O desempenho dessas duas estratégias preditivas foi avaliado no último terço de pacientes. O modelo final de regressão logística foi construído somente com variáveis significativas a um nível de significância de 5%.

Resultados:

A amostra de treinamento tinha idade média de 59 ± 15 anos, 58% do sexo masculino, e uma prevalência de doença coronariana de 52%. O modelo logístico foi composto de nove preditores independentes. O algoritmo machine learning foi composto por todos os candidatos a preditores. Na amostra teste, a área sob a curva ROC para predição de doença coronariana foi de 0,81 (IC95% = 0,77 – 0,86) para o algoritmo machine learning, similar à obtida no modelo logístico (0,82; IC95% = 0,77 – 0,87), p = 0,68.

Conclusão:

O presente estudo sugere que um modelo machine learning acurado não garante superioridade à um modelo estatístico tradicional

Palavras-chave
Estudos de Validação; Inteligência Artificial; Doença da Artéria Coronariana/diagnóstico; Interpretação Estatística de Dados

Abstract

Background:

Multivariate prognostic analysis has been traditionally performed by regression models. However, many algorithms capable of translating an infinity of patterns into probabilities have emerged. The comparative accuracy of artificial intelligence and traditional statistical models has not been established in the medical field.

Objective:

To test the artificial intelligence as an accurate algorithm for predicting coronary disease in the scenario of acute chest pain and evaluate whether its performance is superior to traditional statistical model.

Methods:

A consecutive sample of 962 patients admitted with chest pain was analyzed. Two probabilistic models of coronary disease were built using the first two-thirds of patients: a machine learning algorithm and a traditional logistic model. The performance of these two predictive strategies were evaluated in the remaining third of patients. The final logistic regression model had significant variables only, at the 5% significance level.

Results:

The training sample had an average age of 59 ± 15 years, 58% males, and a 52% prevalence of coronary disease. The logistic model was composed of nine independent predictors. The machine learning algorithm was composed of all candidates for predictors. In the test sample, the area under the ROC curve for prediction of coronary disease was 0.81 (95% CI = 0.77 - 0.86) for the machine learning algorithm, similar to that obtained in logistic model (0.82; 95% CI = 0.77 - 0.87), p = 0.68.

Conclusion:

The present study suggests that an accurate machine learning prediction tool did not prove to be superior to the statistical model of logistic regression.

Keywords:
Validation Studies; Artificial Intelligence; Coronary Artery Disease/diagnostic; Data Interpretacion; Statistical

Introdução

Nas últimas décadas, a capacidade dos computadores em gerar e armazenar dados melhorou substancialmente, produzindo grandes bancos de dados, de alta complexidade. A modelagem estatística tradicional tem a vantagem de ser simples, uma vez que ela ajusta a relação entre preditores de desfechos em uma fórmula de regressão. No entanto, esses modelos possuem algumas premissas difíceis de serem cumpridas em conjuntos complexos de informações: número limitado de variáveis, distribuição adequada, independência nas observações, ausência de multicolinearidade, e problemas de interações. Por outro lado, o mecanismo de predição da inteligência artificial é baseado em algoritmo, sem premissas ou limite de variáveis. Assim, diferente da modelagem estatística, algoritmos preditivos não se tornam menos precisos à medida que os dados se tornam mais complexos. Nos cenários de “big data”, a inteligência artificial torna-se mais precisa que a estatística tradicional.11 Breiman L. Statistical Modeling: The Two Cultures. Statistical Science 2001;16(3):199-215.,22 Mortazavi BJ, Downing NS, Bucholz EM, Dharmarajan K, Manhapra A, Li SX, et al. Analysis of Machine Learning Techniques for Heart Failure Readmissions. Circ Cardiovasc Qual Outcomes. 2016;9(6):629–40.

Informações médicas podem apresentar vieses caso não sejam coletadas por meio de protocolos pré-estabelecidos. Por isso, a abordagem epidemiológica tradicional, de pequenos conjuntos de dados, coletados prospectivamente, é a escolha mais apropriada na pesquisa médica.33 Kaplan RM, Chambers DA, Glasgow RE. Big Data and Large Sample Size: A Cautionary Note on the Potential for Bias. Clin Translat Science. 2014;7(4):342-6. Portanto, é importante investigar se a inteligência artificial continua superior à modelagem estatística se exposta a amostras de tamanho moderado e número limitado de variáveis, como nos estudos epidemiológicos.

A predição de Doença Arterial Coronariana (DAC) em pacientes com dor torácica aguda é um grande desafio para o médico de emergência, quem tem que decidir entre a alta do paciente, a realização de outros testes não invasivos, ou a opção direta por angiografia invasiva. Dar alta a um paciente com doença coronariana instável pode ter efeitos devastadores, por outro lado, admitir qualquer pessoa com dor torácica pode ter consequências não intencionais.44 Hermann LK, Newman DH, Pleasant W, et al. YIeld of routine provocative cardiac testing among patients in an emergency department–based chest pain unit. JAMA Intern Med. 2013;173(11):1128-33. Nesse processo, a probabilidade de DAC obstrutiva deve conduzir a tomada de decisão médica.55 Correia LCL, Cerqueira M, Carvalhal M, Kalil F, Ferreira K,et al. A Multivariate Model for Prediction of Obstructive Coronary Disease in Patients with Acute Chest Pain: Development and Validation. Arquivos brasileiros de cardiologia 2017;108(4):304-14.

No presente estudo, utilizamos dados de um registro prospectivo de dor torácica para construir um modelo de machine learning para predizer doença coronariana obstrutiva. Nosso objetivo foi avaliar se um algoritmo de inteligência artificial é um melhor preditor que a regressão logística em um conjunto tradicional de dados epidemiológicos simples, considerando tanto propriedades discriminatórias como de calibração.

Métodos

Seleção da amostra

De setembro de 2011 a novembro de 2017, todos os pacientes admitidos por dor torácica e suspeita clínica de DAC (independentemente de resultados de eletrocardiograma ou níveis de troponina) na unidade coronariana de nosso hospital foram incluídos no estudo. O critério de exclusão foi a recusa do paciente em participar. Conforme definido a priori, um total de 962 pacientes foram divididos em amostra de derivação (primeiros dois terços, n= 641) ou amostra de validação (último terço, n= 321). O estudo foi aprovado pelo comitê de ética da instituição e consentimento informado foi obtido dos participantes.

Preditores de DAC obstrutiva

Na admissão (basal), três conjuntos de variáveis foram registrados como candidatos à predição de DAC obstrutiva. Primeiro, 13 variáveis relacionadas à história médica e apresentação clínica; segundo, 14 características de desconforto torácico; terceiro, 11 variáveis relacionadas a achados anormais em testes de imagem ou laboratoriais na admissão: alterações isquêmicas no eletrocardiograma (inversão da onda T ≥ 1 mm ou desvio dinâmico do segmento ST ≥ 0,5 mm), troponina positiva (> percentil 99 para a população geral; Ortho-Clinical Diagnostics, Rochester, NY, EUA), N-terminal do peptídeo natriurético tipo B (NT-ProBNP, teste de imunoensaio fluorescente, Biomérieux, França), proteína C-reativa ultrassensível (CRP, nefelometria, Dade-Behring, EUA), d-dímero (ensaio imunoenzimático, Biomérieux, França), lipoproteína de baixa densidade (LDL cholesterol; equação de Friedwald), creatinina, contagem de leucócitos, glicemia, e hemoglobina. As dosagens laboratoriais foram realizadas a partir de plasma coletado no momento de chegada no departamento de emergência. História médica e características de dor torácica foram registradas por três investigadores (M.C., A.M.C., R.B.) treinados para entrevistar os pacientes de maneira padronizada, a fim de minimizar a ocorrência de viés e melhorar a reprodutibilidade. Sinais radiológicos de insuficiência ventricular e eletrocardiograma foram interpretados pelo mesmo investigador (L.C.).

Desfechos

O desfecho primário a ser predito pelo modelo foi diagnóstico de DAC obstrutiva, definida por testes subsequentes realizados durante a internação hospitalar. Os dados relacionados ao desfecho foram coletados por três investigadores (M.C., A.M.C., R.B.), e confirmados por um quarto investigador (L.C.). Para a avaliação diagnóstica, os pacientes foram submetidos à angiografia coronária invasiva ou a um teste provocativo (ressonância magnética de perfusão, tomografia computadorizada por emissão de fóton único, ou ecocardiografia sob estresse com dobutamina), a critério do cardiologista assistente. Em caso de um teste não-invasivo positivo, a DAC obstrutiva foi definida como presença de estenose ≥ 70% por angiografia. Um teste não-invasivo normal indicou ausência de DAC obstrutiva, e nenhum outro exame foi necessário. Independentemente dos testes coronários, os pacientes foram classificados como “DAC não obstrutiva”, se uma das seguintes condições fosse diagnosticada por exame de imagem – pericardite, embolismo pulmonar, disseção córtica, ou pneumonia.

Análise estatística

O teste de Shapiro-Wilk foi usado para testar se os dados apresentavam distribuição normal. Para análise descritiva, utilizamos média e desvio padrão para variáveis contínuas com distribuição normal, e mediana e intervalo interquartil para as variáveis contínuas sem distribuição normal. As variáveis categóricas foram descritas como frequências. Na amostra de derivação, utilizamos primeiramente o teste t de Student não pareado para as variáveis contínuas com distribuição normal e o teste do qui-quadrado para análise univariada das variáveis categóricas. As variáveis numéricas sem distribuição normal foram analisadas pelo teste de Mann-Whitney não paramétrico. Em seguida, as variáveis com p<0,20 na análise univariada foram incluídas na análise de regressão logística multivariada para predição de DAC obstrutiva.

Modelos multivariados foram desenvolvidos pelo método stepwise. Todas as variáveis foram ajustadas (entrada forçada) em um modelo de regressão logística e, em cada etapa, a variável menos significativa foi removida do modelo pelo teste de Wald. Inicialmente, foram construídos três modelos intermediários, de acordo com o tipo das variáveis preditivas (história médica, características da dor torácica ou exame físico/testes laboratoriais). Preditores independentes (p<0,10) em cada modelo intermediário foram incluídos como covariáveis no modelo final, construído incluindo-se somente variáveis significativas, com nível de significância a 5%.

O algoritmo machine learning reconhece padrões em características clínicas associados com probabilidades de desfecho, A análise discriminatória de Fisher foi usada para a criação de dendrogramas, os quais foram combinados repetidamente até a taxa de erros indicar um ótimo desempenho. A amostra de derivação foi usada para construir o algoritmo machine learning. Diferente da regressão logística, não houve uma pré-seleção de variáveis e todos os 55 parâmetros foram incluídos sem nenhuma eliminação. A influência de cada variável no cálculo de probabilidade foi definida pela pureza dos nós e a porcentagem de aumento do erro associado. Como resultado da análise gráfica, realizamos 8000 interações de combinações.

Os dois modelos foram comparados na amostra de validação. Áreas sob curvas ROC (Característica de Operação do Receptor) foram usadas para testar discriminação, e comparadas entre os modelos pelo teste de DeLong. A calibração foi testada pelo teste de Hosmer-Lemeshow (aplicado nas probabilidades geradas pelos modelos), e calculando-se a inclinação e o intercepto da reta de regressão probabilidade predita média versus incidência de eventos, observada por decis de predição (um modelo perfeitamente calibrado tem um intercepto de 0 e uma inclinação de 1). Antes de realizar a regressão linear, as seguintes premissas foram verificadas: relação linear, independência das observações, normalidade dos resíduos, homoscedasticidade dos resíduos.

A significância estatística foi definida como p < 0,05. O programa SPSS foi usado para a análise dos dados.

Determinação do tamanho amostral

O machine learning não possui premissas quanto ao tamanho da amostra. Para a regressão logística, o conjunto de derivação foi planejado para permitir a inclusão de pelo menos 15 covariáveis no modelo de regressão logística. O cálculo foi realizado com base nas seguintes premissas: prevalência de DAC de 50% e necessidade de 10 eventos para cada covariável no modelo de regressão logística.66 Tripepi G, Jager KJ, Dekker FW, Zoccali C. Linear and logistic regression analysis. Kidney Int. 2008;73(7):806–10.,77 Bewick V, Cheek L, Ball J. Statistics review 14: Logistic regression. Crit Care. 2005;9(1):112–8. Portanto, seria necessário um mínimo de 300 pacientes na amostra de derivação. A amostra de validação foi estabelecida para testar a acurácia de discriminação pela análise da curva ROC. Partindo-se da premissa de uma AUC de 0,70, para um poder de 90% de se rejeitar a hipótese nula de uma AUC de 0,50, e alfa de 5%, seria necessário um mínimo de 85 pacientes. Portanto, um mínimo de 100 pacientes seria preciso no grupo de validação. Tais premissas foram cumpridas. A análise dessa única amostra foi realizada e concluída em janeiro de 2018 para evitar a realização de múltiplas análises.

Resultados

Características da amostra de derivação

Foram estudados 641 pacientes, com idade de 59 ± 15 anos, 58% homens, 30% com história prévia de doença coronariana. O tempo mediano entre o início dos sintomas e a primeira avaliação clínica no hospital foi de 4,2 horas (intervalo interquartil 1,9-14 horas). Utilizando o protocolo do estudo, identificamos 330 pacientes com DAC obstrutiva, uma prevalência de 52%. Todos esses casos tiveram o diagnóstico confirmado por angiografia coronária invasiva. Em relação aos 311 pacientes sem DAC, 93 foram classificados por uma angiografia negativa, 169 por um teste não-invasivo negativo, e 52 apresentaram outro diagnóstico dominante (14 embolia pulmonar, cinco dissecção da aorta, 28 pericardite, dois pneumonia).

Características da amostra de validação

Foram estudados 221 pacientes, com algumas características similares ao do grupo de derivação – idade de 59 ± 16 anos, 58% do sexo masculino, 22% com história de doença coronariana. O tempo mediano entre o início dos sintomas e a primeira avaliação clínica no hospital foi de 7,0 horas (intervalo interquartil 2,4-23 horas). Utilizando o protocolo do estudo, identificamos 163 pacientes com DAC obstrutiva, uma prevalência de 51%. Todos esses casos tiveram o diagnóstico confirmado por angiografia coronária invasiva. Dos 158 pacientes sem DAC, 88 foram classificados por uma angiografia negativa, 13 por um teste não-invasivo negativo, e 57 apresentaram outro diagnóstico dominante (12 embolia pulmonar, dois dissecção da aorta, 25 pericardite, cinco pneumonia).

Desenvolvimento do modelo logístico

Entre as 13 variáveis relacionadas à história médica de apresentação clínica, sete estavam associados positivamente com DAC obstrutiva (p<10%): idade, sexo masculino, disfunção do ventrículo esquerdo aguda, história prévia de DAC, diabetes, tabagismo, e sintomas desencadeados por exercício – Tabela 1. Quando essas sete variáveis foram incluídas na regressão logística, história prévia de DAC perdeu significância, e todas as demais mantiveram o nível significativo de < 5% (modelo intermediário 1, Tabela 2).

Tabela 1
Comparação da história médica, características da dor torácica, e exames laboratoriais entre pacientes com e sem doença arterial coronariana obstrutiva da amostra de derivação
Tabela 2
Modelos de regressão logística intermediária de história médica (Modelo 1), características de dor torácica (Modelo 2), e testes laboratoriais (Modelo 3)

Em relação às características da dor torácica, entre 14 variáveis, seis apresentaram associação com DAC: dor opressiva, irradiação para o braço esquerdo, intensidade grave, duração em minutos, alívio com o uso de nitrato, similaridade com infarto prévio; e três apresentaram associação negativa com DAC: piora com compressão, movimento dos braços e inspiração profunda (Tabela 1). Quando essas nove variáveis foram adicionadas à regressão logística, somente três permaneceram significativos a um nível <5% - piora com compressão, inspiração profunda, e intensidade grave (modelo intermediário 2, Tabela 2).

Dos 11 exames laboratoriais, sete estavam positivamente associados com DAC: isquemia no eletrocardiograma, troponina positiva, creatinina, glicemia, NT-pro-BNP, PCR, contagem de leucócitos (Tabela 1). Quando essas variáveis foram incluídas na regressão logística, somente isquemia no eletrocardiograma e troponina positiva permaneceram significativos no nível de p<0,05 (modelo intermediário 3, Tabela 2).

As 11 variáveis significativas no modelo intermediário foram incluídas na análise final de regressão logística, gerando um modelo final com nove variáveis significativas para predizer a presença de DAC: idade, sexo masculino, isquemia no eletrocardiograma, troponina positiva, disfunção do ventrículo esquerdo, indução por exercício, tabagismo, diabetes, e piora com inspiração profunda como a única “variável protetora”. Coeficientes de regressão e odds ratios estão descritos na Tabela 3.

Tabela 3
Modelo de regressão logística final definindo os preditores independentes de doença arterial coronariana

Desenvolvimento do modelo machine learning

Todas as 55 variáveis relacionadas história médica, apresentação clínica, características da dor torácica e exames laboratoriais foram incluídas no modelo machine learning. O desempenho de cada variável no modelo está apresentado na Tabela 4 por parâmetros de pureza dos nós e porcentagem de aumento no erro associado.

Tabela 4
Modelo de machine learning mostrando o peso de cada variável em definir probabilidade, de acordo com os parâmetros de pureza dos nós e porcentagem de aumento do erro associado

Machine learning versus regressão logística (amostra de validação)

Em relação à discriminação, a área sob a curva ROC das probabilidades foi de 0,81 (IC95% = 0,77 – 0,86), muito semelhante à área sob a curva do modelo de regressão logística de 0.82 (IC95% = 0,78 – 0,87), p = 0,68 (Figura 1).

Figura 1
Área sob as curvas ROC do modelo de aprendizado de máquina e modelo de regressão logística, respectivamente 0,81 (IC 95% = 0,77 - 0,86) e 0,82 (IC 95% = 0,78 - 0,87).

Em relação à calibração, embora ambos os modelos tenham sido validados pelo teste de Hosmer-Lemeshow, o modelo logístico apresentou um nível de significância mais baixo da diferença entre os valores preditos e observados (qui-quadrado = 6,2; p = 0,62), quando comparado ao machine learning (qui-quadrado = 12,9; p = 0,11), o que sugere uma melhor calibração do primeiro modelo.

Esses dados foram reforçados pelo fato de que a regressão linear entre a probabilidade predita e a incidência observada de eventos por decis de predição mostrou um intercepto de 0,010 (IC95% = -0,083 – 0,103) e inclinação de 1,004 (IC95% = 0,840 – 0,168) para regressão logística (r = 0,981). Para o machine learning, foram observados intercepto de -0,119 (IC95% = -0,296 – 0,059) e inclinação de 1,228 (IC95% 0,909 – 1,547; r = 0,953) (Figura 2).

Figura 2
Gráfico de dispersão para análises de regressão linear entre os valores preditivos médios por decis e as incidências observadas. A figura A indica a calibração do modelo de aprendizado de máquina (interceptação = -0,119, inclinação = 1,228, r = 0,953). O painel B mostra a calibração do modelo de regressão logística (interceptação = 0,010, inclinação = 1,004, r = 0,981).

Discussão

No presente estudo, testamos o conceito de se construir um instrumento machine learning para a predição de DAC em uma pequena amostra de pacientes com dor torácica aguda na admissão, com base em dados epidemiológicos coletados prospectivamente, e um número pequeno de variáveis. Primeiro, confirmamos que a inteligência artificial pode ser construída a partir desse tipo de dados e ser preciso na discriminação (sim ou não) e na calibração (predição de probabilidade); segundo, nossa análise de validação sugeriu que a inteligência artificial não é superior à estatística tradicional nessas circunstâncias.

Nos anos 50, o psicólogo Paul Meehl mostrou que a predição estatística é geralmente superior à predição clínica realizada pelo julgamento humano.88 Meehl PE. Clinical Versus Statistical Prediction: A Theoretical Analysis and a Review of the Evidence. J Abn Psychol. 1954;10:136-8. Essa ideia foi reforçada pelo trabalho de Daniel Kahneman, ganhador do prêmio Nobel, que descreveu uma gama de vieses cognitivos responsáveis por imprecisão no método heurístico.99 Tversky A, Kahneman D. Judgment under Uncertainty: Heuristics and Biases. Science 1974;185(4157):1124-31. Tais conceitos deram suporte a ênfase de se utilizar modelos estatísticos como a melhor abordagem baseada em evidências para predições diagnósticas e prognósticas. Mais recentemente, a inteligência artificial surge como uma técnica mais robusta de se construir instrumentos preditivos.

Tipicamente, a inteligência artificial deriva-se de grandes bancos de dados, disponíveis de registros eletrônicos ou interfaces de rede.1010 O’Leary DEO. Artificial Intelligence and Big Data. IEEE Intelligent Syst.2013;28:96-9. Ela provê acurácia devido ao enorme tamanho amostral, e ausência de premissas em relação ao número de variáveis, distribuição, independências das observações, multicolinearidade e questões de interações.11 Breiman L. Statistical Modeling: The Two Cultures. Statistical Science 2001;16(3):199-215. Contudo, uma vez que esses grandes conjuntos de dados não são coletados para propósitos científicos, faltam-lhes qualidade da informação.33 Kaplan RM, Chambers DA, Glasgow RE. Big Data and Large Sample Size: A Cautionary Note on the Potential for Bias. Clin Translat Science. 2014;7(4):342-6. Por outro lado, estudos prospectivos epidemiológicos, com coleta de dados padronizada, planejada, e a priori, são os melhores métodos para a geração de conjuntos de dados de qualidade ideal. Nessas circunstâncias, as modelagens estatísticas tradicionais geralmente têm suas premissas cumpridas e apresentam um bom desempenho. Portanto, a questão é: nessas circunstâncias ideais de modelagem estatística, a inteligência artificial ainda é uma técnica superior?

No cenário de síndromes coronárias agudas e conjuntos de dados tradicionais, quatro autores comparam o machine learning com a estatística. Três dos estudos avaliaram o prognóstico na síndrome coronária aguda e compararam o machine learning com escores de risco, mostrando certa superioridade da inteligência artificial quanto à capacidade de discriminação.1111 Liu N, Koh ZX, Goh J, et al. Prediction of adverse cardiac events in emergency department patients with chest pain using machine learning for variable selection. BMC Med Inform Decis Mak. 201414:75.

12 Myers PD, Scirica BM, Stultz CM. Machine Learning Improves Risk Stratification After Acute Coronary Syndrome. Scient Rep. 2017;7:12692.
-1313 Van Houten JP, Starmer JM, Lorenzi NM, Maron DJ, Lasko TA. Machine Learning for Risk Prediction of Acute Coronary Syndrome. AMIA Ann Sympos Proc. 2014;2014:1940-9. No entanto, nesses estudos, as variáveis utilizadas para a construção de modelos de machine learning foram diferentes daquelas dos escores TIMI e GRACE, o que impede qualquer extrapolação para o conceito “inteligência artificial versus estatística”. O único estudo que construiu os dois tipos de modelos a partir do mesmo conjunto de variáveis (tamanho da amostra 628 pacientes; 38 variáveis) não mostrou uma superioridade consistente de vários tipos de machine learning sobre a regressão logística tanto na capacidade discriminatória como na calibração.1414 Green M, Björk J, Forberg J, Ekelund U, Edenbrandt L, Ohlsson M. Comparison between neural networks and multiple logistic regression to predict acute coronary syndrome in the emergency room. Art Intel Med. 2006;38:305-18. Além disso, uma revisão sistemática que avaliou 71 estudos que compararam o machine learning com a regressão logística não mostrou superioridade da primeira em relação à segunda abordagem.1515 Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J Clin Epidemiol. 2019;110: 12–22. Assim, com base no conjunto de estudos em pacientes com dor torácica aguda, a superioridade ou não do machine learning ainda não foi esclarecida.

Nosso estudo indica que a inteligência artificial pode construir um modelo preciso a partir de uma amostra inferior a mil pacientes e dúzias de variáveis preditivas. Entretanto, ao contrário da atual onda da inteligência artificial, nós não encontramos uma superioridade em relação ao modelo de regressão logística. Nosso estudo reforça a estatística tradicional aplicada a um conjunto de dados que tenha suas premissas cumpridas. Resultados similares a favor da modelagem tradicional foram observados para a predição da piora de pacientes hospitalizados1616 Churpek MM, Yuen TC, Winslow C, Meltzer DO, Kattan MW, Edelson DP. Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards. Crit Care Med. 2016;44(2):368-74. ou readmissão de pacientes com insuficiência cardíaca.1717 Frizzell JD, Liang L, Schulte PJ, Yancy CW. Prediction of 30-day all-cause readmissions in patients hospitalized for heart failure: Comparison of machine learning and other statistical approaches. JAMA Cardiol. 2017;2(2):204-9.

Apesar de ambos os modelos terem preenchido os critérios de calibração, a regressão logística mostrou que o machine learning apresentou uma melhor calibração. Esse fato sugere que o machine learning possa necessitar de conjuntos de dados maiores para calibrar padrões e probabilidades.

Por outro lado, nossos resultados podem ser interpretados em favor do machine learning. Considerando que essa abordagem tem a capacidade de melhorar constantemente seu valor preditivo ao ser exposto a novos dados, começando de uma acurácia razoável no momento basal, o machine learning pode tornar-se um melhor modelo em longo prazo se exposto a dados administrativos contínuos. Essa hipótese precisa ser testada, mas o presente estudo apoia investir nessa possibilidade.

Deve-se ainda contextualizar a inteligência artificial em termos da tomada de decisão médica: ela não deve ser confundida com o conceito de certeza. O machine learning não deve ser uma mudança de paradigma na tomada de decisão, uma vez que ele tem o mesmo conceito de prover probabilidades de um desfecho, e não de certeza. Nesse sentido, a medicina continua a ser uma “ciência de incertezas e uma arte de probabilidade”, conforme William Osler definiu há várias décadas.1818 Brainyquotes. William Osler Quotes.[Cited in 2020 June 12] Available from: https://www.brainyquote.com/quotes/william_osler_.
https://www.brainyquote.com/quotes/willi...
Além disso, decisão não depende somente da predição de desfechos, mas também em seus efeitos negativos. Um desfecho altamente provável sem consequências sérias pode ser preferível que um desfecho pouco provável de consequências devastadoras. Assim, após avaliar probabilidade por meio de um modelo machine learning, o médico deve tomar uma decisão. Além do dano, o julgamento deve se basear no custo de se tentar prevenir o evento e possíveis consequências não intencionais. Portanto, o julgamento clínico não será substituído por modelos estatísticos ou algoritmos machine learning.

Acreditamos que nossa amostra cumpre premissas para se construir tanto um modelo estatístico como um modelo de inteligência artificial. O número de eventos foi grande o suficiente para o número de variáveis preditivas inseridas na regressão logística e análise discriminante. Porém, nossos dados foram para a análise de calibração, o número de eventos foi baixo em cada decil de probabilidade preditiva, o que torna imprecisa a estimativa das probabilidades observadas. Esse é nossa principal limitação.

Conclusão

O presente estudo sugere que um modelo machine learning preciso, como instrumento de predição, pode ser gerado a partir de uma amostra relativamente simples, de tamanho moderado de pacientes. No entanto, o machine learning não se mostrou superior ao modelo estatístico de regressão logística.

  • Fontes de financiamento
    O presente estudo não teve fontes de financiamento externas.
  • Vinculação acadêmica
    Não há vinculação deste estudo a programas de pósgraduação.

Referências

  • 1
    Breiman L. Statistical Modeling: The Two Cultures. Statistical Science 2001;16(3):199-215.
  • 2
    Mortazavi BJ, Downing NS, Bucholz EM, Dharmarajan K, Manhapra A, Li SX, et al. Analysis of Machine Learning Techniques for Heart Failure Readmissions. Circ Cardiovasc Qual Outcomes. 2016;9(6):629–40.
  • 3
    Kaplan RM, Chambers DA, Glasgow RE. Big Data and Large Sample Size: A Cautionary Note on the Potential for Bias. Clin Translat Science. 2014;7(4):342-6.
  • 4
    Hermann LK, Newman DH, Pleasant W, et al. YIeld of routine provocative cardiac testing among patients in an emergency department–based chest pain unit. JAMA Intern Med. 2013;173(11):1128-33.
  • 5
    Correia LCL, Cerqueira M, Carvalhal M, Kalil F, Ferreira K,et al. A Multivariate Model for Prediction of Obstructive Coronary Disease in Patients with Acute Chest Pain: Development and Validation. Arquivos brasileiros de cardiologia 2017;108(4):304-14.
  • 6
    Tripepi G, Jager KJ, Dekker FW, Zoccali C. Linear and logistic regression analysis. Kidney Int. 2008;73(7):806–10.
  • 7
    Bewick V, Cheek L, Ball J. Statistics review 14: Logistic regression. Crit Care. 2005;9(1):112–8.
  • 8
    Meehl PE. Clinical Versus Statistical Prediction: A Theoretical Analysis and a Review of the Evidence. J Abn Psychol. 1954;10:136-8.
  • 9
    Tversky A, Kahneman D. Judgment under Uncertainty: Heuristics and Biases. Science 1974;185(4157):1124-31.
  • 10
    O’Leary DEO. Artificial Intelligence and Big Data. IEEE Intelligent Syst.2013;28:96-9.
  • 11
    Liu N, Koh ZX, Goh J, et al. Prediction of adverse cardiac events in emergency department patients with chest pain using machine learning for variable selection. BMC Med Inform Decis Mak. 201414:75.
  • 12
    Myers PD, Scirica BM, Stultz CM. Machine Learning Improves Risk Stratification After Acute Coronary Syndrome. Scient Rep. 2017;7:12692.
  • 13
    Van Houten JP, Starmer JM, Lorenzi NM, Maron DJ, Lasko TA. Machine Learning for Risk Prediction of Acute Coronary Syndrome. AMIA Ann Sympos Proc. 2014;2014:1940-9.
  • 14
    Green M, Björk J, Forberg J, Ekelund U, Edenbrandt L, Ohlsson M. Comparison between neural networks and multiple logistic regression to predict acute coronary syndrome in the emergency room. Art Intel Med. 2006;38:305-18.
  • 15
    Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, Van Calster B. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J Clin Epidemiol. 2019;110: 12–22.
  • 16
    Churpek MM, Yuen TC, Winslow C, Meltzer DO, Kattan MW, Edelson DP. Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards. Crit Care Med. 2016;44(2):368-74.
  • 17
    Frizzell JD, Liang L, Schulte PJ, Yancy CW. Prediction of 30-day all-cause readmissions in patients hospitalized for heart failure: Comparison of machine learning and other statistical approaches. JAMA Cardiol. 2017;2(2):204-9.
  • 18
    Brainyquotes. William Osler Quotes.[Cited in 2020 June 12] Available from: https://www.brainyquote.com/quotes/william_osler_
    » https://www.brainyquote.com/quotes/william_osler_

Datas de Publicação

  • Publicação nesta coleção
    03 Dez 2021
  • Data do Fascículo
    Dez 2021

Histórico

  • Recebido
    09 Jul 2020
  • Revisado
    09 Nov 2020
  • Aceito
    02 Dez 2020
Sociedade Brasileira de Cardiologia - SBC Av. Marechal Câmara, 160 - 3º Andar - Sala 330, 20020-907, Centro, Rio de Janeiro, RJ - Brazil, Tel.: +55 21 3478-2700, Fax: +55 21 3478-2770 - São Paulo - SP - Brazil
E-mail: arquivos@cardiol.br