Resumo
Objetivo: Este estudo avaliou o desempenho das versões 4 e 3.5 do ChatGPT na resolução de questões de Nefrologia presentes em exames de residência médica no Brasil.
Métodos: Foram analisadas 411 questões de múltipla escolha, com e sem imagens, organizadas em quatro temas principais: doença renal crônica (DRC), distúrbios do equilíbrio hidroeletrolítico e ácido-base (DHAB), doenças tubulointersticiais (DTI) e doenças glomerulares (DG). As questões com imagens foram respondidas somente pela versão ChatGPT-4. A análise estatística foi realizada utilizando o teste qui-quadrado.
Resultados: O ChatGPT-4 alcançou uma precisão geral de 79,80%, enquanto o ChatGPT-3.5 obteve 56,29%, com uma diferença estatisticamente significativa (p < 0,001). Nos temas principais, o ChatGPT-4 teve desempenho superior em DHAB (79,11% vs. 55,17%), DTI (88,23% vs. 52,23%), DRC (75,51% vs. 61,95%) e DG (79,31% vs. 55,29%), todos com p < 0,001. O ChatGPT-4 apresentou uma acurácia de 81,49% nas questões sem imagens e de 54,54% em questões com imagens, com uma acurácia de 60% para análise de eletrocardiogramas. Este estudo é limitado pelo pequeno número de perguntas baseadas em imagens e pelo uso de itens de exame desatualizados, reduzindo sua capacidade de avaliar as habilidades diagnósticas visuais e a relevância clínica atual. Além disso, abordar somente quatro áreas da Nefrologia pode não representar totalmente a amplitude da prática nefrológica.
Conclusão: Verificou-se que o ChatGPT-3.5 apresenta limitações no raciocínio sobre Nefrologia em comparação ao ChatGPT-4, evidenciando lacunas no conhecimento. O estudo sugere a necessidade de exploração adicional em outros temas da Nefrologia para aprimorar o uso dessas ferramentas de IA.
Descritores:
Inteligência Artificial Generativa; Modelos de Linguagem de Grande Escala; Exame de Residência Médica; Nefrologia
Thumbnail
Thumbnail

