Open-access Desempenho do ChatGPT na resposta a questões de residência médica em Nefrologia: um estudo piloto no Brasil

Resumo

Objetivo:  Este estudo avaliou o desempenho das versões 4 e 3.5 do ChatGPT na resolução de questões de Nefrologia presentes em exames de residência médica no Brasil.

Métodos:  Foram analisadas 411 questões de múltipla escolha, com e sem imagens, organizadas em quatro temas principais: doença renal crônica (DRC), distúrbios do equilíbrio hidroeletrolítico e ácido-base (DHAB), doenças tubulointersticiais (DTI) e doenças glomerulares (DG). As questões com imagens foram respondidas somente pela versão ChatGPT-4. A análise estatística foi realizada utilizando o teste qui-quadrado.

Resultados:  O ChatGPT-4 alcançou uma precisão geral de 79,80%, enquanto o ChatGPT-3.5 obteve 56,29%, com uma diferença estatisticamente significativa (p < 0,001). Nos temas principais, o ChatGPT-4 teve desempenho superior em DHAB (79,11% vs. 55,17%), DTI (88,23% vs. 52,23%), DRC (75,51% vs. 61,95%) e DG (79,31% vs. 55,29%), todos com p < 0,001. O ChatGPT-4 apresentou uma acurácia de 81,49% nas questões sem imagens e de 54,54% em questões com imagens, com uma acurácia de 60% para análise de eletrocardiogramas. Este estudo é limitado pelo pequeno número de perguntas baseadas em imagens e pelo uso de itens de exame desatualizados, reduzindo sua capacidade de avaliar as habilidades diagnósticas visuais e a relevância clínica atual. Além disso, abordar somente quatro áreas da Nefrologia pode não representar totalmente a amplitude da prática nefrológica.

Conclusão:  Verificou-se que o ChatGPT-3.5 apresenta limitações no raciocínio sobre Nefrologia em comparação ao ChatGPT-4, evidenciando lacunas no conhecimento. O estudo sugere a necessidade de exploração adicional em outros temas da Nefrologia para aprimorar o uso dessas ferramentas de IA.

Descritores:
Inteligência Artificial Generativa; Modelos de Linguagem de Grande Escala; Exame de Residência Médica; Nefrologia

Abstract

Objective:  This study evaluated the performance of ChatGPT 4 and 3.5 versions in answering nephrology questions from medical residency exams in Brazil.

Methods:  A total of 411 multiple-choice questions, with and without images, were analyzed, organized into four main themes: chronic kidney disease (CKD), hydroelectrolytic and acid-base disorders (HABD), tubulointerstitial diseases (TID), and glomerular diseases (GD). Questions with images were answered only by ChatGPT-4. Statistical analysis was performed using the chi-square test.

Results:  ChatGPT-4 achieved an overall accuracy of 79.80%, while ChatGPT-3.5 achieved 56.29%, with a statistically significant difference (p < 0.001). In the main themes, ChatGPT-4 performed better in HABD (79.11% vs. 55.17%), TID (88.23% vs. 52.23%), CKD (75.51% vs. 61.95%), and DG (79.31% vs. 55.29%), all with p < 0.001. ChatGPT-4 presented an accuracy of 81.49% in questions without images and 54.54% in questions with images, with an accuracy of 60% for electrocardiogram analysis. This study is limited by the small number of image-based questions and the use of outdated examination items, reducing its ability to assess visual diagnostic skills and current clinical relevance. Furthermore, addressing only 4 areas of Nephrology may not fully represent the breadth of nephrology practice.

Conclusion:  ChatGPT-3.5 was found to have limitations in nephrology reasoning compared to ChatGPT-4, evidencing gaps in knowledge. The study suggests that further exploration is needed in other nephrology themes to improve the use of these AI tools.

Keywords:
Generative Artificial Intelligence; Large Language Models; Medical Residency Exam; Nephrology

Introdução

O ChatGPT é um aplicativo baseado em modelos de linguagem de grande escala (LLMs, do inglês large language models), como o GPT-4, desenvolvido pela OpenAI1. Esses modelos utilizam redes neurais complexas para processar e gerar linguagem natural de forma fluente e coerente2. A história dos LLMs tem início com os avanços no processamento de linguagem natural (PLN), com um aumento significativo na capacidade de gerar textos que se assemelham à escrita humana. Um exemplo desse avanço é o ChatGPT, que teve um grande impacto desde seu lançamento em 20223. Seu treinamento envolve grandes volumes de dados e técnicas como ajuste fino e aprendizado por reforço a partir de feedback humano4. Essa inovação não apenas transformou as áreas de pesquisa, mas também revolucionou as interações com a inteligência artificial (IA) em diversas disciplinas5.

O ChatGPT tem sido amplamente utilizado para responder a perguntas complexas em exames de residência médica, demonstrando um desempenho promissor em diversas especialidades6-8. Por exemplo, em um estudo que avaliou sua capacidade de concluir o exame italiano de residência médica, o modelo obteve uma precisão geral de 90,44%, superando o desempenho de 99,6% dos participantes humanos6. Em outro estudo, o ChatGPT alcançou um desempenho semelhante ao de residentes em cirurgia plástica, respondendo corretamente a 55,8% das questões7. No campo da Nefrologia, o GPT foi testado em perguntas de autoavaliação, atingindo uma precisão de 54,5% com a versão GPT-4, que foi significativamente superior às versões anteriores, mas ainda abaixo do esperado para residentes experientes8.

O exame de residência médica no Brasil é uma prova obrigatória para graduados em medicina que buscam formação especializada. O exame é tradicionalmente completo, com questões de múltipla escolha e dissertativas, e é dividido em grandes áreas, como Cirurgia Geral, Pediatria, Obstetrícia e Ginecologia, Ciências Básicas, Saúde Pública e Clínica Médica9. Essa abordagem estruturada e abrangente garante que o conhecimento do candidato seja avaliado em uma variedade de áreas médicas, relevantes para a especialização desejada.

Compreender as diferenças de desempenho entre o GPT 3.5 e o 4 é fundamental, uma vez que cada iteração desses modelos traz melhorias que podem ser significativas em ambientes clínicos e educacionais. Por exemplo, o desempenho superior do GPT-4, conforme demonstrado no estudo de Rosoł et al.10, sugere uma maior aproximação do raciocínio humano em cenários médicos complexos, o que pode proporcionar uma ferramenta mais confiável para treinamento médico e suporte à tomada de decisões. Vale ressaltar que a importância dessa pesquisa vai além da curiosidade acadêmica. Ela se concentra no potencial de apoiar a educação médica por meio desses modelos, os quais funcionam como ferramentas avançadas de treinamento e avaliação, oferecendo simulações e auxílios de diagnóstico capazes de ajudar estudantes e profissionais da área médica a praticar e refinar seu raciocínio clínico em um ambiente livre de riscos. Além disso, à medida que os modelos de IA, como o GPT-4, continuam a evoluir, eles oferecem novas oportunidades para aprimorar o raciocínio clínico ao simular cenários de mundo real, permitir o acesso contínuo a conhecimentos médicos atualizados e facilitar o aprendizado individualizado por meio de feedback personalizado, contribuindo, em última análise, para uma educação médica mais adaptável e eficaz.

Neste estudo, comparamos o desempenho do GPT-4 e do GPT-3.5 na resposta a questões de múltipla escolha obtidas a partir de exames de residência em Nefrologia. Além disso, avaliamos os recursos dos modelos por meio da análise do percentual de acertos em diversos tópicos de Nefrologia. Para aprofundar a avaliação dos modelos de código aberto, realizamos uma análise comparativa dos erros comuns e fizemos avaliações de subgrupos com base no tipo de pergunta, incluindo aquelas com e sem componentes visuais.

Métodos

Gpts

Neste estudo, avaliamos a acurácia do GPT-4 e do GPT-3.5 na resposta a questões de múltipla escolha sobre Nefrologia. Foi empregada uma estratégia de acompanhamento de prompts, em que cada prompt incluiu “Contexto”, “Pergunta” e “Escolha” para potencializar a ampla capacidade de tokens de entrada do modelo, com um prompt por questão11. Caso o modelo não conseguisse fornecer uma resposta definitiva, a resposta era considerada incorreta. As avaliações foram realizadas utilizando uma GPU NVIDIA local para executar os comandos.

Critérios de Inclusão

Foram selecionados somente exames oficiais de seleção para residência médica destinados a médicos generalistas e aplicados para admissão em programas de diversas subespecialidades, não exclusivamente em Nefrologia. As questões analisadas corresponderam à seção de Clínica Médica dessas provas, obtidas ativamente pelos pesquisadores em repositórios digitais públicos disponibilizados pelas próprias instituições de ensino. Não houve seleção aleatória: todas as questões relacionadas à Nefrologia, com e sem interpretação de imagens, presentes nesses exames oficiais foram incluídas para garantir a representatividade do conteúdo utilizado nos processos seletivos reais. É importante mencionar que as perguntas baseadas em imagens, incluindo aquelas sobre eletrocardiogramas, faziam parte das provas destinadas aos candidatos a médicos generalistas e não foram elaboradas especificamente para especialistas em Nefrologia. Cada questão apresentou um cenário clínico, seguido de um prompt para selecionar a única resposta correta dentre uma lista de opções. As perguntas não foram categorizadas por nível de dificuldade, já que a interpretação de tais exames pode variar bastante. O que é considerado desafiador para um candidato pode não ser para outro, dependendo de sua formação acadêmica e experiência anterior.

Critérios de Exclusão

Foram excluídas as questões de Clínica Médica que não tinham relação com a Nefrologia. As perguntas que envolviam cenários de pacientes com tabelas complexas foram excluídas devido aos desafios que os LLMs têm para interpretar desfechos de pacientes apresentados em formato tabular. As 22 perguntas que exigiam interpretação de imagens foram incluídas apenas no GPT 4.0, uma vez que somente essa versão consegue ler imagens.

Conjunto de Dados

Após o período de coleta de perguntas, nosso conjunto de dados foi composto por 411 questões de múltipla escolha extraídas de 310 exames de 161 instituições, divididas em quatro blocos principais: distúrbios do equilíbrio hidroeletrolítico e ácido-base (158 questões), doenças tubulointersticiais (68 questões), doença renal crônica (98 questões) e doenças glomerulares (87 questões). As perguntas foram selecionadas a partir de exames de residência médica realizados entre janeiro de 2010 e março de 2024, todos aplicados no idioma português do Brasil. As perguntas foram testadas em setembro de 2024. Das 411 questões, 389 sem imagens foram selecionadas para avaliação tanto pelo GPT-3.5 quanto pelo GPT-4.0, enquanto as 22 questões com imagens foram avaliadas exclusivamente pelo GPT-4.0. A Figura 1 resume o processo de captura e seleção de questões, bem como a criação do conjunto de dados.

Figura 1
Processo de coleta, seleção e análise das questões incluídas.

Análise Experimental

Para a análise das questões, transferimos as informações para uma planilha do Microsoft Excel a fim de incorporar as respostas obtidas com o banco de testes. Como resultado, cada exemplo em nosso arquivo estruturado xlsx incluiu o ID da pergunta, o contexto, o prompt, as opções de resposta, a resposta correta e a área específica de Nefrologia à qual a questão pertencia. Utilizamos o Statistical Package for the Social Sciences (SPSS) versão 28.0 para realizar o teste qui-quadrado e comparar o desempenho dos dois modelos de GPT.

Resultados

O GPT-4 apresentou um desempenho geral significativamente maior em comparação ao GPT-3.5, atingindo uma precisão de 79,80% (328/411) versus 56,29% (219/389) para o GPT-3.5, uma diferença que alcançou significância estatística (p < 0,001; RR: 1,418; IC 5%: 1,282–1,567). Quando o desempenho foi estratificado por subdomínios da Nefrologia, o GPT-4 superou consistentemente o GPT-3.5. Nos distúrbios do equilíbrio hidroeletrolítico e ácido-base (DHAB), o GPT-4 atingiu uma precisão de 79,11% (125/158) em comparação com 55,17% (80/145) do GPT-3.5 (RR: 1,434; IC 95%: 1,213-1,695; p < 0,001). Para doenças tubulointersticiais (DTI), as taxas foram de 88,23% (60/68) versus 52,23% (35/67) para GPT-4 e GPT-3.5, respectivamente (RR: 1,689; IC 95%: 1,322–2,158; p < 0,001). Na doença renal crônica (DRC), o GPT-4 atingiu 75,51% (74/98), enquanto o GPT-3.5 atingiu 61,95% (57/92), com um risco relativo de 1,219 (IC 95%: 1,002-1,482; p < 0,001). Nas doenças glomerulares (DG), o GPT-4 apresentou uma acurácia de 79,31% (69/87) em comparação com 55,29% (47/85) para o GPT-3.5 (RR: 1,434; IC 95%: 1,152–1,786; p < 0,001). Assim, em todos os domínios avaliados, o GPT-4 demonstrou uma precisão claramente superior e estatisticamente significativa em relação ao GPT-3.5.

O GPT-4 respondeu com sucesso 317 das 389 questões exclusivamente textuais e 12 das 22 questões com base em imagens, o que corresponde a 81,49% e 54,54%, respectivamente. A trajetória de respostas corretas em diversos bancos de questões indicou um aumento quase linear para o GPT-4, ao contrário do GPT-3.5, que não foi comparável em nenhuma avaliação segmentada (Figura 2). A Tabela 1 apresenta o resumo da quantidade de respostas corretas para LLMs de forma geral e nos tópicos.

Figura 2
Gráfico de linhas da precisão do GPT por área.
Tabela 1
Análise descritiva e comparativa do desempenho do GPT

Com relação aos erros, nos DHAB, o GPT-4 cometeu 33 erros contra 65 do GPT-3.5, com 19 erros compartilhados; 13 devido a erros de cálculo em distúrbios ácido-base, 5 em diagnósticos e 1 em manejo. Em DTI, o GPT-4 cometeu 8 erros contra 32 do GPT-3.5, com 3 erros compartilhados relacionados a diagnósticos incorretos. Na DRC, o GPT-4 cometeu 24 erros, em comparação com 35 do GPT-3.5, com 2 erros compartilhados referentes a diagnósticos. Nas DG, o GPT-4 cometeu 18 erros e o GPT-3.5 cometeu 39, sendo 12 compartilhados, 8 no manejo e 4 no diagnóstico.

Discussão

Este é o primeiro estudo a analisar o desempenho da IA na resolução de questões em exames de Nefrologia no Brasil. O GPT-4 foi significativamente melhor do que o GPT-3.5, alcançando uma taxa de precisão de 79,80% em comparação com 56,29% para o GPT-3.5, um resultado apoiado por testes estatísticos, incluindo o teste qui-quadrado. O GPT-4 demonstrou resultados superiores em todas as áreas temáticas, incluindo distúrbios hidroeletrolíticos, ácido-base, doenças tubulointersticiais, renais crônicas e glomerulares. Além disso, o GPT-4 teve um desempenho melhor em perguntas exclusivamente textuais e demonstrou menos erros em todas as categorias, destacando sua adaptabilidade e melhor trajetória de aprendizagem.

Estudos Gerais Sobre LLMs

Estudos de precisão envolvendo o GPT e outros LLMs têm sido realizados em diversas áreas. Um estudo que incluiu 861 questões do Exame Nacional de Medicina do Japão demonstrou uma precisão de 69,8% para o GPT-4, em comparação com 41,9% para o GPT-3.5 em questões de múltipla escolha12. Outro estudo envolvendo 1.280 questões de quatro edições do Exame de Licenciamento Médico Avançado de Taiwan demonstrou que a acurácia do GPT-4 em questões de resposta única variou conforme o assunto, com resultados gerais entre 63,75% e 93,75%13. Um terceiro estudo, que analisou 937 questões de múltipla escolha originais provenientes de três provas escritas de exames de licenciamento médico na Alemanha, relatou um desempenho superior do GPT-4 com 85%, superando significativamente a pontuação do GPT-3.5 de 58%14. De forma semelhante, um estudo israelense que avaliou apenas a versão 3.5 em questões de múltipla escolha relatou uma precisão de 36,6%, reforçando a tendência de que o GPT-4 normalmente supera o GPT-3.5 em estudos que avaliam o desempenho de LLMs em questões de exames médicos15.

Estudos Com LLMs em Nefrologia

Em nosso estudo focado em Nefrologia, surgiu uma tendência consistente, especialmente destacada por Wu et al.16 que analisaram exclusivamente a versão 4 dentre seis LLMs, considerando-a a mais precisa com uma taxa de 73,3%. Da mesma forma, Miao et al.17 demonstraram um desempenho superior da versão 4, com uma precisão de 74%, em comparação com 51% da versão 3.5, corroborando ainda mais essa tendência. Além disso, Noda et al.8 contribuíram para esses achados, embora com precisões marginalmente mais baixas, mas ainda assim demonstrando de forma clara a superioridade da versão 4, que alcançou uma acurácia de 54,5% em comparação com 31,3% da versão 3.5.

Estudos recentes sobre o desempenho do ChatGPT em exames de doenças renais demonstram variações significativas na precisão e na concordância entre as versões GPT-3.5 e GPT-4 em quatro categorias principais. Miao et al.18 avaliaram o GPT-3.5 em 150 perguntas sobre DG, relatando uma precisão de 45% e 41% em duas tentativas. Em contraste, Wu et al.16 demonstraram que o GPT-4 alcançou uma precisão geral de 73,3% (629/858), com taxas de desempenho de aproximadamente 70% em DG, 80% em DRC e 55% em DHAB. Wu et al.16 também observaram que os distúrbios de fluidos e ácido-base foram as áreas de pior desempenho do modelo de linguagem. Noda et al.8 forneceram uma comparação mais detalhada, indicando que o GPT-4 superou o GPT-3.5 em todas as categorias: 43,5% de precisão na DRC com o GPT-3.5, em comparação com 60,9% (14/23) com o GPT-4. Nas DG, o GPT-3.5 alcançou 28,6% (8/28), enquanto o GPT-4 obteve 50,0% (14/28). Para DTI, o GPT-3.5 teve 18,2% (2/11) de precisão, enquanto o GPT-4 alcançou 54,5% (6/11). Nos DHAB, o GPT-3.5 teve uma precisão de 40% (4/10), em comparação com 80% (8/10) para o GPT-48, embora o estudo tenha apresentado um número reduzido de perguntas. Especificamente, nosso estudo encontrou precisões de 79,11% vs. 56,29% em DHAB, 88,23% vs. 52,23% em DTI, 75,51% vs. 61,95% em DRC e 79,31% vs. 55,29% em DG, demonstrando melhorias substanciais em relação ao GPT-3.5 nessas categorias.

Por Que a Nefrologia é um Desafio?

A Nefrologia é amplamente reconhecida como uma das subespecialidades mais complexas da Clínica Médica16. Além dessa complexidade inerente, encontra-se bem documentado que os modelos de linguagem de grande escala, como o ChatGPT, podem produzir “alucinações” - dados que são factualmente incorretos ou irrelevantes - levando, assim, a um raciocínio clínico controverso e, às vezes, a erros em cálculos matemáticos, incluindo aqueles necessários para fórmulas de distúrbios ácido-base (DHAB). Tais erros têm se mostrado comuns em diversos modelos de GPT19. Outra preocupação significativa é a confiabilidade das referências utilizadas pelos LLMs para informar suas recomendações de manejo clínico e diagnóstico; ocasionalmente, essas referências podem ser irreais ou até mesmo totalmente fabricadas20,21. Para superar esses desafios, são necessárias técnicas avançadas, como o estímulo à cadeia de pensamento e a geração aumentada de recuperação (RAG, do inglês retrieval-augmented generation). Essas abordagens auxiliam os LLMs a navegar pelo intrincado raciocínio exigido em Nefrologia, incorporando informações externas e atualizadas, melhorando assim a confiabilidade dos dados e reduzindo a incidência de alucinações22.

Questões Com Imagens e Desafios

Concentrando-se em estudos que compararam o GPT-3.5 e o GPT-4 na resolução de questões com e sem imagens, Noda et al.8 relataram que, para 15 questões baseadas em imagens, o GPT-3.5 demonstrou uma precisão de 13,3%, enquanto o GPT-4 alcançou 33,3%. O estudo também encontrou uma taxa de erro semelhante para perguntas com e sem imagens (20% e 23,8%, respectivamente), reforçando a superioridade do GPT-4 sobre o GPT-3.5 na resolução de perguntas8. Além disso, é importante destacar os estudos que utilizaram o GPT-4 para resolver questões relacionadas ao ECG. Gunay (2024) realizou um estudo no qual 40 questões sobre ECG sem imagens foram analisadas pelo GPT-4, com uma precisão geral de 36,33%23. Em outro estudo realizado por Gunay (2024), o desempenho do GPT-4 e do GPT-4o foi avaliado em questões de ECG com imagens, e seus resultados foram comparados aos dos cardiologistas e ao do modelo Gemini. Em todas as perguntas de ECG, os cardiologistas responderam corretamente a uma mediana de 33,5 perguntas (83,75%), o GPT-4 respondeu a uma mediana de 20,5 (51,25%), o GPT-4o respondeu a 27 e o Gemini respondeu corretamente a 2324. Complementando esses achados, nosso estudo alcançou uma precisão geral de 81,49% para questões sem imagens e apenas 54,54% para questões com imagens, com ênfase especial na análise de eletrocardiogramas, onde observamos uma precisão de 60% nas respostas com um número reduzido de apenas 10 questões.

Portanto, o desempenho inferior em perguntas com imagens se deve ao fato de o GPT-4 e o GPT-3 serem treinados principalmente em dados textuais. Embora o GPT-4 possua a capacidade inerente de processar e interpretar informações visuais - como imagens, radiografias ou lâminas histológicas - quando confrontado com perguntas baseadas em imagens, esses modelos geralmente demonstram desempenho inferior em comparação com modelos multimodais dedicados, como o GPT-4V e o Gemini. Estudos recentes demonstraram que o Med-Gemini, por exemplo, superou o desempenho tanto do GPT-4 tradicional quanto do GPT-4V em benchmarks médicos multimodais, como o NEJM Image Challenges e o MMMU, com uma margem média de 44,5% acima do GPT-4V25. Além disso, em alguns cenários, a precisão diagnóstica do GPT-4V se aproximou da de radiologistas humanos26.

GPT Versus Estudantes de Medicina

Diversos estudos demonstraram que o GPT-4 apresenta desempenho igual ou superior ao de estudantes de Medicina em exames padronizados de licenciamento médico e de especialidades. Por exemplo, o GPT-4 alcançou uma precisão média de 85% nos exames de licenciamento médico da Alemanha - classificando-se entre os percentis 92,8 e 99,5 entre os estudantes - e superou o desempenho de estudantes de Medicina e residentes de Neurocirurgia em questões específicas da área, além de superar o desempenho de residentes de Medicina japoneses no Exame Geral de Treinamento Médico14,27,28. Esses resultados sugerem que o GPT-4 alcançou um nível de competência comparável ou superior ao de estudantes de medicina em diversos países e disciplinas, destacando seu potencial como ferramenta complementar na educação e avaliação médica.

Llms de Código Aberto vs. Proprietários em Questões Médicas

O GPT-4 geralmente supera as alternativas de código aberto - incluindo LLaMA, DeepSeek e Med-PaLM - em uma variedade de referências médicas e conjuntos de questões clínicas. Por exemplo, o GPT-4 demonstrou acurácia superior ao LLaMA, da Meta, e ao Med-PaLM, do Google, em diversos exames especializados, incluindo otorrinolaringologia, onde o GPT-4 alcançou 77,1% de acurácia em comparação com 70,6% do Med-PaLM e 66,8% do LLaMA3:70b29. De maneira semelhante, o modelo de código aberto MEDITRON-70B, embora tenha superado modelos abertos anteriores e até mesmo o GPT-3.5 proprietário, ainda permanece um pouco atrás do GPT-4 e do Med-PaLM-2 em benchmarks médicos abrangentes30. Apesar dessa lacuna de desempenho, os modelos de código aberto estão se tornando alternativas cada vez mais viáveis, especialmente considerando que os modelos proprietários, como o GPT-4, exigem licenciamento pago e nem sempre podem ser acessíveis a todas as instituições ou pesquisadores. A natureza de código aberto de modelos como o LLaMA e o Med-PaLM permite maior adaptabilidade, transparência e custo-benefício, apoiando a inovação e o uso mais amplo na educação médica e na pesquisa clínica31.

Aspectos Éticos

Acreditamos que este estudo é importante não apenas para a aplicação do GPT nos processos de aprendizagem de residentes, com o potencial de simular situações de prática clínica e aprimorar o raciocínio clínico, mas também como suporte para a tomada de decisões. No entanto, é necessário cautela; apesar de o ChatGPT aderir às diretrizes éticas da UE para IA, que enfatizam a supervisão humana, a segurança, a privacidade, a transparência, a diversidade, o impacto social e a responsabilidade32, o conteúdo gerado pode nem sempre seguir as diretrizes mais atuais e recomendadas33. Isso posto, a implementação de modelos de GPT como ferramenta em universidades e residências médicas surge como uma opção de treinamento e aprendizagem, mas jamais deve substituir o papel do médico na tomada de decisão final e na condução dos pacientes.

Limitações

Este estudo fornece insights sobre as capacidades dos modelos de GPT em responder perguntas no exame de residência em Nefrologia, mas é restringido por diversas limitações. Em particular, a inclusão limitada de questões baseadas em imagens (apenas 22 de 411) restringe nossa capacidade de avaliar a proficiência dos modelos na interpretação de dados visuais, o que é essencial para diagnósticos médicos, especialmente em Nefrologia, onde técnicas de imagem, como ultrassom e TC, são essenciais. Outra limitação importante foi a inclusão de perguntas antigas, por exemplo, de 2010, que poderiam trazer à tona práticas que não são mais reconhecidas como de primeira linha na prática nefrológica atual, seguindo o exemplo do estudo de Rosol, que utilizou apenas evidências recentes10. Além disso, o escopo deste estudo foi limitado a quatro temas específicos dentro da Nefrologia, omitindo tópicos importantes da área, como injúria renal aguda e nefrolitíase, que foram analisados pelo estudo de Wu et al.16. Essas áreas são fundamentais para uma compreensão abrangente da Nefrologia e são prevalentes na prática clínica. A ampliação da cobertura temática em estudos subsequentes aumentará a aplicabilidade das ferramentas de IA em Nefrologia, fornecendo maiores insights sobre sua utilidade potencial em todo o espectro diversificado da especialidade.

Conclusão

Este estudo demonstrou o desempenho superior do GPT-4 em relação ao GPT-3.5 na resposta a questões de múltipla escolha em Nefrologia, com o GPT-4 obtendo uma precisão significativamente maior em todas as áreas temáticas. Esses achados estão em consonância com pesquisas mais amplas, confirmando ainda mais os recursos aprimorados do GPT-4, especialmente em questões baseadas em texto. No entanto, as limitações do estudo, incluindo o pequeno número de perguntas baseadas em imagens e a ausência de tópicos importantes de Nefrologia, destacam a necessidade de estudos adicionais para uma avaliação mais precisa de todo o potencial dos modelos de IA na prática clínica.

Disponibilidade de Dados

O conjunto de dados que apoia os achados deste estudo não está disponível publicamente, mas podem ser obtidos mediante solicitação ao autor correspondente.

Referências bibliográficas

  • 1. Zhang B. ChatGPT, an opportunity to understand more about language models. Med Ref Serv Q. 2023;42(2):194–201. doi: http://doi.org/10.1080/02763869.2023.2194149. PubMed PMID: 37104260.
    » https://doi.org/10.1080/02763869.2023.2194149
  • 2. Lai VD, Ngo NT, Veyseh APB, Man H, Dernoncourt F, Bui T et al. ChatGPT Beyond English: towards a comprehensive evaluation of large language models in multilingual learning. ArXiv 2023;abs/2304.05613.
  • 3. Borji A. A categorical archive of ChatGPT failures. ArXiv 2023;abs/2302.03494.
  • 4. Liu Y, Han T, Ma S, Zhang J, Yang Y, Tian J, et al. Summary of ChatGPT/GPT-4 research and perspective towards the future of large language models. ArXiv 2023;abs/2304.01852.
  • 5. Makridakis S, Petropoulos F, Kang Y. Large language models: their success and impact. Forecasting. 2023;5(3):30. doi: http://doi.org/10.3390/forecast5030030.
    » https://doi.org/10.3390/forecast5030030
  • 6. Scaioli G, Moro G, Conrado F, Rosset L, Bert F, Siliquini R, et al. Exploring the potential of ChatGPT for clinical reasoning and decision-making: a cross-sectional study on the Italian Medical Residency Exam. Ann Ist Super Sanita. 2023;59(4):267–70. PubMed PMID: 38088393.
  • 7. Humar P, Asaad M, Bengur F, Nguyen V. ChatGPT is equivalent to first year plastic surgery residents: evaluation of ChatGPT on the plastic surgery in-service exam. Aesthet Surg J. 2023;43(12):NP1085-9. doi: http://doi.org/10.1093/asj/sjad130. PubMed PMID: 37140001.
    » https://doi.org/10.1093/asj/sjad130
  • 8. Noda R, Izaki Y, Kitano F, Komatsu J, Ichikawa D, Shibagaki Y. Performance of ChatGPT and Bard in self-assessment questions for nephrology board renewal. Clin Exp Nephrol. 2024;28(5):465–9. doi: http://doi.org/10.1007/s10157-023-02451-w. PubMed PMID: 38353783.
    » https://doi.org/10.1007/s10157-023-02451-w
  • 9. Aragão JCS, Casiraghi B, Coelho OC, Sarzedas ARM, Peloggia SMM, Huguenin TDF. Avaliação de questões de prova de concursos de residência médica. Rev Bras Educ Med. 2018;42(2):26-33.
  • 10. Rosoł M, G ąsior JS, Łaba J, Korzeniewski K, Młyn´czak M. Evaluation of the performance of GPT-3.5 and GPT-4 on the Polish Medical Final Examination. Sci Rep. 2023;13(1):20512. doi: http://doi.org/10.1038/s41598-023-46995-z. PubMed PMID: 37993519.
    » https://doi.org/10.1038/s41598-023-46995-z
  • 11. Kaddour J, Harris J, Mozes M, Bradley H, Raileanu R, McHardy R. Challenges and applications of large language models. ArXiv 2023;abs/2307.10169.
  • 12. Haze T, Kawano R, Takase H, Suzuki S, Hirawa N, Tamura K. Influence on the accuracy in ChatGPT: differences in the amount of information per medical field. Int J Med Inform. 2023;180:105283. doi: http://doi.org/10.1016/j.ijmedinf.2023.105283. PubMed PMID: 37931432.
    » https://doi.org/10.1016/j.ijmedinf.2023.105283
  • 13. Lin SY, Chan PK, Hsu WH, Kao CH. Exploring the proficiency of ChatGPT-4: an evaluation of its performance in the Taiwan advanced medical licensing examination. Digit Health. 2024;10:20552076241237678. doi: http://doi.org/10.1177/20552076241237678. PubMed PMID: 38449683.
    » https://doi.org/10.1177/20552076241237678
  • 14. Meyer A, Riese J, Streichert T. Comparison of the Performance of GPT-3.5 and GPT-4 with that of medical students on the written german medical licensing examination: observational study. JMIR Med Educ. 2024;10:e50965. doi: http://doi.org/10.2196/50965. PubMed PMID: 38329802.
    » https://doi.org/10.2196/50965
  • 15. Ozeri DJ, Cohen A, Bacharach N, Ukashi O, Oppenheim A. Performance of ChatGPT in Israeli Hebrew Internal Medicine National Residency Exam. Isr Med Assoc J. 2024;26(2):86–8. PubMed PMID: 38420978.
  • 16. Wu S, Koo M, Blum L, Black A, Kao L, Fei Z, et al. Benchmarking open-source large language models, GPT-4 and Claude 2 on multiple-choice questions in nephrology. NEJM AI. 2024 Jan 25;1(2).
  • 17. Miao J, Thongprayoon C, Garcia Valencia OA, Krisanapan P, Sheikh MS, Davis PW, et al. Performance of ChatGPT on nephrology test questions. Clin J Am Soc Nephrol. 2024;19(1):35–43. doi: http://doi.org/10.2215/CJN.0000000000000330. PubMed PMID: 37851468.
    » https://doi.org/10.2215/CJN.0000000000000330
  • 18. Miao J, Thongprayoon C, Cheungpasitporn W. Assessing the accuracy of ChatGPT on core questions in glomerular disease. Kidney Int Rep. 2023;8(8):1657–9. doi: http://doi.org/10.1016/j.ekir.2023.05.014. PubMed PMID: 37547515.
    » https://doi.org/10.1016/j.ekir.2023.05.014
  • 19. Metze K, Morandin-Reis RC, Lorand-Metze I, Florindo JB. Bibliographic research with ChatGPT may be misleading: the problem of hallucination. J Pediatr Surg. 2024;59(1):158. doi: http://doi.org/10.1016/j.jpedsurg.2023.08.018. PubMed PMID: 37735041.
    » https://doi.org/10.1016/j.jpedsurg.2023.08.018
  • 20. Temsah O, Khan SA, Chaiah Y, Senjab A, Alhasan K, Jamal A, et al. Overview of early ChatGPT’s presence in medical literature: insights from a hybrid literature review by ChatGPT and human experts. Cureus. 2023;15(4):e37281. doi: http://doi.org/10.7759/cureus.37281. PubMed PMID: 37038381.
    » https://doi.org/10.7759/cureus.37281
  • 21. Alkaissi H, McFarlane SI. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus. 2023;15(2):e35179. doi: http://doi.org/10.7759/cureus.35179. PubMed PMID: 36811129.
    » https://doi.org/10.7759/cureus.35179
  • 22. Miao J, Thongprayoon C, Suppadungsuk S, Garcia Valencia OA, Cheungpasitporn W. Integrating retrieval-augmented generation with large language models in nephrology: advancing practical applications. Medicina (Kaunas). 2024;60(3):445. doi: http://doi.org/10.3390/medicina60030445. PubMed PMID: 38541171.
    » https://doi.org/10.3390/medicina60030445
  • 23. Günay S, Öztürk A, Özerol H, Yig?it Y, Erenler AK. Comparison of emergency medicine specialist, cardiologist, and chat-GPT in electrocardiography assessment. Am J Emerg Med. 2024;80:51–60. doi: http://doi.org/10.1016/j.ajem.2024.03.017. PubMed PMID: 38507847.
    » https://doi.org/10.1016/j.ajem.2024.03.017
  • 24. Günay S, Öztürk A, Yig?it Y. The accuracy of Gemini, GPT-4, and GPT-4o in ECG analysis: a comparison with cardiologists and emergency medicine specialists. Am J Emerg Med. 2024;84:68–73. doi: http://doi.org/10.1016/j.ajem.2024.07.043. PubMed PMID: 39096711.
    » https://doi.org/10.1016/j.ajem.2024.07.043
  • 25. Saab K, Tu T, Weng W, Tanno R, Stutz D, Wulczyn E, et al. Capabilities of Gemini models in medicine. arXiv. 2024;abs/2404.18416.
  • 26. Suh P, Shim W, Suh C, Heo H, Park C, Eom H, et al. Comparing diagnostic accuracy of radiologists versus GPT-4V and Gemini Pro Vision using image inputs from diagnosis please cases. Radiology. 2024;312(1):e240273. doi: http://doi.org/10.1148/radiol.240273. PubMed PMID: 38980179.
    » https://doi.org/10.1148/radiol.240273
  • 27. Guerra G, Hofmann H, Sobhani S, Hofmann G, Gomez D, Soroudi D, et al. GPT-4 artificial intelligence model outperforms ChatGPT, medical students, and neuro­surgery residents on neurosurgery written board-like questions. World Neurosurg. 2023;179:e160–5. doi: http://doi.org/10.1016/j.wneu.2023.08.042. PubMed PMID: 37597659.
    » https://doi.org/10.1016/j.wneu.2023.08.042
  • 28. Watari T, Takagi S, Sakaguchi K, Nishizaki Y, Shimizu T, Yamamoto Y, et al. Performance comparison of ChatGPT-4 and Japanese medical residents in the general medicine in-training examination: comparison study. JMIR Med Educ. 2023;9:e52202. doi: http://doi.org/10.2196/52202. PubMed PMID: 38055323.
    » https://doi.org/10.2196/52202
  • 29. Merlino D, Brufau S, Saieed G, Van Abel K, Price D, Archibald D, et al. Comparative assessment of otolaryngology knowledge among large language models. Laryngoscope. 2024;135(2)629–34. PubMed PMID: 39305216.
  • 30. Chen Z, Cano A, Romanou A, Bonnet A, Matoba K, Salvi F, et al. MEDITRON-70B: scaling medical pretraining for large language models. arXiv. 2023;abs/2311.16079.
  • 31. Xu J, Ding Y, Bu Y. Position: open and closed large language models in healthcare. arXiv. 2025;abs/2501.09906.
  • 32. Dave T, Athaluri SA, Singh S. ChatGPT in medicine: an overview of its applications, advantages, limitations, future prospects, and ethical considerations. Front Artif Intell. 2023;6:1169595. doi: http://doi.org/10.3389/frai.2023.1169595. PubMed PMID: 37215063.
    » https://doi.org/10.3389/frai.2023.1169595
  • 33. Sallam M. ChatGPT utility in healthcare education, research, and practice: systematic review on the promising perspectives and valid concerns. Healthcare (Basel). 2023;11(6):887. doi: http://doi.org/10.3390/healthcare11060887. PubMed PMID: 36981544.
    » https://doi.org/10.3390/healthcare11060887
  • Financiamento
    JFCUF e GBSJ receberam bolsas do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).

Editado por

Datas de Publicação

  • Publicação nesta coleção
    04 Jul 2025
  • Data do Fascículo
    Oct-Dec 2025

Histórico

  • Recebido
    07 Dez 2024
  • Aceito
    08 Maio 2025
location_on
Sociedade Brasileira de Nefrologia Rua Machado Bittencourt, 205 - 5ºandar - conj. 53 - Vila Clementino - CEP:04044-000 - São Paulo SP, Telefones: (11) 5579-1242/5579-6937, Fax (11) 5573-6000 - São Paulo - SP - Brazil
E-mail: bjnephrology@gmail.com
rss_feed Acompanhe os números deste periódico no seu leitor de RSS
Reportar erro