Amerikan Fiziksel Tıp ve Rehabilitasyon Kurulu Sınavı Deneme Sorularında Gemini, DeepSeek ve ChatGPT-4o’nun Performans Karşılaştırması


SAGLAM G., ŞAHİN H. B.

Türk Osteoporoz Dergisi, cilt.31, sa.3, ss.189-194, 2025 (ESCI, Scopus, TRDizin) identifier identifier identifier

  • Yayın Türü: Makale / Tam Makale
  • Cilt numarası: 31 Sayı: 3
  • Basım Tarihi: 2025
  • Doi Numarası: 10.4274/tod.galenos.2025.04875
  • Dergi Adı: Türk Osteoporoz Dergisi
  • Derginin Tarandığı İndeksler: Emerging Sources Citation Index (ESCI), Scopus, TR DİZİN (ULAKBİM)
  • Sayfa Sayıları: ss.189-194
  • Karadeniz Teknik Üniversitesi Adresli: Evet

Özet

Amaç: Büyük dil modellerinin (BDM) hızlı gelişimi, tıp eğitimi ve değerlendirmesinde önemli bir potansiyel göstermiştir. Bu çalışmanın amacı, önde gelen üç BDM olan Gemini, DeepSeek ve ChatGPT-4o’nun, Amerikan Fiziksel Tıp ve Rehabilitasyon Kurulu (ABPMR) sertifika sınavını temsil eden deneme sorularını yanıtlama performansını değerlendirmekti. Bu modellerin tıp öğrencileri için yardımcı araçlar olarak mevcut yeteneklerini anlamak için farklı tıbbi alanlardaki doğruluklarını karşılaştırma hedeflendi. Gereç ve Yöntem: 2015 yılında erişime sunulmuş olan 100 adet ABPMR deneme sorusundan oluşan kapsamlı bir set kullandıldı. Bu sorular, geniş konu çeşitliliği ve klinik senaryoları kapsamakta olup, Gemini, DeepSeek ve ChatGPT-4o’nun web arayüzlerine sistematik bir şekilde girildi. Yanıtlar, tarafsız bir değerlendirme sağlamak amacıyla, hangi BDM tarafından üretildiği bilinmeyen (körleme yöntemi) bağımsız bir fiziksel tıp ve rehabilitasyon uzmanı tarafından analiz edildi. Bulgular: DeepSeek, %88 ile en yüksek genel doğruluğa ulaştı. Gemini’den (%81, p=0,022) önemli ölçüde daha iyi performans göstermiş, ancak ChatGPT-4o’dan (%86, p=0,238) istatistiksel olarak anlamlı bir farkla ayrılmamıştı. Modeller, farklı uzmanlık alanlarında değişen güçlü yönler sergiledi. ChatGPT-4o, nörolojik bozukluklar (%90) ve elektrodiyagnoz (%87) alanlarında en yüksek performansı gösterdi. Buna karşılık, DeepSeek kas-iskelet tıbbı (%88), hasta yönetimi (%97) ve ampütasyon (%100) alanlarında lider oldu. Gemini ise ekipman/yardımcı teknoloji (%90) alanında DeepSeek ile benzer bir performans sergiledi. Rehabilitasyon sorunları (%93), temel bilimler (%80) ve uygulamalı bilimler (%83) gibi alanlarda ise modeller arasında anlamlı bir fark bulunmadı. Sonuç: Bulgularımız, DeepSeek’in genel performansta üstünlük gösterse de, her üç BDM’nin de fiziksel tıp ve rehabilitasyonun farklı alanlarında benzersiz ve tamamlayıcı güçlü yönlere sahip olduğunu düşündürmektedir. Alana göre yapılan analizlerde istatistiksel olarak anlamlı farklılıkların bulunmaması, BDM etkinliğinin göreve özgü değişkenliğini vurgulamaktadır. Bu sonuçlar, BDM’lerin tıp eğitiminde umut verici ek araçlar olduğunu göstermekle birlikte, karmaşık klinik muhakemedeki kalıcı sınırlamaları nedeniyle insan gözetiminin ve doğrulamasının kritik önemini koruduğunu vurgulamaktadır.
Objective: The rapid advancement of large language models (LLMs) has demonstrated their important potential in medical education and assessment. This study aimed to evaluate the performance of three prominent LLMs (Gemini, DeepSeek, and ChatGPT-4o) on practice questions designed to be representative of the American Board of Physical Medicine and Rehabilitation (ABPMR) certification examination. By comparing their accuracy across various medical domains, we sought to understand their current capabilities as supplementary tools for medical trainees. Materials and Methods: We used a comprehensive set of 100 publicly available ABPMR practice questions from 2015, ensuring a consistent benchmark for comparison. These questions, which cover a wide range of topics and clinical scenarios, were systematically fed into Gemini, DeepSeek, and ChatGPT-4o via their web interfaces. The responses were then independently analyzed by a blinded physical medicine and rehabilitation specialist to ensure an unbiased evaluation. Results: DeepSeek achieved the highest overall accuracy at 88%, significantly outperforming Gemini (81%, p=0.022) but not showing a statistically significant difference compared to ChatGPT-4o (86%, p=0.238). The models displayed varying strengths across different specialty areas. ChatGPT-4o performed best in neurologic disorders (90%) and electrodiagnosis (87%). In contrast, DeepSeek led in musculoskeletal medicine (88%), patient management (97%), and amputation (100%). Gemini performed comparably to DeepSeek in equipment/assistive technology (90%). No significant inter-model differences were found in domains such as rehabilitation problems (93%), basic sciences (80%), and applied sciences (83%). Conclusion: Our findings suggest that while DeepSeek demonstrated superior aggregate performance, all three LLMs possess unique, complementary strengths across different domains of physical medicine and rehabilitation. The lack of significant differences in domain-stratified analyses points to the task-specific nature of LLM efficacy. These results indicate that LLMs are promising supplementary educational tools, but their persistent limitations in complex clinical reasoning necessitate continued human oversight and validation.