学术研究
大型语言模型在视网膜和玻璃体认证考试中的表现
该研究评估了ChatGPT-4、ChatGPT-4o和Claude 3.5 Sonnet在巴西视网膜和玻璃体学会认证考试中的准确性。研究使用了2018年和2019年的200道选择题,涵盖解剖生理学、病理学及诊断治疗三个领域。结果显示,Claude 3.5 Sonnet的总体准确率最高(72.5%),其次是ChatGPT-4o(66.0%)和ChatGPT-4(55.5%)。统计分析表明,Claude 3.5 Sonnet和ChatGPT-4o显著优于ChatGPT-4,而两者之间无显著差异。这些发现揭示了这些增强功能的语言模型在医学教育中的潜在价值。
#人工智能#视网膜#医学教育
PubMed Ophthalmology #1/2
READ