论文摘要:
“最近,大型语言模型(LLM)取得了很大进展,让通用系统可以在不需要大量微调的情况下,处理越来越复杂的特定领域任务。在医学领域,医生做决策时通常需要整合多种类型的信息,比如患者的描述、结构化数据,还有医学影像。我们这次研究的重点,是把GPT5当作一个多模态推理引擎,用于医学决策支持,并在统一的评估框架下,系统性地测试它在文本问答和视觉问答任务上的零样本思维链推理能力。
我们测试了GPT5、GPT5mini、GPT5nano这几个版本,并和GPT4o20241120进行了对比,测试任务包括MedQA、MedXpertQA(文本和多模态)、MMLU医学子集、USMLE自我评估考试以及VQARAD的标准数据集。结果显示,GPT5在所有任务中都表现得比其他模型更好,在各类问答任务中达到了最先进的准确率,并且在多模态推理方面也有显著提升。
特别是在MedXpertQA的多模态任务中,相比GPT4o,GPT5在推理和理解两个维度分别提升了+29.26%和+26.18%。甚至在推理方面,GPT5已经超过了人类专家的表现,领先+24.23%,在理解上也超过了人类专家+29.40%。相比之下,GPT4o在大多数指标上仍然落后于人类专家。
我们还通过一个典型案例展示了GPT5可以将视觉和文本信息整合成一个完整的诊断推理链条,并建议了高风险但合理的干预措施。总体来看,我们的研究说明,在这些受控的多模态推理任务上,GPT5已经接近甚至达到了人类专家的水平。这一突破,可能会对未来临床决策支持系统的设计带来深远影响。我们已经开源了GPT5的评估代码。”
|