GPT5在医生资格考试里考得比真医生还好

日常闲聊 · 10 小时前

论文摘要：

“最近，大型语言模型（LLM）取得了很大进展，让通用系统可以在不需要大量微调的情况下，处理越来越复杂的特定领域任务。在医学领域，医生做决策时通常需要整合多种类型的信息，比如患者的描述、结构化数据，还有医学影像。我们这次研究的重点，是把GPT5当作一个多模态推理引擎，用于医学决策支持，并在统一的评估框架下，系统性地测试它在文本问答和视觉问答任务上的零样本思维链推理能力。

我们测试了GPT5、GPT5mini、GPT5nano这几个版本，并和GPT4o20241120进行了对比，测试任务包括MedQA、MedXpertQA（文本和多模态）、MMLU医学子集、USMLE自我评估考试以及VQARAD的标准数据集。结果显示，GPT5在所有任务中都表现得比其他模型更好，在各类问答任务中达到了最先进的准确率，并且在多模态推理方面也有显著提升。

特别是在MedXpertQA的多模态任务中，相比GPT4o，GPT5在推理和理解两个维度分别提升了+29.26%和+26.18%。甚至在推理方面，GPT5已经超过了人类专家的表现，领先+24.23%，在理解上也超过了人类专家+29.40%。相比之下，GPT4o在大多数指标上仍然落后于人类专家。
我们还通过一个典型案例展示了GPT5可以将视觉和文本信息整合成一个完整的诊断推理链条，并建议了高风险但合理的干预措施。总体来看，我们的研究说明，在这些受控的多模态推理任务上，GPT5已经接近甚至达到了人类专家的水平。这一突破，可能会对未来临床决策支持系统的设计带来深远影响。我们已经开源了GPT5的评估代码。”

ak789@163.com · 10 小时前

LLM的病人死亡率是多少？它被起诉的时间又是什么时候？考试这东西吧，真的没那么重要。尤其是在医学或者其他复杂的领域里，考试成绩根本不能代表全部。几年前的考试，对你的职业生涯有多大影响？至少对我来说，真的没啥影响。反而是我在大学和研究生期间学到的东西，要重要得多。

Penger · 10 小时前

真不是我瞎说。ChatGPT连最基础的检查报告解读都能出错，严重那种。它根本做不了任何批判性分析，哪怕你这个用户本来是有判断力的。ChatGPT干的事儿，说白了就是跑它自己的数据库，然后根据你输入的内容，返回一个概率上最可能的答案。它根本没法考虑那些细节，也顾不上你这个病人到底啥情况。我就遇到过这种事。有病人拿着报告说，ChatGPT告诉他需要补充X、Y、Z这几种营养素。结果所谓的“异常”指标，其实只是因为血样放太久，根本不是啥病。所以，凡是跟医学相关的事儿，千万别信这些AI模型说的。别拿着它说的内容去影响医生的判断。轻则白费功夫，重则耽误病情，甚至可能引发不必要的检查，增加身体负担。你想啊，如果你坐火箭去月球，跟工程师聊设计的时候，ChatGPT突然跳出来跟火箭专家唱反调。你会真把它说的当回事，把火箭零件换了？如果不会，那你为啥要在自己的健康问题上相信它？

tzwd873 · 10 小时前

谷歌也在研究多模态的诊断AI。我们的研究发现，在模拟即时通讯问诊的场景下，AMIE在解读多模态数据方面表现优于初级护理医生（PCP）。它在很多关键的问诊质量指标上得分更高，比如诊断的准确性、治疗建议的合理性，还有同理心。在这些研究环境下，AMIE做出的鉴别诊断也更准确、更全面。我们邀请了皮肤科、心脏病科以及内科的“患者演员”和专科医生，从多个维度对对话进行评分。结果显示，在大多数评估标准中，AMIE的平均分都更高。特别值得一提的是，专家们还给AMIE在图像解读、推理质量，以及医疗沟通中的关键要素打出了更高分，比如鉴别诊断的全面性、治疗计划的质量、以及应对紧急情况的能力（比如是否知道什么时候需要立刻处理）。至于AMIE出现的一些幻觉（也就是误判）——比如误解图像中的伪影——其发生的频率和PCP的误判率在统计学上并没有显著差异。从患者的角度来看，AMIE通常被认为更有同理心、更值得信赖。你可以在这里看看他们的博客原文：
https://research.google/blog/amiegainsvisionaresearchaiagentformultimodaldiagnosticdialogue/当然，谷歌也在博客中提到，这项研究还有很多局限性。他们现在正在进行真实世界的验证研究，结果如何我们还得等等看。不过我个人觉得，哪怕目前的研究结果看起来也挺有希望的。

GeorgeCouff · 10 小时前

真遗憾谷歌也变得越来越像一坨屎了，以前它可好用多了。

bngvkbannj · 9 小时前

还是没法稳稳地同时编辑三个文件啊

小梦儿 · 8 小时前

哎呀，接受我的投票吧！这篇文章总结了为啥咱们现在还不该对AI这碗“凉粉”（coolaid）太上头。说白了就是：
虽然AI看起来挺牛，风头正劲，但咱还得保持冷静，别一股脑儿全押上去。文章列了几点原因，告诉你为啥现在还不是盲目乐观的时候。

𠀡生悪忎 · 6 小时前

他们对待这件事，就像在参加闭卷考试一样。

寂寞狼 · 3 小时前

你是从医生的角度来看这个世界，但并不是每个人都有这样的经历。我可以告诉你，我见过不少医生开出10到15岁孩子都照搬使用的治疗方案，这其实是有风险、可能带来伤害的。AI是我获取信息和数据的一种策略，但如果AI给出的建议有问题，我也不能去“纠正”它，毕竟它不是人。我希望我的医生能在旁边把把关，当我打算做啥不太靠谱的事情时，能拦我一下，当个“止损点”。顺便问一句，医生每年要完成多少继续教育学时？你又是哪个科室的医生呢？

		自动登录	找回密码
密码			立即注册

交流GPT5在医生资格考试里考得比真医生还好

4 回复