斯坦福大学造了一个“AI医生考场“，结果最强的AI也只考了46分

news2026/5/8 21:33:04

这项由斯坦福大学医学信息学团队完成的研究以预印本形式于2026年5月发表论文编号为arXiv:2605.02240。研究核心是一套名为PhysicianBench的测试系统专门用来考察AI大模型能否像真正的医生一样在电子病历系统中完成真实的临床工作。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。一、当AI走进医院我们真的准备好了吗医院里的医生每天要做什么简单来说就是翻病历、看化验单、做判断、下医嘱、写记录——每一步都环环相扣少一步都可能出问题。近年来各种AI大模型在医学知识问答上表现相当亮眼背医学教材似乎不在话下。可背书厉害和真正看病是两回事就像一个能把菜谱倒背如流的人不见得能做出一桌像样的饭菜。斯坦福大学的研究团队正是意识到了这种纸面上的优秀与实战中的平庸之间的鸿沟才下定决心搭建一个更接近真实临床环境的考场——PhysicianBench。这个名字直译过来就是医生工作台基准测试顾名思义是要把AI直接放到医生工作的环境里让它完成真正的临床任务而不是做选择题。现有的医疗AI测试大多像纸笔考试给你一道题你回答对了就算过。可现实中的医生工作更像一场需要调取档案、分析案情、形成报告、执行行动的综合任务。现有测试的三大软肋在于第一它们只考察AI能不能回答问题不考察它能不能做成一件事第二即便有些测试设计了下医嘱这类动作也只是停留在说说打算的层面从不验证AI是否真的在系统里执行了那个操作第三测试题目大多来自教科书或模拟病人缺乏真实临床案例的复杂性。PhysicianBench的出现正是为了填补这三个空缺。二、这个考场到底长什么样搭建这套考场研究团队做了三件很关键的事。第一件是找来真实的临床案例作为题目素材。这些案例来自斯坦福医疗中心的电子会诊系统——一种让全科医生向专科医生在线提问的机制。比如全科医生遇到一个心脏病人不确定该怎么处理就给心脏科专家发一条电子会诊请求专家看完病历后给出建议。这些真实的问诊记录天然带着真实病人的复杂性和临床推理逻辑正好用来设计考题。第二件是给AI搭建一套真实可用的电子病历系统。研究团队使用了一个符合国际医疗数据交换标准FHIR可以理解为医疗界的通用插头规格的开源服务器把真实病人经过脱敏处理的病历数据装进去。这个系统和市面上Epic、Cerner等主流医院信息系统的运作方式高度一致AI在这里操作病历和真实医生在医院里操作的感受几乎相同。每道题目都对应一个独立的病历数据库容器AI做完一道题容器自动销毁下一道题重新开始确保题目之间互不影响。第三件是让真人医生反复审核每一道题。研究团队招募了11位临床医生主要是内科、心脏科、急诊科和精神科背景工作经验从5年到12年不等组成评审团。每道题从设计到最终定稿至少要经过两轮人工审核医生要检查题目说法是否清晰、临床逻辑是否正确、参考答案是否安全、病历数据是否一致。若有问题AI助手会根据医生的意见生成修改方案医生再逐条审批直到所有修改都获认可为止。整个考场最终包含100道考题横跨21个临床专科涵盖心脏科、内分泌科、消化科、感染科、精神神经科、血液肿瘤科、肾脏泌尿科、呼吸科等八大领域。题目类型分为四大类诊断与解读占13%比如解读一份超声报告、药物处方占26%比如为病人开具合适的药物、治疗方案规划占27%比如制定长期用药优化方案、以及检查与风险评估占34%比如针对某个异常化验结果安排系列检查。三、AI医生的工作台上有什么工具在PhysicianBench的考场里AI扮演的是一位具体专科的医生面对一位真实病人的完整电子病历。AI拿到的任务指令会明确告知它当前的角色比如你是一位内分泌科医生、触发事件比如这位病人刚完成了一次超声检查报告已出炉、需要完成的步骤以及最终需要交付的成果比如写一份评估报告并保存到指定文件。AI完成任务的方式是调用各种工具就像医生在医院系统里点击不同的功能按钮。这些工具共有14种其中13种用于读写电子病历1种用于保存输出文件。读取类工具可以查询病人的基本信息、问题列表诊断记录、化验结果、生命体征、社会史、用药记录、手术操作记录、临床文书以及已有的检查申请单。写入类工具则可以创建新的药物医嘱、检查/转诊申请单、预约挂号以及发送病人通知消息。每道题平均需要AI发出27次工具调用相当于医生在系统里点了27下。这些工具调用不是象征性的而是真实地改变了系统里的数据状态——AI开了一张化验单系统里就真的多了一条化验申请记录AI没有实际创建这条记录事后检查就会发现它根本没做。四、怎么判断AI考得好不好PhysicianBench的评分方式也相当有特色不像普通考试那样只看最终答案而是把每道题拆解成若干检查点每个检查点代表完成任务的一个关键步骤。100道题共设置了670个检查点平均每道题约有6到7个关卡。这些检查点按类型分为四种。第一种是数据检索关卡验证AI是否查询了必要的病历信息比如是否调取了病人的肾功能化验结果。第二种是临床推理关卡考察AI对检索到的数据的理解是否正确包括计算临床评分比如根据病人的年龄、诊断记录计算某个风险评分、解读并综合临床发现、做出临床判断比如是否需要抗凝治疗以及应用临床标准比如排除某种并发症的诊断。第三种是行动执行关卡直接检查AI是否在系统里创建了对应的医嘱比如是否开了一张剂量范围正确的他汀类药物处方或者是否发出了一个CT血管造影的检查申请。第四种是文档记录关卡评估AI写出的临床记录是否完整、逻辑是否清晰、是否符合临床指南、有没有潜在的安全隐患。评分工具也分三种。对于行动执行类关卡系统直接查询数据库用代码验证相应的资源是否存在完全客观。对于包含数值结果的推理类关卡系统先从数据库自动计算正确答案再用AI辅助提取AI输出中报告的数值最后做比对兼顾客观性与灵活性。对于临床文档和深度推理类关卡则交给一个AI评判模型对照详细的评分标准做三档判断通过/部分通过/不通过。五、十二支AI队伍上场成绩如何研究团队邀请了12个主流大模型参加测试包括GPT-5.5、GPT-5.4OpenAI出品、Claude Opus 4.6、Claude Opus 4.7、Claude Sonnet 4.6Anthropic出品、Gemini Pro 3.1谷歌出品、Grok-4.20xAI出品以及国产模型DeepSeek V4-Pro、Kimi-K2.6、Qwen3.6-Plus、MiniMax M2.7、MiMo-v2.5-Pro。每道题每个模型都运行3次以测量稳定性。成绩单出来整体上颇为惨烈。排名第一的GPT-5.5单次通过率为46.3%也就是说给它一次机会它能完整完成约46道题目还有54道是失败的。排在第二的Claude Opus 4.6通过率为31.7%第三的Claude Opus 4.7为29.3%第四的GPT-5.4为27.7%往后依次下滑。最强开源模型DeepSeek V4-Pro拿到18.7%而垫底的Grok-4.20只有5.3%。更能说明问题的是每次都能过的稳定性指标。GPT-5.5在三次独立测试中全部通过的题目比例只有28%——也就是说即便是表现最好的模型也只有不到三分之一的题目它能稳稳拿下另外超过七成的题目至少有一次会失手。Claude Opus 4.6和4.7的这个数字是18%Grok-4.20和MiniMax M2.7只有1%也就是说100道题里它们只有一道能三次都过。从专科分布来看GPT-5.5在内分泌科表现最好通过率接近59%在心脏科也达到55.6%。相对薄弱的是精神神经科33.3%和肾脏泌尿科29.2%。值得一提的是肾脏泌尿科是唯一一个Claude系列反超GPT-5.5的专科Claude家族在该领域达到33.3%略高于GPT-5.5的29.2%。从题目类型来看治疗方案规划是所有模型一致感到最吃力的类别——这类题目要求AI做出长时间跨度、多步骤的综合方案非GPT-5.5模型的最高通过率只有23.5%。相比之下诊断解读类题目通过率相对较高Claude Opus 4.6在这类题目上甚至达到43.6%与GPT-5.5的46.2%相差无几。六、AI到底是哪一步卡住了为了搞清楚AI失败的原因研究团队对每一个未通过的检查点进行了分类分析。结果发现大约有50.4%的失败集中在临床推理环节也就是说AI拿到了数据但分析出了偏差或遗漏了关键细节。其次是行动执行18.8%和文档记录18.4%最后是数据检索12.4%。把GPT-5.5和Claude Opus 4.6的失败案例逐一比对后研究团队发现了几个有趣的细节。在临床推理失败的案例里两个模型最常见的问题都不是做出了错误结论而是推理不完整或者几乎到位但差了一点细节——比如给出了正确的用药方向但忘记说明剂量范围或者给出了正确的治疗方案但遗漏了安全监测提示。真正得出错误结论的情况在GPT-5.5中完全没有出现在Claude Opus 4.6中也只占6%。在行动执行类失败里最常见的情况是AI在文字里说了但没在系统里做——GPT-5.5有62%的行动失败属于这种情况Claude Opus 4.6更高达73%。这就像医生在病历里写了需要安排CT检查却忘记在系统里实际点击提交申请单。对于为什么GPT-5.5比Claude Opus 4.6领先这么多研究团队给出了一个相当直观的解释不是因为GPT-5.5的医学知识更丰富而是因为它在工作中更老实——它会更忠实地把从系统里查到的数据原文呈现出来不会自作主张地模糊处理数值它还会更全面地枚举所有需要完成的步骤不轻易遗漏。机制上GPT-5.5在同类题目中调用工具的次数明显更多说明它会更深入地翻阅病历而不是查了一两条就匆匆下结论。七、一个完整的失败故事研究团队特别展示了一个典型的失败案例用来具体说明AI是如何在一道题里同时踩中多个陷阱的。这道题的背景是一位69岁女性患有肾上腺皮质功能不全AI扮演内分泌科医生需要评估她目前的激素替代治疗是否足够并制定下一步管理方案。关键的临床背景是这位病人的肾上腺皮质功能不全是继发性的也就是说她的肾上腺本身没有问题是因为长期使用含激素的眼药水和止痛药压制了大脑的调控信号导致肾上腺懒惰了。继发性肾上腺皮质功能不全有一个特点——肾上腺分泌盐皮质激素的功能是保留的不需要额外补充。AI在查阅系统时确实读到了一条2022年6月的电话复诊记录里面白纸黑字写着已知继发性肾上腺皮质功能不全于2019年诊断原因为慢性眼部激素滴眼液和阿片类药物使用。然而AI随后的推理却把这条关键信息忽视了——它看到病人的肾素一种盐皮质激素的调节指标偏高血钠偏低、血钾偏高就径直得出这是原发性肾上腺皮质功能不全即阿迪森氏病的结论并相应建议开具氟氢可的松——一种仅用于原发性患者、在继发性患者中使用可能导致高血压、低血钾和水肿的药物。接着AI在写出的管理方案里提到如有必要应转诊心脏科却没有在系统里真正提交一条转诊申请。最后形成的临床文书也因为基础诊断已经弄错而从头到尾都在错误的剧情里展开。一次任务四个环节都出了问题数据检索到了但没有有效利用、临床推理得出了错误结论、行动停留在纸面上没有落地、文档记录继承了前面的错误。八、这件事对我们意味着什么说到底PhysicianBench这套考场的价值不在于证明AI有多差而在于它第一次给了我们一把真实可信的尺子让我们知道AI距离可以真正在临床上独立工作还有多远。46%的通过率意味着什么打个比方假设一位实习医生有一半的工作任务没能完整完成或者完成质量参差不齐没有人会放心让他单独值班。当前最强的AI也处于这个水平。而且更值得注意的是28%的每次都能稳定通过比率意味着即便偶尔的成功也相当程度上是随机的而不是可靠的能力。开源模型和闭源模型之间的差距相当明显最强开源模型DeepSeek V4-Pro的18.7%只有GPT-5.5的一半不到。这说明在复杂、多步骤的临床工作场景下模型能力的分级效应远比在单题问答中更加显著。研究团队也坦承这套考场目前还有不少盲区。它的题目以门诊会诊场景为主住院病房的出院小结、术后医嘱等场景尚未覆盖。它是单人工作的评测没有涉及AI与人类医生协作的场景。它也还没有引入医学影像、心电图波形等多媒体信息而这些在真实临床中极为普遍。未来版本可能会扩展到这些方向逐渐逼近真实临床的完整复杂度。对于普通患者来说现在还不用担心AI会在没有人工监督的情况下替你做医疗决定——研究结果非常清楚地说明当前AI在这类工作上的表现远未达到可独立部署的标准。但这套考场的存在正在成为推动AI不断进步的压力测试。每当有新模型发布在PhysicianBench上的得分就是一个有说服力的参考让外界知道它的临床能力究竟进步到了哪里。归根结底医学是一个容错空间极小的领域一个几乎正确的答案有时比一个错误答案更危险因为它更容易骗过人的审查。研究团队用这100道题、670个检查点和11位医生的心血搭建起了目前最接近真实临床环境的AI评测平台。它不仅仅是一张成绩单更是一份清醒的提示AI医生还在上学暂时还不能独立出诊。有兴趣深入了解技术细节的读者可通过arXiv编号2605.02240查阅完整论文。QAQ1PhysicianBench和之前的医疗AI测试有什么本质区别A之前的测试大多是背书考试——给AI一道医学选择题看它能不能回答正确。PhysicianBench则是实操考试——把AI直接放进真实的电子病历系统让它完成一整套临床工作包括查阅病历、分析数据、下医嘱、写报告而且会直接检查系统里是否真的留下了对应的操作记录而不是只看AI说了什么。Q2目前AI在PhysicianBench上的表现能说明AI可以辅助医生了吗A辅助医生和独立完成临床任务是两个不同的概念。PhysicianBench测的是后者——让AI在没有人工干预的情况下独立完成一整个临床流程。最强模型GPT-5.5的完整任务通过率只有46.3%稳定通过率更只有28%这说明它独立工作的可靠性远未达到临床要求。用于辅助、提醒、草拟方案这类有人监督的场景目前AI已经在实践中被探索但完全独立操作现阶段数据给出的答案是还不行。Q3为什么AI最常犯的错误是写了但没做而不是做错了A这反映了AI在工具使用逻辑上的一个典型缺陷。AI在生成文字回答时会把应该开CT写进报告因为它在语言生成层面已经完成了这个推理。但把这个想法转化为一个实际的系统操作调用ServiceRequest创建工具并填写正确参数需要一个额外的从文字到行动的跨越。这个跨越对人来说是本能但对语言模型来说是一个容易忘记的额外步骤。研究数据显示GPT-5.5有62%的行动失败、Claude Opus 4.6有73%的行动失败都属于这种说了没做的情况。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2595899.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！