一项新研究探讨了大语言模型在多种医疗场景中的表现,涵盖真实急诊病例。研究结果显示,至少有一款模型的诊断准确率超过了人类医生。
该研究本周发表于《科学》杂志,由哈佛医学院与贝斯以色列女执事医疗中心的医生和计算机科学家联合主导。研究团队通过一系列实验,评估了OpenAI旗下模型与人类医生在诊断能力上的差异。
其中一项实验以76名急诊患者为研究对象,将两位内科主治医生的诊断结果与OpenAI o1和4o模型生成的诊断进行对比,再由另外两位主治医生对所有诊断进行盲评——评审者并不知道哪些诊断来自人类,哪些来自AI。
研究结果显示:"在每个诊断节点上,o1模型的表现均略优于或与两位主治医生及4o模型持平。"研究还特别指出,这种差距"在首个诊断节点(急诊初步分诊)处尤为突出——此时可获取的患者信息最少,而作出正确判断的紧迫性最高"。
哈佛医学院在关于该研究的新闻稿中强调,研究人员"完全未对数据进行预处理",AI模型所获取的信息与各诊断时间点电子病历中实际可查阅的内容完全一致。
在这一条件下,o1模型在67%的分诊病例中给出了"完全准确或高度接近的诊断",而参与对照的两位医生的准确率分别为55%和50%。
"我们用几乎所有基准对AI模型进行了测试,结果显示它超越了此前的模型和我们的医生基准线。"哈佛医学院AI实验室负责人、该研究的主要作者之一Arjun Manrai在新闻稿中表示。
需要指出的是,该研究并未断言AI已准备好在急诊室承担真实的生死抉择。研究认为,上述发现揭示出"迫切需要开展前瞻性试验,在真实患者护理场景中对这些技术进行系统评估"。
研究人员同时指出,本次研究仅评估了模型基于文本信息的表现,而"现有研究表明,当前的基础模型在处理非文本输入方面的推理能力相对有限"。
贝斯以色列医院医生、该研究主要作者之一Adam Rodman在接受《卫报》采访时警告称,目前围绕AI诊断尚无"正式的问责框架",患者依然"希望由人类引导他们面对生死抉择和复杂的治疗决策"。
急诊科医生Kristen Panthagani在一篇文章中表示,这是"一项有价值的AI研究,但由此引发的部分新闻标题存在明显过度渲染的问题"。她特别指出,该研究将AI与内科主治医生进行比较,而非急诊专科医生。
"如果我们要将AI工具与医生的临床能力进行比较,应当首先与真正从事该专科的医生对比,"Panthagani说,"大语言模型能否在神经外科考试中击败皮肤科医生,我并不意外,但这并没有太大的实际意义。"
她还强调:"作为一名首次接诊患者的急诊科医生,我的首要目标不是猜测最终诊断,而是判断患者是否存在危及生命的紧急状况。"
Q&A
Q1:这项哈佛AI诊断研究是怎么做的?
A:研究团队选取了76名贝斯以色列医院急诊患者,将OpenAI的o1和4o模型生成的诊断与两位内科主治医生的诊断进行对比,再由另外两位医生进行盲评。结果显示,o1模型在67%的分诊病例中给出了准确或接近准确的诊断,高于两位医生的55%和50%。
Q2:AI诊断能否直接应用于真实急诊场景?
A:目前还不行。研究本身也明确指出,此次发现仅说明有必要开展进一步的前瞻性试验,并未证明AI已具备在急诊室独立承担生死抉择的能力。此外,研究仅评估了文本信息处理能力,现有AI模型在处理非文本医疗输入方面仍存在明显局限,相关问责机制也尚未建立。
Q3:为什么有医生认为这项研究被过度解读了?
A:急诊科医生Kristen Panthagani指出,研究对照组是内科主治医生,而非急诊专科医生,比较对象本身不够对等。她还强调,急诊医生的核心任务是快速识别危及生命的紧急状况,而非给出最终诊断,因此单纯比较诊断准确率并不能全面反映急诊临床能力的差异。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。