一项新研究探讨了大语言模型在多种医疗场景中的表现,涵盖真实急诊病例。研究结果显示,至少有一款模型的诊断准确率超过了人类医生。
该研究本周发表于《科学》杂志,由哈佛医学院与贝斯以色列女执事医疗中心的医生和计算机科学家联合主导。研究团队通过一系列实验,评估了OpenAI旗下模型与人类医生在诊断能力上的差异。
其中一项实验以76名急诊患者为研究对象,将两位内科主治医生的诊断结果与OpenAI o1和4o模型生成的诊断进行对比,再由另外两位主治医生对所有诊断进行盲评——评审者并不知道哪些诊断来自人类,哪些来自AI。
研究结果显示:"在每个诊断节点上,o1模型的表现均略优于或与两位主治医生及4o模型持平。"研究还特别指出,这种差距"在首个诊断节点(急诊初步分诊)处尤为突出——此时可获取的患者信息最少,而作出正确判断的紧迫性最高"。
哈佛医学院在关于该研究的新闻稿中强调,研究人员"完全未对数据进行预处理",AI模型所获取的信息与各诊断时间点电子病历中实际可查阅的内容完全一致。
在这一条件下,o1模型在67%的分诊病例中给出了"完全准确或高度接近的诊断",而参与对照的两位医生的准确率分别为55%和50%。
"我们用几乎所有基准对AI模型进行了测试,结果显示它超越了此前的模型和我们的医生基准线。"哈佛医学院AI实验室负责人、该研究的主要作者之一Arjun Manrai在新闻稿中表示。
需要指出的是,该研究并未断言AI已准备好在急诊室承担真实的生死抉择。研究认为,上述发现揭示出"迫切需要开展前瞻性试验,在真实患者护理场景中对这些技术进行系统评估"。
研究人员同时指出,本次研究仅评估了模型基于文本信息的表现,而"现有研究表明,当前的基础模型在处理非文本输入方面的推理能力相对有限"。
贝斯以色列医院医生、该研究主要作者之一Adam Rodman在接受《卫报》采访时警告称,目前围绕AI诊断尚无"正式的问责框架",患者依然"希望由人类引导他们面对生死抉择和复杂的治疗决策"。
急诊科医生Kristen Panthagani在一篇文章中表示,这是"一项有价值的AI研究,但由此引发的部分新闻标题存在明显过度渲染的问题"。她特别指出,该研究将AI与内科主治医生进行比较,而非急诊专科医生。
"如果我们要将AI工具与医生的临床能力进行比较,应当首先与真正从事该专科的医生对比,"Panthagani说,"大语言模型能否在神经外科考试中击败皮肤科医生,我并不意外,但这并没有太大的实际意义。"
她还强调:"作为一名首次接诊患者的急诊科医生,我的首要目标不是猜测最终诊断,而是判断患者是否存在危及生命的紧急状况。"
Q&A
Q1:这项哈佛AI诊断研究是怎么做的?
A:研究团队选取了76名贝斯以色列医院急诊患者,将OpenAI的o1和4o模型生成的诊断与两位内科主治医生的诊断进行对比,再由另外两位医生进行盲评。结果显示,o1模型在67%的分诊病例中给出了准确或接近准确的诊断,高于两位医生的55%和50%。
Q2:AI诊断能否直接应用于真实急诊场景?
A:目前还不行。研究本身也明确指出,此次发现仅说明有必要开展进一步的前瞻性试验,并未证明AI已具备在急诊室独立承担生死抉择的能力。此外,研究仅评估了文本信息处理能力,现有AI模型在处理非文本医疗输入方面仍存在明显局限,相关问责机制也尚未建立。
Q3:为什么有医生认为这项研究被过度解读了?
A:急诊科医生Kristen Panthagani指出,研究对照组是内科主治医生,而非急诊专科医生,比较对象本身不够对等。她还强调,急诊医生的核心任务是快速识别危及生命的紧急状况,而非给出最终诊断,因此单纯比较诊断准确率并不能全面反映急诊临床能力的差异。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。