哈佛研究:AI急诊室诊断准确率超越两位医生

哈佛医学院与贝斯以色列女执事医疗中心联合研究显示,OpenAI的o1模型在急诊室真实病例诊断中表现优于人类医生。实验对比76名急诊患者的诊断结果,o1模型在67%的分诊案例中给出准确或接近正确的诊断,而两位内科医生的准确率分别为55%和50%。研究者强调,AI尚不具备独立做出生死抉择的条件,需进一步开展前瞻性临床试验验证。

一项新研究探讨了大语言模型在多种医疗场景中的表现,涵盖真实急诊病例。研究结果显示,至少有一款模型的诊断准确率超过了人类医生。

该研究本周发表于《科学》杂志,由哈佛医学院与贝斯以色列女执事医疗中心的医生和计算机科学家联合主导。研究团队通过一系列实验,评估了OpenAI旗下模型与人类医生在诊断能力上的差异。

其中一项实验以76名急诊患者为研究对象,将两位内科主治医生的诊断结果与OpenAI o1和4o模型生成的诊断进行对比,再由另外两位主治医生对所有诊断进行盲评——评审者并不知道哪些诊断来自人类,哪些来自AI。

研究结果显示:"在每个诊断节点上,o1模型的表现均略优于或与两位主治医生及4o模型持平。"研究还特别指出,这种差距"在首个诊断节点(急诊初步分诊)处尤为突出——此时可获取的患者信息最少,而作出正确判断的紧迫性最高"。

哈佛医学院在关于该研究的新闻稿中强调,研究人员"完全未对数据进行预处理",AI模型所获取的信息与各诊断时间点电子病历中实际可查阅的内容完全一致。

在这一条件下,o1模型在67%的分诊病例中给出了"完全准确或高度接近的诊断",而参与对照的两位医生的准确率分别为55%和50%。

"我们用几乎所有基准对AI模型进行了测试,结果显示它超越了此前的模型和我们的医生基准线。"哈佛医学院AI实验室负责人、该研究的主要作者之一Arjun Manrai在新闻稿中表示。

需要指出的是,该研究并未断言AI已准备好在急诊室承担真实的生死抉择。研究认为,上述发现揭示出"迫切需要开展前瞻性试验,在真实患者护理场景中对这些技术进行系统评估"。

研究人员同时指出,本次研究仅评估了模型基于文本信息的表现,而"现有研究表明,当前的基础模型在处理非文本输入方面的推理能力相对有限"。

贝斯以色列医院医生、该研究主要作者之一Adam Rodman在接受《卫报》采访时警告称,目前围绕AI诊断尚无"正式的问责框架",患者依然"希望由人类引导他们面对生死抉择和复杂的治疗决策"。

急诊科医生Kristen Panthagani在一篇文章中表示,这是"一项有价值的AI研究,但由此引发的部分新闻标题存在明显过度渲染的问题"。她特别指出,该研究将AI与内科主治医生进行比较,而非急诊专科医生。

"如果我们要将AI工具与医生的临床能力进行比较,应当首先与真正从事该专科的医生对比,"Panthagani说,"大语言模型能否在神经外科考试中击败皮肤科医生,我并不意外,但这并没有太大的实际意义。"

她还强调:"作为一名首次接诊患者的急诊科医生,我的首要目标不是猜测最终诊断,而是判断患者是否存在危及生命的紧急状况。"

Q&A

Q1:这项哈佛AI诊断研究是怎么做的?

A:研究团队选取了76名贝斯以色列医院急诊患者,将OpenAI的o1和4o模型生成的诊断与两位内科主治医生的诊断进行对比,再由另外两位医生进行盲评。结果显示,o1模型在67%的分诊病例中给出了准确或接近准确的诊断,高于两位医生的55%和50%。

Q2:AI诊断能否直接应用于真实急诊场景?

A:目前还不行。研究本身也明确指出,此次发现仅说明有必要开展进一步的前瞻性试验,并未证明AI已具备在急诊室独立承担生死抉择的能力。此外,研究仅评估了文本信息处理能力,现有AI模型在处理非文本医疗输入方面仍存在明显局限,相关问责机制也尚未建立。

Q3:为什么有医生认为这项研究被过度解读了?

A:急诊科医生Kristen Panthagani指出,研究对照组是内科主治医生,而非急诊专科医生,比较对象本身不够对等。她还强调,急诊医生的核心任务是快速识别危及生命的紧急状况,而非给出最终诊断,因此单纯比较诊断准确率并不能全面反映急诊临床能力的差异。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

05/07

12:09

分享

点赞

邮件订阅