哈佛研究：AI急诊室诊断准确率超越两位医生

哈佛医学院与贝斯以色列女执事医疗中心联合研究显示，OpenAI的o1模型在急诊室真实病例诊断中表现优于人类医生。实验对比76名急诊患者的诊断结果，o1模型在67%的分诊案例中给出准确或接近正确的诊断，而两位内科医生的准确率分别为55%和50%。研究者强调，AI尚不具备独立做出生死抉择的条件，需进一步开展前瞻性临床试验验证。

一项新研究探讨了大语言模型在多种医疗场景中的表现，涵盖真实急诊病例。研究结果显示，至少有一款模型的诊断准确率超过了人类医生。

该研究本周发表于《科学》杂志，由哈佛医学院与贝斯以色列女执事医疗中心的医生和计算机科学家联合主导。研究团队通过一系列实验，评估了OpenAI旗下模型与人类医生在诊断能力上的差异。

其中一项实验以76名急诊患者为研究对象，将两位内科主治医生的诊断结果与OpenAI o1和4o模型生成的诊断进行对比，再由另外两位主治医生对所有诊断进行盲评——评审者并不知道哪些诊断来自人类，哪些来自AI。

研究结果显示："在每个诊断节点上，o1模型的表现均略优于或与两位主治医生及4o模型持平。"研究还特别指出，这种差距"在首个诊断节点（急诊初步分诊）处尤为突出——此时可获取的患者信息最少，而作出正确判断的紧迫性最高"。

哈佛医学院在关于该研究的新闻稿中强调，研究人员"完全未对数据进行预处理"，AI模型所获取的信息与各诊断时间点电子病历中实际可查阅的内容完全一致。

在这一条件下，o1模型在67%的分诊病例中给出了"完全准确或高度接近的诊断"，而参与对照的两位医生的准确率分别为55%和50%。

"我们用几乎所有基准对AI模型进行了测试，结果显示它超越了此前的模型和我们的医生基准线。"哈佛医学院AI实验室负责人、该研究的主要作者之一Arjun Manrai在新闻稿中表示。

需要指出的是，该研究并未断言AI已准备好在急诊室承担真实的生死抉择。研究认为，上述发现揭示出"迫切需要开展前瞻性试验，在真实患者护理场景中对这些技术进行系统评估"。

研究人员同时指出，本次研究仅评估了模型基于文本信息的表现，而"现有研究表明，当前的基础模型在处理非文本输入方面的推理能力相对有限"。

贝斯以色列医院医生、该研究主要作者之一Adam Rodman在接受《卫报》采访时警告称，目前围绕AI诊断尚无"正式的问责框架"，患者依然"希望由人类引导他们面对生死抉择和复杂的治疗决策"。

急诊科医生Kristen Panthagani在一篇文章中表示，这是"一项有价值的AI研究，但由此引发的部分新闻标题存在明显过度渲染的问题"。她特别指出，该研究将AI与内科主治医生进行比较，而非急诊专科医生。

"如果我们要将AI工具与医生的临床能力进行比较，应当首先与真正从事该专科的医生对比，"Panthagani说，"大语言模型能否在神经外科考试中击败皮肤科医生，我并不意外，但这并没有太大的实际意义。"

她还强调："作为一名首次接诊患者的急诊科医生，我的首要目标不是猜测最终诊断，而是判断患者是否存在危及生命的紧急状况。"

Q&A

Q1：这项哈佛AI诊断研究是怎么做的？

A：研究团队选取了76名贝斯以色列医院急诊患者，将OpenAI的o1和4o模型生成的诊断与两位内科主治医生的诊断进行对比，再由另外两位医生进行盲评。结果显示，o1模型在67%的分诊病例中给出了准确或接近准确的诊断，高于两位医生的55%和50%。

Q2：AI诊断能否直接应用于真实急诊场景？

A：目前还不行。研究本身也明确指出，此次发现仅说明有必要开展进一步的前瞻性试验，并未证明AI已具备在急诊室独立承担生死抉择的能力。此外，研究仅评估了文本信息处理能力，现有AI模型在处理非文本医疗输入方面仍存在明显局限，相关问责机制也尚未建立。

Q3：为什么有医生认为这项研究被过度解读了？

A：急诊科医生Kristen Panthagani指出，研究对照组是内科主治医生，而非急诊专科医生，比较对象本身不够对等。她还强调，急诊医生的核心任务是快速识别危及生命的紧急状况，而非给出最终诊断，因此单纯比较诊断准确率并不能全面反映急诊临床能力的差异。

来源：Techcrunch

0赞

好文章，需要你的鼓励

哈佛研究：AI急诊室诊断准确率超越两位医生

来源：Techcrunch

2026

05/07

12:09

分享

点赞

三星Health应用迎来AI升级，Galaxy Watch 9发布前夕更新提前揭晓

Meta智能眼镜被曝含"人脸识别"追踪代码，隐私风险引发警示

Gemini企业智能体平台的智能体RAG如何实现可靠响应

麻省理工学院AI与计算研讨会：技术进步中不可或缺的人文因素

亚马逊全新数据中心路由架构降低AWS网络能耗40%

iOS 27即将发布，多款iPhone应用将迎来全新设计升级

连接性已成为与计算和存储同等重要的AI基础设施核心要素

开发者仍在等待Meta最新AI模型的API访问权限

迈向Token经济时代，F5以“AI赋能交付”筑基智能新生态

米拉·穆拉提重返公众视野，谨慎发声

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

AI时代企业如何防止人类决策权被悄然蚕食

微软联合高校推出深度伪造检测数据集，助力生成式AI内容鉴别

推理计算给AI芯片初创企业带来新的突围机会

在AI时代，人类智能是否仍然独一无二？

Uber计划将数百万名司机变成自动驾驶数据采集网络

AI分析发现霍尔拜因肖像中的神秘人物或为安妮·博林

AI聊天机器人礼品卡诈骗：一个可能让你损失惨重的订阅陷阱

Atlassian大举抢占市场，ServiceNow腹背受敌

这个AI知道答案，却不懂问题的含义

按量计费模式成本飙升？教你搭建本地AI编程智能体

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: