AI聊天机器人能否像医生一样进行临床推理？

OpenAI的大语言模型在真实急诊室记录的多项临床推理任务中表现优于医生，相关研究发表于《科学》期刊。然而，研究人员对如何评估AI临床推理能力存在分歧，不同评分体系可能导致截然不同的结论。研究者强调AI并非要取代医生，而是作为辅助决策工具。目前AI医疗产品已陆续进入市场，但幻觉问题、评估标准缺失及监管空白仍是亟待解决的挑战。

计算机辅助临床决策的构想由来已久，早期系统通常依托人工编写的规则库，涵盖症状识别、检测阈值与药物相互作用等内容。随着人工智能技术的持续演进，临床推理自然成为重要的应用方向。

根据4月30日发表于《科学》期刊的一项研究，OpenAI的大语言模型在多项临床推理任务中，基于真实急诊室病历的表现已超越医生。

这一发现出现在医疗聊天机器人领域争议不断的背景之下——部分研究显示其诊断表现令人印象深刻，另一些研究则记录了伪造引用、错误建议，以及随评分方式不同而产生差异的结果。尽管存在诸多不确定性，面向医疗专业人员的相关产品已开始进入市场。例如，OpenAI今年推出了面向临床医生和医疗机构的ChatGPT版本。

被测试的模型o1-preview虽已被更新版本取代，但其表现足够令人振奋，研究人员建议在真实病例中对大语言模型展开进一步测试，并在特定诊断节点引导医生寻求AI辅助的第二意见。

在纽约伊坎医学院从事AI医学影像研究的Mickael Tordjman认为，当前正是聚焦真实世界应用研究的恰当时机。"我们需要更多来自前瞻性临床试验的证据，"他说，"更新的大语言模型，或专门针对医疗用途训练的模型，或许能取得更好的表现。"

尽管《科学》论文的作者在新闻发布会上对AI的医疗潜力持乐观态度，但他们也强调了大语言模型的重要局限性，并对研究结果可能遭到误读表达了担忧。"我认为我们的研究结果并不意味着AI将取代医生，"共同作者、哈佛医学院AI研究者Arjun Manrai表示。

"我认为这真的很酷，别误会我的意思，"波士顿Beth Israel Deaconess医疗中心的医学教育者、共同作者Adam Rodman说，"但这些结果可能会被如何使用，让我有些不安。"

其他研究聊天机器人医疗建议的学者近期也发现了质疑其可信度的理由。例如，在一项研究中，五款主流聊天机器人对开放性健康问题的回答中，近半数存在缺陷，机器人会捏造信息和引用文献，且无论准确与否，均以自信的语气呈现答案。

"这些模型每天都在被使用，其中存在一定风险，但这些风险既未被量化，也未得到有效控制，"在另一哈佛研究团队中从事AI医疗实践研究的Arya Rao说。

目前大量研究聚焦于聊天机器人回答普通用户的健康咨询——即人们在决定是否就医前可能提出的问题。而将大语言模型作为面向医生的临床决策支持工具，则是完全不同的任务场景。医生应更清楚哪些信息有助于大语言模型做出准确诊断或制定治疗方案，并具备识别明显错误的专业背景知识。

然而，即便是医生，识别"幻觉"内容仍可能是一大挑战。"模型无论对错，表现都同样令人信服，"Rodman说，"我们需要找到错误率低的工作流程。"

即便是专注于面向医生的临床推理任务的研究，也可能因研究者对"成功"的定义不同而得出迥异的结论。4月13日发表于JAMA Network的一篇论文中，Rao及其同事对21个大语言模型进行了与《科学》论文类似的临床推理任务测试。与《科学》论文一致，许多模型在最终诊断上表现良好，包括o1系列的聊天机器人。然而，Rao在鉴别诊断问题上对大语言模型给出了较低评分，因为她采用了不同的评估体系。

在鉴别诊断中，医生需要列出患者症状的所有可能病因。一个大语言模型可能在7个可能的最终诊断中正确列出6个，这既可以被合理地评为86%，也可以像Rao的评分体系那样，被判定为不可接受的失败。

目前，业界尚无统一的评分标准。"这仍是一项进行中的工作，"Tordjman说，"目前没有评估大语言模型临床推理能力的完美方式。"

在《科学》研究中，研究人员使用多组医学案例集对OpenAI模型进行了测试，这些案例类似于难度较高的开放式医学考试题。给聊天机器人的指令有时篇幅较长，其中充满可能是无关信息或关键诊断线索的细节。

"我们进一步证明了这种表现同样适用于真实世界，"Rodman表示。研究中有一部分使用了来自76例真实急诊就诊的数据。研究人员要求大语言模型和医生在多个诊疗阶段分别给出诊断：患者到达急诊室时、医生完成评估后，以及转至院内其他科室后。尽管随着信息量的增加，计算机和人类的准确率均有所提升，但大语言模型始终略胜一筹。例如，在最终检查点，该模型给出"精确或非常接近"诊断的比例为82%，而两位医生分别为79%和70%。

我们所熟知的大语言模型诞生至今不足十年，整个领域正在快速演变。主流大语言模型的更新版本发布速度，已超出医学研究和学术文献的通常发表节奏，而有关监管与责任归属的诸多问题仍悬而未决。鉴于众多患者和医生已在日常中使用这些工具，研究人员向IEEE Spectrum表示，迫切需要了解其优势、风险以及最佳使用方式。

尽管将AI表现与人类医生进行比较对研究至关重要，Manrai认为更关键的问题在于医生将如何实际使用这项技术。"我们必须迅速从'AI对战人类'的框架中走出来，转向思考人类如何与这项技术协同互动，"他说。

面对诸多悬而未决的问题，哈佛的Rao表示，技术发展速度之快，让医学界无法坐视不理。"我认为谨慎和评估固然重要，但创新或许更为迫切，"她说，"我们不想泼冷水——我们认为负责任的创新才是正确方向。"

Q&A

Q1：大语言模型在临床推理方面表现如何？

A：根据2025年4月发表于《科学》期刊的研究，OpenAI的o1-preview模型在基于真实急诊室病历的多项临床推理任务中超越了医生。在最终诊断节点，该模型给出精确或接近正确诊断的比例为82%，两位医生分别为79%和70%。随着诊疗过程中信息量的增加，模型与医生的准确率均有提升，但模型始终保持领先。

Q2：评估大语言模型临床推理能力有没有统一标准？

A：目前尚无统一的评估标准。不同研究团队采用不同评分体系，可能导致结论差异显著。例如，在鉴别诊断评分上，同样是7个可能诊断中答对6个，有的体系评为86%，有的则判定为不可接受的失败。研究人员普遍认为，建立标准化评估方法仍是一项亟待完成的工作。

Q3：大语言模型在医疗应用中有哪些主要风险？

A：主要风险包括：模型可能产生"幻觉"，即捏造信息或引用文献，且无论对错均以自信语气呈现，医生难以察觉；近半数健康问题回答存在缺陷；此外，监管与责任归属问题尚未明确。研究人员强调，相关风险目前既未被充分量化，也未得到有效控制，需要通过前瞻性临床试验进一步验证。

来源：Spectrum

0赞

好文章，需要你的鼓励

AI聊天机器人能否像医生一样进行临床推理？

来源：Spectrum

2026

05/15

14:57

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

Hermes智能体：基于NVIDIA RTX与DGX Spark的自我进化AI框架

Adobe Premiere即将登陆Android平台，谷歌披露更多细节

OpenAI Sora停服后，AI视频生成应用市场迎来新竞争者

Automated Tire发布SmartBay：AI驱动的汽车轮胎机器人服务平台

Alexa Plus正式入驻Amazon.com，重塑AI购物体验

实时GPU租赁挂牌价格揭示早期价格压缩趋势

AI求职诈骗正在愚弄聪明人，你需要了解这些防骗技巧

老牌社交新闻网站Digg重启，转型为AI新闻聚合平台

AMD：在现有基础设施上运行企业级AI

Anthropic产品负责人Cat Wu：AI未来将在你开口前就预判你的需求

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: