计算机辅助临床决策的构想由来已久,早期系统通常依托人工编写的规则库,涵盖症状识别、检测阈值与药物相互作用等内容。随着人工智能技术的持续演进,临床推理自然成为重要的应用方向。
根据4月30日发表于《科学》期刊的一项研究,OpenAI的大语言模型在多项临床推理任务中,基于真实急诊室病历的表现已超越医生。
这一发现出现在医疗聊天机器人领域争议不断的背景之下——部分研究显示其诊断表现令人印象深刻,另一些研究则记录了伪造引用、错误建议,以及随评分方式不同而产生差异的结果。尽管存在诸多不确定性,面向医疗专业人员的相关产品已开始进入市场。例如,OpenAI今年推出了面向临床医生和医疗机构的ChatGPT版本。
被测试的模型o1-preview虽已被更新版本取代,但其表现足够令人振奋,研究人员建议在真实病例中对大语言模型展开进一步测试,并在特定诊断节点引导医生寻求AI辅助的第二意见。
在纽约伊坎医学院从事AI医学影像研究的Mickael Tordjman认为,当前正是聚焦真实世界应用研究的恰当时机。"我们需要更多来自前瞻性临床试验的证据,"他说,"更新的大语言模型,或专门针对医疗用途训练的模型,或许能取得更好的表现。"
尽管《科学》论文的作者在新闻发布会上对AI的医疗潜力持乐观态度,但他们也强调了大语言模型的重要局限性,并对研究结果可能遭到误读表达了担忧。"我认为我们的研究结果并不意味着AI将取代医生,"共同作者、哈佛医学院AI研究者Arjun Manrai表示。
"我认为这真的很酷,别误会我的意思,"波士顿Beth Israel Deaconess医疗中心的医学教育者、共同作者Adam Rodman说,"但这些结果可能会被如何使用,让我有些不安。"
其他研究聊天机器人医疗建议的学者近期也发现了质疑其可信度的理由。例如,在一项研究中,五款主流聊天机器人对开放性健康问题的回答中,近半数存在缺陷,机器人会捏造信息和引用文献,且无论准确与否,均以自信的语气呈现答案。
"这些模型每天都在被使用,其中存在一定风险,但这些风险既未被量化,也未得到有效控制,"在另一哈佛研究团队中从事AI医疗实践研究的Arya Rao说。
目前大量研究聚焦于聊天机器人回答普通用户的健康咨询——即人们在决定是否就医前可能提出的问题。而将大语言模型作为面向医生的临床决策支持工具,则是完全不同的任务场景。医生应更清楚哪些信息有助于大语言模型做出准确诊断或制定治疗方案,并具备识别明显错误的专业背景知识。
然而,即便是医生,识别"幻觉"内容仍可能是一大挑战。"模型无论对错,表现都同样令人信服,"Rodman说,"我们需要找到错误率低的工作流程。"
即便是专注于面向医生的临床推理任务的研究,也可能因研究者对"成功"的定义不同而得出迥异的结论。4月13日发表于JAMA Network的一篇论文中,Rao及其同事对21个大语言模型进行了与《科学》论文类似的临床推理任务测试。与《科学》论文一致,许多模型在最终诊断上表现良好,包括o1系列的聊天机器人。然而,Rao在鉴别诊断问题上对大语言模型给出了较低评分,因为她采用了不同的评估体系。
在鉴别诊断中,医生需要列出患者症状的所有可能病因。一个大语言模型可能在7个可能的最终诊断中正确列出6个,这既可以被合理地评为86%,也可以像Rao的评分体系那样,被判定为不可接受的失败。
目前,业界尚无统一的评分标准。"这仍是一项进行中的工作,"Tordjman说,"目前没有评估大语言模型临床推理能力的完美方式。"
在《科学》研究中,研究人员使用多组医学案例集对OpenAI模型进行了测试,这些案例类似于难度较高的开放式医学考试题。给聊天机器人的指令有时篇幅较长,其中充满可能是无关信息或关键诊断线索的细节。
"我们进一步证明了这种表现同样适用于真实世界,"Rodman表示。研究中有一部分使用了来自76例真实急诊就诊的数据。研究人员要求大语言模型和医生在多个诊疗阶段分别给出诊断:患者到达急诊室时、医生完成评估后,以及转至院内其他科室后。尽管随着信息量的增加,计算机和人类的准确率均有所提升,但大语言模型始终略胜一筹。例如,在最终检查点,该模型给出"精确或非常接近"诊断的比例为82%,而两位医生分别为79%和70%。
我们所熟知的大语言模型诞生至今不足十年,整个领域正在快速演变。主流大语言模型的更新版本发布速度,已超出医学研究和学术文献的通常发表节奏,而有关监管与责任归属的诸多问题仍悬而未决。鉴于众多患者和医生已在日常中使用这些工具,研究人员向IEEE Spectrum表示,迫切需要了解其优势、风险以及最佳使用方式。
尽管将AI表现与人类医生进行比较对研究至关重要,Manrai认为更关键的问题在于医生将如何实际使用这项技术。"我们必须迅速从'AI对战人类'的框架中走出来,转向思考人类如何与这项技术协同互动,"他说。
面对诸多悬而未决的问题,哈佛的Rao表示,技术发展速度之快,让医学界无法坐视不理。"我认为谨慎和评估固然重要,但创新或许更为迫切,"她说,"我们不想泼冷水——我们认为负责任的创新才是正确方向。"
Q&A
Q1:大语言模型在临床推理方面表现如何?
A:根据2025年4月发表于《科学》期刊的研究,OpenAI的o1-preview模型在基于真实急诊室病历的多项临床推理任务中超越了医生。在最终诊断节点,该模型给出精确或接近正确诊断的比例为82%,两位医生分别为79%和70%。随着诊疗过程中信息量的增加,模型与医生的准确率均有提升,但模型始终保持领先。
Q2:评估大语言模型临床推理能力有没有统一标准?
A:目前尚无统一的评估标准。不同研究团队采用不同评分体系,可能导致结论差异显著。例如,在鉴别诊断评分上,同样是7个可能诊断中答对6个,有的体系评为86%,有的则判定为不可接受的失败。研究人员普遍认为,建立标准化评估方法仍是一项亟待完成的工作。
Q3:大语言模型在医疗应用中有哪些主要风险?
A:主要风险包括:模型可能产生"幻觉",即捏造信息或引用文献,且无论对错均以自信语气呈现,医生难以察觉;近半数健康问题回答存在缺陷;此外,监管与责任归属问题尚未明确。研究人员强调,相关风险目前既未被充分量化,也未得到有效控制,需要通过前瞻性临床试验进一步验证。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。