别让AI当你的私人医生！早期诊断错误率高达80%

哈佛医学生Arya Rao领导的研究团队在《JAMA Network Open》发表研究，测试了21款主流AI模型在29个标准临床案例中的表现。结果显示，AI在完整信息下进行最终诊断时准确率高达91%，但在早期鉴别诊断阶段失败率超过80%。研究者警告，AI常在缺乏可靠推理的情况下表现得过于自信，不应在未经专业医生审核的情况下用于患者自我诊断。

人们会向AI寻求各种建议，包括那些本该去问医生的问题。然而，下次当你想对着ChatGPT询问脸上的肿块是否是皮肤癌时，请先了解这样一个事实：研究显示，当前主流AI模型在早期鉴别诊断中，超过80%的情况下都会给出错误答案。

由哈佛大学医学生Arya Rao领衔的研究团队，本周在《JAMA Network Open》期刊上发表了一项研究成果。该研究针对21款主流现成AI模型，在29个标准化临床病例情境中展开了系统测试。结果显示，当这些模型获得完整的医疗信息并被要求给出最终诊断时，表现普遍不错，主流模型的准确率高达91%。然而，在早期鉴别诊断阶段——即医生需要在多种可能性之间权衡、逐步排除某些病症的过程中——超过80%的失败率便暴露出来了。

"我们测试的每一个模型，在绝大多数案例中都失败了，"Rao在一封电子邮件中告诉The Register，"那个阶段不确定性最强，而恰恰就是这些系统最薄弱的地方。"

换句话说，这不过是昨日那个让人焦虑到深夜、在WebMD上越查越慌的经历换了一个面孔重演，只是如今被AI加持，反而可能比你自己判断时更容易出错。

"我们的研究结果表明，在没有经过系统性、全面的人工审核的情况下，目前的现成大语言模型不应被用于面向患者的诊断推理，在患者自我诊断场景中同样存在显著局限，"论文共同作者、麻省总医院放射科医生Marc Succi博士在给我们的邮件中如此表示。

"这些模型可能在缺乏严密推理的情况下仍显得信心十足，在鉴别诊断环节尤为如此，"Succi补充道，他还指出，这种表面上的自信可能进一步加剧本就有焦虑情绪的患者的担忧。

Rao也指出，论文中所说的"失败"，并不一定意味着AI完全给出了错误答案，只是没能提供完全正确的答案。她表示，若按照每个案例中各项答对比例的原始准确率来衡量，各模型的得分在63%至78%之间，远高于论文中那个更严格的失败率指标所呈现的结果。

这些原始数据显示，"模型通常只答对了一部分，而非全部正确答案——即便按照更严格的失败率定义，它们被视为失败，实际上也往往是部分正确的，"Rao告诉我们。

尽管如此，研究团队仍坚持认为，那个更严格的失败率定义同样值得重视——尤其是在当下，AI正被大力推广为前线医疗智能体，宣称能在将患者转交给人类医生进行进一步诊断之前，先行缩小诊断范围。

"将大语言模型营销为诊断智能体，恰恰在其最不可靠的地方制造了虚假的信心，"研究团队指出，"在生成鉴别诊断和应对不确定性方面持续出现的失误，说明大语言模型尚不能在前线决策中被信任。"

Succi还表示，最终诊断中较高的成功率并不应该让人放心，他警告称，这类数据可能营造出一种对模型能力的误导性安全感。

"真实的临床推理从更早的阶段就开始了，那时的不确定性最高，而这恰恰是模型最薄弱的地方，"Succi说，"即便最终得出了正确答案，错误的鉴别诊断路径也可能导致延误治疗、进行不必要且存在风险的检查、造成高额费用，以及更多其他问题。"

总而言之，下次当你为某个健康问题辗转焦虑时，别急着上网查，除非你是在找医生的联系方式，以便得到一位真正的人类医生作出的专业诊断。AI，还没准备好。

Q&A

Q1：AI在医疗诊断中的准确率到底有多高？

A：研究显示，当AI获得完整医疗信息并作出最终诊断时，主流模型准确率可达91%。但在早期鉴别诊断阶段，超过80%的案例中AI会给出不完全正确的答案。若按原始准确率衡量，各模型得分在63%至78%之间。

Q2：为什么AI的早期鉴别诊断能力比最终诊断差那么多？

A：早期鉴别诊断需要在信息不完整、不确定性最高的阶段，权衡多种可能性并逐步排除部分病症。研究人员指出，AI模型往往在缺乏严密推理的情况下仍表现出过度自信，无法有效处理高度模糊的临床场景，这正是其最薄弱的环节。

Q3：现在可以用大语言模型辅助患者自我诊断吗？

A：目前不建议。研究团队明确指出，现成的大语言模型在没有经过系统性人工审核的情况下，不应用于面向患者的诊断推理。错误的鉴别诊断路径可能导致延误治疗、不必要的医疗操作及高额费用，患者应寻求专业医生的诊断。

来源：The Register

0赞

好文章，需要你的鼓励

别让AI当你的私人医生！早期诊断错误率高达80%

来源：The Register

2026

04/16

09:51

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Anthropic Project Glasswing究竟发现了多少漏洞？

Google正式推出面向macOS平台的Gemini独立应用

科学家用AI绘制高精度洋流分布图

我体验了谷歌Windows桌面新应用，从此再也不想用旧搜索方式了

OpenAI接连退出两项欧洲Stargate数据中心合作

Parasail完成3200万美元融资，推出按Token计费的AI推理云平台

谷歌Gemini 3.1 Flash TTS模型：带来对AI语音前所未有的精细控制

苹果计划送Siri工程师参加AI编程训练营

我如何用AI追赶流行文化潮流

Meta与博通深化定制AI芯片合作，部署规模达数吉瓦

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会