人们会向AI寻求各种建议,包括那些本该去问医生的问题。然而,下次当你想对着ChatGPT询问脸上的肿块是否是皮肤癌时,请先了解这样一个事实:研究显示,当前主流AI模型在早期鉴别诊断中,超过80%的情况下都会给出错误答案。
由哈佛大学医学生Arya Rao领衔的研究团队,本周在《JAMA Network Open》期刊上发表了一项研究成果。该研究针对21款主流现成AI模型,在29个标准化临床病例情境中展开了系统测试。结果显示,当这些模型获得完整的医疗信息并被要求给出最终诊断时,表现普遍不错,主流模型的准确率高达91%。然而,在早期鉴别诊断阶段——即医生需要在多种可能性之间权衡、逐步排除某些病症的过程中——超过80%的失败率便暴露出来了。
"我们测试的每一个模型,在绝大多数案例中都失败了,"Rao在一封电子邮件中告诉The Register,"那个阶段不确定性最强,而恰恰就是这些系统最薄弱的地方。"
换句话说,这不过是昨日那个让人焦虑到深夜、在WebMD上越查越慌的经历换了一个面孔重演,只是如今被AI加持,反而可能比你自己判断时更容易出错。
"我们的研究结果表明,在没有经过系统性、全面的人工审核的情况下,目前的现成大语言模型不应被用于面向患者的诊断推理,在患者自我诊断场景中同样存在显著局限,"论文共同作者、麻省总医院放射科医生Marc Succi博士在给我们的邮件中如此表示。
"这些模型可能在缺乏严密推理的情况下仍显得信心十足,在鉴别诊断环节尤为如此,"Succi补充道,他还指出,这种表面上的自信可能进一步加剧本就有焦虑情绪的患者的担忧。
Rao也指出,论文中所说的"失败",并不一定意味着AI完全给出了错误答案,只是没能提供完全正确的答案。她表示,若按照每个案例中各项答对比例的原始准确率来衡量,各模型的得分在63%至78%之间,远高于论文中那个更严格的失败率指标所呈现的结果。
这些原始数据显示,"模型通常只答对了一部分,而非全部正确答案——即便按照更严格的失败率定义,它们被视为失败,实际上也往往是部分正确的,"Rao告诉我们。
尽管如此,研究团队仍坚持认为,那个更严格的失败率定义同样值得重视——尤其是在当下,AI正被大力推广为前线医疗智能体,宣称能在将患者转交给人类医生进行进一步诊断之前,先行缩小诊断范围。
"将大语言模型营销为诊断智能体,恰恰在其最不可靠的地方制造了虚假的信心,"研究团队指出,"在生成鉴别诊断和应对不确定性方面持续出现的失误,说明大语言模型尚不能在前线决策中被信任。"
Succi还表示,最终诊断中较高的成功率并不应该让人放心,他警告称,这类数据可能营造出一种对模型能力的误导性安全感。
"真实的临床推理从更早的阶段就开始了,那时的不确定性最高,而这恰恰是模型最薄弱的地方,"Succi说,"即便最终得出了正确答案,错误的鉴别诊断路径也可能导致延误治疗、进行不必要且存在风险的检查、造成高额费用,以及更多其他问题。"
总而言之,下次当你为某个健康问题辗转焦虑时,别急着上网查,除非你是在找医生的联系方式,以便得到一位真正的人类医生作出的专业诊断。AI,还没准备好。
Q&A
Q1:AI在医疗诊断中的准确率到底有多高?
A:研究显示,当AI获得完整医疗信息并作出最终诊断时,主流模型准确率可达91%。但在早期鉴别诊断阶段,超过80%的案例中AI会给出不完全正确的答案。若按原始准确率衡量,各模型得分在63%至78%之间。
Q2:为什么AI的早期鉴别诊断能力比最终诊断差那么多?
A:早期鉴别诊断需要在信息不完整、不确定性最高的阶段,权衡多种可能性并逐步排除部分病症。研究人员指出,AI模型往往在缺乏严密推理的情况下仍表现出过度自信,无法有效处理高度模糊的临床场景,这正是其最薄弱的环节。
Q3:现在可以用大语言模型辅助患者自我诊断吗?
A:目前不建议。研究团队明确指出,现成的大语言模型在没有经过系统性人工审核的情况下,不应用于面向患者的诊断推理。错误的鉴别诊断路径可能导致延误治疗、不必要的医疗操作及高额费用,患者应寻求专业医生的诊断。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。