Mayo Clinic 对抗 AI 幻觉的秘密武器:反向 RAG 实践

Mayo 诊所采用创新的反向 RAG 技术来解决 AI 模型在医疗领域出现幻觉的问题。该技术将 AI 生成的每个数据点都链接回原始数据源,有效消除了非诊断场景中的数据检索幻觉。这使 Mayo 诊所能够在临床实践中更广泛地应用 AI 模型,大大提高了工作效率,同时确保了信息的准确性和可信度。

尽管大语言模型 (LLM) 变得越来越复杂和强大,但它们仍然存在幻觉问题:提供不准确的信息,或者更直白地说,就是在撒谎。

这在医疗保健等领域尤其有害,因为错误信息可能会带来严重后果。

作为美国顶级医院之一的 Mayo Clinic 采用了一种新颖的技术来应对这一挑战。为了取得成功,该医疗机构必须克服检索增强生成 (RAG) 的局限性。这是大语言模型从特定相关数据源获取信息的过程。该医院采用了本质上是反向 RAG 的方法,模型先提取相关信息,然后将每个数据点链接回其原始源内容。

remarkably,这种方法在非诊断用例中几乎消除了所有基于数据检索的幻觉,使 Mayo 能够在其临床实践中推广该模型。

"通过这种通过链接引用源信息的方法,数据提取不再是问题,"Mayo 的战略医疗主任兼放射科主任 Matthew Callstrom 告诉 VentureBeat。

处理每一个数据点 处理医疗保健数据是一个复杂的挑战,也可能是一个耗时的过程。虽然电子健康记录 (EHR) 中收集了大量数据,但数据可能非常难以查找和解析。

Mayo 在处理所有这些数据时首先使用 AI 的场景是出院总结 (包含术后护理提示的就诊总结),其模型使用传统的 RAG。正如 Callstrom 所解释的,这是一个自然的起点,因为它只是简单的提取和总结,这正是 LLM 擅长的领域。

"在第一阶段,我们不是在试图得出诊断结果,比如向模型询问'现在对这个病人来说最好的下一步是什么?',"他说。

幻觉的危险也远不如在医生辅助场景中那么显著;这并不是说数据检索错误不令人困惑。

"在我们最初的几次迭代中,我们遇到了一些明显无法容忍的有趣幻觉,比如病人年龄错误,"Callstrom 说。"所以你必须谨慎构建。"

虽然 RAG 是增强 LLM 能力的关键组件,但该技术有其局限性。模型可能检索到不相关、不准确或低质量的数据;无法确定信息是否与人类提问相关;或创建与请求格式不匹配的输出(如返回简单文本而不是详细表格)。

虽然这些问题有一些解决方案——比如使用知识图谱提供上下文的图形 RAG,或者评估检索文档质量的纠正型 RAG (CRAG)——但幻觉问题并未消除。

引用每个数据点 这就是反向 RAG 过程发挥作用的地方。具体来说,Mayo 将聚类使用代表 (CURE) 算法与 LLM 和向量数据库配对,以双重检查数据检索。

聚类对机器学习 (ML) 至关重要,因为它基于相似性或模式组织、分类和分组数据点。这本质上帮助模型"理解"数据。CURE 通过层次技术超越了典型的聚类,使用距离度量基于邻近度对数据进行分组(想象:相互靠近的数据比远离的数据更相关)。该算法能够检测"异常值",即与其他数据不匹配的数据点。

结合 CURE 和反向 RAG 方法,Mayo 的 LLM 将生成的总结分解成单独的事实,然后将这些事实与源文档匹配。第二个 LLM 然后对事实与这些源的对齐程度进行评分,特别是两者之间是否存在因果关系。

"任何数据点都会被引用回原始实验室源数据或影像报告,"Callstrom 说。"系统确保引用是真实的且准确检索的,有效解决了大多数与检索相关的幻觉。"

Callstrom 的团队首先使用向量数据库摄入病历,以便模型可以快速检索信息。他们最初使用本地数据库进行概念验证 (POC);生产版本是带有 CURE 算法逻辑的通用数据库。

"医生非常谨慎,他们想确保他们不会被提供不可信的信息,"Callstrom 解释说。"所以对我们来说,信任意味着验证任何可能作为内容呈现的东西。"

Mayo 实践中的"巨大兴趣" CURE 技术在综合新病历方面也证明了其用处。详述患者复杂问题的外部记录可能有不同格式的"大量"数据内容,Callstrom 解释说。这些需要被审查和总结,以便临床医生在首次见到患者之前熟悉情况。

"我总是把外部医疗记录描述为有点像电子表格:你不知道每个单元格里有什么,你必须查看每一个来提取内容,"他说。

但现在,LLM 进行提取、分类材料并创建患者概述。通常,这项任务可能占用医生一天中约 90 分钟的时间,但 AI 可以在大约 10 分钟内完成,Callstrom 说。

他描述了在 Mayo 实践中扩展这一能力以帮助减轻行政负担和挫折感的"巨大兴趣"。

"我们的目标是简化内容处理——我如何增强医生的能力并简化他们的工作?"他说。

用 AI 解决更复杂的问题 当然,Callstrom 和他的团队看到了 AI 在更高级领域的巨大潜力。例如,他们与 Cerebras Systems 合作构建了一个基因组模型,用于预测哪种关节炎治疗对患者最有效,并且还在与 Microsoft 合作开发图像编码器和影像基础模型。

他们与 Microsoft 的第一个影像项目是胸部 X 光。到目前为止,他们已经转换了 150 万张 X 光片,并计划在下一轮转换另外 1100 万张。Callstrom 解释说,构建图像编码器并不特别困难;复杂性在于使结果图像真正有用。

理想情况下,目标是简化 Mayo 医生审查胸部 X 光的方式并增强他们的分析。例如,AI 可能识别插入气管内导管或中心静脉导管以帮助患者呼吸的位置。"但这可以更广泛,"Callstrom 说。例如,医生可以解锁其他内容和数据,如从胸部 X 光简单预测射血分数——或从心脏泵出的血液量。

"现在你可以开始考虑更广泛尺度上的治疗反应预测,"他说。

Mayo 在基因组学(DNA 研究)以及其他"组学"领域,如蛋白质组学(蛋白质研究)方面也看到了"令人难以置信的机遇"。AI 可以支持基因转录(复制 DNA 序列的过程),创建与其他患者的参考点,帮助为复杂疾病建立风险档案或治疗路径。

"所以你基本上是将患者与其他患者进行映射,围绕一个队列建立每个患者,"Callstrom 解释说。"这就是个性化医疗真正要提供的:'你看起来像这些其他患者,这是我们应该治疗你以看到预期结果的方式。'目标实际上是在我们使用这些工具时让医疗保健回归人性。"

但 Callstrom 强调,诊断方面的一切都需要更多工作。证明基因组学的基础模型适用于类风湿性关节炎是一回事;在临床环境中实际验证则是另一回事。研究人员必须从测试小数据集开始,然后逐步扩大测试组并与常规或标准治疗进行比较。

"你不会立即说'嘿,让我们跳过甲氨蝶呤'[一种常用的类风湿性关节炎药物],"他指出。

最终:"我们认识到这些[模型]有令人难以置信的能力,可以真正改变我们护理患者和以有意义的方式诊断的方式,使护理更以患者为中心或更具患者特异性,而不是标准治疗,"Callstrom 说。"我们关注的是在患者护理中处理的复杂数据。"

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

03/10

17:33

分享

点赞

邮件订阅