尽管大语言模型 (LLM) 变得越来越复杂和强大,但它们仍然存在幻觉问题:提供不准确的信息,或者更直白地说,就是在撒谎。
这在医疗保健等领域尤其有害,因为错误信息可能会带来严重后果。
作为美国顶级医院之一的 Mayo Clinic 采用了一种新颖的技术来应对这一挑战。为了取得成功,该医疗机构必须克服检索增强生成 (RAG) 的局限性。这是大语言模型从特定相关数据源获取信息的过程。该医院采用了本质上是反向 RAG 的方法,模型先提取相关信息,然后将每个数据点链接回其原始源内容。
remarkably,这种方法在非诊断用例中几乎消除了所有基于数据检索的幻觉,使 Mayo 能够在其临床实践中推广该模型。
"通过这种通过链接引用源信息的方法,数据提取不再是问题,"Mayo 的战略医疗主任兼放射科主任 Matthew Callstrom 告诉 VentureBeat。
处理每一个数据点 处理医疗保健数据是一个复杂的挑战,也可能是一个耗时的过程。虽然电子健康记录 (EHR) 中收集了大量数据,但数据可能非常难以查找和解析。
Mayo 在处理所有这些数据时首先使用 AI 的场景是出院总结 (包含术后护理提示的就诊总结),其模型使用传统的 RAG。正如 Callstrom 所解释的,这是一个自然的起点,因为它只是简单的提取和总结,这正是 LLM 擅长的领域。
"在第一阶段,我们不是在试图得出诊断结果,比如向模型询问'现在对这个病人来说最好的下一步是什么?',"他说。
幻觉的危险也远不如在医生辅助场景中那么显著;这并不是说数据检索错误不令人困惑。
"在我们最初的几次迭代中,我们遇到了一些明显无法容忍的有趣幻觉,比如病人年龄错误,"Callstrom 说。"所以你必须谨慎构建。"
虽然 RAG 是增强 LLM 能力的关键组件,但该技术有其局限性。模型可能检索到不相关、不准确或低质量的数据;无法确定信息是否与人类提问相关;或创建与请求格式不匹配的输出(如返回简单文本而不是详细表格)。
虽然这些问题有一些解决方案——比如使用知识图谱提供上下文的图形 RAG,或者评估检索文档质量的纠正型 RAG (CRAG)——但幻觉问题并未消除。
引用每个数据点 这就是反向 RAG 过程发挥作用的地方。具体来说,Mayo 将聚类使用代表 (CURE) 算法与 LLM 和向量数据库配对,以双重检查数据检索。
聚类对机器学习 (ML) 至关重要,因为它基于相似性或模式组织、分类和分组数据点。这本质上帮助模型"理解"数据。CURE 通过层次技术超越了典型的聚类,使用距离度量基于邻近度对数据进行分组(想象:相互靠近的数据比远离的数据更相关)。该算法能够检测"异常值",即与其他数据不匹配的数据点。
结合 CURE 和反向 RAG 方法,Mayo 的 LLM 将生成的总结分解成单独的事实,然后将这些事实与源文档匹配。第二个 LLM 然后对事实与这些源的对齐程度进行评分,特别是两者之间是否存在因果关系。
"任何数据点都会被引用回原始实验室源数据或影像报告,"Callstrom 说。"系统确保引用是真实的且准确检索的,有效解决了大多数与检索相关的幻觉。"
Callstrom 的团队首先使用向量数据库摄入病历,以便模型可以快速检索信息。他们最初使用本地数据库进行概念验证 (POC);生产版本是带有 CURE 算法逻辑的通用数据库。
"医生非常谨慎,他们想确保他们不会被提供不可信的信息,"Callstrom 解释说。"所以对我们来说,信任意味着验证任何可能作为内容呈现的东西。"
Mayo 实践中的"巨大兴趣" CURE 技术在综合新病历方面也证明了其用处。详述患者复杂问题的外部记录可能有不同格式的"大量"数据内容,Callstrom 解释说。这些需要被审查和总结,以便临床医生在首次见到患者之前熟悉情况。
"我总是把外部医疗记录描述为有点像电子表格:你不知道每个单元格里有什么,你必须查看每一个来提取内容,"他说。
但现在,LLM 进行提取、分类材料并创建患者概述。通常,这项任务可能占用医生一天中约 90 分钟的时间,但 AI 可以在大约 10 分钟内完成,Callstrom 说。
他描述了在 Mayo 实践中扩展这一能力以帮助减轻行政负担和挫折感的"巨大兴趣"。
"我们的目标是简化内容处理——我如何增强医生的能力并简化他们的工作?"他说。
用 AI 解决更复杂的问题 当然,Callstrom 和他的团队看到了 AI 在更高级领域的巨大潜力。例如,他们与 Cerebras Systems 合作构建了一个基因组模型,用于预测哪种关节炎治疗对患者最有效,并且还在与 Microsoft 合作开发图像编码器和影像基础模型。
他们与 Microsoft 的第一个影像项目是胸部 X 光。到目前为止,他们已经转换了 150 万张 X 光片,并计划在下一轮转换另外 1100 万张。Callstrom 解释说,构建图像编码器并不特别困难;复杂性在于使结果图像真正有用。
理想情况下,目标是简化 Mayo 医生审查胸部 X 光的方式并增强他们的分析。例如,AI 可能识别插入气管内导管或中心静脉导管以帮助患者呼吸的位置。"但这可以更广泛,"Callstrom 说。例如,医生可以解锁其他内容和数据,如从胸部 X 光简单预测射血分数——或从心脏泵出的血液量。
"现在你可以开始考虑更广泛尺度上的治疗反应预测,"他说。
Mayo 在基因组学(DNA 研究)以及其他"组学"领域,如蛋白质组学(蛋白质研究)方面也看到了"令人难以置信的机遇"。AI 可以支持基因转录(复制 DNA 序列的过程),创建与其他患者的参考点,帮助为复杂疾病建立风险档案或治疗路径。
"所以你基本上是将患者与其他患者进行映射,围绕一个队列建立每个患者,"Callstrom 解释说。"这就是个性化医疗真正要提供的:'你看起来像这些其他患者,这是我们应该治疗你以看到预期结果的方式。'目标实际上是在我们使用这些工具时让医疗保健回归人性。"
但 Callstrom 强调,诊断方面的一切都需要更多工作。证明基因组学的基础模型适用于类风湿性关节炎是一回事;在临床环境中实际验证则是另一回事。研究人员必须从测试小数据集开始,然后逐步扩大测试组并与常规或标准治疗进行比较。
"你不会立即说'嘿,让我们跳过甲氨蝶呤'[一种常用的类风湿性关节炎药物],"他指出。
最终:"我们认识到这些[模型]有令人难以置信的能力,可以真正改变我们护理患者和以有意义的方式诊断的方式,使护理更以患者为中心或更具患者特异性,而不是标准治疗,"Callstrom 说。"我们关注的是在患者护理中处理的复杂数据。"
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。