我们正式推出全新的智能体RAG框架。该框架由谷歌研究院与谷歌云联合打造,采用多智能体工作流,突破了标准RAG的局限,能够拆解复杂的企业查询请求,并通过迭代搜索获取充分上下文,最终生成可靠的响应结果。
现有单步检索增强生成(RAG)系统的局限
当前的单步RAG系统并非为现代商业工作流中的多源、多跳查询场景而设计。举例来说,当用户提问"X项目所用服务器的规格参数是什么?"时,系统或许能找到X项目的相关文档,但这些文档可能只记录了一个服务器ID。系统不会主动利用该ID在另一个数据库中发起第二次搜索来查找规格信息。由于所需信息分散在不同的"数据孤岛"中,需要进行更深层次的探索才能获取,最终往往只能得到片面的答案,甚至是"未找到"的回应。
智能体RAG的核心价值
智能体RAG能够主动规划、推理,并与数据源进行迭代交互,从而处理复杂查询,显著提升响应的可靠性和准确性。
今天,我们很高兴正式推出谷歌Gemini企业智能体平台托管版本的智能体RAG跨语料库检索功能。与其他多智能体RAG框架类似,我们的系统由多个智能体协同工作,可靠地回答复杂查询。区别在于,我们的框架引入了"充分上下文"机制,用于确认当前信息是否足以支撑准确作答。与标准RAG相比,我们的框架在事实性数据集上的准确率最高可提升34%。我们还使用内部专有数据集对系统进行了评估,结果表明,在多个特定领域任务中,系统实现了更好的事实锚定与更高的推理准确率。
多智能体RAG的工作机制
理解多智能体RAG,不妨将其类比为一个组织严密的研究部门,而非单一的搜索引擎。在传统的"单体式"或"基础版"RAG系统中,检索组件仅根据问题查找匹配文档,再由大语言模型生成响应。
在多智能体框架中,系统将任务拆解为若干专项角色分工协作:
我们新框架的核心差异在于持续性搜索能力。与其他RAG方案相比,我们的框架能够感知信息缺失并持续搜索,直至上下文完整为止。这一机制有效避免了首次搜索无果时AI进行"猜测"的情况,也避免了直接给出"信息不足"这类无效回答。尽管在某些情境下这类回答是合理的,但很多时候所需信息确实存在,只是尚未被找到。
医疗场景实例解析
以一名医生查询患者信息为例:
"John Doe膝关节手术后的出院用药和饮食限制是什么?住院期间是否出现过过敏反应?不包括仅在住院或急诊期间使用的药物,但肝素静脉滴注和替奈普酶除外。"
面对这一查询,我们的框架将启动多个专项智能体。
根智能体负责解析医生的请求并分配任务给各子智能体。规划智能体识别出需要检索三个独立领域的信息:药房、营养和临床记录。查询改写器将复杂的长请求拆分为简洁、可搜索的子问题,帮助检索器更精准地定位相关内容。
RAG智能体同步检索患者记录中所有拆解出的查询方向,找到了用药信息和饮食信息,但在最明显的文件中未能检索到任何关于过敏反应的记录。在标准或"基础版"RAG系统中,流程可能到此结束,输出一个不完整的答案。
充分上下文智能体的质量把关机制
充分上下文智能体的作用类似于流水线末端的质检员,在允许生成响应之前,会对以下三个具体发现逐一审查:
首先,充分上下文智能体评估RAG智能体从数据库中检索到的实际文本片段。在上述医疗示例中,这些片段可能是"出院小结"和"营养记录"中的具体段落,系统会逐一阅读,判断其中是否包含回答查询所需的信息。
其次,系统还会生成一份"草稿回答",充分上下文智能体随即对提示词、草稿及检索片段进行综合评估,判断模型是否具备提供全面、有据可查答案的条件。若提示词要求回答三项内容(用药、饮食、过敏),但检索片段仅涵盖两项,充分上下文智能体则将其标记为"上下文不足"。
这是最关键的一步:充分上下文智能体会精确定位缺失内容,不只是输出"信息不足"的判断,而是生成具体的"原因"和"反馈"日志。例如:
发现:"已获取用药清单和低钠饮食说明。"
缺口:"源文档中缺少关于住院期间过敏反应或不良事件的信息。"
充分上下文智能体将已获取信息与原始请求进行比对:"过敏问题是否已得到解答?"若答案为否,则发出"上下文不足"信号,并提供具体反馈:"用药和饮食信息已找到,但过敏信息缺失,请针对'皮疹'或'不良事件'重新搜索。"在多源场景下,它还可以请求补充信息,或判断某一来源与查询无关。
基于充分上下文智能体的反馈,查询改写器生成新的搜索词"皮疹",RAG智能体随即深入检索此前未涉及的文件,找到了缺失的过敏信息。充分上下文智能体对数据进行最终核验,确认用药、饮食和过敏信息均已齐备,从而停止搜索。最终,合成智能体为医生生成一份清晰、准确的摘要。
基准测试与实验结果
我们在FramesQA数据集上对智能体RAG进行了评估,该数据集基于FRAMES论文构建。一个典型的多跳问题示例如下:
"截至2024年6月,收视率最高的两部电视季终集中,哪部时长最长?长出多少?"
要回答这个问题,RAG系统需要完成多个推理步骤:首先识别出收视率最高的两部终集分别来自《陆军野战医院》和《干杯》,然后查找各自的播出时长,最后计算时长差值。在许多RAG配置下(基础版RAG或无充分上下文机制的智能体RAG),模型可能会给出如下回答:
"尽管进行了多次检索,未能找到《陆军野战医院》或《干杯》的明确播出时长,文档仅提供了收视数据,未包含以分钟或小时计的播出时长。"
这并未真正回答问题。
而我们的智能体RAG能够有效解决这一问题:先搜索相关电视剧,再由查询改写器和充分上下文智能体发起针对《陆军野战医院》和《干杯》播出时长的定向搜索,最终由Gemini得出准确结论:
"《陆军野战医院》终集时长为150分钟,是两部终集中最长的,比时长约98分钟的《干杯》终集多出52分钟。"
我们进行了大规模实验验证(FramesQA包含824条查询及2676份PDF文档构成的语料库)。在"基础版"RAG设置中,我们使用谷歌RAG引擎(配备高级检索引擎、大语言模型解析器和重排序器)作为对比基准。我们在两种配置下对智能体RAG进行测试:单语料库设置(仅从FramesQA文档中检索)和跨语料库设置(另引入三个干扰数据集,规划智能体需自主判断从哪个语料库检索)。跨语料库设置模拟了企业中多个团队分别管理各自数据库的真实场景。准确率的计算采用大语言模型作为裁判,将系统响应与数据集中的标准答案进行比对。
在跨语料库设置下,我们的系统准确率与单语料库设置基本持平。即便规划智能体需要从4个候选语料库中选择正确来源,系统仍能准确路由搜索查询,正确回答率高达90.1%。此外,单语料库和跨语料库两个版本的延迟几乎相同(平均差异在3%以内)。这充分证明,我们的智能体RAG系统具备跨多个异构数据源的推理能力,为更灵活的检索场景提供了广阔的应用空间。
总结与展望
通过融合高级查询规划、智能路由与充分上下文机制,我们的智能体RAG系统确保AI生成的响应具备可审计性、可溯源性和事实锚定性。我们期待机器学习社区充分利用这些全新的智能体能力,共同构建下一代可靠AI系统。该功能现已作为公开预览版在Gemini企业智能体平台上正式上线。
本项目由李波、毛中杰、Jin Tiger、Kan Yuhong、Mohd Abdullah(Obito)、Ferng Chun-Sung、Mortazavi Pooneh、Yu Roger(鹏)、Eran Lewis和Ivan Kuznetsov共同完成。我们感谢Kimberly Schwede负责图表设计,Mark Simborg提供写作支持,同时感谢各位关键企业合作伙伴提供的宝贵用户反馈、数据与洞察。
Q&A
Q1:智能体RAG和普通RAG有什么区别?
A:普通RAG只做一次检索就生成答案,遇到跨多个数据源或需要多步推理的问题时容易出现信息缺失。智能体RAG通过多个专项智能体协作,能够拆解复杂问题、迭代搜索,并通过"充分上下文智能体"判断信息是否完整,不足时会继续搜索,直到获取完整信息再生成答案,准确率最高可提升34%。
Q2:充分上下文智能体是如何工作的?
A:充分上下文智能体类似流水线质检员,它会对检索到的文本片段、草稿答案和原始问题进行综合评估。如果发现信息有缺口,不会直接输出"信息不足",而是生成具体的原因和反馈日志,指出缺少哪方面的内容,并指导查询改写器重新发起针对性搜索,直到信息齐全才允许生成最终回答。
Q3:Gemini企业智能体平台的智能体RAG支持跨多个数据库检索吗?
A:支持。在跨语料库测试中,规划智能体能够从多个候选数据库中自动判断应检索哪个来源,正确回答率达到90.1%,与单数据库检索准确率基本持平,且延迟差异不超过3%。这非常适合企业中多个团队分别管理各自数据库的实际场景。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。