Gemini企业智能体平台的智能体RAG如何实现可靠响应

谷歌研究院与谷歌云联合推出全新Agentic RAG框架，搭载于Gemini企业智能体平台。该框架通过多智能体协作，将复杂查询分解并迭代检索，引入"充分上下文智能体"进行质量把控，确保信息完整后再生成答案。在FramesQA数据集测试中，跨语料库准确率达90.1%，较标准RAG在事实性数据集上准确率提升最高34%，显著增强了企业级AI应用的可靠性与可溯源性。

我们正式推出全新的智能体RAG框架。该框架由谷歌研究院与谷歌云联合打造，采用多智能体工作流，突破了标准RAG的局限，能够拆解复杂的企业查询请求，并通过迭代搜索获取充分上下文，最终生成可靠的响应结果。

现有单步检索增强生成（RAG）系统的局限

当前的单步RAG系统并非为现代商业工作流中的多源、多跳查询场景而设计。举例来说，当用户提问"X项目所用服务器的规格参数是什么？"时，系统或许能找到X项目的相关文档，但这些文档可能只记录了一个服务器ID。系统不会主动利用该ID在另一个数据库中发起第二次搜索来查找规格信息。由于所需信息分散在不同的"数据孤岛"中，需要进行更深层次的探索才能获取，最终往往只能得到片面的答案，甚至是"未找到"的回应。

智能体RAG的核心价值

智能体RAG能够主动规划、推理，并与数据源进行迭代交互，从而处理复杂查询，显著提升响应的可靠性和准确性。

今天，我们很高兴正式推出谷歌Gemini企业智能体平台托管版本的智能体RAG跨语料库检索功能。与其他多智能体RAG框架类似，我们的系统由多个智能体协同工作，可靠地回答复杂查询。区别在于，我们的框架引入了"充分上下文"机制，用于确认当前信息是否足以支撑准确作答。与标准RAG相比，我们的框架在事实性数据集上的准确率最高可提升34%。我们还使用内部专有数据集对系统进行了评估，结果表明，在多个特定领域任务中，系统实现了更好的事实锚定与更高的推理准确率。

多智能体RAG的工作机制

理解多智能体RAG，不妨将其类比为一个组织严密的研究部门，而非单一的搜索引擎。在传统的"单体式"或"基础版"RAG系统中，检索组件仅根据问题查找匹配文档，再由大语言模型生成响应。

在多智能体框架中，系统将任务拆解为若干专项角色分工协作：

我们新框架的核心差异在于持续性搜索能力。与其他RAG方案相比，我们的框架能够感知信息缺失并持续搜索，直至上下文完整为止。这一机制有效避免了首次搜索无果时AI进行"猜测"的情况，也避免了直接给出"信息不足"这类无效回答。尽管在某些情境下这类回答是合理的，但很多时候所需信息确实存在，只是尚未被找到。

医疗场景实例解析

以一名医生查询患者信息为例：

"John Doe膝关节手术后的出院用药和饮食限制是什么？住院期间是否出现过过敏反应？不包括仅在住院或急诊期间使用的药物，但肝素静脉滴注和替奈普酶除外。"

面对这一查询，我们的框架将启动多个专项智能体。

根智能体负责解析医生的请求并分配任务给各子智能体。规划智能体识别出需要检索三个独立领域的信息：药房、营养和临床记录。查询改写器将复杂的长请求拆分为简洁、可搜索的子问题，帮助检索器更精准地定位相关内容。

RAG智能体同步检索患者记录中所有拆解出的查询方向，找到了用药信息和饮食信息，但在最明显的文件中未能检索到任何关于过敏反应的记录。在标准或"基础版"RAG系统中，流程可能到此结束，输出一个不完整的答案。

充分上下文智能体的质量把关机制

充分上下文智能体的作用类似于流水线末端的质检员，在允许生成响应之前，会对以下三个具体发现逐一审查：

首先，充分上下文智能体评估RAG智能体从数据库中检索到的实际文本片段。在上述医疗示例中，这些片段可能是"出院小结"和"营养记录"中的具体段落，系统会逐一阅读，判断其中是否包含回答查询所需的信息。

其次，系统还会生成一份"草稿回答"，充分上下文智能体随即对提示词、草稿及检索片段进行综合评估，判断模型是否具备提供全面、有据可查答案的条件。若提示词要求回答三项内容（用药、饮食、过敏），但检索片段仅涵盖两项，充分上下文智能体则将其标记为"上下文不足"。

这是最关键的一步：充分上下文智能体会精确定位缺失内容，不只是输出"信息不足"的判断，而是生成具体的"原因"和"反馈"日志。例如：

发现："已获取用药清单和低钠饮食说明。"

缺口："源文档中缺少关于住院期间过敏反应或不良事件的信息。"

充分上下文智能体将已获取信息与原始请求进行比对："过敏问题是否已得到解答？"若答案为否，则发出"上下文不足"信号，并提供具体反馈："用药和饮食信息已找到，但过敏信息缺失，请针对'皮疹'或'不良事件'重新搜索。"在多源场景下，它还可以请求补充信息，或判断某一来源与查询无关。

基于充分上下文智能体的反馈，查询改写器生成新的搜索词"皮疹"，RAG智能体随即深入检索此前未涉及的文件，找到了缺失的过敏信息。充分上下文智能体对数据进行最终核验，确认用药、饮食和过敏信息均已齐备，从而停止搜索。最终，合成智能体为医生生成一份清晰、准确的摘要。

基准测试与实验结果

我们在FramesQA数据集上对智能体RAG进行了评估，该数据集基于FRAMES论文构建。一个典型的多跳问题示例如下：

"截至2024年6月，收视率最高的两部电视季终集中，哪部时长最长？长出多少？"

要回答这个问题，RAG系统需要完成多个推理步骤：首先识别出收视率最高的两部终集分别来自《陆军野战医院》和《干杯》，然后查找各自的播出时长，最后计算时长差值。在许多RAG配置下（基础版RAG或无充分上下文机制的智能体RAG），模型可能会给出如下回答：

"尽管进行了多次检索，未能找到《陆军野战医院》或《干杯》的明确播出时长，文档仅提供了收视数据，未包含以分钟或小时计的播出时长。"

这并未真正回答问题。

而我们的智能体RAG能够有效解决这一问题：先搜索相关电视剧，再由查询改写器和充分上下文智能体发起针对《陆军野战医院》和《干杯》播出时长的定向搜索，最终由Gemini得出准确结论：

"《陆军野战医院》终集时长为150分钟，是两部终集中最长的，比时长约98分钟的《干杯》终集多出52分钟。"

我们进行了大规模实验验证（FramesQA包含824条查询及2676份PDF文档构成的语料库）。在"基础版"RAG设置中，我们使用谷歌RAG引擎（配备高级检索引擎、大语言模型解析器和重排序器）作为对比基准。我们在两种配置下对智能体RAG进行测试：单语料库设置（仅从FramesQA文档中检索）和跨语料库设置（另引入三个干扰数据集，规划智能体需自主判断从哪个语料库检索）。跨语料库设置模拟了企业中多个团队分别管理各自数据库的真实场景。准确率的计算采用大语言模型作为裁判，将系统响应与数据集中的标准答案进行比对。

在跨语料库设置下，我们的系统准确率与单语料库设置基本持平。即便规划智能体需要从4个候选语料库中选择正确来源，系统仍能准确路由搜索查询，正确回答率高达90.1%。此外，单语料库和跨语料库两个版本的延迟几乎相同（平均差异在3%以内）。这充分证明，我们的智能体RAG系统具备跨多个异构数据源的推理能力，为更灵活的检索场景提供了广阔的应用空间。

总结与展望

通过融合高级查询规划、智能路由与充分上下文机制，我们的智能体RAG系统确保AI生成的响应具备可审计性、可溯源性和事实锚定性。我们期待机器学习社区充分利用这些全新的智能体能力，共同构建下一代可靠AI系统。该功能现已作为公开预览版在Gemini企业智能体平台上正式上线。

本项目由李波、毛中杰、Jin Tiger、Kan Yuhong、Mohd Abdullah（Obito）、Ferng Chun-Sung、Mortazavi Pooneh、Yu Roger（鹏）、Eran Lewis和Ivan Kuznetsov共同完成。我们感谢Kimberly Schwede负责图表设计，Mark Simborg提供写作支持，同时感谢各位关键企业合作伙伴提供的宝贵用户反馈、数据与洞察。

Q&A

Q1：智能体RAG和普通RAG有什么区别？

A：普通RAG只做一次检索就生成答案，遇到跨多个数据源或需要多步推理的问题时容易出现信息缺失。智能体RAG通过多个专项智能体协作，能够拆解复杂问题、迭代搜索，并通过"充分上下文智能体"判断信息是否完整，不足时会继续搜索，直到获取完整信息再生成答案，准确率最高可提升34%。

Q2：充分上下文智能体是如何工作的？

A：充分上下文智能体类似流水线质检员，它会对检索到的文本片段、草稿答案和原始问题进行综合评估。如果发现信息有缺口，不会直接输出"信息不足"，而是生成具体的原因和反馈日志，指出缺少哪方面的内容，并指导查询改写器重新发起针对性搜索，直到信息齐全才允许生成最终回答。

Q3：Gemini企业智能体平台的智能体RAG支持跨多个数据库检索吗？

A：支持。在跨语料库测试中，规划智能体能够从多个候选数据库中自动判断应检索哪个来源，正确回答率达到90.1%，与单数据库检索准确率基本持平，且延迟差异不超过3%。这非常适合企业中多个团队分别管理各自数据库的实际场景。

来源：Google

0赞

好文章，需要你的鼓励

Gemini企业智能体平台的智能体RAG如何实现可靠响应

来源：Google

2026

06/06

22:22

分享

点赞

边缘智算筑基、全栈软硬协同，研华科技将AI带进产业闭环

千问AI眼镜将升级为智能体眼镜：能灵活调用Skill和Agent，能全天候感知

对话Moonix郭于晨：先让用户戴上“眼镜”，再让“AI”记录世界

亮相WAIC 2026，临床实证赋能康养升级 无芯科技定义AI疗愈新范式

生态覆盖持续扩散，一文看懂各行业企业鸿蒙化转型进度

WAIC亮出集群协作真功夫，优艾智合领跑工业具身智能规模化

脑部植入物助瘫痪男子重获进食与饮水能力

能源公司IPO融资创21世纪新高，押注AI基础设施热潮

Apple Intelligence获中国监管批准，携手阿里巴巴与百度正式进入中国市场

Moonshot即将发布的Kimi K3有望赶超Anthropic Opus 4.8

OpenAI 为何开始卖 ChatGPT 品牌篮球？

DoorDash推出命令行工具，开发者可借助AI智能体直接下单

麻省理工学院AI与计算研讨会：技术进步中不可或缺的人文因素

iOS 27即将发布，多款iPhone应用将迎来全新设计升级

连接性已成为与计算和存储同等重要的AI基础设施核心要素

开发者仍在等待Meta最新AI模型的API访问权限

米拉·穆拉提重返公众视野，谨慎发声

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

亮相WAIC 2026，临床实证赋能康养升级无芯科技定义AI疗愈新范式