大语言模型 (LLMs) 在推理能力方面取得了显著进展。然而,它们在正确引用和使用外部数据(即未经训练的信息)方面的能力仍然相对滞后。
这个问题在使用大语言模型处理需要来自搜索引擎的实时数据的动态、信息密集型场景时尤为突出。
好在现在有了一个改进方案:由伊利诺伊大学厄巴纳-香槟分校和马萨诸塞大学阿默斯特分校的研究人员在论文中提出的 SEARCH-R1 技术,该技术训练大语言模型生成搜索查询,并将搜索引擎检索无缝集成到其推理过程中。
随着企业寻求将这些新模型整合到其应用中的方法,SEARCH-R1 等技术有望开启依赖外部数据源的新型推理能力。
将搜索与大语言模型整合的挑战
搜索引擎对于为大语言模型应用提供最新的外部知识至关重要。将搜索引擎与大语言模型整合的两种主要方法是检索增强生成 (RAG) 和工具使用,这些方法通过提示工程或模型微调来实现。
然而,这两种方法都有其局限性,使其不适合推理模型。RAG 经常因检索不准确而受困,并且缺乏执行多轮、多查询检索的能力,而这对推理任务来说是必不可少的。
基于提示的工具使用常常难以泛化,而基于训练的方法则需要大量带注释的搜索和推理交互数据集,这些数据集难以大规模生产。
(在我们自己的推理模型实验中,我们发现信息检索仍然是关键挑战之一。)
SEARCH-R1
SEARCH-R1 使大语言模型能够在推理过程中与搜索引擎交互,而不是设置单独的检索阶段。
SEARCH-R1 将搜索引擎定义为大语言模型环境的一部分,使模型能够将其 token 生成与搜索引擎结果无缝整合。
研究人员设计 SEARCH-R1 以支持迭代推理和搜索。该模型被训练为生成思考、搜索、信息和答案段落的独立 token 集。这意味着在推理过程中 (由 <think></think> 标签标记),如果模型确定需要外部信息,它会生成包含搜索查询的 <search></search> 序列。然后将查询传递给搜索引擎,结果会以 <information></information> 段的形式插入上下文窗口中。随后模型继续基于添加的上下文进行推理,准备就绪后在 <answer></answer> 段中生成结果。
这种结构允许模型在推理问题和获取新信息时多次调用搜索引擎。
强化学习
训练大语言模型将搜索查询与其推理链交错使用是具有挑战性的。为了简化这个过程,研究人员设计 SEARCH-R1 通过纯强化学习 (RL) 训练模型,让模型在没有人工生成数据指导的情况下探索推理和搜索工具的使用。
SEARCH-R1 使用"基于结果的奖励模型",其中模型仅根据最终响应的正确性进行评估。这消除了创建复杂奖励模型来验证模型推理过程的需求。
这与 DeepSeek-R1-Zero 使用的方法相同,模型只根据结果进行判断。使用纯 RL 消除了创建大量人工标注示例(监督微调)的需求。
研究人员在论文中写道:"SEARCH-R1 可以被视为 DeepSeek-R1 的扩展,后者主要关注参数化推理,通过引入搜索增强 RL 训练来增强检索驱动的决策制定。"
SEARCH-R1 的实际应用
研究人员通过微调 Qwen-2.5 和 Llama-3.2 的基础版本和指令版本,并在七个基准测试上进行评估,这些基准测试涵盖了需要单轮和多跳搜索的各种推理任务。他们将 SEARCH-R1 与不同的基线进行了比较:使用思维链 (CoT) 推理的直接推理、使用 RAG 的推理,以及用于工具使用的监督微调。
SEARCH-R1 在性能上始终显著优于基线方法。它还优于通过 RL 训练但没有搜索检索的推理模型。研究人员写道:"这符合预期,因为将搜索整合到大语言模型推理中提供了对相关外部知识的访问,从而提高了整体性能。"
SEARCH-R1 对不同的模型家族以及基础版本和指令调整版本都很有效,这表明基于结果的 RL 奖励可以超越纯推理场景发挥作用。研究人员已在 GitHub 上发布了 SEARCH-R1 的代码。
SEARCH-R1 自主生成搜索查询并将实时信息整合到推理中的能力,对企业应用可能产生重大影响。它可以在客户支持、知识管理和数据分析等领域提高大语言模型驱动系统的准确性和可靠性。通过使大语言模型能够动态适应不断变化的信息,SEARCH-R1 可以帮助企业构建更智能和响应更快的 AI 解决方案。这种能力对于需要访问不断变化的数据以及需要多个步骤才能找到答案的应用来说非常有帮助。
这也表明,自 DeepSeek-R1 发布以来出现的新型强化学习范式的全部潜力还有待探索。
好文章,需要你的鼓励
在 NVIDIA GTC 大会上,多家汽车和自动驾驶公司宣布采用 NVIDIA 技术推进自动驾驶发展。通用汽车将扩大与 NVIDIA 的合作,涉及工厂、机器人和自动驾驶汽车等多个领域。自动驾驶卡车公司 Gatik、Plus 和 Torc 也将采用 NVIDIA 的多项技术方案,推动 L4 级自动驾驶商业化。同时,沃尔沃利用 NVIDIA GPU 进行空气动力学模拟,优化电动汽车设计。
Deepmind创始人Demis Hassabis表示,人工智能的许多能力可能需要10年才能充分显现。他预计AI将演变为具有人类认知能力的通用人工智能。Google推出了新的音频生成模型Chirp 3,并扩展了AI代理服务Agentspace。Hassabis强调了AI代理系统的发展,包括多代理协作和专业化代理的应用,但也指出了AI规划算法中错误累积的挑战。
OpenAI 的 AI 推理研究主管 Noam Brown 表示,如果研究人员早知道正确方法和算法,类似 OpenAI 的 o1 这样的"推理"AI 模型本可以在 20 年前就出现。Brown 强调了测试时推理技术的重要性,同时指出预训练仍然重要。他还讨论了学术界与前沿实验室合作的机会,以及 AI 基准测试的改进空间。
新西兰航空公司与塔塔咨询服务公司签订五年合作协议,旨在全面升级其数字基础设施,并将人工智能技术融入核心运营。这项合作涉及航空公司多个业务领域,包括机队管理、机组排班和地面服务等。此次合作标志着新西兰航空向成为全球最先进的数字化航空公司迈出重要一步。