大语言模型 (LLMs) 在推理能力方面取得了显著进展。然而,它们在正确引用和使用外部数据(即未经训练的信息)方面的能力仍然相对滞后。
这个问题在使用大语言模型处理需要来自搜索引擎的实时数据的动态、信息密集型场景时尤为突出。
好在现在有了一个改进方案:由伊利诺伊大学厄巴纳-香槟分校和马萨诸塞大学阿默斯特分校的研究人员在论文中提出的 SEARCH-R1 技术,该技术训练大语言模型生成搜索查询,并将搜索引擎检索无缝集成到其推理过程中。
随着企业寻求将这些新模型整合到其应用中的方法,SEARCH-R1 等技术有望开启依赖外部数据源的新型推理能力。
将搜索与大语言模型整合的挑战
搜索引擎对于为大语言模型应用提供最新的外部知识至关重要。将搜索引擎与大语言模型整合的两种主要方法是检索增强生成 (RAG) 和工具使用,这些方法通过提示工程或模型微调来实现。
然而,这两种方法都有其局限性,使其不适合推理模型。RAG 经常因检索不准确而受困,并且缺乏执行多轮、多查询检索的能力,而这对推理任务来说是必不可少的。
基于提示的工具使用常常难以泛化,而基于训练的方法则需要大量带注释的搜索和推理交互数据集,这些数据集难以大规模生产。
(在我们自己的推理模型实验中,我们发现信息检索仍然是关键挑战之一。)
SEARCH-R1
SEARCH-R1 使大语言模型能够在推理过程中与搜索引擎交互,而不是设置单独的检索阶段。
SEARCH-R1 将搜索引擎定义为大语言模型环境的一部分,使模型能够将其 token 生成与搜索引擎结果无缝整合。
研究人员设计 SEARCH-R1 以支持迭代推理和搜索。该模型被训练为生成思考、搜索、信息和答案段落的独立 token 集。这意味着在推理过程中 (由 <think></think> 标签标记),如果模型确定需要外部信息,它会生成包含搜索查询的 <search></search> 序列。然后将查询传递给搜索引擎,结果会以 <information></information> 段的形式插入上下文窗口中。随后模型继续基于添加的上下文进行推理,准备就绪后在 <answer></answer> 段中生成结果。
这种结构允许模型在推理问题和获取新信息时多次调用搜索引擎。
强化学习
训练大语言模型将搜索查询与其推理链交错使用是具有挑战性的。为了简化这个过程,研究人员设计 SEARCH-R1 通过纯强化学习 (RL) 训练模型,让模型在没有人工生成数据指导的情况下探索推理和搜索工具的使用。
SEARCH-R1 使用"基于结果的奖励模型",其中模型仅根据最终响应的正确性进行评估。这消除了创建复杂奖励模型来验证模型推理过程的需求。
这与 DeepSeek-R1-Zero 使用的方法相同,模型只根据结果进行判断。使用纯 RL 消除了创建大量人工标注示例(监督微调)的需求。
研究人员在论文中写道:"SEARCH-R1 可以被视为 DeepSeek-R1 的扩展,后者主要关注参数化推理,通过引入搜索增强 RL 训练来增强检索驱动的决策制定。"
SEARCH-R1 的实际应用
研究人员通过微调 Qwen-2.5 和 Llama-3.2 的基础版本和指令版本,并在七个基准测试上进行评估,这些基准测试涵盖了需要单轮和多跳搜索的各种推理任务。他们将 SEARCH-R1 与不同的基线进行了比较:使用思维链 (CoT) 推理的直接推理、使用 RAG 的推理,以及用于工具使用的监督微调。
SEARCH-R1 在性能上始终显著优于基线方法。它还优于通过 RL 训练但没有搜索检索的推理模型。研究人员写道:"这符合预期,因为将搜索整合到大语言模型推理中提供了对相关外部知识的访问,从而提高了整体性能。"
SEARCH-R1 对不同的模型家族以及基础版本和指令调整版本都很有效,这表明基于结果的 RL 奖励可以超越纯推理场景发挥作用。研究人员已在 GitHub 上发布了 SEARCH-R1 的代码。
SEARCH-R1 自主生成搜索查询并将实时信息整合到推理中的能力,对企业应用可能产生重大影响。它可以在客户支持、知识管理和数据分析等领域提高大语言模型驱动系统的准确性和可靠性。通过使大语言模型能够动态适应不断变化的信息,SEARCH-R1 可以帮助企业构建更智能和响应更快的 AI 解决方案。这种能力对于需要访问不断变化的数据以及需要多个步骤才能找到答案的应用来说非常有帮助。
这也表明,自 DeepSeek-R1 发布以来出现的新型强化学习范式的全部潜力还有待探索。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。