大语言模型 (LLMs) 在推理能力方面取得了显著进展。然而,它们在正确引用和使用外部数据(即未经训练的信息)方面的能力仍然相对滞后。
这个问题在使用大语言模型处理需要来自搜索引擎的实时数据的动态、信息密集型场景时尤为突出。
好在现在有了一个改进方案:由伊利诺伊大学厄巴纳-香槟分校和马萨诸塞大学阿默斯特分校的研究人员在论文中提出的 SEARCH-R1 技术,该技术训练大语言模型生成搜索查询,并将搜索引擎检索无缝集成到其推理过程中。
随着企业寻求将这些新模型整合到其应用中的方法,SEARCH-R1 等技术有望开启依赖外部数据源的新型推理能力。
将搜索与大语言模型整合的挑战
搜索引擎对于为大语言模型应用提供最新的外部知识至关重要。将搜索引擎与大语言模型整合的两种主要方法是检索增强生成 (RAG) 和工具使用,这些方法通过提示工程或模型微调来实现。
然而,这两种方法都有其局限性,使其不适合推理模型。RAG 经常因检索不准确而受困,并且缺乏执行多轮、多查询检索的能力,而这对推理任务来说是必不可少的。
基于提示的工具使用常常难以泛化,而基于训练的方法则需要大量带注释的搜索和推理交互数据集,这些数据集难以大规模生产。
(在我们自己的推理模型实验中,我们发现信息检索仍然是关键挑战之一。)
SEARCH-R1
SEARCH-R1 使大语言模型能够在推理过程中与搜索引擎交互,而不是设置单独的检索阶段。
SEARCH-R1 将搜索引擎定义为大语言模型环境的一部分,使模型能够将其 token 生成与搜索引擎结果无缝整合。
研究人员设计 SEARCH-R1 以支持迭代推理和搜索。该模型被训练为生成思考、搜索、信息和答案段落的独立 token 集。这意味着在推理过程中 (由 <think></think> 标签标记),如果模型确定需要外部信息,它会生成包含搜索查询的 <search></search> 序列。然后将查询传递给搜索引擎,结果会以 <information></information> 段的形式插入上下文窗口中。随后模型继续基于添加的上下文进行推理,准备就绪后在 <answer></answer> 段中生成结果。
这种结构允许模型在推理问题和获取新信息时多次调用搜索引擎。
强化学习
训练大语言模型将搜索查询与其推理链交错使用是具有挑战性的。为了简化这个过程,研究人员设计 SEARCH-R1 通过纯强化学习 (RL) 训练模型,让模型在没有人工生成数据指导的情况下探索推理和搜索工具的使用。
SEARCH-R1 使用"基于结果的奖励模型",其中模型仅根据最终响应的正确性进行评估。这消除了创建复杂奖励模型来验证模型推理过程的需求。
这与 DeepSeek-R1-Zero 使用的方法相同,模型只根据结果进行判断。使用纯 RL 消除了创建大量人工标注示例(监督微调)的需求。
研究人员在论文中写道:"SEARCH-R1 可以被视为 DeepSeek-R1 的扩展,后者主要关注参数化推理,通过引入搜索增强 RL 训练来增强检索驱动的决策制定。"
SEARCH-R1 的实际应用
研究人员通过微调 Qwen-2.5 和 Llama-3.2 的基础版本和指令版本,并在七个基准测试上进行评估,这些基准测试涵盖了需要单轮和多跳搜索的各种推理任务。他们将 SEARCH-R1 与不同的基线进行了比较:使用思维链 (CoT) 推理的直接推理、使用 RAG 的推理,以及用于工具使用的监督微调。
SEARCH-R1 在性能上始终显著优于基线方法。它还优于通过 RL 训练但没有搜索检索的推理模型。研究人员写道:"这符合预期,因为将搜索整合到大语言模型推理中提供了对相关外部知识的访问,从而提高了整体性能。"
SEARCH-R1 对不同的模型家族以及基础版本和指令调整版本都很有效,这表明基于结果的 RL 奖励可以超越纯推理场景发挥作用。研究人员已在 GitHub 上发布了 SEARCH-R1 的代码。
SEARCH-R1 自主生成搜索查询并将实时信息整合到推理中的能力,对企业应用可能产生重大影响。它可以在客户支持、知识管理和数据分析等领域提高大语言模型驱动系统的准确性和可靠性。通过使大语言模型能够动态适应不断变化的信息,SEARCH-R1 可以帮助企业构建更智能和响应更快的 AI 解决方案。这种能力对于需要访问不断变化的数据以及需要多个步骤才能找到答案的应用来说非常有帮助。
这也表明,自 DeepSeek-R1 发布以来出现的新型强化学习范式的全部潜力还有待探索。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。