测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

上海人工智能实验室的一项新研究表明,通过适当的工具和测试时扩展技术,参数仅有10亿的小型语言模型在复杂数学基准测试中可以超越4050亿参数的大型语言模型。这一发现为企业在不同环境和应用中部署小型语言模型进行复杂推理任务提供了新的可能性。

根据上海人工智能实验室的一项新研究表明，小型语言模型 (SLMs) 在推理任务中可以超越领先的大语言模型 (LLMs)。研究人员展示了通过使用适当的工具和测试时扩展技术，一个拥有 10 亿参数的 SLM 可以在复杂的数学基准测试中超越拥有 4050 亿参数的 LLM。

在企业寻求在不同环境和应用中使用这些新模型的情况下，部署 SLM 来处理复杂推理任务可能非常有用。

测试时扩展的解释

测试时扩展 (TTS) 是在推理过程中为 LLM 提供额外计算周期以提高其在各种任务上表现的过程。领先的推理模型，如 OpenAI o1 和 DeepSeek-R1，使用"内部 TTS"，这意味着它们通过生成一长串思维链 (CoT) token 来训练"慢思考"。

另一种方法是"外部 TTS"，即通过外部帮助来增强模型性能。外部 TTS 适用于将现有模型重新用于推理任务，而无需进一步微调。外部 TTS 设置通常由"策略模型"（生成答案的主要 LLM）和过程奖励模型 (PRM，用于评估策略模型答案) 组成。这两个组件通过采样或搜索方法相互配合。

最简单的设置是"N 选优"，其中策略模型生成多个答案，PRM 选择一个或多个最佳答案来组成最终响应。更高级的外部 TTS 方法使用搜索。在"束搜索"中，模型将答案分解为多个步骤。

对于每个步骤，它会采样多个答案并通过 PRM 运行。然后选择一个或多个合适的候选答案并生成下一步答案。在"多样化验证树搜索" (DVTS) 中，模型生成多个答案分支以创建更多样化的候选响应集，然后将它们合成为最终答案。

选择正确的扩展策略

选择正确的 TTS 策略取决于多个因素。研究作者对不同策略模型和 PRM 如何影响 TTS 方法的效率进行了系统研究。

他们的研究表明，效率在很大程度上取决于策略和 PRM 模型。例如，对于小型策略模型，基于搜索的方法优于 N 选优。然而，对于大型策略模型，N 选优更有效，因为这些模型具有更好的推理能力，不需要奖励模型来验证推理的每个步骤。

研究还显示，正确的 TTS 策略取决于问题的难度。例如，对于参数少于 70 亿的小型策略模型，N 选优更适合简单问题，而束搜索更适合困难问题。对于介于 70 亿到 320 亿参数之间的策略模型，多样化树搜索在简单和中等问题上表现良好，束搜索最适合困难问题。但对于大型策略模型 (720 亿参数及以上)，N 选优是所有难度级别的最佳方法。

为什么小型模型能够胜过大型模型

基于这些发现，开发人员可以创建计算优化的 TTS 策略，考虑策略模型、PRM 和问题难度，以最好地利用计算预算来解决推理问题。

例如，研究人员发现，使用计算优化的 TTS 策略的 Llama-3.2-3B 模型在 MATH-500 和 AIME24 这两个复杂的数学基准测试中超越了 Llama-3.1-405B。这表明当使用计算优化的 TTS 策略时，一个 SLM 可以超越一个大 135 倍的模型。

在其他实验中，他们发现使用正确的计算优化 TTS 策略，一个拥有 5 亿参数的 Qwen2.5 模型可以超越 GPT-4o。使用相同的策略，DeepSeek-R1 的 15 亿参数蒸馏版本在 MATH-500 和 AIME24 上超越了 o1-preview 和 o1-mini。

当考虑训练和推理计算预算时，研究发现使用计算优化的扩展策略，SLM 可以用少 100-1000 倍的 FLOPS 超越更大的模型。

研究人员的结果表明，计算优化的 TTS 显著增强了语言模型的推理能力。然而，随着策略模型变大，TTS 的改进逐渐减少。

研究人员写道："这表明 TTS 的有效性直接与策略模型的推理能力相关。具体来说，对于推理能力较弱的模型，扩展测试时计算会带来显著改进，而对于推理能力强的模型，收益有限。"

该研究验证了在应用计算优化的测试时扩展方法时，SLM 可以比更大的模型表现更好。虽然这项研究侧重于数学基准测试，但研究人员计划将研究扩展到编码和化学等其他推理任务。

来源：VentureBeat

0赞

好文章，需要你的鼓励

测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

来源：VentureBeat

2025

02/21

16:31

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会