研究发现：训练大语言模型进行推理任务并不需要海量数据

{一项来自上海交通大学的研究表明，大型语言模型（LLMs）可以在不依赖大数据集的情况下学习复杂的推理任务。研究结果显示，仅需少量精心挑选的示例，就能训练LLM完成原本认为需要数万个训练实例的任务。这种高效性源于现代LLM在预训练阶段获得的内在知识。随着新的训练方法变得更加数据和计算高效，企业可能能够在不需要大型AI实验室资源的情况下创建定制模型。}

上海交通大学的研究人员在一项新研究中发现，大语言模型 (LLMs) 无需依赖大规模数据集就能学习复杂的推理任务。他们的研究表明，只需要一小批精心策划的示例，就能训练大语言模型完成那些原本被认为需要数万个训练实例的任务。

这种效率得益于现代大语言模型在预训练阶段获得的固有知识。随着新的训练方法在数据和计算效率方面不断提升，企业可能无需依赖大型 AI 实验室的资源，就能创建定制化模型。

少即是多 (LIMO)

在这项研究中，研究人员对"训练大语言模型进行推理任务需要大量数据"这一假设提出了质疑。他们提出了"少即是多" (LIMO) 的概念。这项工作建立在之前的研究基础之上，即大语言模型可以通过少量示例与人类偏好保持一致。

在他们的实验中，他们证明可以使用几百个训练示例为复杂的数学推理任务创建 LIMO 数据集。在该数据集上微调的大语言模型能够创建复杂的思维链 (CoT) 推理链，使其能够以很高的成功率完成任务。

例如，基于 LIMO 选择的 817 个训练示例进行微调的 Qwen2.5-32B-Instruct 模型在极具挑战性的 AIME 基准测试中达到了 57.1% 的准确率，在 MATH 测试中达到了 94.8% 的准确率，超过了使用百倍训练数据的模型。它在基准测试中的得分也高于 QwQ-32B-Preview (经过推理训练的 Qwen 模型版本) 和 OpenAI o1-preview 等推理模型，而这些模型都使用了更多的数据和计算资源进行训练。

此外，LIMO 训练的模型能够泛化到与训练数据有很大差异的示例。例如，在 OlympiadBench 科学基准测试中，LIMO 模型超过了 QwQ-32B-Preview，在具有挑战性的 GPQA 基准测试中，它达到了 66.7% 的准确率，接近 OpenAI-o1-preview 73.3% 的领先得分。

对企业 AI 的意义

定制化大语言模型是企业应用的一个很有吸引力的用例。借助检索增强生成 (RAG) 和上下文学习等技术，大语言模型可以在无需昂贵微调的情况下，使用定制数据或执行新任务。

然而，推理任务通常需要训练和微调大语言模型。普遍认为此类任务需要大量包含详细推理链和解决方案的训练示例。对许多应用和公司而言，创建这样的数据集既耗时又不切实际。

最近，研究人员展示了纯强化学习方法可以使模型通过生成多个解决方案并选择最佳方案来自行训练推理任务。虽然这种方法需要较少的人工干预，但仍然需要许多企业无法负担的昂贵计算资源。

相比之下，制作几百个示例是许多公司都能应对的任务，这使得专门的推理模型能够被更多的组织所使用。

研究人员写道："这一发现对人工智能研究具有深远影响：它表明即使是竞赛级别的复杂推理能力也可以通过最少但精心策划的训练样本有效地激发出来。"

LIMO 为何有效

在实验中，研究人员发现大语言模型能够用较少示例学习复杂推理任务的两个关键原因。

首先，最先进的基础模型在预训练期间已经接触了大量的数学内容和代码。这意味着这些大语言模型的参数中已经包含了丰富的推理知识，可以通过精心设计的示例激活。

其次，新的后训练技术表明，允许模型生成延伸推理链能显著提高其推理能力。本质上，给模型更多"思考"时间使其能够更有效地解析和应用预训练知识。

研究人员写道："我们推测，成功的推理源于两个因素的协同作用：丰富的预训练知识和推理时足够的计算资源。这些发展共同表明了一个惊人的可能性：如果模型拥有丰富的推理知识并且有足够的计算空间，那么激活它们的推理能力可能只需要少量鼓励深入思考的高质量训练样本，而不是大规模的微调数据集。"

根据研究人员的发现，创建有用的 LIMO 数据集的关键在于选择合适的问题和解决方案。数据管理者应该优先考虑需要复杂推理链、多样化思维过程和知识整合的具有挑战性的问题。这些问题还应该偏离模型的训练分布，以鼓励新的推理方法并促使其实现泛化。

相应地，解决方案应该清晰且组织良好，推理步骤要适应问题的复杂性。高质量的解决方案还应该通过精心构建的解释，逐步建立理解，提供战略性的教育支持。

研究人员写道："通过专注于最少但精心策划的推理链集合，我们体现了 LIMO 的核心原则：高质量的示范，而不是纯粹的数据量，是释放复杂推理能力的关键。"

研究人员已经发布了他们实验中用于训练 LIMO 模型的代码和数据。未来，他们计划将这一概念扩展到其他领域和应用。

来源：VentureBeat

0赞

好文章，需要你的鼓励

研究发现：训练大语言模型进行推理任务并不需要海量数据

来源：VentureBeat

2025

02/17

16:11

分享

点赞

Ganiga将在TechCrunch Disrupt展示AI垃圾分拣机器人

新加坡昇菘集团获批自动驾驶车队运营供应链

思科新路由器将分散数据中心整合为AI训练集群

CoreWeave推出无服务器强化学习平台降低企业AI成本

当年只有30人在训练AGI：Anthropic预训练负责人访谈的万字实录，曾经的AI实验室都是通才，现在大家都是专才

NBA中国与阿里云宣布达成多年合作，重塑球迷互动体验

PEC 2025 AI创新者大会年度提问：新工作时代：AI工作流由谁主导？

PEC 2025 AI创新者大会年度对话：新创意时代，AI如何定义“第十艺术”？

Littelfuse推出IX3407B隔离栅极驱动器简化大功率设计

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

大语言模型已遭遇瓶颈，是时候重新定义智能了吗？

微软推出智能体模式，让办公软件变身"氛围工作"助手

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: