研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

斯坦福和华盛顿大学的研究人员开发出一种新的大语言模型s1-32B，在某些任务上表现优于OpenAI的o1-preview，但成本仅为后者的一小部分。该模型采用测试时计算技术，通过增加生成答案的时间和硬件资源来提升输出质量。s1-32B在数学基准测试中的得分比o1-preview高出27%，开发成本仅约20美元。

来自斯坦福大学和华盛顿大学的研究人员开发出了一个大语言模型，在某些任务上的表现优于 OpenAI 的 o1-preview，且开发成本仅为后者的一小部分。

研究团队于上周五发表了相关论文，TechCrunch 今天对该项目进行了报道。这个名为 s1-32B 的算法已在 GitHub 上开源。

去年 9 月，OpenAI 推出了一个专注于推理能力的大语言模型 o1-preview。该算法的主要创新在于采用了一项称为测试时计算 (test-time compute) 的技术，在 s1-32B 模型中则被称为测试时扩展 (test-time scaling)。这项技术通过增加生成回答时的时间和硬件资源来提升大语言模型的输出质量。

在 o1-preview 发布后，多个研究团队着手复制测试时扩展技术。s1-32B 的开发者在论文中表示，他们的模型是首个公开成功复制"明确测试时扩展行为"的尝试。

研究人员在论文中写道："我们的 s1-32B 模型展现出测试时扩展特性。此外，s1-32B 是样本效率最高的推理模型，其性能超过了 OpenAI 的 o1-preview 等闭源模型。"

项目的起点是阿里巴巴集团去年发布的开源大语言模型 Qwen2.5-32B-Instruct。研究人员使用包含 1,000 个提示词和 AI 生成答案的数据集对其进行定制，从而创建了 s1-32B。这些答案来自 Google LLC 的 Gemini Thinking Experimental LLM。

Gemini Thinking Experimental 不仅会回答用户的提示，还会展示得出答案的思考过程。该模型会用自然语言总结思考过程的每个步骤。这些总结与 1,000 个样本提示词和相应的 AI 生成答案一起被添加到 s1-32B 的训练数据集中。

研究人员通过多个步骤创建数据集。首先，他们从公开来源收集了 59,029 个涵盖数学、物理和化学等主题的问题。然后删除了包含错误的问题。随后，研究人员再次筛选数据集，只保留了 1,000 个最具挑战性的问题。

在用该数据集训练 s1-32B 后，研究人员应用了一种名为预算强制 (budget forcing) 的新机器学习方法。该方法通过向大语言模型提供提示，指示它比平常花更多时间思考问题，或相反地缩短推理过程。研究人员表示，这种方法解决了在大语言模型中实现测试时扩展的两个主要障碍。

第一个挑战是大语言模型有时花费太少时间思考任务，从而导致错误。当 s1-32B 处理查询的时间不够时，预算强制通过输入"wait"来解决这个问题。根据 s1-32B 的创建者说法，这个提示会让模型增强其推理工作流程。

在一次测试中，s1-32B 试图显示一个错误答案。在研究人员指示它等待后，模型发现了错误并生成了正确答案。

研究人员的预算强制方法解决的第二个问题是大语言模型有时花费太多时间思考提示。这可能会降低输出质量。例如，大语言模型可能找到正确答案，但在后续处理步骤中改变它。预算强制通过要求大语言模型跳过这些后续处理步骤来避免这个问题。

研究人员在 MATH 和 AIME24 数学基准测试中将 s1-32B 与 o1-preview 进行了比较。前者的得分比 OpenAI 的模型高出最多 27%。在另一个涉及数学问题的测试中，s1-32B 成功利用测试时计算将得分从 50% 提高到 57%。

预算强制使 s1-32B 不仅在某些任务上超越 o-1，而且成本更低。参与该模型开发的研究人员之一 Niklas Muennighoff 今天告诉 TechCrunch，开发成本约为 20 美元的硬件费用。研究人员在论文中详细说明，s1-32B 使用 16 块 Nvidia Corp. 的 H100 显卡训练了 26 分钟。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

来源：SiliconANGLE

2025

02/07

16:30

分享

点赞

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

Titans + MIRAS：让AI拥有长期记忆能力

Gemini为STOC 2026大会理论计算机科学家提供自动化反馈

夸克AI眼镜持续升级：首次OTA，支持89种语言翻译

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: