研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

斯坦福和华盛顿大学的研究人员开发出一种新的大语言模型s1-32B，在某些任务上表现优于OpenAI的o1-preview，但成本仅为后者的一小部分。该模型采用测试时计算技术，通过增加生成答案的时间和硬件资源来提升输出质量。s1-32B在数学基准测试中的得分比o1-preview高出27%，开发成本仅约20美元。

来自斯坦福大学和华盛顿大学的研究人员开发出了一个大语言模型，在某些任务上的表现优于 OpenAI 的 o1-preview，且开发成本仅为后者的一小部分。

研究团队于上周五发表了相关论文，TechCrunch 今天对该项目进行了报道。这个名为 s1-32B 的算法已在 GitHub 上开源。

去年 9 月，OpenAI 推出了一个专注于推理能力的大语言模型 o1-preview。该算法的主要创新在于采用了一项称为测试时计算 (test-time compute) 的技术，在 s1-32B 模型中则被称为测试时扩展 (test-time scaling)。这项技术通过增加生成回答时的时间和硬件资源来提升大语言模型的输出质量。

在 o1-preview 发布后，多个研究团队着手复制测试时扩展技术。s1-32B 的开发者在论文中表示，他们的模型是首个公开成功复制"明确测试时扩展行为"的尝试。

研究人员在论文中写道："我们的 s1-32B 模型展现出测试时扩展特性。此外，s1-32B 是样本效率最高的推理模型，其性能超过了 OpenAI 的 o1-preview 等闭源模型。"

项目的起点是阿里巴巴集团去年发布的开源大语言模型 Qwen2.5-32B-Instruct。研究人员使用包含 1,000 个提示词和 AI 生成答案的数据集对其进行定制，从而创建了 s1-32B。这些答案来自 Google LLC 的 Gemini Thinking Experimental LLM。

Gemini Thinking Experimental 不仅会回答用户的提示，还会展示得出答案的思考过程。该模型会用自然语言总结思考过程的每个步骤。这些总结与 1,000 个样本提示词和相应的 AI 生成答案一起被添加到 s1-32B 的训练数据集中。

研究人员通过多个步骤创建数据集。首先，他们从公开来源收集了 59,029 个涵盖数学、物理和化学等主题的问题。然后删除了包含错误的问题。随后，研究人员再次筛选数据集，只保留了 1,000 个最具挑战性的问题。

在用该数据集训练 s1-32B 后，研究人员应用了一种名为预算强制 (budget forcing) 的新机器学习方法。该方法通过向大语言模型提供提示，指示它比平常花更多时间思考问题，或相反地缩短推理过程。研究人员表示，这种方法解决了在大语言模型中实现测试时扩展的两个主要障碍。

第一个挑战是大语言模型有时花费太少时间思考任务，从而导致错误。当 s1-32B 处理查询的时间不够时，预算强制通过输入"wait"来解决这个问题。根据 s1-32B 的创建者说法，这个提示会让模型增强其推理工作流程。

在一次测试中，s1-32B 试图显示一个错误答案。在研究人员指示它等待后，模型发现了错误并生成了正确答案。

研究人员的预算强制方法解决的第二个问题是大语言模型有时花费太多时间思考提示。这可能会降低输出质量。例如，大语言模型可能找到正确答案，但在后续处理步骤中改变它。预算强制通过要求大语言模型跳过这些后续处理步骤来避免这个问题。

研究人员在 MATH 和 AIME24 数学基准测试中将 s1-32B 与 o1-preview 进行了比较。前者的得分比 OpenAI 的模型高出最多 27%。在另一个涉及数学问题的测试中，s1-32B 成功利用测试时计算将得分从 50% 提高到 57%。

预算强制使 s1-32B 不仅在某些任务上超越 o-1，而且成本更低。参与该模型开发的研究人员之一 Niklas Muennighoff 今天告诉 TechCrunch，开发成本约为 20 美元的硬件费用。研究人员在论文中详细说明，s1-32B 使用 16 块 Nvidia Corp. 的 H100 显卡训练了 26 分钟。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

来源：SiliconANGLE

2025

02/07

16:30

分享

点赞

Amazon 股价下跌：云业务收入不及预期，AI 投资翻倍

AI 投资回报率难以说服 IT 决策者

VMware 之后：哪种替代方案最适合你？

研发成本不足 50 美元的新型大语言模型性能超越 OpenAI 的 o1-preview

硬件质量问题和服务器供应链瓶颈放缓亚马逊 1000 亿美元 AI 建设

Uber 第四季度业绩喜忧参半，股价下跌 8%

Rackspace 计划将部分工作负载从 VMware 迁移以应对 Broadcom 涨价

Oracle 在 JavaScript 商标战中布下新的"地雷"

IT 代际鸿沟：为网络技术人才演变做好准备

AMD CEO Lisa Su 对 DeepSeek 对 AI 硬件销售的影响毫不担忧

DeepSeek登场，企业级AI构建路径解析

Kyndryl 携手 Palo Alto Networks 扩展 SASE 服务

硬件质量问题和服务器供应链瓶颈放缓亚马逊 1000 亿美元 AI 建设

AMD CEO Lisa Su 对 DeepSeek 对 AI 硬件销售的影响毫不担忧

Cisco 发布 AI Defense：应对大规模 AI 安全挑战

你的下一位同事将是机器人... 3个实际影响

为什么我们需要神经符号人工智能

Windows 10 终结是否会加速 CIO 对 AI PC 的关注？

Google 扩大 Gemini 2.0 AI 模型的使用范围并推出实验版本

数据分析工具公司 Dbt Labs 如何将开源工具打造成十亿美元级企业

抖音母公司推出新AI工具：一张照片就能生成逼真视频

强大的主动式 AI 浪潮即将来临

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2025：沉浸AI

大模型落地，你还缺怎样的“工具箱”？

2024 AI创新者大会

智算“筑基”AI未来

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: