Epoch AI(非盈利 AI 研究机构)的一项分析表明,AI 行业可能无法长期从推理 AI 模型中获得大幅性能提升。报告发现,推理模型的进展可能最快在一年内出现放缓。
例如 OpenAI 的 o3 等推理模型在近几个月内在 AI 基准测试中取得了显著进步,特别是在测评数学和编程技能的测试中。这些模型能够将更多计算资源 (computing) 应用于问题,从而提升性能,但缺点是完成任务所需的时间比传统模型更长。
推理模型的开发流程是先利用海量数据训练一个传统模型,然后应用称为强化学习 (reinforcement learning) 的技术,该技术能有效为模型在解决难题时提供 “反馈” 。
据 Epoch 指出,截至目前,像 OpenAI 这样的前沿 AI 实验室尚未在推理模型训练的强化学习阶段投入大量计算资源。
情况正在改变。OpenAI 表示,在训练 o3 时所使用的计算资源大约是其前身 o1 的 10 倍,Epoch 推测这其中的大部分计算资源都用于了强化学习。OpenAI 研究员 Dan Roberts 最近透露,公司未来计划将强化学习作为优先方向,投入的计算资源将远超初始模型训练所需的量。
不过,据 Epoch 称,在强化学习中可投入的计算资源仍然存在上限。
根据 Epoch AI 的分析,推理模型训练的扩展可能会放缓
图片来源: Epoch AI
Epoch 分析师及该报告作者 Josh You 解释说,传统 AI 模型训练带来的性能提升目前每年大约提升四倍,而强化学习带来的性能增长在 3 到 5 个月内可实现十倍增长。他进一步指出,推理训练的进展 “很可能在 2026 年与前沿水平趋于一致”。
Epoch 的分析基于若干假设,并部分采纳了 AI 公司高管的公开评论。但分析也论证了,推理模型的扩展可能因除计算资源以外的原因而面临挑战,其中包括研究所需的高昂固定成本。
Josh You 写道:“如果研究需要持续的固定开销,推理模型可能无法按照预期大幅扩展。快速扩展计算资源可能是推动推理模型进步的一个非常重要因素,因此值得密切关注。”
任何迹象表明推理模型在不久的将来可能达到某种上限,都可能让已在这类模型研发上投入巨大资源的 AI 行业感到担忧。研究已表明,虽然推理模型的运行成本极高,但它们存在严重缺陷,例如比某些传统模型更容易产生误导性信息。
好文章,需要你的鼓励
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
英国政府研究显示,神经多样性员工从AI聊天机器人中获得的收益远超普通同事。在Microsoft 365 Copilot试点中,神经多样性员工满意度达90%置信水平,推荐度达95%置信水平,均显著高于其他用户。患有ADHD和阅读障碍的员工表示AI工具为他们提供了前所未有的工作支持,特别是在报告撰写方面。研究表明,AI工具正在填补传统无障碍技术未能解决的职场差距,为残障人士提供了隐形的工作辅助。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。