Epoch AI(非盈利 AI 研究机构)的一项分析表明,AI 行业可能无法长期从推理 AI 模型中获得大幅性能提升。报告发现,推理模型的进展可能最快在一年内出现放缓。
例如 OpenAI 的 o3 等推理模型在近几个月内在 AI 基准测试中取得了显著进步,特别是在测评数学和编程技能的测试中。这些模型能够将更多计算资源 (computing) 应用于问题,从而提升性能,但缺点是完成任务所需的时间比传统模型更长。
推理模型的开发流程是先利用海量数据训练一个传统模型,然后应用称为强化学习 (reinforcement learning) 的技术,该技术能有效为模型在解决难题时提供 “反馈” 。
据 Epoch 指出,截至目前,像 OpenAI 这样的前沿 AI 实验室尚未在推理模型训练的强化学习阶段投入大量计算资源。
情况正在改变。OpenAI 表示,在训练 o3 时所使用的计算资源大约是其前身 o1 的 10 倍,Epoch 推测这其中的大部分计算资源都用于了强化学习。OpenAI 研究员 Dan Roberts 最近透露,公司未来计划将强化学习作为优先方向,投入的计算资源将远超初始模型训练所需的量。
不过,据 Epoch 称,在强化学习中可投入的计算资源仍然存在上限。
根据 Epoch AI 的分析,推理模型训练的扩展可能会放缓
图片来源: Epoch AI
Epoch 分析师及该报告作者 Josh You 解释说,传统 AI 模型训练带来的性能提升目前每年大约提升四倍,而强化学习带来的性能增长在 3 到 5 个月内可实现十倍增长。他进一步指出,推理训练的进展 “很可能在 2026 年与前沿水平趋于一致”。
Epoch 的分析基于若干假设,并部分采纳了 AI 公司高管的公开评论。但分析也论证了,推理模型的扩展可能因除计算资源以外的原因而面临挑战,其中包括研究所需的高昂固定成本。
Josh You 写道:“如果研究需要持续的固定开销,推理模型可能无法按照预期大幅扩展。快速扩展计算资源可能是推动推理模型进步的一个非常重要因素,因此值得密切关注。”
任何迹象表明推理模型在不久的将来可能达到某种上限,都可能让已在这类模型研发上投入巨大资源的 AI 行业感到担忧。研究已表明,虽然推理模型的运行成本极高,但它们存在严重缺陷,例如比某些传统模型更容易产生误导性信息。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。