Epoch AI(非盈利 AI 研究机构)的一项分析表明,AI 行业可能无法长期从推理 AI 模型中获得大幅性能提升。报告发现,推理模型的进展可能最快在一年内出现放缓。
例如 OpenAI 的 o3 等推理模型在近几个月内在 AI 基准测试中取得了显著进步,特别是在测评数学和编程技能的测试中。这些模型能够将更多计算资源 (computing) 应用于问题,从而提升性能,但缺点是完成任务所需的时间比传统模型更长。
推理模型的开发流程是先利用海量数据训练一个传统模型,然后应用称为强化学习 (reinforcement learning) 的技术,该技术能有效为模型在解决难题时提供 “反馈” 。
据 Epoch 指出,截至目前,像 OpenAI 这样的前沿 AI 实验室尚未在推理模型训练的强化学习阶段投入大量计算资源。
情况正在改变。OpenAI 表示,在训练 o3 时所使用的计算资源大约是其前身 o1 的 10 倍,Epoch 推测这其中的大部分计算资源都用于了强化学习。OpenAI 研究员 Dan Roberts 最近透露,公司未来计划将强化学习作为优先方向,投入的计算资源将远超初始模型训练所需的量。
不过,据 Epoch 称,在强化学习中可投入的计算资源仍然存在上限。
根据 Epoch AI 的分析,推理模型训练的扩展可能会放缓
图片来源: Epoch AI
Epoch 分析师及该报告作者 Josh You 解释说,传统 AI 模型训练带来的性能提升目前每年大约提升四倍,而强化学习带来的性能增长在 3 到 5 个月内可实现十倍增长。他进一步指出,推理训练的进展 “很可能在 2026 年与前沿水平趋于一致”。
Epoch 的分析基于若干假设,并部分采纳了 AI 公司高管的公开评论。但分析也论证了,推理模型的扩展可能因除计算资源以外的原因而面临挑战,其中包括研究所需的高昂固定成本。
Josh You 写道:“如果研究需要持续的固定开销,推理模型可能无法按照预期大幅扩展。快速扩展计算资源可能是推动推理模型进步的一个非常重要因素,因此值得密切关注。”
任何迹象表明推理模型在不久的将来可能达到某种上限,都可能让已在这类模型研发上投入巨大资源的 AI 行业感到担忧。研究已表明,虽然推理模型的运行成本极高,但它们存在严重缺陷,例如比某些传统模型更容易产生误导性信息。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。