一项全新的综合研究显示,开源人工智能模型在执行相同任务时比闭源竞争对手消耗的计算资源明显更多,这可能会削弱其成本优势,并重塑企业评估AI部署策略的方式。
这项由AI公司Nous Research进行的研究发现,开源模型使用的Token(AI计算的基本单位)比OpenAI和Anthropic等公司的闭源模型多1.5到4倍。对于简单的知识问题,差距显著扩大,一些开源模型使用的Token多达10倍。
该研究团队在周三发布的报告中写道:"开源模型使用的Token比闭源模型多1.5-4倍(对于简单知识问题最多可达10倍),这使得它们有时每次查询的成本更高,尽管每个Token的成本更低。"
这些发现挑战了AI行业的一个普遍假设,即开源模型相比专有替代方案具有明显的经济优势。虽然开源模型运行时通常每个Token成本更低,但研究表明,如果它们需要更多Token来推理特定问题,这种优势"很容易被抵消"。
**AI成本的真相:为什么"更便宜"的模型可能会破坏你的预算**
该研究检查了19个不同的AI模型,涵盖三类任务:基础知识问题、数学问题和逻辑谜题。团队测量了"Token效率"——模型相对于其解决方案复杂性使用多少计算单位——这一指标尽管具有重大成本影响,但很少受到系统性研究。
研究人员指出:"Token效率是一个关键指标,原因有几个实际考虑。虽然托管开源模型可能更便宜,但如果它们需要更多Token来推理特定问题,这种成本优势很容易被抵消。"
这种低效率在大推理模型(LRM)中尤为明显,这些模型使用扩展的"思维链"来解决复杂问题。这些旨在逐步思考问题的模型,在思考应该需要最少计算的简单问题时可能消耗数千个Token。
对于像"澳大利亚的首都是什么?"这样的基础知识问题,研究发现推理模型花费"数百个Token思考简单的知识问题",而这些问题本可以用一个词回答。
**哪些AI模型真正物有所值**
研究揭示了模型提供商之间的显著差异。OpenAI的模型,特别是其o4-mini和新发布的开源gpt-oss变体,展现了卓越的Token效率,尤其是在数学问题上。研究发现OpenAI模型"在数学问题上表现出极高的Token效率",使用的Token比其他商业模型少多达三倍。
在开源选项中,英伟达的llama-3.3-nemotron-super-49b-v1成为"在所有领域中Token效率最高的开源模型",而Magistral等公司的新模型显示出"异常高的Token使用量"。
效率差距因任务类型而显著不同。虽然开源模型在数学和逻辑问题上使用的Token大约是两倍,但在不需要高效推理的简单知识问题上差异急剧扩大。
**企业领导者需要了解的AI计算成本**
这些发现对企业AI采用具有直接影响,其中计算成本可能随使用量快速扩展。评估AI模型的公司通常关注准确性基准和每Token定价,但可能忽视了现实任务的总计算需求。
研究人员在分析总推理成本时发现:"闭源模型更好的Token效率通常可以补偿这些模型更高的API定价。"
研究还显示,闭源模型提供商似乎正在积极优化效率。"闭源模型经过迭代优化以使用更少Token来降低推理成本",而开源模型"在新版本中增加了Token使用量,可能反映了对更好推理性能的优先考虑"。
**研究人员如何破解AI效率测量密码**
研究团队在测量不同模型架构的效率时面临独特挑战。许多闭源模型不会透露其原始推理过程,而是提供内部计算的压缩摘要,以防止竞争对手复制其技术。
为了解决这个问题,研究人员使用完成Token——每次查询计费的总计算单位——作为推理努力的代理。他们发现"最新的闭源模型大多不会分享其原始推理轨迹",而是"使用较小的语言模型将思维链转录为摘要或压缩表示"。
**AI效率的未来:接下来会发生什么**
研究人员建议,Token效率应该与准确性一起成为未来模型开发的主要优化目标。他们写道:"更密集的CoT还将允许更高效的上下文使用,并可能对抗挑战性推理任务期间的上下文退化。"
OpenAI开源gpt-oss模型的发布展现了最先进的效率和"可自由访问的CoT",可以作为优化其他开源模型的参考点。
完整的研究数据集和评估代码可在GitHub上获得,允许其他研究人员验证和扩展这些发现。随着AI行业竞相开发更强大的推理能力,这项研究表明真正的竞争可能不是关于谁能构建最智能的AI——而是谁能构建最高效的AI。
毕竟,在一个每个Token都很重要的世界里,最浪费资源的模型可能会发现自己被市场淘汰,无论它们的思考能力有多强。
Q&A
Q1:开源AI模型真的比闭源模型更便宜吗?
A:不一定。虽然开源模型每个Token成本更低,但研究显示它们执行相同任务时需要1.5到4倍的Token,有些简单问题甚至需要10倍Token,这会抵消其价格优势,总成本可能更高。
Q2:为什么开源AI模型会消耗更多计算资源?
A:开源模型往往没有经过充分的效率优化,特别是大推理模型使用扩展的"思维链"解决问题,会花费数百个Token思考本来只需一个词就能回答的简单问题,而闭源模型经过迭代优化以减少Token使用。
Q3:企业选择AI模型时应该关注哪些成本指标?
A:企业不应只看每Token价格和准确性基准,还要重点关注Token效率——即模型完成特定任务需要多少计算单位。总推理成本才是真正的成本衡量标准,包括任务所需的总Token数量。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。