一项全新的综合研究显示,开源人工智能模型在执行相同任务时比闭源竞争对手消耗的计算资源明显更多,这可能会削弱其成本优势,并重塑企业评估AI部署策略的方式。
这项由AI公司Nous Research进行的研究发现,开源模型使用的Token(AI计算的基本单位)比OpenAI和Anthropic等公司的闭源模型多1.5到4倍。对于简单的知识问题,差距显著扩大,一些开源模型使用的Token多达10倍。
该研究团队在周三发布的报告中写道:"开源模型使用的Token比闭源模型多1.5-4倍(对于简单知识问题最多可达10倍),这使得它们有时每次查询的成本更高,尽管每个Token的成本更低。"
这些发现挑战了AI行业的一个普遍假设,即开源模型相比专有替代方案具有明显的经济优势。虽然开源模型运行时通常每个Token成本更低,但研究表明,如果它们需要更多Token来推理特定问题,这种优势"很容易被抵消"。
**AI成本的真相:为什么"更便宜"的模型可能会破坏你的预算**
该研究检查了19个不同的AI模型,涵盖三类任务:基础知识问题、数学问题和逻辑谜题。团队测量了"Token效率"——模型相对于其解决方案复杂性使用多少计算单位——这一指标尽管具有重大成本影响,但很少受到系统性研究。
研究人员指出:"Token效率是一个关键指标,原因有几个实际考虑。虽然托管开源模型可能更便宜,但如果它们需要更多Token来推理特定问题,这种成本优势很容易被抵消。"
这种低效率在大推理模型(LRM)中尤为明显,这些模型使用扩展的"思维链"来解决复杂问题。这些旨在逐步思考问题的模型,在思考应该需要最少计算的简单问题时可能消耗数千个Token。
对于像"澳大利亚的首都是什么?"这样的基础知识问题,研究发现推理模型花费"数百个Token思考简单的知识问题",而这些问题本可以用一个词回答。
**哪些AI模型真正物有所值**
研究揭示了模型提供商之间的显著差异。OpenAI的模型,特别是其o4-mini和新发布的开源gpt-oss变体,展现了卓越的Token效率,尤其是在数学问题上。研究发现OpenAI模型"在数学问题上表现出极高的Token效率",使用的Token比其他商业模型少多达三倍。
在开源选项中,英伟达的llama-3.3-nemotron-super-49b-v1成为"在所有领域中Token效率最高的开源模型",而Magistral等公司的新模型显示出"异常高的Token使用量"。
效率差距因任务类型而显著不同。虽然开源模型在数学和逻辑问题上使用的Token大约是两倍,但在不需要高效推理的简单知识问题上差异急剧扩大。
**企业领导者需要了解的AI计算成本**
这些发现对企业AI采用具有直接影响,其中计算成本可能随使用量快速扩展。评估AI模型的公司通常关注准确性基准和每Token定价,但可能忽视了现实任务的总计算需求。
研究人员在分析总推理成本时发现:"闭源模型更好的Token效率通常可以补偿这些模型更高的API定价。"
研究还显示,闭源模型提供商似乎正在积极优化效率。"闭源模型经过迭代优化以使用更少Token来降低推理成本",而开源模型"在新版本中增加了Token使用量,可能反映了对更好推理性能的优先考虑"。
**研究人员如何破解AI效率测量密码**
研究团队在测量不同模型架构的效率时面临独特挑战。许多闭源模型不会透露其原始推理过程,而是提供内部计算的压缩摘要,以防止竞争对手复制其技术。
为了解决这个问题,研究人员使用完成Token——每次查询计费的总计算单位——作为推理努力的代理。他们发现"最新的闭源模型大多不会分享其原始推理轨迹",而是"使用较小的语言模型将思维链转录为摘要或压缩表示"。
**AI效率的未来:接下来会发生什么**
研究人员建议,Token效率应该与准确性一起成为未来模型开发的主要优化目标。他们写道:"更密集的CoT还将允许更高效的上下文使用,并可能对抗挑战性推理任务期间的上下文退化。"
OpenAI开源gpt-oss模型的发布展现了最先进的效率和"可自由访问的CoT",可以作为优化其他开源模型的参考点。
完整的研究数据集和评估代码可在GitHub上获得,允许其他研究人员验证和扩展这些发现。随着AI行业竞相开发更强大的推理能力,这项研究表明真正的竞争可能不是关于谁能构建最智能的AI——而是谁能构建最高效的AI。
毕竟,在一个每个Token都很重要的世界里,最浪费资源的模型可能会发现自己被市场淘汰,无论它们的思考能力有多强。
Q&A
Q1:开源AI模型真的比闭源模型更便宜吗?
A:不一定。虽然开源模型每个Token成本更低,但研究显示它们执行相同任务时需要1.5到4倍的Token,有些简单问题甚至需要10倍Token,这会抵消其价格优势,总成本可能更高。
Q2:为什么开源AI模型会消耗更多计算资源?
A:开源模型往往没有经过充分的效率优化,特别是大推理模型使用扩展的"思维链"解决问题,会花费数百个Token思考本来只需一个词就能回答的简单问题,而闭源模型经过迭代优化以减少Token使用。
Q3:企业选择AI模型时应该关注哪些成本指标?
A:企业不应只看每Token价格和准确性基准,还要重点关注Token效率——即模型完成特定任务需要多少计算单位。总推理成本才是真正的成本衡量标准,包括任务所需的总Token数量。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。