AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。
根据第三方 AI 测试机构 Artificial Analysis 的数据显示,在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元,这些测试包括:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。
对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元,而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。
有些推理模型的测试成本较低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言,这些模型的测试成本都很高。总的来说,Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元,这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。
OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。
Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch,随着更多 AI 实验室开发推理模型,该组织计划增加基准测试支出。
"在 Artificial Analysis,我们每月进行数百次评估,并为此投入大量预算,"Cameron 表示,"随着模型发布频率的增加,我们预计这方面的支出会继续上升。"
Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。
AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示,他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计,仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。
"我们正在进入这样一个世界:实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源,但学术界能获得的资源远远小于 y,"Taylor 最近在 X 平台上发文说,"没有人能够复现这些结果。"
为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。Token 代表原始文本的片段,例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据,OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token,约为 GPT-4o 生成量的 8 倍。
大多数 AI 公司按 token 收费,由此可以看出这些成本是如何累积的。
开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准测试也倾向于从模型中获取大量 token,因为它们包含涉及复杂多步骤任务的问题。
"今天的基准测试更复杂,尽管每个基准测试的问题数量总体上减少了,"Denain 告诉 TechCrunch,"它们经常试图评估模型执行现实世界任务的能力,比如编写和执行代码、浏览互联网以及使用计算机。"
Denain 补充说,最昂贵的模型的每个 token 成本随时间推移变得更高。例如,Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型,每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。
"由于模型随时间推移变得更好,达到特定性能水平的成本确实已经大大降低,"Denain 说,"但如果你想评估任何时点上最好的大型模型,你仍然需要支付更多。"
包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示,这会影响测试结果的公正性——即使没有操纵的证据,AI 实验室的参与暗示也会威胁到评估打分的完整性。
"从科学的角度来看,如果你发布的结果没有人能用相同的模型复现,这还能算是科学吗?"Taylor 在 X 平台上的后续帖子中写道,"它曾经是科学吗?"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。