AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。
根据第三方 AI 测试机构 Artificial Analysis 的数据显示,在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元,这些测试包括:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。
对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元,而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。
有些推理模型的测试成本较低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言,这些模型的测试成本都很高。总的来说,Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元,这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。
OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。
Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch,随着更多 AI 实验室开发推理模型,该组织计划增加基准测试支出。
"在 Artificial Analysis,我们每月进行数百次评估,并为此投入大量预算,"Cameron 表示,"随着模型发布频率的增加,我们预计这方面的支出会继续上升。"
Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。
AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示,他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计,仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。
"我们正在进入这样一个世界:实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源,但学术界能获得的资源远远小于 y,"Taylor 最近在 X 平台上发文说,"没有人能够复现这些结果。"
为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。Token 代表原始文本的片段,例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据,OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token,约为 GPT-4o 生成量的 8 倍。
大多数 AI 公司按 token 收费,由此可以看出这些成本是如何累积的。
开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准测试也倾向于从模型中获取大量 token,因为它们包含涉及复杂多步骤任务的问题。
"今天的基准测试更复杂,尽管每个基准测试的问题数量总体上减少了,"Denain 告诉 TechCrunch,"它们经常试图评估模型执行现实世界任务的能力,比如编写和执行代码、浏览互联网以及使用计算机。"
Denain 补充说,最昂贵的模型的每个 token 成本随时间推移变得更高。例如,Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型,每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。
"由于模型随时间推移变得更好,达到特定性能水平的成本确实已经大大降低,"Denain 说,"但如果你想评估任何时点上最好的大型模型,你仍然需要支付更多。"
包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示,这会影响测试结果的公正性——即使没有操纵的证据,AI 实验室的参与暗示也会威胁到评估打分的完整性。
"从科学的角度来看,如果你发布的结果没有人能用相同的模型复现,这还能算是科学吗?"Taylor 在 X 平台上的后续帖子中写道,"它曾经是科学吗?"
好文章,需要你的鼓励
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
这篇文章详细解析了Long、Shelhamer和Darrell在2015年CVPR会议上发表的开创性研究"全卷积网络用于语义分割"。文章以通俗易懂的方式,将这项复杂的技术比作艺术家的绘画过程,解释了如何让计算机不仅识别图像中有什么物体,还能精确标出每个物体的位置和边界。研究团队通过将传统分类网络改造为全卷积形式,并巧妙运用上采样和跳跃连接技术,实现了高效准确的像素级图像理解。这一突破为自动驾驶、医学影像和增强现实等领域带来了革命性变化,奠定了现代计算机视觉的重要基础。