AI 推理模型的兴起使基准测试成本大幅提升

随着OpenAI等AI实验室推出所谓的"推理"AI模型，这些模型能够逐步"思考"问题，在特定领域表现出更强的能力。然而,这些模型的基准测试成本也大幅上涨,使得独立验证变得困难。第三方测试机构Artificial Analysis的数据显示,评估OpenAI的o1推理模型在7个流行基准测试上的成本高达2767美元,而非推理模型GPT-4o仅需109美元。高昂的测试成本可能会影响学术界复现结果的能力。

AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题，在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的，推理模型的基准测试成本却要高得多，这使得独立验证这些声明变得困难。

根据第三方 AI 测试机构 Artificial Analysis 的数据显示，在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元，这些测试包括：MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。

对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元，而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。

有些推理模型的测试成本较低。例如，Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言，这些模型的测试成本都很高。总的来说，Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元，这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。

OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元，而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。

Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch，随着更多 AI 实验室开发推理模型，该组织计划增加基准测试支出。

"在 Artificial Analysis，我们每月进行数百次评估，并为此投入大量预算，"Cameron 表示，"随着模型发布频率的增加，我们预计这方面的支出会继续上升。"

Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。

AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示，他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计，仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。

"我们正在进入这样一个世界：实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源，但学术界能获得的资源远远小于 y，"Taylor 最近在 X 平台上发文说，"没有人能够复现这些结果。"

为什么推理模型的测试成本如此之高？主要是因为它们会生成大量的 token。Token 代表原始文本的片段，例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据，OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token，约为 GPT-4o 生成量的 8 倍。

大多数 AI 公司按 token 收费，由此可以看出这些成本是如何累积的。

开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示，现代基准测试也倾向于从模型中获取大量 token，因为它们包含涉及复杂多步骤任务的问题。

"今天的基准测试更复杂，尽管每个基准测试的问题数量总体上减少了，"Denain 告诉 TechCrunch，"它们经常试图评估模型执行现实世界任务的能力，比如编写和执行代码、浏览互联网以及使用计算机。"

Denain 补充说，最昂贵的模型的每个 token 成本随时间推移变得更高。例如，Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型，每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。

"由于模型随时间推移变得更好，达到特定性能水平的成本确实已经大大降低，"Denain 说，"但如果你想评估任何时点上最好的大型模型，你仍然需要支付更多。"

包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示，这会影响测试结果的公正性——即使没有操纵的证据，AI 实验室的参与暗示也会威胁到评估打分的完整性。

"从科学的角度来看，如果你发布的结果没有人能用相同的模型复现，这还能算是科学吗？"Taylor 在 X 平台上的后续帖子中写道，"它曾经是科学吗？"

来源：Techcrunch

0赞

好文章，需要你的鼓励

AI 推理模型的兴起使基准测试成本大幅提升

来源：Techcrunch

2025

04/11

09:44

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

WordPress.com 推出免费的 AI 网站构建器

大型机在 AI 时代是否仍有一席之地？

Gemini 和 Veo AI 模型将整合在一起，DeepMind CEO Demis Hassabis 宣布

ChatGPT 获得记忆增强升级，让对话体验更进一步

AI 推理模型的兴起使基准测试成本大幅提升

Google 推出企业级 AI 智能体开发套件，助力快速原型开发和部署

Google 推出性能更快、更高效的 Gemini AI 模型

AI 时代的领导力变革：2035 年的 5 个关键启示

Google 推出第七代 Ironwood TPU 芯片，借助 AI 进行性能对比

xAI 公司推出 Grok 3 API 服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: