AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。
根据第三方 AI 测试机构 Artificial Analysis 的数据显示,在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元,这些测试包括:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。
对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元,而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。
有些推理模型的测试成本较低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言,这些模型的测试成本都很高。总的来说,Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元,这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。
OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。
Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch,随着更多 AI 实验室开发推理模型,该组织计划增加基准测试支出。
"在 Artificial Analysis,我们每月进行数百次评估,并为此投入大量预算,"Cameron 表示,"随着模型发布频率的增加,我们预计这方面的支出会继续上升。"
Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。
AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示,他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计,仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。
"我们正在进入这样一个世界:实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源,但学术界能获得的资源远远小于 y,"Taylor 最近在 X 平台上发文说,"没有人能够复现这些结果。"
为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。Token 代表原始文本的片段,例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据,OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token,约为 GPT-4o 生成量的 8 倍。
大多数 AI 公司按 token 收费,由此可以看出这些成本是如何累积的。
开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准测试也倾向于从模型中获取大量 token,因为它们包含涉及复杂多步骤任务的问题。
"今天的基准测试更复杂,尽管每个基准测试的问题数量总体上减少了,"Denain 告诉 TechCrunch,"它们经常试图评估模型执行现实世界任务的能力,比如编写和执行代码、浏览互联网以及使用计算机。"
Denain 补充说,最昂贵的模型的每个 token 成本随时间推移变得更高。例如,Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型,每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。
"由于模型随时间推移变得更好,达到特定性能水平的成本确实已经大大降低,"Denain 说,"但如果你想评估任何时点上最好的大型模型,你仍然需要支付更多。"
包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示,这会影响测试结果的公正性——即使没有操纵的证据,AI 实验室的参与暗示也会威胁到评估打分的完整性。
"从科学的角度来看,如果你发布的结果没有人能用相同的模型复现,这还能算是科学吗?"Taylor 在 X 平台上的后续帖子中写道,"它曾经是科学吗?"
好文章,需要你的鼓励
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
北卡罗来纳大学研究团队通过深入分析手指触控过程中的动态特征,开发出新型触控识别算法,能够理解触控过程中的压力分布、接触面积变化等信息,比传统方法准确率提高15-28%。该技术采用分层处理架构解决计算效率问题,已在真实设备上验证效果,将为个性化交互、情感感知等未来应用奠定基础,有望显著改善用户的触控体验。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
Perfios公司研究团队开发了创新的AI理财顾问训练框架,通过行为心理学驱动的数据生成方法,让8B参数的小模型在个人理财建议方面达到了与32B大模型相当的性能,同时运营成本降低80%。该方法首次将用户心理状态分析作为独立训练阶段,显著提升了AI建议的个性化程度和人性化表达,为普及化AI理财服务提供了技术路径。