OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

独立测试显示，OpenAI 的 o3 模型得分约 10%，远低于内部报告的25%上限。公开版与内测版存在差异，后续版本预计将更加强大，提醒业界对 AI 基准测试结果保持谨慎。

OpenAI 的 o3 AI 模型在一次基准测试中的得分低于公司最初所宣称的水平

OpenAI 与第三方对于 o3 模型的基准测试结果存在差异，这引发了外界对于公司在透明度及模型测试流程上的质疑。

当 OpenAI 在 12 月份推出 o3 模型时，公司宣称该模型在 FrontierMath（一套具有挑战性的数学题集）上能够正确回答略多于四分之一的问题。这个得分显著领先于竞争对手——下一个最佳模型仅能正确解答大约 2% 的 FrontierMath 题目。

OpenAI 首席研究官 Mark Chen 在一次直播中表示：“目前市面上所有产品在 FrontierMath 上的得分都低于 2%，而我们内部观察到，通过采用 o3 模型在激进的测试时计算设置下，我们能够达到超过 25% 的得分。”

然而，事实证明，这个数字很可能只是一个上界，是由一个使用更多计算资源的 o3 版本在测试中获得的，而这并非 OpenAI 上周公开发布的那一版本所具备的计算能力。

负责 FrontierMath 的研究机构 Epoch AI 于周五发布了对 o3 模型进行独立基准测试的结果。Epoch 的测试显示，o3 模型得分大约为 10%，远低于 OpenAI 声称的最高分数。

OpenAI 已经发布了备受期待的推理模型 o3，同时还推出了继 o3-mini 之后更小且成本更低的 o4-mini 模型。

Epoch 在 Twitter 上写道：“我们在数学和科学基准测试集合上对这些新模型进行了评估，结果已在线程中公布！ pic.twitter.com/5gbtzkEy1B” （2025 年 4 月 18 日）。

这并不意味着 OpenAI 本质上是在撒谎。公司在 12 月发布的基准测试结果展示了一个下界得分，这个得分与 Epoch 观察到的分数相吻合。Epoch 还指出，其测试设置很可能与 OpenAI 的有所不同，而且其评估使用了更新版本的 FrontierMath。

Epoch 在报告中写道：“我们与 OpenAI 结果之间的差异，可能是因为 OpenAI 使用了一个更强大的内部测试框架，在测试时动用了更多的计算资源，或是因为这些结果是在 FrontierMath 的不同子集上运行得到的（frontiermath-2024-11-26 中的 180 道题与 frontiermath-2025-02-28-private 中的 290 道题相比）。”

根据 ARC Prize Foundation 在 X 上的一篇博文，该组织曾测试过预发布版的 o3 模型，并指出公开版 o3 “是一个经过调优以适用于聊天/产品场景的不同模型”，这一点与 Epoch 的报告相印证。

ARC Prize 在推文中写道：“所有公布的 o3 计算层级都比我们基准测试的版本要小。”一般来说，计算资源更充足的版本预期能获得更好的基准测试得分。

当然，公开发布的 o3 模型未能达到 OpenAI 测试时所宣称的成绩，这一点实际上无关紧要，因为 OpenAI 的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现均优于 o3，并且 OpenAI 计划在未来几周推出性能更强的 o3 变种——o3-pro。

不过，这再次提醒我们在解读 AI 基准测试时不应只停留在表面，尤其当数据来源于一个手握商业服务的公司时。

随着厂商争相运用新模型争取头条新闻和市场关注，基准测试“争议”在 AI 行业中已日渐常见。

今年一月，Epoch 因在 OpenAI 宣布 o3 后才披露其获得的资金支持而受到批评；许多为 FrontierMath 贡献的学者直到公开报道后才得知 OpenAI 的参与。

最近，Elon Musk 的 xAI 被指控发布了误导性的基准测试图表，用以宣传其最新 AI 模型 Grok 3 的表现；而就在本月，Meta 承认曾宣传过某个模型版本的基准测试得分，而该版本与公司提供给开发者使用的版本不同。

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

来源：Techcrunch

2025

04/22

15:26

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

如何规划新的业务科技运营模式

微软 Copilot 个性化升级迎50周年

今日大语言模型以闪电般的速度从补丁中构造漏洞利用

头脑与机器的交融已来临

全新 Google Photos 更新让每张照片尽显 Ultra HDR 质感

OpenAI 新推理 AI 模型幻觉问题更严重

CW 创新奖：借助 AI 改变网络安全格局

Gemini 2.5 Flash 登陆 Gemini 应用，谷歌致力于改进 “动态思考”

如何微调 AI 提示以在工作中获得竞争优势

Hammerspace：Meta 使用的非结构化数据管理平台融资1亿美元，估值超5亿美元

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: