OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

独立测试显示，OpenAI 的 o3 模型得分约 10%，远低于内部报告的25%上限。公开版与内测版存在差异，后续版本预计将更加强大，提醒业界对 AI 基准测试结果保持谨慎。

OpenAI 的 o3 AI 模型在一次基准测试中的得分低于公司最初所宣称的水平

OpenAI 与第三方对于 o3 模型的基准测试结果存在差异，这引发了外界对于公司在透明度及模型测试流程上的质疑。

当 OpenAI 在 12 月份推出 o3 模型时，公司宣称该模型在 FrontierMath（一套具有挑战性的数学题集）上能够正确回答略多于四分之一的问题。这个得分显著领先于竞争对手——下一个最佳模型仅能正确解答大约 2% 的 FrontierMath 题目。

OpenAI 首席研究官 Mark Chen 在一次直播中表示：“目前市面上所有产品在 FrontierMath 上的得分都低于 2%，而我们内部观察到，通过采用 o3 模型在激进的测试时计算设置下，我们能够达到超过 25% 的得分。”

然而，事实证明，这个数字很可能只是一个上界，是由一个使用更多计算资源的 o3 版本在测试中获得的，而这并非 OpenAI 上周公开发布的那一版本所具备的计算能力。

负责 FrontierMath 的研究机构 Epoch AI 于周五发布了对 o3 模型进行独立基准测试的结果。Epoch 的测试显示，o3 模型得分大约为 10%，远低于 OpenAI 声称的最高分数。

OpenAI 已经发布了备受期待的推理模型 o3，同时还推出了继 o3-mini 之后更小且成本更低的 o4-mini 模型。

Epoch 在 Twitter 上写道：“我们在数学和科学基准测试集合上对这些新模型进行了评估，结果已在线程中公布！ pic.twitter.com/5gbtzkEy1B” （2025 年 4 月 18 日）。

这并不意味着 OpenAI 本质上是在撒谎。公司在 12 月发布的基准测试结果展示了一个下界得分，这个得分与 Epoch 观察到的分数相吻合。Epoch 还指出，其测试设置很可能与 OpenAI 的有所不同，而且其评估使用了更新版本的 FrontierMath。

Epoch 在报告中写道：“我们与 OpenAI 结果之间的差异，可能是因为 OpenAI 使用了一个更强大的内部测试框架，在测试时动用了更多的计算资源，或是因为这些结果是在 FrontierMath 的不同子集上运行得到的（frontiermath-2024-11-26 中的 180 道题与 frontiermath-2025-02-28-private 中的 290 道题相比）。”

根据 ARC Prize Foundation 在 X 上的一篇博文，该组织曾测试过预发布版的 o3 模型，并指出公开版 o3 “是一个经过调优以适用于聊天/产品场景的不同模型”，这一点与 Epoch 的报告相印证。

ARC Prize 在推文中写道：“所有公布的 o3 计算层级都比我们基准测试的版本要小。”一般来说，计算资源更充足的版本预期能获得更好的基准测试得分。

当然，公开发布的 o3 模型未能达到 OpenAI 测试时所宣称的成绩，这一点实际上无关紧要，因为 OpenAI 的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现均优于 o3，并且 OpenAI 计划在未来几周推出性能更强的 o3 变种——o3-pro。

不过，这再次提醒我们在解读 AI 基准测试时不应只停留在表面，尤其当数据来源于一个手握商业服务的公司时。

随着厂商争相运用新模型争取头条新闻和市场关注，基准测试“争议”在 AI 行业中已日渐常见。

今年一月，Epoch 因在 OpenAI 宣布 o3 后才披露其获得的资金支持而受到批评；许多为 FrontierMath 贡献的学者直到公开报道后才得知 OpenAI 的参与。

最近，Elon Musk 的 xAI 被指控发布了误导性的基准测试图表，用以宣传其最新 AI 模型 Grok 3 的表现；而就在本月，Meta 承认曾宣传过某个模型版本的基准测试得分，而该版本与公司提供给开发者使用的版本不同。

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

来源：Techcrunch

2025

04/22

15:26

分享

点赞

西部数据扩建系统集成测试实验室，以加速客户在持续增长的 AI 和云时代取得成功

深信服AI编程工具CoStrict首推严肃编程模式，为企业级开发而生

凝芯聚力筑根基，链动未来新机遇——IC China 2025携手全产业链领军企业邀您相约北京

让AI成为优秀倾听者而非试图做你最好朋友或心理健康顾问

通用人工智能和超级智能可能催生全新外星智能形态

人工智能研究新突破：英伟达、苹果、谷歌和斯坦福探索下一步发展

企业如何利用AI在金融领域获得竞争优势

2026年必须关注的五大机器人发展趋势

英伟达开始在台积电亚利桑那工厂批量生产Blackwell芯片

HPE与爱立信联合验证双模5G核心网技术

智能体AI来了，改变生活需要你的信任

谷歌Deepmind利用AI助力聚变反应堆技术突破

如何规划新的业务科技运营模式

微软 Copilot 个性化升级迎50周年

今日大语言模型以闪电般的速度从补丁中构造漏洞利用

头脑与机器的交融已来临

全新 Google Photos 更新让每张照片尽显 Ultra HDR 质感

OpenAI 新推理 AI 模型幻觉问题更严重

CW 创新奖：借助 AI 改变网络安全格局

Gemini 2.5 Flash 登陆 Gemini 应用，谷歌致力于改进 “动态思考”

如何微调 AI 提示以在工作中获得竞争优势

Hammerspace：Meta 使用的非结构化数据管理平台融资1亿美元，估值超5亿美元

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: