OpenAI违反禁令提前公布数学奥赛金牌成绩

OpenAI研究员宣布其实验性AI模型在国际数学奥林匹克竞赛中达到金牌级表现，匹配每年仅不到9%人类参赛者能达到的标准。该模型在4.5小时限时内解决六道证明题，无网络和计算器辅助。然而OpenAI违反了IMO组织方要求等到7月28日再发布结果的协议，且因自评分引发争议。与谷歌需要三天解题不同，OpenAI声称其模型如标准语言模型般处理问题并生成自然语言证明。

上周六，OpenAI研究员Alexander Wei宣布该公司正在研发的一个新型AI语言模型在国际数学奥林匹克竞赛(IMO)中达到了金牌水平的表现，这一标准每年只有不到9%的人类参赛者能够达到。尽管IMO组织方要求AI公司等到7月28日再公布结果，OpenAI仍提前发布了这一消息。

据报道，这个实验性模型在与人类竞赛者相同的限制条件下解决了竞赛的六个证明题：每场4.5小时，不允许使用互联网或计算器。然而，多个知情人士表示，由于OpenAI自行评分其IMO结果，该公司声明的合法性可能存在疑问。OpenAI计划公布证明过程和评分标准供公众审查。

据OpenAI称，其成就标志着与以往AI数学奥赛尝试的不同，以往方法依赖专门的定理证明系统，往往超出人类时间限制。OpenAI表示其模型将问题作为纯文本处理，生成自然语言证明，像标准大语言模型一样运行，而非专门构建的数学系统。

此前谷歌在2024年7月声称其AlphaProof和AlphaGeometry 2模型在IMO中获得了银牌等级——尽管谷歌的系统每个问题需要长达三天时间，而非4.5小时的人类时间限制，并且需要人工协助将问题翻译成正式数学语言。

"数学是推理能力的试验场——结构化、严格且难以造假，"该公司在发给Ars Technica的声明中写道。"这表明可扩展的通用方法现在可以在长期被视为无法达到的任务中超越手工调优系统。"

虽然该公司确认其下一个主要AI模型GPT-5"即将推出"，但澄清当前这个模型是实验性的。"这些技术将继续发展，但具有这种能力水平的产品在一段时间内不会发布，"OpenAI表示。OpenAI很可能为这个特定实验投入了大量计算资源（意味着高成本），这种计算水平在近期内不会成为面向消费者的AI模型的常态。

通用AI模型的惊人结果

OpenAI表示，由Alex Wei领导、Sheryl Hsu和Noam Brown支持的实验性AI模型研究团队最初并未计划参加竞赛，但在测试中观察到有希望的结果后决定评估他们的工作。

"这不是为数学而构建的系统。这与我们为语言、编程和科学训练的大语言模型类型相同——在标准IMO约束下解决完整的基于证明的问题：4.5小时，无互联网，无计算器，"OpenAI在声明中说。

OpenAI收到了由IMO组织者新编写并同时分享给几家AI公司的问题。为验证结果，据报告每个解决方案都经过了由OpenAI组织的三名前IMO奖牌获得者组成的盲评小组评分，需要一致同意才能接受。

然而，除了自行评分结果的争议外，OpenAI还因其周六的公告似乎违反了与国际数学奥林匹克的禁令协议而惹恼了IMO社区。另一家参与竞赛的AI公司Harmonic在7月20日的X帖子中透露，"IMO委员会要求我们和其他参与的领先AI公司推迟发布结果直到7月28日。"

提前公告促使已为约定日期准备IMO结果的谷歌DeepMind将自己的IMO相关公告提前到今天晚些时候。Harmonic计划按原定计划在7月28日分享其结果。

针对争议，OpenAI研究科学家Noam Brown在X上发帖："我们没有与IMO联系。我在发帖前与一位组织者交谈让他知道。他要求我们等到闭幕式结束后再发布以尊重孩子们，我们照做了。"

然而，一名IMO协调员告诉X用户Mikhail Samin，OpenAI实际上在闭幕式之前就宣布了，与Brown的说法矛盾。该协调员称OpenAI的行为"粗鲁且不当"，指出OpenAI"不是与IMO合作测试其模型的AI公司之一"。

始于1959年的数学难题

自1959年开始举办的国际数学奥林匹克代表了数学推理最具挑战性的测试之一。超过100个国家各派出六名参赛者，参赛者在两个4.5小时的环节中面对六个基于证明的问题。这些问题通常需要深刻的数学洞察力和创造力，而非原始计算能力。你可以在网上看到2025年奥赛的确切问题。

例如，第一题要求学生想象一个三角形点阵网格（如三角形钉板），并找出如何使用恰好n条直线覆盖所有点。关键是一些线被称为"阳光线"——这些线不是水平、垂直或45°角对角线。挑战是证明无论你的三角形多大，你只能创建恰好有0、1或3条阳光线的图案——永远不是2条，不是4条，不是任何其他数字。

OpenAI结果的时机让一些预测市场感到惊讶，这些市场给任何AI系统在2025年前赢得IMO金牌的概率约为18%。然而，根据谷歌今天下午的发言（以及Harmonic等其他公司可能在7月28日发布的内容），OpenAI可能不是唯一取得这些意外结果的AI公司。

来源：Arstechnica

0赞

好文章，需要你的鼓励

OpenAI违反禁令提前公布数学奥赛金牌成绩

来源：Arstechnica

2025

07/22

08:13

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

AWS的智能体基础设施布局：开发者优先策略与云计算竞争前瞻

英超数字化转型：用AI为全球球迷打造个性化体验

AI个性化技术是否正在割裂社会现实认知

Replit"氛围编程"服务删除用户生产数据库并伪造数据

嵌入模型榜单大洗牌：谷歌登顶，阿里开源方案紧追不舍

DDN推出Infinia存储系统，声称可大幅提升AI推理速度并降低成本

OpenAI实验模型在国际数学奥林匹克竞赛中获得金牌级表现

AGI和AI超级智能证明智能所需回答的问题数量

AI在商业中的正确用量

AnyCoder：基于Kimi K2的快速Web应用开发工具发布

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: