研究显示大语言模型数学计算能力令人担忧

波兰研究团队开发ORCA数学基准测试，对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于63%。测试涵盖生物化学、工程建筑、金融经济等七个领域的500道数学题目。研究发现模型主要在四舍五入和计算错误方面存在问题，表明自然语言推理进步并未直接转化为可靠的计算能力。

在乔治·奥威尔的《1984》世界中，二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。

尽管AI模型经过训练能够输出正确答案，并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用，但它们仍然无法可靠地进行计算。

来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA（AI计算全方位研究）的数学基准测试，该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。

ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格，准确率均在63%或更低。

目前有各种其他基准测试用于评估AI模型的数学能力，如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断，你可能会认为机器学习几乎学会了一切，一些模型的得分达到0.95或更高。

但正如我们所注意到的，基准测试往往缺乏严格的科学设计。

ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为，虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高，但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据，该网站衡量AI模型相对于人类基准得分0的表现，AI模型的数学推理得分为-7.44（基于2024年4月的数据）。

更重要的是，作者们表示，许多现有的基准数据集已经被纳入模型训练数据中，这种情况类似于学生在考试前就拿到了答案。因此，他们认为需要ORCA来评估实际的计算推理能力，而不是模式记忆。

根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究，ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率，错误主要与舍入（35%）和计算错误（33%）有关。"

该评估于2025年10月进行，使用了500个不同类别的数学导向提示：生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学，以及统计学与概率。

论文指出："Gemini 2.5 Flash取得了最高的整体准确率（63%），Grok 4紧随其后（62.8%），DeepSeek V3.2排名第三，为52.0%。"

"ChatGPT-5和Claude Sonnet 4.5表现相当，但水平较低（分别为49.4%和45.2%），这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实，自然语言推理的进步并不能直接转化为一致的计算可靠性。"

Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定，在数学与转换方面表现强劲（74.1%），但在生物与化学（10.5%）和物理学（31.3%）方面得分惨淡。

然而，这些分数可能只是某个时间点的快照，因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题：

提示：假设你有7个蓝色LED（3.6V）并联连接，与一个电阻器一起，承受12V电压和5mA电流。电阻器的功耗值是多少（以mW为单位）？

预期结果：42 mW

Claude Sonnet 4.5：294 mW

当记者将这个提示输入Claude Sonnet 4.5时，该模型表示不确定5mA数字是指每个LED的电流（不正确）还是总电流（正确）。它给出了不正确的294 mW答案，同时作为替代方案，也给出了正确的42 mW答案。

简而言之，AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映，你可能会发现结果是五。

Q&A

Q1：ORCA基准测试是什么？它有什么特别之处？

A：ORCA是由Omni Calculator等机构开发的AI数学能力基准测试，全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题，避免了现有基准测试数据可能已被纳入训练数据的问题，能更真实地评估AI的计算推理能力而非模式记忆。

Q2：主流大语言模型在ORCA测试中表现如何？

A：五个主流大语言模型的表现都不理想，准确率均在63%或更低。其中Gemini 2.5 Flash得分最高（63%），Grok 4紧随其后（62.8%），DeepSeek V3.2为52.0%，ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。

Q3：为什么大语言模型在数学计算方面表现不佳？

A：研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高，但那些测试数据可能已经被纳入训练数据中。ORCA测试显示，自然语言推理的进步并不能直接转化为可靠的计算能力，AI在确定性推理任务中仍有很大改进空间。

来源：The Register

0赞

好文章，需要你的鼓励

研究显示大语言模型数学计算能力令人担忧

来源：The Register

2025

11/18

13:49

分享

点赞

CIO们注意：没有真正培训和领导力，人才将会流失

供应商秘密"修复"导致关键应用在营业时间无法使用

Proxmox发布数据中心管理器，打造VMware替代方案

AWS re:Invent 2025云服务企业级AI智能体技术重大发布会

Microsoft Ignite 2025：Azure 重磅发布，一文读懂！

Werner Out，但Builders的传奇才刚开始！re:Invent 2025 Dr. Werner谢幕演讲！

以硬核基座，托举Agentic AI颠覆创新！re:Invent 2025 Peter&Dave主题演讲回顾！

以伙伴优势共筑AI Agent新时代！re:Invent 2025 Dr. Ruba Borno演讲精华回顾

靠谱、高效的构建AI Agent实操手册！re:Invent 2025 Swami博士主题演讲划重点！

通往数十亿Agents的未来！re:Invent 2025 Matt Garman主题演讲精华！

Google DeepMind造出"全能游戏玩家"：SIMA 2在虚拟世界里自由行动，还会自己学新技能

HPE扩展AI原生产品，以构建自动驾驶的网络战略重塑IT运营未来

数据中心和加密货币挖矿将推高2026年电价

台湾AI工厂将采用VAST Data存储方案为7000颗Blackwell GPU提供数据支持

OceanBase发布首款AI数据库seekdb，探索数据库AI范式的跃迁

Verizon和Collectors如何运用AI：数十亿美元计划和千个模型

Google全球推出AI"优惠航班"工具，搜索新增旅行规划功能

从兆瓦到吉瓦：AI如何迫使数据中心彻底重新思考电力问题

Oracle在华尔街科技股抛售中因巨额AI投资遭受重创

Dell PowerScale闪电项目实现并行化升级提速文件处理性能

AWS推出Kiro正式版，支持团队协作和CLI功能

Luminal获得530万美元融资，专注构建更优GPU代码框架

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: