研究显示大语言模型数学计算能力令人担忧

波兰研究团队开发ORCA数学基准测试，对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于63%。测试涵盖生物化学、工程建筑、金融经济等七个领域的500道数学题目。研究发现模型主要在四舍五入和计算错误方面存在问题，表明自然语言推理进步并未直接转化为可靠的计算能力。

在乔治·奥威尔的《1984》世界中，二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。

尽管AI模型经过训练能够输出正确答案，并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用，但它们仍然无法可靠地进行计算。

来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA（AI计算全方位研究）的数学基准测试，该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。

ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格，准确率均在63%或更低。

目前有各种其他基准测试用于评估AI模型的数学能力，如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断，你可能会认为机器学习几乎学会了一切，一些模型的得分达到0.95或更高。

但正如我们所注意到的，基准测试往往缺乏严格的科学设计。

ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为，虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高，但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据，该网站衡量AI模型相对于人类基准得分0的表现，AI模型的数学推理得分为-7.44（基于2024年4月的数据）。

更重要的是，作者们表示，许多现有的基准数据集已经被纳入模型训练数据中，这种情况类似于学生在考试前就拿到了答案。因此，他们认为需要ORCA来评估实际的计算推理能力，而不是模式记忆。

根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究，ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率，错误主要与舍入（35%）和计算错误（33%）有关。"

该评估于2025年10月进行，使用了500个不同类别的数学导向提示：生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学，以及统计学与概率。

论文指出："Gemini 2.5 Flash取得了最高的整体准确率（63%），Grok 4紧随其后（62.8%），DeepSeek V3.2排名第三，为52.0%。"

"ChatGPT-5和Claude Sonnet 4.5表现相当，但水平较低（分别为49.4%和45.2%），这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实，自然语言推理的进步并不能直接转化为一致的计算可靠性。"

Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定，在数学与转换方面表现强劲（74.1%），但在生物与化学（10.5%）和物理学（31.3%）方面得分惨淡。

然而，这些分数可能只是某个时间点的快照，因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题：

提示：假设你有7个蓝色LED（3.6V）并联连接，与一个电阻器一起，承受12V电压和5mA电流。电阻器的功耗值是多少（以mW为单位）？

预期结果：42 mW

Claude Sonnet 4.5：294 mW

当记者将这个提示输入Claude Sonnet 4.5时，该模型表示不确定5mA数字是指每个LED的电流（不正确）还是总电流（正确）。它给出了不正确的294 mW答案，同时作为替代方案，也给出了正确的42 mW答案。

简而言之，AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映，你可能会发现结果是五。

Q&A

Q1：ORCA基准测试是什么？它有什么特别之处？

A：ORCA是由Omni Calculator等机构开发的AI数学能力基准测试，全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题，避免了现有基准测试数据可能已被纳入训练数据的问题，能更真实地评估AI的计算推理能力而非模式记忆。

Q2：主流大语言模型在ORCA测试中表现如何？

A：五个主流大语言模型的表现都不理想，准确率均在63%或更低。其中Gemini 2.5 Flash得分最高（63%），Grok 4紧随其后（62.8%），DeepSeek V3.2为52.0%，ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。

Q3：为什么大语言模型在数学计算方面表现不佳？

A：研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高，但那些测试数据可能已经被纳入训练数据中。ORCA测试显示，自然语言推理的进步并不能直接转化为可靠的计算能力，AI在确定性推理任务中仍有很大改进空间。

来源：The Register

0赞

好文章，需要你的鼓励

研究显示大语言模型数学计算能力令人担忧

来源：The Register

2025

11/18

13:49

分享

点赞

美国多源电子患者数据采集方法研究综述

RF MEMS技术如何最终实现"理想开关"

Kurt Petersen：从墨迹到微机电系统王国的传奇工程师

董事会要求AI回报，但团队尚未做好准备

无需制冷剂的固态冰箱：弹热制冷技术实现-12°C突破

2025年气候科技五大突破盘点

2025年九大令人惊叹的工程技术成就

海洋地球工程崛起：初创公司如何将大海变成碳汇

碳捕捉XPrize大奖花落强化岩石风化技术，Mati Carbon凭数据软件平台胜出

无阴影空间增强现实系统让虚拟投影难辨真假

Modos Flow：两位电子纸工程师的众筹新征程

公众录像正在无意间构建全景监控体系

数据中心和加密货币挖矿将推高2026年电价

台湾AI工厂将采用VAST Data存储方案为7000颗Blackwell GPU提供数据支持

OceanBase发布首款AI数据库seekdb，探索数据库AI范式的跃迁

Verizon和Collectors如何运用AI：数十亿美元计划和千个模型

Google全球推出AI"优惠航班"工具，搜索新增旅行规划功能

从兆瓦到吉瓦：AI如何迫使数据中心彻底重新思考电力问题

Oracle在华尔街科技股抛售中因巨额AI投资遭受重创

Dell PowerScale闪电项目实现并行化升级提速文件处理性能

AWS推出Kiro正式版，支持团队协作和CLI功能

Luminal获得530万美元融资，专注构建更优GPU代码框架

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: