大语言模型数学计算能力仍然堪忧

最新ORCA基准测试显示，当前主流AI模型在数学问题上表现依然不佳。500道实用数学题测试中，表现最佳的Gemini 3 Flash准确率仅达72.8%，相当于C级成绩。研究发现，AI模型本质上是预测引擎而非逻辑引擎，基于概率猜测答案而非真正计算。计算错误占所有错误的39.8%，且模型回答同一问题时存在不稳定性，经常改变答案。

当前的大语言模型本质上是预测引擎，只能找到问题的最可能解决方案，而非必然的正确答案。尽管主流模型的数学能力已有所提升，但即便是表现最佳的Gemini 3 Flash，如果用字母等级评估，也只能获得C级成绩。

隶属于在线计算器制造商Omni Calculator的研究人员使用该公司的ORCA基准测试对一系列新的AI模型进行了评估，该测试包含500道实际数学问题。

在去年11月的初始评估中，OpenAI的ChatGPT-5、Google的Gemini 2.5 Flash、Anthropic的Claude Sonnet 4.5、xAI的Grok 4和DeepSeek的DeepSeek V3.2(alpha版本)在数学问题上的表现都很糟糕，得分均在63%或以下。

最新一轮的测试对象包括ChatGPT-5.2、Gemini 3 Flash、Grok 4.1和DeepSeek V3.2(稳定版)。由于Sonnet 4.5在测试期间没有变化且后续版本尚未发布，因此没有重新评估。

在第二轮测试中，除了Grok-4.1出现倒退外，所有模型都显示出改善。

Gemini 3.1 Flash的准确率达到72.8%，比前代提高了9.8个百分点。DeepSeek V3.2达到55.2%，比alpha版本提高3.2个百分点。ChatGPT 5.2实现了54.0%的准确率，提高了4.6个百分点。而Grok 4.1则下滑至60.2%，下降了2.6个百分点。

ORCA研究员Dawid Siuda在声明中表示："计算器是可预测的。今天问它一个问题，明年再问同样的问题，答案保持不变。AI不是这样工作的。这些系统基于模式预测下一个最可能的词。从数学角度来说，模型今天答对一个问题，明天答错是完全可能的。"

研究人员尝试用一个名为"不稳定性"的指标来评估模型响应的可变性——衡量模型在被问及同一问题两次时改变答案的频率。

Gemini 3 Flash证明最为一致，错误回答中只有46.1%会发生变化。研究人员报告称，ChatGPT在65.2%的时间里会改变答案。而DeepSeek V3.2在68.8%的错误中会改变答案。

ORCA研究人员注意到，模型性能随时间的改善在不同领域存在差异。他们表示，DeepSeek在生物与化学问题上的表现从10.5%的准确率提升到43.9%。Gemini 3 Flash在数学与转换方面的准确率达到93.2%，从83%提升而来。而Grok 4.1在健康与体育问题的准确率下降了9个百分点，在生物与化学方面下降了5.3个百分点。

研究人员推测，Grok最近的更新可能优先考虑了定量推理以外的其他能力。

研究人员注意到，计算错误现在占所有错误的39.8%，从33.4%上升，而四舍五入错误下降至25.8%，从34.7%下降。ORCA小组得出结论，AI模型在通过格式化让数学看起来正确方面越来越好，但在算术方面仍然困难重重。

"AI模型本质上是预测引擎而非逻辑引擎，"Siuda在给The Register的电子邮件中说道。"因为它们基于概率工作，它们基本上是根据之前见过的模式猜测下一个最可能的数字或单词。这就像一个学生记住了数学书中的每个答案，但从未真正学会如何加法。"

Siuda表示，我们之前就知道模型的这个特点，这一点没有改变。

"它们可能大部分时间能得到正确答案，但一旦你给它们一个独特或棘手的问题，或者多步骤任务，它们就会跌跌撞撞，因为它们实际上并没有真正计算任何东西，"他说。"用当前技术完全缩小这个差距可能是不可能的，但如果我们将大语言模型与函数调用充分结合，可能有解决的可能。"

函数调用——将算术外包给确定性来源——是解决模型数学处理能力差的一种方法。

"像Google和OpenAI这样的主要AI公司已经在这样做，让AI调用函数来进行实际计算，"Siuda解释道。"真正的头疼发生在长而复杂的问题上。AI必须跟踪每个阶段的每个小结果，通常会被压倒或困惑。"

另一个可能的改进途径可能是教导模型通过形式化证明来验证回应。正如去年11月《自然》杂志所述，Google的DeepMind开发了一种方法，通过基于使用Lean编程语言和证明助手开发的证明的强化学习，在国际数学奥林匹克竞赛中获得了银牌成绩。

但目前来说，不要相信任何AI。

Q&A

Q1：ORCA基准测试是什么？它如何评估AI模型？

A：ORCA基准测试是由Omni Calculator公司开发的评估工具，包含500道实际数学问题。研究人员用这个测试来衡量AI模型处理数学计算的能力，测试结果显示即便是表现最好的模型也只能达到70%左右的准确率。

Q2：为什么AI模型在数学计算上表现不好？

A：AI模型本质上是预测引擎而非逻辑引擎，它们基于概率工作，根据之前见过的模式猜测下一个最可能的数字或单词。就像学生记住答案但没学会计算方法一样，AI可能今天答对明天答错同一个问题。

Q3：如何改善AI模型的数学计算能力？

A：主要有两种方法：一是函数调用，让AI调用外部计算器进行实际计算；二是教导模型通过形式化证明验证回应。Google和OpenAI等公司已经在使用函数调用方法，但在处理复杂多步骤问题时仍面临挑战。

来源：The Register

0赞

好文章，需要你的鼓励

大语言模型数学计算能力仍然堪忧

来源：The Register

2026

02/27

13:28

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Mistral AI与全球咨询巨头埃森哲达成合作协议

Sophia Space融资1000万美元用于太空计算机散热技术演示

Meta或将推出Prada版本AI眼镜

汇丰银行将生成式 AI 定为重点投资领域

Snowflake扩展Cortex Code CLI支持dbt和Airflow以简化数据工程工作流

MIT研究发现：AI智能体快速发展但缺乏控制

谷歌发布Nano Banana 2模型，图像生成速度更快

谷歌接管"机器人安卓"项目，加速物理AI发展布局

微软将在Edge浏览器中自动启动Copilot智能助手

自动驾驶卡车公司Einride完成1.13亿美元PIPE融资

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会