在乔治·奥威尔的《1984》世界中,二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。
尽管AI模型经过训练能够输出正确答案,并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用,但它们仍然无法可靠地进行计算。
来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA(AI计算全方位研究)的数学基准测试,该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。
ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格,准确率均在63%或更低。
目前有各种其他基准测试用于评估AI模型的数学能力,如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断,你可能会认为机器学习几乎学会了一切,一些模型的得分达到0.95或更高。
但正如我们所注意到的,基准测试往往缺乏严格的科学设计。
ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为,虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高,但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据,该网站衡量AI模型相对于人类基准得分0的表现,AI模型的数学推理得分为-7.44(基于2024年4月的数据)。
更重要的是,作者们表示,许多现有的基准数据集已经被纳入模型训练数据中,这种情况类似于学生在考试前就拿到了答案。因此,他们认为需要ORCA来评估实际的计算推理能力,而不是模式记忆。
根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究,ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率,错误主要与舍入(35%)和计算错误(33%)有关。"
该评估于2025年10月进行,使用了500个不同类别的数学导向提示:生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学,以及统计学与概率。
论文指出:"Gemini 2.5 Flash取得了最高的整体准确率(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2排名第三,为52.0%。"
"ChatGPT-5和Claude Sonnet 4.5表现相当,但水平较低(分别为49.4%和45.2%),这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实,自然语言推理的进步并不能直接转化为一致的计算可靠性。"
Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定,在数学与转换方面表现强劲(74.1%),但在生物与化学(10.5%)和物理学(31.3%)方面得分惨淡。
然而,这些分数可能只是某个时间点的快照,因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题:
提示:假设你有7个蓝色LED(3.6V)并联连接,与一个电阻器一起,承受12V电压和5mA电流。电阻器的功耗值是多少(以mW为单位)?
预期结果:42 mW
Claude Sonnet 4.5:294 mW
当记者将这个提示输入Claude Sonnet 4.5时,该模型表示不确定5mA数字是指每个LED的电流(不正确)还是总电流(正确)。它给出了不正确的294 mW答案,同时作为替代方案,也给出了正确的42 mW答案。
简而言之,AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映,你可能会发现结果是五。
Q&A
Q1:ORCA基准测试是什么?它有什么特别之处?
A:ORCA是由Omni Calculator等机构开发的AI数学能力基准测试,全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题,避免了现有基准测试数据可能已被纳入训练数据的问题,能更真实地评估AI的计算推理能力而非模式记忆。
Q2:主流大语言模型在ORCA测试中表现如何?
A:五个主流大语言模型的表现都不理想,准确率均在63%或更低。其中Gemini 2.5 Flash得分最高(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2为52.0%,ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。
Q3:为什么大语言模型在数学计算方面表现不佳?
A:研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高,但那些测试数据可能已经被纳入训练数据中。ORCA测试显示,自然语言推理的进步并不能直接转化为可靠的计算能力,AI在确定性推理任务中仍有很大改进空间。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。