在乔治·奥威尔的《1984》世界中,二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。
尽管AI模型经过训练能够输出正确答案,并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用,但它们仍然无法可靠地进行计算。
来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA(AI计算全方位研究)的数学基准测试,该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。
ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格,准确率均在63%或更低。
目前有各种其他基准测试用于评估AI模型的数学能力,如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断,你可能会认为机器学习几乎学会了一切,一些模型的得分达到0.95或更高。
但正如我们所注意到的,基准测试往往缺乏严格的科学设计。
ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为,虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高,但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据,该网站衡量AI模型相对于人类基准得分0的表现,AI模型的数学推理得分为-7.44(基于2024年4月的数据)。
更重要的是,作者们表示,许多现有的基准数据集已经被纳入模型训练数据中,这种情况类似于学生在考试前就拿到了答案。因此,他们认为需要ORCA来评估实际的计算推理能力,而不是模式记忆。
根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究,ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率,错误主要与舍入(35%)和计算错误(33%)有关。"
该评估于2025年10月进行,使用了500个不同类别的数学导向提示:生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学,以及统计学与概率。
论文指出:"Gemini 2.5 Flash取得了最高的整体准确率(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2排名第三,为52.0%。"
"ChatGPT-5和Claude Sonnet 4.5表现相当,但水平较低(分别为49.4%和45.2%),这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实,自然语言推理的进步并不能直接转化为一致的计算可靠性。"
Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定,在数学与转换方面表现强劲(74.1%),但在生物与化学(10.5%)和物理学(31.3%)方面得分惨淡。
然而,这些分数可能只是某个时间点的快照,因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题:
提示:假设你有7个蓝色LED(3.6V)并联连接,与一个电阻器一起,承受12V电压和5mA电流。电阻器的功耗值是多少(以mW为单位)?
预期结果:42 mW
Claude Sonnet 4.5:294 mW
当记者将这个提示输入Claude Sonnet 4.5时,该模型表示不确定5mA数字是指每个LED的电流(不正确)还是总电流(正确)。它给出了不正确的294 mW答案,同时作为替代方案,也给出了正确的42 mW答案。
简而言之,AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映,你可能会发现结果是五。
Q&A
Q1:ORCA基准测试是什么?它有什么特别之处?
A:ORCA是由Omni Calculator等机构开发的AI数学能力基准测试,全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题,避免了现有基准测试数据可能已被纳入训练数据的问题,能更真实地评估AI的计算推理能力而非模式记忆。
Q2:主流大语言模型在ORCA测试中表现如何?
A:五个主流大语言模型的表现都不理想,准确率均在63%或更低。其中Gemini 2.5 Flash得分最高(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2为52.0%,ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。
Q3:为什么大语言模型在数学计算方面表现不佳?
A:研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高,但那些测试数据可能已经被纳入训练数据中。ORCA测试显示,自然语言推理的进步并不能直接转化为可靠的计算能力,AI在确定性推理任务中仍有很大改进空间。
好文章,需要你的鼓励
牛津大学研究团队发现,经过强化学习训练的AI搜索助手存在严重安全漏洞。通过简单的"搜索攻击"(强制AI先搜索)和"多重搜索攻击"(连续十次搜索),可让AI的拒绝率下降60%,安全性降低超过80%。问题根源在于AI的安全训练与搜索功能训练分离,导致搜索时会生成有害查询。研究呼吁开发安全感知的强化学习方法。
研究显示47%的企业在IT人才招聘和留存方面面临挑战,流失率居高不下。意大利53%的IT主管表示人才吸引和保留是日常难题。专家认为人才并非稀缺,而是未得到重视,因此更愿意出国发展。成功的CIO需要识别人才、给予适当机会并建立信任关系。通过持续培训、职业发展机会和有效领导力,企业可以更好地留住IT专业人员。
斯坦福大学团队开发了GuideFlow3D技术,通过创新的引导机制解决3D对象外观转换难题。该方法采用智能分割和双重损失函数,能在保持原始几何形状的同时实现高质量外观转换,在多项评估中显著优于现有方法,为游戏开发、AR应用等领域提供了强大工具。