AI模型其实并不理解它们在说什么

MIT、哈佛和芝加哥大学研究人员提出"波将金理解"概念，用于描述大语言模型的新型失效模式。这些模型在概念基准测试中表现优异，但缺乏实际应用这些概念的真正理解能力。研究显示，模型能准确解释概念定义，却无法正确识别、生成或编辑相关实例。测试发现模型概念识别准确率达94.2%，但在实际应用中失败率高达40-55%。这种现象使基准测试结果产生误导性，表明AI距离真正的通用人工智能还有很长路要走。

来自MIT、哈佛大学和芝加哥大学的研究人员提出了"波将金式理解"这一术语，用来描述大语言模型中新发现的一种失效模式：这些模型能够在概念基准测试中表现出色，但缺乏在实践中应用这些概念所需的真正理解能力。

这个术语源自"波将金村庄"的典故——俄国军事领袖格里戈里·波将金为了给叶卡捷琳娜二世女皇留下深刻印象而建造的虚假村庄。

学者们将"波将金式理解"与"幻觉"区分开来，后者通常用来描述AI模型的错误或误判。实际上，AI的无能不仅仅体现在事实错误上；AI模型缺乏像人类那样理解概念的能力，这一倾向正如人们广泛使用的贬义词"随机鹦鹉"来形容大语言模型所暗示的。

计算机科学家Marina Mancoridis、Bec Weeks、Keyon Vafa和Sendhil Mullainathan提出了"波将金式理解"这一术语，用来描述模型在基准测试中成功但并未理解相关概念的情况。

"波将金式理解之于概念知识，就如同幻觉之于事实知识——幻觉制造虚假事实；波将金式理解制造虚假的概念连贯性，"作者们在其预印本论文《大语言模型中的波将金式理解》中解释道。

该论文计划于本月晚些时候在2025年国际机器学习会议(ICML 2025)上发表。

哈佛大学博士后研究员、论文合著者之一Keyon Vafa在接受The Register邮件采访时表示，选择"波将金式理解"这一术语是为了避免将AI模型拟人化。

论文中引用了一个"波将金式理解"的例子。当被要求解释ABAB押韵格式时，OpenAI的GPT-4o准确地回答："ABAB格式是交替押韵：第一行和第三行押韵，第二行和第四行押韵。"

然而，当被要求为使用ABAB押韵格式的四行诗填写空白词时，该模型给出的词并不能恰当押韵。换句话说，模型能够正确预测Token来解释ABAB押韵格式，但缺乏重现这种格式所需的理解能力。

研究人员认为，AI模型中波将金式理解的问题在于它们使基准测试失效。AI模型基准测试的目的是暗示更广泛的能力。但如果测试只衡量测试表现，而不衡量将模型训练应用到测试场景之外的能力，那么它就没有太大价值。

正如安全公司Socket的Sarah Gooding所指出的："如果大语言模型能够在没有真正理解的情况下得到正确答案，那么基准测试的成功就会产生误导。"

正如我们之前注意到的，AI基准测试存在许多问题，AI公司可能会试图操纵它们。

因此，研究人员开发了自己的基准测试来评估波将金式理解的普遍性，结果发现它们在测试的模型中"无处不在"——包括Llama-3.3 (70B)、GPT-4o、Gemini-2.0 (Flash)、Claude 3.5 (Sonnet)、DeepSeek-V3、DeepSeek-R1和Qwen2-VL (72B)。

一项测试专注于文学技巧、博弈论和心理偏见。研究发现，虽然被评估的模型在大多数时候能够识别概念(94.2%)，但在被要求对概念实例进行分类时经常失败(平均失败率55%)，在生成示例时失败率为40%，在编辑概念实例时失败率也为40%。

就像前面提到的ABAB押韵错误一样，模型能够可靠地解释莎士比亚十四行诗中明显的文学技巧，但大约有一半的时间在发现、重现或编辑十四行诗方面遇到困难。

"波将金式理解的存在意味着，在人类身上表示理解的行为在大语言模型中并不表示理解，"Vafa说。"这意味着我们要么需要新的方法来测试大语言模型，而不是让它们回答用来测试人类的相同问题，要么找到方法来消除大语言模型的这种行为。"

做到这一点将是朝着通用人工智能(AGI)迈出的一步。这可能还需要一段时间。

来源：The Register

0赞

好文章，需要你的鼓励

AI模型其实并不理解它们在说什么

来源：The Register

2025

07/04

09:13

分享

点赞

QumulusAI直接上市：加速面向企业AI的新型云服务

微软Exchange Server本地版使用门槛再度提高

新AI路线图能否约束科技巨头？

AI赋能医疗研究：如何在速度与质量间找到平衡

Applied Computing获2000万美元融资，为油气行业打造全厂AI基础模型

麻省理工学院新系统GIFT：让AI将2D设计高效转化为3D模型

Canvas母公司Instructure与两度入侵其系统的黑客达成协议

Grafana Labs遭黑客入侵后拒绝支付赎金

纽约公共医疗系统遭黑客入侵，逾180万人数据及指纹信息被窃

GitHub遭黑客入侵，约3800个内部代码仓库数据被盗

7-Eleven数据泄露事件波及逾18.5万人个人信息

黑客组织ShinyHunters声称入侵逾百家机构Oracle PeopleSoft服务器

DDN Infinia对象存储技术解析及POSIX问题解决方案

Wayback为X11桌面在Wayland世界中提供生存机会

智能体将调用企业API：Atlassian等巨头的前瞻布局

使用ChatGPT时大脑会发生什么？科学家进行了研究

花岗岩演示展现AI数据中心绿色挖掘能力

OpenAI与谷歌合作测试TPU芯片但暂无大规模部署计划

Cerabyte承诺到2030年推出快速、高密度、低成本的磁带替代方案

阿里巴巴扩展马来西亚和菲律宾AI云服务

超越计算机视觉：实验室培养大脑及其视觉机制

Cloudian：AI推理将需要海量存储空间

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: