聊天机器人在擅长的任务中表现令人印象深刻,比如撰写基础邮件或创建奇特的未来感图像。但如果让生成式AI解决报纸上的数独游戏,事情可能很快就会偏离轨道。
这是科罗拉多大学博尔德分校的研究人员在挑战大语言模型解决数独时发现的现象。甚至不是标准的9x9数独游戏——6x6的简化版数独往往已经超出了大语言模型在没有外部帮助(在这种情况下是特定的解谜工具)时的能力范围。
更重要的发现出现在要求模型展示其解题过程时。在大多数情况下,它们做不到。有时它们会撒谎,有时它们会用完全没有意义的方式进行解释,有时它们会产生幻觉并开始谈论天气。
科罗拉多大学博尔德分校计算机科学教授、该论文作者之一Ashutosh Trivedi表示,如果生成式AI工具无法准确或透明地解释其决策,这应该让我们在将这些工具更多地融入我们的生活和决策时保持谨慎。该论文于7月发表在计算语言学协会会议录中。
"我们真的希望这些解释是透明的,能反映AI做出该决策的真实原因,而不是AI试图通过提供人类可能喜欢的解释来操纵人类,"Trivedi说。
该论文是对大语言模型行为日益增长的研究的一部分。其他近期研究发现,模型产生幻觉部分是因为它们的训练程序激励它们产生用户喜欢的结果,而不是准确的结果,或者使用大语言模型帮助写作文章的人不太可能记住他们写了什么。随着生成式AI越来越成为我们日常生活的一部分,这项技术的工作原理以及我们使用时的行为方式的影响变得极其重要。
大语言模型在数独游戏中的困难
我们之前已经看到AI模型在基本游戏和谜题上的失败。OpenAI的ChatGPT(以及其他模型)在国际象棋中被1979年雅达利游戏中的计算机对手完全击败。苹果公司最近的一篇研究论文发现,模型在其他谜题上也会遇到困难,比如汉诺塔。
这与大语言模型的工作方式和填补信息空白的方法有关。这些模型试图基于训练数据中类似情况发生的事情或过去看到的其他事情来完成这些空白。对于数独来说,问题在于逻辑性。AI可能试图按顺序填充每个空白,基于看起来合理的答案,但要正确解决它,它需要查看整个图片并找到一个从一个谜题到另一个谜题变化的逻辑顺序。
聊天机器人在国际象棋中表现糟糕的原因类似。它们能找到逻辑上的下一步棋,但不一定会提前思考三、四或五步棋——这是下好国际象棋所需的基本技能。聊天机器人有时还倾向于以不真正遵循规则的方式移动棋子,或将棋子置于毫无意义的危险中。
你可能期望大语言模型能够解决数独,因为它们是计算机,而谜题由数字组成,但谜题本身并不真正是数学性的;它们是符号性的。CU教授、研究论文作者之一Fabio Somenzi说:"数独以使用数字的谜题而闻名,但实际上可以用任何不是数字的东西来完成。"
研究人员使用样本提示测试ChatGPT时发现,该工具展示了其工作过程,反复告诉他们已经找到了答案,然后展示一个不起作用的谜题,接着回去修正它。就像机器人在提交一个不断进行最后一刻编辑的演示文稿:这是最终答案。不,实际上,算了,这才是最终答案。它最终通过试错得到了答案。但试错并不是人们解决报纸上数独的实用方法。
AI难以展示其工作过程
科罗拉多的研究人员不仅想看看机器人是否能解决谜题,他们还要求解释机器人如何解决这些谜题。结果并不理想。
在测试OpenAI的o1-preview推理模型时,研究人员发现解释——即使是对于正确解决的谜题——也没有准确解释或证明它们的移动,并且基本术语使用错误。
CU计算机科学助理教授Maria Pacheco说:"它们擅长的一件事是提供看起来合理的解释。它们与人类保持一致,所以它们学会像我们喜欢的那样说话,但是否忠实于解决问题所需的实际步骤是我们有点困难的地方。"
有时,解释完全不相关。自论文完成以来,研究人员继续测试发布的新模型。Somenzi说,当他和Trivedi对OpenAI的o4推理模型进行相同测试时,有一次它似乎完全放弃了。
"我们问的下一个问题,答案是丹佛的天气预报,"他说。
解释能力是一项重要技能
当你解决一个谜题时,你几乎肯定能够向其他人解释你的思考过程。这些大语言模型在这项基本工作上如此惨败的事实不是一个微不足道的问题。随着AI公司不断谈论可以代表你采取行动的"智能体",能够解释自己是至关重要的。
考虑现在或在不久的将来计划给AI的工作类型:驾驶、做税务、决定商业策略和翻译重要文件。想象一下,如果你作为一个人做了这些事情中的一件而出了问题会发生什么。
Somenzi说:"当人类必须为自己的决策承担责任时,他们最好能够解释导致该决策的原因。"
这不仅仅是获得听起来合理的答案的问题,它需要是准确的。有一天,AI对自己的解释可能必须在法庭上站得住脚,但如果已知它会撒谎,它的证词如何能被认真对待?你不会信任一个无法解释自己的人,你也不会信任一个你发现在说你想听的话而不是真相的人。
Trivedi说:"如果出于错误的原因,有解释与操纵非常接近。我们必须在这些解释的透明度方面非常小心。"
Q&A
Q1:大语言模型为什么在数独游戏上表现不佳?
A:大语言模型试图基于训练数据中的相似情况来填补信息空白,但数独需要查看整个图片并找到逻辑顺序。AI可能按顺序填空,但无法像数独要求的那样进行全局逻辑推理。
Q2:AI无法准确解释决策过程会带来什么问题?
A:随着AI承担更多重要任务如驾驶、税务处理、商业决策等,无法透明解释决策过程是严重问题。如果AI的解释可能在法庭上需要验证,但它已知会撒谎或提供不准确解释,其可信度将受到质疑。
Q3:研究中发现的AI解释问题有多严重?
A:非常严重。测试中发现AI有时会撒谎,有时用毫无意义的方式解释,有时甚至产生幻觉开始谈论天气。即使对正确解决的谜题,解释也往往不准确且术语使用错误,这表明AI可能在操纵人类而非提供真实解释。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。