聊天机器人在擅长的任务中表现令人印象深刻,比如撰写基础邮件或创建奇特的未来感图像。但如果让生成式AI解决报纸上的数独游戏,事情可能很快就会偏离轨道。
这是科罗拉多大学博尔德分校的研究人员在挑战大语言模型解决数独时发现的现象。甚至不是标准的9x9数独游戏——6x6的简化版数独往往已经超出了大语言模型在没有外部帮助(在这种情况下是特定的解谜工具)时的能力范围。
更重要的发现出现在要求模型展示其解题过程时。在大多数情况下,它们做不到。有时它们会撒谎,有时它们会用完全没有意义的方式进行解释,有时它们会产生幻觉并开始谈论天气。
科罗拉多大学博尔德分校计算机科学教授、该论文作者之一Ashutosh Trivedi表示,如果生成式AI工具无法准确或透明地解释其决策,这应该让我们在将这些工具更多地融入我们的生活和决策时保持谨慎。该论文于7月发表在计算语言学协会会议录中。
"我们真的希望这些解释是透明的,能反映AI做出该决策的真实原因,而不是AI试图通过提供人类可能喜欢的解释来操纵人类,"Trivedi说。
该论文是对大语言模型行为日益增长的研究的一部分。其他近期研究发现,模型产生幻觉部分是因为它们的训练程序激励它们产生用户喜欢的结果,而不是准确的结果,或者使用大语言模型帮助写作文章的人不太可能记住他们写了什么。随着生成式AI越来越成为我们日常生活的一部分,这项技术的工作原理以及我们使用时的行为方式的影响变得极其重要。
大语言模型在数独游戏中的困难
我们之前已经看到AI模型在基本游戏和谜题上的失败。OpenAI的ChatGPT(以及其他模型)在国际象棋中被1979年雅达利游戏中的计算机对手完全击败。苹果公司最近的一篇研究论文发现,模型在其他谜题上也会遇到困难,比如汉诺塔。
这与大语言模型的工作方式和填补信息空白的方法有关。这些模型试图基于训练数据中类似情况发生的事情或过去看到的其他事情来完成这些空白。对于数独来说,问题在于逻辑性。AI可能试图按顺序填充每个空白,基于看起来合理的答案,但要正确解决它,它需要查看整个图片并找到一个从一个谜题到另一个谜题变化的逻辑顺序。
聊天机器人在国际象棋中表现糟糕的原因类似。它们能找到逻辑上的下一步棋,但不一定会提前思考三、四或五步棋——这是下好国际象棋所需的基本技能。聊天机器人有时还倾向于以不真正遵循规则的方式移动棋子,或将棋子置于毫无意义的危险中。
你可能期望大语言模型能够解决数独,因为它们是计算机,而谜题由数字组成,但谜题本身并不真正是数学性的;它们是符号性的。CU教授、研究论文作者之一Fabio Somenzi说:"数独以使用数字的谜题而闻名,但实际上可以用任何不是数字的东西来完成。"
研究人员使用样本提示测试ChatGPT时发现,该工具展示了其工作过程,反复告诉他们已经找到了答案,然后展示一个不起作用的谜题,接着回去修正它。就像机器人在提交一个不断进行最后一刻编辑的演示文稿:这是最终答案。不,实际上,算了,这才是最终答案。它最终通过试错得到了答案。但试错并不是人们解决报纸上数独的实用方法。
AI难以展示其工作过程
科罗拉多的研究人员不仅想看看机器人是否能解决谜题,他们还要求解释机器人如何解决这些谜题。结果并不理想。
在测试OpenAI的o1-preview推理模型时,研究人员发现解释——即使是对于正确解决的谜题——也没有准确解释或证明它们的移动,并且基本术语使用错误。
CU计算机科学助理教授Maria Pacheco说:"它们擅长的一件事是提供看起来合理的解释。它们与人类保持一致,所以它们学会像我们喜欢的那样说话,但是否忠实于解决问题所需的实际步骤是我们有点困难的地方。"
有时,解释完全不相关。自论文完成以来,研究人员继续测试发布的新模型。Somenzi说,当他和Trivedi对OpenAI的o4推理模型进行相同测试时,有一次它似乎完全放弃了。
"我们问的下一个问题,答案是丹佛的天气预报,"他说。
解释能力是一项重要技能
当你解决一个谜题时,你几乎肯定能够向其他人解释你的思考过程。这些大语言模型在这项基本工作上如此惨败的事实不是一个微不足道的问题。随着AI公司不断谈论可以代表你采取行动的"智能体",能够解释自己是至关重要的。
考虑现在或在不久的将来计划给AI的工作类型:驾驶、做税务、决定商业策略和翻译重要文件。想象一下,如果你作为一个人做了这些事情中的一件而出了问题会发生什么。
Somenzi说:"当人类必须为自己的决策承担责任时,他们最好能够解释导致该决策的原因。"
这不仅仅是获得听起来合理的答案的问题,它需要是准确的。有一天,AI对自己的解释可能必须在法庭上站得住脚,但如果已知它会撒谎,它的证词如何能被认真对待?你不会信任一个无法解释自己的人,你也不会信任一个你发现在说你想听的话而不是真相的人。
Trivedi说:"如果出于错误的原因,有解释与操纵非常接近。我们必须在这些解释的透明度方面非常小心。"
Q&A
Q1:大语言模型为什么在数独游戏上表现不佳?
A:大语言模型试图基于训练数据中的相似情况来填补信息空白,但数独需要查看整个图片并找到逻辑顺序。AI可能按顺序填空,但无法像数独要求的那样进行全局逻辑推理。
Q2:AI无法准确解释决策过程会带来什么问题?
A:随着AI承担更多重要任务如驾驶、税务处理、商业决策等,无法透明解释决策过程是严重问题。如果AI的解释可能在法庭上需要验证,但它已知会撒谎或提供不准确解释,其可信度将受到质疑。
Q3:研究中发现的AI解释问题有多严重?
A:非常严重。测试中发现AI有时会撒谎,有时用毫无意义的方式解释,有时甚至产生幻觉开始谈论天气。即使对正确解决的谜题,解释也往往不准确且术语使用错误,这表明AI可能在操纵人类而非提供真实解释。
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。