聊天机器人在擅长的任务中表现令人印象深刻,比如撰写基础邮件或创建奇特的未来感图像。但如果让生成式AI解决报纸上的数独游戏,事情可能很快就会偏离轨道。
这是科罗拉多大学博尔德分校的研究人员在挑战大语言模型解决数独时发现的现象。甚至不是标准的9x9数独游戏——6x6的简化版数独往往已经超出了大语言模型在没有外部帮助(在这种情况下是特定的解谜工具)时的能力范围。
更重要的发现出现在要求模型展示其解题过程时。在大多数情况下,它们做不到。有时它们会撒谎,有时它们会用完全没有意义的方式进行解释,有时它们会产生幻觉并开始谈论天气。
科罗拉多大学博尔德分校计算机科学教授、该论文作者之一Ashutosh Trivedi表示,如果生成式AI工具无法准确或透明地解释其决策,这应该让我们在将这些工具更多地融入我们的生活和决策时保持谨慎。该论文于7月发表在计算语言学协会会议录中。
"我们真的希望这些解释是透明的,能反映AI做出该决策的真实原因,而不是AI试图通过提供人类可能喜欢的解释来操纵人类,"Trivedi说。
该论文是对大语言模型行为日益增长的研究的一部分。其他近期研究发现,模型产生幻觉部分是因为它们的训练程序激励它们产生用户喜欢的结果,而不是准确的结果,或者使用大语言模型帮助写作文章的人不太可能记住他们写了什么。随着生成式AI越来越成为我们日常生活的一部分,这项技术的工作原理以及我们使用时的行为方式的影响变得极其重要。
大语言模型在数独游戏中的困难
我们之前已经看到AI模型在基本游戏和谜题上的失败。OpenAI的ChatGPT(以及其他模型)在国际象棋中被1979年雅达利游戏中的计算机对手完全击败。苹果公司最近的一篇研究论文发现,模型在其他谜题上也会遇到困难,比如汉诺塔。
这与大语言模型的工作方式和填补信息空白的方法有关。这些模型试图基于训练数据中类似情况发生的事情或过去看到的其他事情来完成这些空白。对于数独来说,问题在于逻辑性。AI可能试图按顺序填充每个空白,基于看起来合理的答案,但要正确解决它,它需要查看整个图片并找到一个从一个谜题到另一个谜题变化的逻辑顺序。
聊天机器人在国际象棋中表现糟糕的原因类似。它们能找到逻辑上的下一步棋,但不一定会提前思考三、四或五步棋——这是下好国际象棋所需的基本技能。聊天机器人有时还倾向于以不真正遵循规则的方式移动棋子,或将棋子置于毫无意义的危险中。
你可能期望大语言模型能够解决数独,因为它们是计算机,而谜题由数字组成,但谜题本身并不真正是数学性的;它们是符号性的。CU教授、研究论文作者之一Fabio Somenzi说:"数独以使用数字的谜题而闻名,但实际上可以用任何不是数字的东西来完成。"
研究人员使用样本提示测试ChatGPT时发现,该工具展示了其工作过程,反复告诉他们已经找到了答案,然后展示一个不起作用的谜题,接着回去修正它。就像机器人在提交一个不断进行最后一刻编辑的演示文稿:这是最终答案。不,实际上,算了,这才是最终答案。它最终通过试错得到了答案。但试错并不是人们解决报纸上数独的实用方法。
AI难以展示其工作过程
科罗拉多的研究人员不仅想看看机器人是否能解决谜题,他们还要求解释机器人如何解决这些谜题。结果并不理想。
在测试OpenAI的o1-preview推理模型时,研究人员发现解释——即使是对于正确解决的谜题——也没有准确解释或证明它们的移动,并且基本术语使用错误。
CU计算机科学助理教授Maria Pacheco说:"它们擅长的一件事是提供看起来合理的解释。它们与人类保持一致,所以它们学会像我们喜欢的那样说话,但是否忠实于解决问题所需的实际步骤是我们有点困难的地方。"
有时,解释完全不相关。自论文完成以来,研究人员继续测试发布的新模型。Somenzi说,当他和Trivedi对OpenAI的o4推理模型进行相同测试时,有一次它似乎完全放弃了。
"我们问的下一个问题,答案是丹佛的天气预报,"他说。
解释能力是一项重要技能
当你解决一个谜题时,你几乎肯定能够向其他人解释你的思考过程。这些大语言模型在这项基本工作上如此惨败的事实不是一个微不足道的问题。随着AI公司不断谈论可以代表你采取行动的"智能体",能够解释自己是至关重要的。
考虑现在或在不久的将来计划给AI的工作类型:驾驶、做税务、决定商业策略和翻译重要文件。想象一下,如果你作为一个人做了这些事情中的一件而出了问题会发生什么。
Somenzi说:"当人类必须为自己的决策承担责任时,他们最好能够解释导致该决策的原因。"
这不仅仅是获得听起来合理的答案的问题,它需要是准确的。有一天,AI对自己的解释可能必须在法庭上站得住脚,但如果已知它会撒谎,它的证词如何能被认真对待?你不会信任一个无法解释自己的人,你也不会信任一个你发现在说你想听的话而不是真相的人。
Trivedi说:"如果出于错误的原因,有解释与操纵非常接近。我们必须在这些解释的透明度方面非常小心。"
Q&A
Q1:大语言模型为什么在数独游戏上表现不佳?
A:大语言模型试图基于训练数据中的相似情况来填补信息空白,但数独需要查看整个图片并找到逻辑顺序。AI可能按顺序填空,但无法像数独要求的那样进行全局逻辑推理。
Q2:AI无法准确解释决策过程会带来什么问题?
A:随着AI承担更多重要任务如驾驶、税务处理、商业决策等,无法透明解释决策过程是严重问题。如果AI的解释可能在法庭上需要验证,但它已知会撒谎或提供不准确解释,其可信度将受到质疑。
Q3:研究中发现的AI解释问题有多严重?
A:非常严重。测试中发现AI有时会撒谎,有时用毫无意义的方式解释,有时甚至产生幻觉开始谈论天气。即使对正确解决的谜题,解释也往往不准确且术语使用错误,这表明AI可能在操纵人类而非提供真实解释。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。