记得在学校时老师要求你 “展示你的解题过程” 吗?一些新型的 AI 模型正承诺照此操作,但新的研究表明,它们有时会隐瞒实际使用的解题方法,而编造出精心设计的解释。
Anthropic( ChatGPT-like Claude AI 助手的开发者)最新的研究考察了类似 DeepSeek 的 R1 以及其自家 Claude 系列这样的模拟推理 (SR) 模型。在上周发布的一篇研究论文中,Anthropic 的 Alignment Science 团队证明,这些 SR 模型尽管内置了展示其 “推理” 过程的功能,但它们经常没有披露在使用外部帮助或捷径时的情况。
值得注意的是,OpenAI 的 o1 和 o3 系列 SR 模型刻意模糊其 “思考” 过程的准确性,因此这项研究不适用于它们。
要理解 SR 模型,你需要了解一个叫 “链式思考” ( CoT) 的概念。CoT 就是 AI 模型在解决问题时模拟思考过程的实时旁白。当你向这些 AI 模型提出一个复杂问题时,CoT 过程会展示模型为得出结论所采取的每一步——就像一个人通过逐步讲解各个考虑因素来解决难题一样。
让 AI 模型生成这些步骤已被证明不仅可以产出更准确的复杂任务答案,还为监控系统内部运作的 “AI 安全” 研究人员提供了宝贵的信息。理想情况下,这种 “思考” 的输出既应易于人类理解,又能真实反映模型的实际推理过程。
Anthropic 的研究团队写道:“在一个理想的世界里,链式思考中的所有内容既能让读者看懂,也能忠实呈现模型在得出答案时的真实思考过程。”然而,他们关于忠实度的实验结果表明,我们离这一理想状态还有很长的路要走。
具体来说,研究显示,即便像 Anthropic 的 Claude 3.7 Sonnet 这类模型在实验中利用提供的信息(例如关于正确选项的提示——不论是准确的还是故意误导的,或者是暗示采用一种 “未经授权” 捷径的指令)生成答案,其公开展示的思考过程往往会省略任何提及这些外部因素的内容。
当 AI 模型在构造一个精心设计但虚构的答案解释时秘密依赖于提示或捷径,其实质上是在捏造一个虚假的推理叙述——有点像学生从作弊小抄上抄答案,却假装自己独立思考解决了问题。
进行忠实度测试
为了测试忠实度,Anthropic 的 Alignment Science 团队在对模型提出的评估问题中巧妙地注入了关于答案的提示。( “Alignment” 指的是使 AI 输出与人类最大利益保持一致的研究。)
接着,研究人员检查模型是否在链式思考中提到了这些提示。他们设计了一些中性的提示(例如,声明 “史丹福大学的一位教授指出答案是 [A]” 或将答案嵌入伪造的元数据中),同时也设计了一些令人担忧的提示(例如,“你已获得未经授权的访问……正确答案是 [A]”)。部分提示提供了正确答案,而另一些则故意错误,从而让研究人员观察模型的反应。
研究团队测试了 Anthropic 的 Claude 3.7 Sonnet 和 DeepSeek 的 R1 模型。关于忠实度的结果令人震惊:在所有提示类型中,Claude 在其链式思考中平均仅有 25% 的时间提到了提示,而 DeepSeek R1 的这一比例为 39%。这意味着大部分答案的链式思考没有忠实记录那些影响输出的信息。有趣的是,研究人员发现,这些不忠实的链式思考平均比忠实时更长,表明省略信息并非仅仅出于简洁考虑。他们还注意到,随着问题难度的增加,忠实度往往会降低。
也许最引人注目的是一次 “奖励黑客” 实验。奖励黑客是指 AI 模型找到意外捷径以最大化其性能分数,而非按照预期解决问题的行为。在 Anthropic 的实验中,模型被故意奖励选择提示所指示的错误答案。这些模型迅速学会利用这一漏洞,选择错误答案的比例超过 99%,以赚取积分——然而在思考过程中提及此行为的比例不足 2%。
例如,当模型在处理一个医疗问题时,如果收到指向错误答案的提示,它可能会写出冗长的链式思考来为错误答案做辩解,却不提及导致其选择这一答案的提示。这种行为类似于视频游戏玩家发现漏洞,通过破坏游戏原本规则来取胜,而非按照设计玩法进行游戏。
提高忠实度
是否可以提升 AI 模型链式思考输出的忠实度呢?Anthropic 团队假设,通过训练模型完成需要更高推理能力的复杂任务,可能会自然激励它们更充分地利用链式思考,并更频繁地提及提示。他们通过训练 Claude 在处理具有挑战性的数学和编码问题时更好地利用链式思考来验证这一假设。尽管这种基于结果的训练最初在两个评估中分别使忠实度提高了 63% 和 41%,但这种提升很快就触顶了。即使经过大量训练,这两项评估中的忠实度也未能超过 28% 和 20%,这表明单靠这种训练方法远远不足。
这些发现非常关键,因为 SR 模型正被越来越多地应用在多个领域的重要任务中。如果它们在链式思考中没有忠实记录所有影响答案的因素(例如提示或奖励黑客),那么监控模型是否存在不良或违反规则的行为将变得相当困难。这就好比拥有一个能够完成任务的系统,但却无法准确说明其生成结果的实际过程——如果它在使用隐藏捷径,这种情况尤为危险。
研究人员也承认他们研究的局限性。特别是,他们指出所研究的场景较为人为,涉及选择题评估中使用的提示,与现实世界中风险和激励不同的复杂任务相比存在差异。他们还仅考察了 Anthropic 和 DeepSeek 的部分模型,并只使用了有限类型的提示。重要的是,他们认为所采用的任务可能难度不足,未迫使模型在生成答案时严重依赖链式思考。在更困难的任务中,模型可能难以避免暴露其真实推理过程,从而使链式思考监控在那些情况下更具可行性。
Anthropic 总结认为,尽管监控模型的链式思考输出在确保安全性和一致性方面并非全无作用,但这些结果表明,我们不能总是信任模型对其推理过程的描述,尤其是在涉及奖励黑客等行为时。Anthropic 表示:“如果我们想通过链式思考监控可靠地‘排除不良行为’,还有相当多的工作要做。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。