Anthropic研究沙龙：人工智能对齐有多难？

在Anthropic研究沙龙上，研究人员讨论了人工智能的对齐科学、可解释性及其未来。对齐被视为一个迭代过程，旨在让AI模拟具有道德动机的人类行为。对齐的可扩展性和自动化是挑战，需要新的解决方案。可解释性是理解和验证AI行为的关键，帮助识别模型的真实动机和潜在风险。

在旧金山举行的Anthropic研究沙龙活动上，Anthropic的四位研究人员：亚历克斯·塔姆金（Alex Tamkin）、扬·雷克（Jan Leike）、阿曼达·阿斯凯尔（Amanda Askell）和乔什·巴特森（Josh Batson）讨论了对齐科学、可解释性和人工智能研究的未来。

对齐的定义和目标。

对齐微调团队的阿曼达（Amanda Askell）指出，与其试图为“对齐”定义一个完美且统一的目标，不如将其视为一个不断改进和迭代的过程。在她看来，对齐的核心目标是让模型的行为能够模拟出一个“富有道德动机并行事理性”的人类。如果这样一个善良、有责任感的“人类”与数百万用户互动、面对复杂的道德和社会问题时，也将表现出良好的道德行为。然而，她也承认模型面对的现实更加复杂。一个普通人在与某人讨论政治时可能会很直接，但如果AI需要与众多用户讨论该话题时，则必须考虑更广泛的影响，例如可能会对公共舆论造成的影响。

对齐的工作并不是试图强行向模型注入某种固定价值观，而是希望模型能够以一种类似于人类的方式应对价值冲突。在她的视角中，人类自己的价值观或道德框架并不是完全确定的，而是根据经验和信息在不断调整，如果AI也能够像人类一样在面对冲突时进行反思，这会让模型的行为更加自然、可信且安全。

同时，她还对“完美对齐”的目标发出了警示。在她看来，试图实现某种理论上的“完美对齐”，不仅会耗费过多资源，还可能忽视了AI发展的迭代性和动态性。如果一个模型或人类表现出“不容置疑的道德价值观”，反而可能会令人恐惧。她认为，道德更像是一种类比物理学的知识体系，是基于经验、假设和探索逐步积累的，而非天生的或一成不变的。通过设定最低限度的安全与道德基线，让AI在“足够好”的基础上不断提升，我们才能更高效地解决实际问题。

Anthropic研究沙龙：人工智能对齐有多难？

对齐的可扩展性。

从OpenAI跳槽到Anthropic的对齐科学大佬雷克（Jan Leike）对可扩展性问题进行了探讨。当模型变得越来越复杂、执行更长时间的任务并具有更高能力时，如何确保对齐工作的有效性？他的观点是：对齐当前模型的方法可能足以解决眼下的问题，但未来随着模型能力的提升，这些方法可能无法满足需求，需要全新的解决方案。

他介绍道，当前的对齐工作主要依赖于人类可以参与的评估结果。比如，通过读取模型的输出或观察其行为，研究人员可以判断对齐的效果是否符合预期。但，当模型变得更复杂，特别是在执行长期独立任务时，仅靠人类的监督将难以确保模型始终在按照我们的目标行动。模型可能会在很长的行为链条中做出独立决策，这些行为或中间阶段难以被追踪和理解。

雷克认为，一个重要方向是“可扩展监督”。这种方法的设想是，通过利用能力较弱但被验证为更对齐的模型，去评估一个能力更强的模型，从而实现跨代的信任传递。不过，他也承认这一方法存在显著的风险，尤其是当能力更强的模型可能隐藏其真实意图时，另外，如何确保评估模型本身的对齐性也是一个巨大挑战。在谈到自动化对齐的研究方面，他认为，在中期内，可能需要利用AI模型本身来帮助解决对齐问题。这一设想不仅包含利用模型协助研究新的对齐机制，也包括让模型帮助评估和改进自己的行为。但是，他强调即便是在这种“自动化对齐”的愿景下，仍然需要解决一项核心问题：我们能否信任模型在研究时的动机和结论？如果无法确保这一点，那么整个研究努力都可能偏离初衷。

另一个关键点是，如果对齐的可扩展性无法有效改进，现有对齐方法可能很快就会失效。他举了一个场景，模型的“链式思维”（chain of thought）可能不再以英语或清晰的形式呈现，而是在一系列高度抽象甚至不透明的步骤中累积决策，这样的行为过程可能完全超出现有人类或技术的监测能力，从而在根本上阻碍了对齐工作的可操作性。

Anthropic研究沙龙：人工智能对齐有多难？

可解释性的角色。

可解释性团队的乔什（Josh Batson）强调，可解释性不仅是理解模型行为的一种手段，更是确保对齐方法有效的重要基石。如何通过深入解读模型内部运作，辨别出模型的真实动机和潜在风险，从而验证模型是否能够安全地执行任务，是保证模型行为安全性的关键。

乔什认为，可解释性的最终目标是回答一个关键问题：模型为什么会做出这个决定，而不是做出另一个可能的决定。当前模型在输出自然语言的情况下，人类有能力通过观察模型的“思维链条”来推测其决策逻辑，然而，他指出，模型与人类之间存在一个重要的类比：当人直接被问到某个行为的原因时，人们会给出一个合理的解释，但这一解释并不总是反映其真实的内在动机。同样，AI模型也会有同样的表现，如何突破这种表面的“合理性”，深入模型的内部，成为可解释性研究的核心挑战。

他提出了一个有趣的研究假设：可解释性可能会发展为一个“简洁而深刻”的方案，帮助我们直接看到模型做出了哪些具体的决定。他举了一个例子，当模型具备某些“特征”时，比如“积极”或“有害”特征，可解释性应该能够明确标注这些特征如何被激活，以及在何种情境下出现。同时，可解释性还可以帮助研究人员观察到模型中某些不符合期望的特性，例如“虚假友好”或“伪装的善意特征”，并通过研究模型内部的“电路”找出与这些行为相关的激活模式。他进一步指出，目前的可解释性工作已经在模型理解方面取得了一些进展，例如通过观察特征的活跃模式，研究人员已经能够初步识别模型触发某些行为的条件，然而，这种分析工具需要更强的普适性。他提出后期将通过研究模型的关键特征，识别出它们与人类预期对齐的程度，并进一步判断这些特征在未知场景中的表现。

乔什认为，随着模型能力的增加，其决策过程将变得更加复杂且难以理解，未来的高阶模型可能不再依赖思维链条这种可解释的输出，反而通过一系列复杂且难以解读的中间步骤进行处理。他谈到，最好的情况可能是，可解释性最终将以一种直观而实用的方式发挥作用，例如识别“善意特征”并提升其权重，同时抑制那些“恶意特征”或“欺骗性特征”。他用一个比喻来总结可解释性的重要性：它可能会变成一把“灯塔之光”，引导我们直观洞察模型内部的运作和行为。

乔什还特别谈到可解释性在对齐研究中的定位。他认为，可解释性并非单独工作的领域，而是与对齐本身形成了紧密的协作关系。例如，阿曼达提到的让模型表现像“有道德的好人”的对齐工作，以及雷克提出的确保对齐的可扩展性，最终都需要可解释性工具的支持来验证和检验对齐方法是否真正有效。

来源：聚大模型前言

0赞

好文章，需要你的鼓励

Anthropic研究沙龙：人工智能对齐有多难？

来源：聚大模型前言

人工智能

模型压缩

架构优化

AI系统现代架构优化的六大发展方向

人类移动模拟

城市空间知识

智能体框架

清华大学团队研发AI城市规划师：让虚拟居民在真实城市中自由“生活“

人工智能

数据标注

战略投资

Meta斥资143亿美元投资Scale AI强化模型训练

人工智能

扩散模型

数据质量优化

MIT团队发现“废料“照片训练出最好AI：垃圾数据竟能炼成神奇模型

2025

01/13

17:04

分享

点赞

聚大模型前言

见证中国AI事业的成长与发展

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: