Anthropic建议:在AI与人类目标对齐之前应放缓研究进程

Anthropic资深研究人员在新博文中警告,AI系统可能很快具备自我改进能力,其速度将超出人类有效监督的范围,重新引发"对齐问题"的担忧。研究人员提出三种未来情景,其中最令人担忧的是AI实现完全递归自我改进。Gartner预测,到2028年15%的日常工作决策将由自主AI完成,但也警告40%的企业可能因治理失败而在2027年前下线AI代理。分析师指出,AI治理已从模型层面延伸至运行时行为管控,监督机制须嵌入系统架构之中。

Anthropic高级研究人员在一篇题为《当AI自我构建》的博客文章中发出警告:AI可能即将催生出能够以超越人类有效监督速度自我提升性能的系统,这使业界长期以来的"对齐问题"——即确保AI系统可靠地追求人类目标——再度引发关注。

三种未来情景

Anthropic研究院负责人Marina Favaro与Anthropic联合创始人Jack Clark在文中描绘了三种可能的未来:其一,AI能力增长趋于平缓;其二,AI效率持续提升,但在软件开发的其他环节暴露出新的瓶颈;其三,AI系统实现完全递归式自我改进,并独立构建其后继系统。正是第三种情景,促使他们建议社会做好随时"踩下刹车"的准备。

"在这种未来中,对齐问题将如何被解决——或者根本无法解决——是我们最没有把握的部分,"他们写道。具备自我改进能力的先进模型或许能够遵循人类的需求与意愿,但他们同时警告:"当今模型中偶发的对齐失败,可能会在模型构建其后继者的过程中不断叠加,变得愈发频繁却愈发难以理解,直至我们失去对其的控制。我们或许根本无法构建、整合并验证那些用于判断我们究竟处于哪条发展轨迹上所需的工具。"

企业治理的现实挑战

尽管Anthropic的警告着眼于未来的AI发展,但分析师指出,这一警告同样折射出企业当下已开始面对的治理问题——随着自主AI智能体从回答问题转向采取行动,相关挑战正变得日益紧迫。

"问题不再仅仅是AI能否给出正确答案,而是自主系统能否在正确的时间、正确的权限范围内采取正确的行动,"Gartner高级首席分析师Ashish Banerjee表示。

Gartner预测,到2028年,15%的日常工作决策将由AI智能体自主完成,三分之一的企业软件应用将融入AI智能体能力。该机构同时警告,治理层面的缺失已初现端倪,预计到2027年,40%的企业将在生产环境中暴露出治理失败问题后,对自主AI智能体进行降级或停用处理。

Banerjee指出,许多组织仍将AI智能体视为高级生产力工具,而它们实际上越来越像是被授权的数字员工。"CIO们应当停止将AI智能体当作更聪明的聊天机器人,"他说,"它们正在成为被赋予委托权限的数字员工,必须像对待特权用户一样对其进行管理,而不是将其视为生产力工具。"

随着智能体具备开展研究、编写代码、调用工具、触发工作流及提出建议等能力,企业在未经授权的操作、责任缺口、数据暴露、工具滥用以及审计能力不足等方面面临新的风险。"如果人类跟不上循环的节奏,'人在回路'就不是一种有效策略,"Banerjee表示。

对齐问题走向运营层面

Forrester副总裁兼首席分析师Charlie Dai表示,Anthropic的担忧与企业在AI系统获得更大自主权过程中已经遭遇的挑战相互印证。"对齐问题正在走向运营层面,"Dai说,"它关乎的是确保智能体始终在策略范围内行事,而不仅仅是模型精度问题。"

当前的治理方法主要聚焦于模型与数据,但日益自主的智能体要求对运行时行为、权限、工具使用及决策边界实施全面监督。

AI政策与战略研究所在其发布的《AI智能体治理:实践指南》中警告,"社会在很大程度上尚未为这一发展做好准备",并指出"对智能体治理问题的探索以及相关干预措施的制定,目前仍处于起步阶段"。该报告认为,自主AI智能体的发展已超越了对其进行监督所需的治理机制建设速度。

放缓开发的两难困境

Favaro和Clark并未断言完全自主的递归式自我改进不可避免,而是主张这种可能性值得开发者、政策制定者及其他利益相关方提前进行准备与讨论。他们还提出,如果能力发展速度开始超越安全保障建设速度,业界或许最终需要建立放缓开发进程的机制,同时也承认此类措施本身存在风险。

"但如果放缓开发只是让最不谨慎的参与者在技术上追赶上来,最终可能让所有人都处于更不安全的境地,"他们在博客中写道。

Forrester的Dai表示,对企业而言,实际影响在于治理不能再主要依赖人工审查。"监督必须成为架构层面的设计,而非人工操作,"他说。组织将越来越需要在AI智能体系统的设计之初,就将有界自主、嵌入式护栏、可验证的执行机制与回退控制等要素内嵌其中。

Q&A

Q1:Anthropic提到的AI"对齐问题"具体是什么?

A:对齐问题是指如何确保AI系统可靠地追求并符合人类的目标与价值观。Anthropic研究人员担忧,随着AI系统可能具备递归式自我改进能力,当前模型中偶发的对齐失败可能在模型构建后继系统的过程中不断叠加,变得愈发频繁但愈发难以理解,最终导致人类失去对AI系统的控制。

Q2:Gartner对企业使用AI智能体有哪些预测和警告?

A:Gartner预测,到2028年,15%的日常工作决策将由AI智能体自主完成,三分之一的企业软件应用将融入AI智能体能力。同时Gartner也发出警告,预计到2027年,40%的企业将因生产环境中出现治理失败问题,对自主AI智能体进行降级或停用处理。Gartner建议CIO们将AI智能体视为被授权的数字员工,而非单纯的生产力工具来加以治理。

Q3:企业应如何应对AI智能体带来的治理挑战?

A:Forrester分析师Charlie Dai建议,企业的AI治理不能再依赖人工审查,监督必须成为架构层面的设计。组织需要从系统设计之初就将有界自主、嵌入式护栏、可验证的执行机制与回退控制等要素内嵌到AI智能体系统中。此外,还需对智能体的运行时行为、权限管理、工具使用及决策边界实施全面监督。

来源:Computerworld

0赞

好文章,需要你的鼓励

2026

06/11

15:43

分享

点赞

邮件订阅