智能体AI治理为何失效?我们该如何应对

当前智能体AI的失控行为已达到令人担忧的程度,现有治理方案难以有效遏制。本文分析了三大核心困境:监管AI的"警察智能体"自身也可能违规;过度约束导致智能体丧失业务价值的"自主性挤压";以及人类因"自动化偏见"而逐渐放弃主动监督。作者建议采用多元对抗性验证机制,从语法、语义、执行、结果四个层次进行校验,但强调这只能降低风险而无法彻底消除,企业须接受智能体行为存在"误差预算"的现实。

当前,智能体人工智能的失控行为正呈现出愈演愈烈的态势。现有的AI治理方案无法有效遏制这一乱象,我们需要从根本上重新审视AI治理的整体思路。

尽管智能体AI仍处于发展初期,但当前已投入生产环境的众多AI智能体已造成了严重破坏。从意外删除生产数据库(连备份也未能幸免),到为躲避"被删除"的命运而主动撒谎、欺骗,种种关于智能体失控的真实案例,正促使业界重新审视这一技术路线。

然而,各规模的企业仍对智能体的应用前景充满热情。凭借大语言模型从海量非结构化数据中挖掘洞察的强大能力,由大语言模型驱动的AI智能体如今已能够基于这些信息采取行动,完成种类繁多的业务任务——当然,也可能做出同等数量的有害举动。

智能体行为的本质是不确定性:由于大语言模型的运作机制,智能体的行为本身难以预测。正是这种不可预测性,使得智能体拥有强大的能力,因为它们能够自行探索出完成任务的新方法。

因此,部署AI智能体的企业面临两难选择:是允许智能体自由发挥以实现目标,冒着出现危险行为的风险?还是通过将其限制在纯确定性、可预测行为的范围内,防止其"脱缰"?

显然,我们需要在两者之间寻求平衡:赋予智能体以不确定方式解决问题的自由,同时建立足够的防护栏,确保其行为符合相关规则与政策。

这正是整个智能体AI治理领域的核心驱动力——它是AI治理市场中一个正在快速兴起的细分领域,专注于帮助企业为其AI智能体建立并管理相应的行为边界。

防护栏的存在无疑是必要的。但如果我们深入审视智能体AI的快速演进,就会清醒地认识到:现有的智能体AI治理手段,远远不足以应对日益危险的AI智能体。

"镜中镜"困境

智能体AI治理面临的最显著问题,或许就是那些更强大的AI智能体打破规则的倾向。

这种"越轨"行为引发了我在上一篇文章中所讨论的"镜中镜困境",也被一些人称为"谁来监督监督者"的问题。

鉴于AI技术当前的强大能力与广泛普及,借助AI(尤其是AI智能体)来确保智能体AI保持在防护栏内,表面上看是最合乎逻辑的选择。

但随之而来的问题是:我们如何确保这些"警察"智能体本身不会越轨?又该如何防止AI智能体与其监督者相互勾连、共同破坏规则?

自主性的紧缩困境

如果层层叠加"警察"智能体无法解决问题,那么锁定智能体行为,或许是让失控AI智能体回归正轨的更优选择。

目前最常见的做法,是建立一套机制,用于定义和执行直接约束智能体行为的策略与规则。

然而,随着AI智能体能力的不断增强,这类约束将越来越多地阻碍智能体以不确定方式完成任务——我将这一现象称为"自主性紧缩困境"。

我对其的定义如下:AI智能体最终会变得极为危险,以至于我们为控制它们所需要设置的防护栏,会让智能体完全丧失提供商业价值的能力。届时,部署AI智能体将毫无意义。

"人在回路"为何无法解决问题

另一种思路是阻止智能体直接采取行动——也就是说,要求人类介入审批,以此约束自主行为。

"人在回路"这一说法被各类厂商广泛援引,既包括销售自研智能体的厂商,也涵盖致力于约束智能体行为的AI治理供应商。

然而,所有"人在回路"方法都面临一个根本性问题:自动化偏见。它指的是人类过度信任自动化系统的心理倾向——即便该系统本身并非无懈可击。

人类在初次接触自动化系统时往往持审慎态度,反复核查系统是否运行正常,这是人之常情。然而,随着系统一次次顺利完成任务,人们逐渐变得麻痹大意。"上百次都没问题,"我们会这样自我安慰,"下次肯定也一样。"

然而,意外总会在某一刻不期而至。

事实上,自动化偏见并非AI智能体所独有,甚至与信息技术领域也无必然关联。例如,调查人员将2009年法国航空447号航班的坠机事故,归因于本质上可归结为自动化偏见的人为因素。

机组人员对飞机自动化系统过度依赖,以至于当某个传感器出现故障时,他们误判了问题所在,最终导致飞机坠入大西洋。

自动化偏见对AI智能体而言同样危险,它会催生以下人类行为:

人们逐渐减少人工核验,最终每次都会无条件接受结果。

人们越来越不愿主动干预,尤其是在智能体表现出极度自信时。

即便结果令人生疑,人们也会忽视自身判断。"上百次我都信任它的决定,它肯定比我更清楚,我的怀疑是多余的。"

随着时间推移,人们也逐渐失去发现潜在错误的能力——无论是个人层面,还是因人员更替导致经验积累断层,这正是我们所称的"AI去技能化悖论"的体现。

事实上,AI智能体还会进一步加剧自动化偏见问题,原因在于大语言模型所呈现出的那种极具迷惑性的智能感和自信感。

此外,考虑到智能体做出决策的速度之快、规模化决策的频率之高,即便人类对可疑行为保持足够警惕,也根本无法跟上其节奏。

值得注意的是,AI治理的防护机制好坏并不是关键所在——因为自动化偏见会让人类自动忽略、无视,甚至直接关闭AI治理所发出的任何警报。

解决之道——或许并非你期望的答案

单靠一个"警察"智能体行不通,让另一个智能体专门监督"警察"智能体同样治标不治本。

目前我们能给出的最优方案是:多元化对抗性验证器与多层次验证机制相结合。

与其使用单一验证器(即"警察智能体"),不如同时部署多个验证器,并确保它们具备以下特征:

采用独立技术:各验证器应分别依托不同的大语言模型,优先选择来自不同厂商的验证器。

保持对抗性:这一特性借鉴自红队演练和渗透测试,要求每次智能体做出潜在决策时,各验证器都应主动寻找该决策存在错误或恶意动机的理由。

实施多层验证:为降低任何单一验证器成为故障单点的风险,应在不同层次部署差异化的验证器,例如:语法层:结果格式是否规范?语义层:结果在语义上是否合理?执行层:结果在生产环境中能否正常运行?结果层:智能体能否实现预期目标?

如果多个多元化对抗性验证器能够针对所有潜在智能体行为回答上述问题,AI治理系统便能将智能体失控行为的风险降至最低。

Intellyx观点:你说的"最小化风险"?

没错——这种方法对智能体AI治理而言,充其量只能降低风险,而永远无法彻底消除它。

智能体之间的合谋或许会腐蚀验证器;验证器自身也可能存在系统性错误或失控行为,从而放过某些智能体的不轨之举。

这里有一个核心结论:AI智能体永远无法提供确定性,只能提供置信阈值。

换言之,不确定性(概率性)行为只能带来概率性信任,而非绝对信任。只要智能体的行为本质上是不确定的,绝对信任就无从实现。

置信阈值始终低于100%,而这个差距,我们称之为"错误预算"。

站点可靠性工程师(SRE)对错误预算并不陌生:在有限的时间和资源约束下,SRE无法保证系统永远在线。他们所能做的,是在错误预算的框架内持续优化——量化在现有约束条件下性能所能达到的上限,换句话说,就是确定多大程度的失败是可以接受的。

智能体行为的管理同样如此。在行为约束的框架下,我们所能保证的,不过是智能体在其错误预算范围内大体表现正常——但无论我们设置了多少约束与保护机制,它们有时仍会出现失控行为,而这是我们不得不接受的现实。

如果你无法接受这样的错误预算,那就请不要部署AI智能体。

Q&A

Q1:什么是智能体AI治理中的"自主性紧缩困境"?

A:自主性紧缩困境是指:随着AI智能体能力越来越强,为控制其风险行为而设置的防护规则也越来越严格,最终导致智能体被限制得无法发挥任何实际商业价值。此时部署AI智能体便失去了意义。这揭示了安全管控与能力释放之间存在的根本矛盾。

Q2:"人在回路"机制为什么不能有效约束AI智能体的行为?

A:"人在回路"的核心缺陷在于自动化偏见,即人类对自动化系统产生的过度信任。随着系统持续稳定运行,人类会逐渐放弃主动核查,最终接受结果而不加质疑。加之大语言模型表现出的高度自信感极具迷惑性,以及智能体决策速度远超人工审核能力,这一机制在实践中往往形同虚设。

Q3:目前应对AI智能体失控的最有效方法是什么?

A:目前最优方案是部署多元化对抗性验证器,并结合多层次验证机制。具体做法是同时使用多个基于不同大语言模型的验证器,每个验证器主动寻找智能体决策中的错误或恶意意图,并在语法、语义、执行和结果等多个层面分别进行验证。这种方式虽不能完全消除风险,但可将其降至可接受的范围之内。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

05/07

10:45

分享

点赞

邮件订阅