企业智能体AI转型成功的12条准则

Salesforce研究显示,超过半数美国职场人对AI持怀疑态度,数据质量差、治理缺失和架构不完善是智能体AI试点失败的主因。Salesforce基于逾两万次生产部署总结出12条法则,涵盖统一数据溯源、实时数据访问、语义元数据、可观测性、对抗性验证、多步推理、混合确定性治理、中立编排、人机协同、主权代理、结果导向评估及可信代理,为企业构建可扩展、可信赖的智能体AI系统提供基准框架。

AI

Salesforce近期发布的一项调查显示,超过半数的美国办公室职员自认为是AI怀疑者,而新兴经济体的人们则对AI持有更高的信任度。

美国职场对AI的质疑并不仅仅源于对失业的担忧,还涵盖了员工体验、培训缺失以及采用AI技术的准备程度等方面。美国员工认为AI工具或试点项目失败的三大主要原因,包括输出结果过于通用、培训不足,以及对输出结果缺乏信任。

对智能体AI试点项目及转型举措的不信任情绪正在进一步蔓延,多项研究表明,AI智能体的生产部署失败率居高不下。

埃森哲最新研究指出,企业必须通过AI投资持续展现早期成果,才能积累推进势头。关键在于从孤立的AI应用转向系统性AI。研究发现,成功的智能体AI项目需要以干净的数据为基础构建强大的数据底座,从而提供准确的上下文;同时还需要在治理和语义一致的数据上加大投入,并配备现代化的AI增强云技术栈、AI防护机制以及重新设计的工作流程。

Informatica针对首席数据官开展的一项调查显示,超过半数的智能体AI采用者将数据质量和数据检索问题列为部署的主要障碍。

尽管企业采用智能体AI的案例中不乏试点和生产部署失败的记录,但也有大量智能体AI部署取得了成功。目前,超过80%的美国政府机构已在使用AI智能体。一项新调查显示,大多数政府领导者认为,到2030年,公共部门将由人类与AI智能体协同工作。IDC聚焦公共部门准备情况的研究也表明,智能体AI在政府领域已不再处于实验阶段,而是成为领导层的战略要务。

Salesforce在智能体AI生产部署方面积累了极为宝贵的经验。在超过两万次智能体AI生产部署中,Salesforce总结出了许多常见错误,包括过度依赖语言模型、依赖策略编码而非复杂的提示逻辑,以及上下文工程薄弱等。但其中最重要的一条经验是:传统软件在上线前完成了90%的工作,而AI智能体在部署到生产环境之后,才真正开始90%的工作,包括对其进行管理和持续优化。

企业真正意义上的智能体AI转型,需要遵循一套规则,以确保构建出智能、可扩展且值得信赖的成果体系。

Salesforce执行副总裁兼首席市场战略官John Taschek长期研究和制定这套规则,旨在对AI智能体成功完成生产部署所需的核心能力进行基准评估。Taschek的研究涵盖了对数千次智能体AI部署的观察,以及与行业分析师、高管、董事会成员和智能体AI先行者社区的深入交流。

这套由Taschek制定的"企业智能体AI转型12条准则"不依附于任何特定厂商或技术方案,具有高度的中立性与通用性。其灵感来源于计算机科学家Edgar F. Codd博士于1985年提出的关系型数据库管理系统12条准则。

对这12条准则的遵循,必须以有据可查的能力为基础,包括技术资料、第三方分析、收益评述或经过验证的实施成果,且所有证据必须及时更新,涵盖最新能力,并以架构为导向,而非停留于简单的表述层面。

这套准则还支持一种注重结果的评估模型,能够区分技术可能性与实际部署能力、客户采纳情况和可量化业务影响之间的差异。此外,整套准则和框架还必须具备风险意识,能够识别失败案例、实施与治理层面的缺口,以及客户反映的挑战。以下是智能体AI的12条准则:

准则一:统一数据溯源

每一条数据都必须具备完整的可追溯历史,包括数据来源、变更过程和使用权限,不允许有来源不明的数据进入智能体。

准则二:实时数据访问接地

智能体必须基于实时数据运行,而非过时的数据快照。依据过期信息做出决策是设计缺陷,而非小问题。

准则三:语义元数据

智能体需要理解数据的含义,而不仅仅是原始数值。"高风险客户"或"合格账户"等概念必须有明确的正式定义,而不能由模型自行猜测。

准则四:可观测性与行为可追溯性

智能体的每一个决策都应被记录并能够得到解释,确保在事后可以回溯并理解其行为原因。

准则五:持续对抗性验证

不仅要在上线时进行测试,还需持续针对边缘案例、异常输入和对抗性场景进行测试,将其视为常态化的"红队"演练。

准则六:多步推理与目标分解

智能体必须能够将复杂目标拆解为多个步骤并逐步执行,在过程中随情况变化灵活调整,而不是简单地按脚本执行。

准则七:混合确定性治理

AI推理具有概率性,但某些规则不可突破。法律、财务和安全方面的防护措施必须硬编码,智能体在架构层面就不应有能力违反这些规则。

准则八:无感知编排

来自不同厂商和模型的智能体需要协同工作,而无需为每种搭配定制特定的对接方案,应在编排层面避免厂商锁定。

准则九:人机协同与共情机制

智能体应与人类协作,而非取代人类。当置信度较低或检测到情绪化场景时,应优雅地将任务移交给人类,并完整传递上下文,而非生硬地中断交接。

准则十:主权代理

企业必须始终掌握控制权,涵盖数据存储位置、模型选择、身份认证和策略管理。外部智能体只能获得受限且可审计的访问权限,任何实体默认均不受信任。

准则十一:基于结果的对等评估

衡量智能体的标准应是业务成果,例如影响的营收、解决的问题和节省的时间,而不是完成的任务数量,评判基准是真实世界的实际影响。

准则十二:可信代理

这是权重最高的准则。智能体必须通过公平性测试、知情同意执行、幻觉防范和可解释性建设,赢得采取行动的资格。

大多数智能体AI试点项目的失败,并非AI本身的失败,而是架构层面的失败——团队在缺乏完整基础的情况下,试图构建参与系统。最常见的单一失败原因,是在杂乱、孤立或陈旧的数据之上直接部署AI智能体。没有统一的数据(准则一),智能体就无法追溯其行动依据;没有实时数据访问(准则二),智能体只能基于过时的数据快照做出决策;没有语义元数据(准则三),智能体就无法理解数据的真实含义。这正是许多AI智能体试点在受控环境中表现出色,却在面对生产数据时一败涂地的根本原因。

当智能体AI试点给出错误或异常的答案时,团队往往发现对问题毫无头绪。如果缺乏可观测性和行为可追溯性(准则四),没有人能够解释究竟发生了什么,也就无从调试、辩护或改进。试点失败,往往不是因为AI出错,而是因为它是一个"黑盒"。试点通常在受控环境中使用干净、具有代表性的数据进行验证,很少会遭遇对抗性输入、边缘案例或恶意行为者(准则五)。持续对抗性验证往往被跳过,因为它看起来像是额外的工作。演示通常展示的是单步任务,而真实的企业工作是多步骤且充满歧义的。当AI智能体面临真正的多步挑战(准则六)时,包括依赖关系、上下文切换和相互冲突的信号,它要么悄然失败,要么需要人工持续介入。

在没有发生事故之前,防护措施往往形同虚设。团队会以"拖慢进度"为由跳过混合确定性治理(准则七),转而依赖模型"自行判断"哪些事不该做。随后,AI智能体便可能批准不该批准的事项,或违反相关策略。治理措施只有在事故发生后才被动添加,其代价远高于从一开始就将其纳入架构的成本。成功的AI智能体生产部署要求智能体能够与其他智能体及人类协同工作,这涉及无感知编排(准则八)和人机协同(准则九)。

许多AI试点在使用厂商托管模型时,没有充分考虑数据存储位置、访问控制和权属问题。主权代理(准则十)方面的顾虑,尤其是在受监管的行业中,往往在后期才浮现,进而触发法律和采购审查,导致生产部署被搁置甚至终止。当AI智能体进入生产环境后,业务负责人必须能够量化部署前后的业务影响。如果缺乏基于结果的对等评估(准则十一),扩大智能体AI部署规模的理由就只是一种主观感受,而非数据支撑。预算决策者会追问:"我们究竟取得了什么成果?"但却得不到任何答案。

最后,AI生产部署的失败,往往是因为信任从未被真正建立起来。大多数试点只关注能力和速度,却忽视了公平性测试、知情同意执行、幻觉防范和可解释性建设等核心工作。一旦出现问题,便没有任何可以依托的信任架构。在受监管或面向客户的场景中,一个错误的输出结果,就足以终结整个项目。

智能体AI的12条准则并非颠倒过来就能奏效。那些成功的智能体AI试点和生产部署,无一例外地将数据质量、治理机制和人机协作视为前提条件,而非事后补救。

Q&A

Q1:智能体AI试点项目失败最常见的原因是什么?

A:大多数智能体AI试点失败并非AI本身的问题,而是架构层面的缺陷。最常见的原因是在杂乱、孤立或陈旧的数据之上直接部署AI智能体。没有统一的数据溯源,智能体无法追溯其行动依据;没有实时数据访问,决策就会基于过时信息;没有语义元数据,智能体则无法理解数据的真实含义。这也是许多试点在受控环境中表现良好,却在真实生产数据面前失败的根本原因。

Q2:智能体AI的12条准则是谁制定的,适用于哪些企业?

A:这套准则由Salesforce执行副总裁兼首席市场战略官John Taschek制定,灵感来源于计算机科学家Edgar F. Codd于1985年提出的关系型数据库管理系统12条准则。这套准则不依附于任何特定厂商或技术方案,具有高度中立性与通用性,适用于所有希望推进智能体AI生产部署的企业,也可作为评估AI智能体核心能力的基准框架。

Q3:为什么"可信代理"被列为12条准则中权重最高的一条?

A:可信代理被列为权重最高的准则,是因为大量AI生产部署的失败根源在于信任从未被真正建立。许多试点只关注能力和速度,却跳过了公平性测试、知情同意执行、幻觉防范和可解释性建设等关键环节。一旦出现问题,便没有可依托的信任架构。尤其在受监管或面向客户的场景中,一个错误的输出结果就可能终结整个项目,因此信任是智能体AI能够持续运行的根本保障。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

06/25

10:17

分享

点赞

邮件订阅