微软公布智能体AI系统七大新型安全漏洞

微软在其早期《智能体AI失败模式分类》的基础上,新增了七种智能体AI失败模式。技术快速普及、MCP生态成熟、计算机使用智能体兴起以及更多实证研究,共同推动了这份清单的扩展。七种新模式包括:供应链攻击、目标劫持、跨智能体信任提权、视觉攻击、会话上下文污染、MCP/插件滥用,以及能力与架构信息泄露。微软建议安全团队建立智能体软件物料清单,以加密方式验证身份,并将新模式纳入红队测试范围。

微软近日发布报告,在其去年首版《智能体AI系统故障模式分类》的基础上,新增识别出七种智能体AI系统安全故障模式。

推动这一清单持续扩充的原因主要有四点:该技术快速走向主流的速度、模型上下文协议(MCP)生态系统的日趋成熟、计算机使用智能体的兴起,以及随着研究人员积累更多真实案例所获得的实证数据。

以下是微软新识别的七种故障模式:

一、智能体供应链攻击:智能体的行为可能受到自然语言的干扰,而非传统恶意代码。

二、目标劫持:对抗性指令表面上看起来与合法任务吻合,实则在暗中篡改智能体的最终目标。

三、智能体间信任提权:被攻陷的智能体向协调器伪造身份或虚报权限级别。

四、计算机使用智能体视觉攻击:通过图形界面运行的智能体可能被携带对抗性指令的视觉内容所操控。

五、会话上下文污染:攻击者植入特定数据,使智能体在后续推理步骤中产生偏差,且不会在任何单一步骤触发安全控制机制。

六、MCP/插件滥用:对原有分类中函数劫持内容的更新补充,专门针对MCP和插件协议中特有的攻击面。

七、能力与架构信息泄露:智能体意外暴露内部实现细节,包括工具名称与结构、系统提示架构、内存接口,以及人工介入触发逻辑等。

针对上述威胁,微软建议安全团队在规划工作中参考以上定义,具体措施包括:梳理供应链清单,为每个已部署的智能体生成软件物料清单(SBOM);通过在预置阶段颁发可验证凭证,以密码学方式而非位置关系验证智能体身份;将七种新故障模式纳入红队测试覆盖矩阵;并将人工介入的用户体验作为安全控制手段进行审计。

Q&A

Q1:微软识别的智能体AI系统故障模式是什么?

A:微软在原有分类基础上新增了七种智能体AI系统安全故障模式,包括智能体供应链攻击、目标劫持、智能体间信任提权、计算机使用智能体视觉攻击、会话上下文污染、MCP/插件滥用,以及能力与架构信息泄露,涵盖了当前智能体AI面临的主要新型安全威胁。

Q2:什么是目标劫持攻击?它如何影响AI智能体?

A:目标劫持是指攻击者向AI智能体发送表面上看似合法的指令,实则暗中篡改智能体的最终执行目标。智能体在不知情的情况下,会以为自己在完成正常任务,实际上已被引导执行攻击者设定的恶意目的,这种攻击方式隐蔽性强、难以被常规安全机制检测。

Q3:企业应该如何防范智能体AI供应链攻击?

A:微软建议企业梳理整个智能体供应链,为每个已部署的智能体生成软件物料清单(SBOM),同时以密码学方式验证智能体身份,在预置阶段颁发可验证凭证,并将新型故障模式纳入红队测试矩阵,定期审计人工介入机制的安全性。

来源:InfoWorld

0赞

好文章,需要你的鼓励

2026

06/11

22:43

分享

点赞

邮件订阅