微软近日发布报告,在其去年首版《智能体AI系统故障模式分类》的基础上,新增识别出七种智能体AI系统安全故障模式。
推动这一清单持续扩充的原因主要有四点:该技术快速走向主流的速度、模型上下文协议(MCP)生态系统的日趋成熟、计算机使用智能体的兴起,以及随着研究人员积累更多真实案例所获得的实证数据。
以下是微软新识别的七种故障模式:
一、智能体供应链攻击:智能体的行为可能受到自然语言的干扰,而非传统恶意代码。
二、目标劫持:对抗性指令表面上看起来与合法任务吻合,实则在暗中篡改智能体的最终目标。
三、智能体间信任提权:被攻陷的智能体向协调器伪造身份或虚报权限级别。
四、计算机使用智能体视觉攻击:通过图形界面运行的智能体可能被携带对抗性指令的视觉内容所操控。
五、会话上下文污染:攻击者植入特定数据,使智能体在后续推理步骤中产生偏差,且不会在任何单一步骤触发安全控制机制。
六、MCP/插件滥用:对原有分类中函数劫持内容的更新补充,专门针对MCP和插件协议中特有的攻击面。
七、能力与架构信息泄露:智能体意外暴露内部实现细节,包括工具名称与结构、系统提示架构、内存接口,以及人工介入触发逻辑等。
针对上述威胁,微软建议安全团队在规划工作中参考以上定义,具体措施包括:梳理供应链清单,为每个已部署的智能体生成软件物料清单(SBOM);通过在预置阶段颁发可验证凭证,以密码学方式而非位置关系验证智能体身份;将七种新故障模式纳入红队测试覆盖矩阵;并将人工介入的用户体验作为安全控制手段进行审计。
Q&A
Q1:微软识别的智能体AI系统故障模式是什么?
A:微软在原有分类基础上新增了七种智能体AI系统安全故障模式,包括智能体供应链攻击、目标劫持、智能体间信任提权、计算机使用智能体视觉攻击、会话上下文污染、MCP/插件滥用,以及能力与架构信息泄露,涵盖了当前智能体AI面临的主要新型安全威胁。
Q2:什么是目标劫持攻击?它如何影响AI智能体?
A:目标劫持是指攻击者向AI智能体发送表面上看似合法的指令,实则暗中篡改智能体的最终执行目标。智能体在不知情的情况下,会以为自己在完成正常任务,实际上已被引导执行攻击者设定的恶意目的,这种攻击方式隐蔽性强、难以被常规安全机制检测。
Q3:企业应该如何防范智能体AI供应链攻击?
A:微软建议企业梳理整个智能体供应链,为每个已部署的智能体生成软件物料清单(SBOM),同时以密码学方式验证智能体身份,在预置阶段颁发可验证凭证,并将新型故障模式纳入红队测试矩阵,定期审计人工介入机制的安全性。
好文章,需要你的鼓励
前沿AI研究机构Decart发布最新世界模型Oasis 3,旨在弥合虚拟仿真与物理AI之间的鸿沟。该模型将超写实交互图形能力与强大物理引擎相结合,可生成动作驱动的视频流,支持多视角环境模拟,延迟低于200毫秒。开发者能够借助自然语言提示,快速构建多样化极端场景,有效解决机器人和自动驾驶领域长期存在的"仿真到现实"差距问题,大幅降低物理AI训练成本。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
Visual Components正式发布5.1版本工厂仿真软件,重点引入高精度物理仿真与可扩展机器人协同调度能力,支持在同一环境中同时模拟数百台自主移动机器人、自动导引车及人员的运行状态。新版本还将仿真性能提升至前代的10倍,新增Allen-Bradley PLC支持及Nachi、Epson机器人虚拟调试插件,并将脚本环境升级至Python 3。该软件旨在帮助制造商在实际部署前完成系统验证,降低调试风险,缩短投产周期。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。