微软开源智能体AI评估框架ASSERT，助力企业生产前验证

微软开源了一款名为ASSERT的AI评估框架，可将自然语言需求转化为可执行测试，帮助企业在正式部署前系统验证AI智能体行为。该框架能从书面规范、产品需求和治理文档中自动生成评估场景、数据集及评分卡。微软内部验证显示，其模型评估结果与人工审核的一致率达80%至90%。分析师指出，目前99%的企业在生产前不对AI智能体进行评估，行为评估能力将成为下一个核心竞争优势。

微软近日开源了一款AI评估框架，该框架能够将自然语言需求转化为可执行测试用例。此举进一步强化了微软在企业AI治理领域的布局，旨在帮助各组织在将智能体部署至生产环境之前进行系统性验证。

这一框架名为ASSERT（自适应规范驱动的评估与回归测试评分系统），可根据书面规范、产品需求文档及治理文件，自动生成评估场景、数据集、评测指标和评分报告。

"智能体的失效方式往往难以察觉，"微软在博客中写道，"它们可能偏离既定策略、在边缘场景中产生不安全的输出，或在生产环境中呈现出与测试阶段截然不同的行为。通用基准测试无法捕捉这些问题，因为它们并非围绕你的策略、你的智能体或你的应用场景构建。"

ASSERT无需开发者手动创建评估套件，而是将书面意图直接转化为可复用的测试用例，并可集成到AI开发流水线中。

在市场竞争层面，ASSERT的发布使微软进入了一个已相当拥挤的AI评估赛道，现有参与者包括LangChain旗下的LangSmith、Braintrust、Patronus AI、Galileo、Arize AI的Phoenix以及Promptfoo等平台，它们均为企业提供大语言模型应用的基准测试、监控与验证服务。

此次发布恰逢企业快速扩大AI智能体部署规模之际，而正式评估实践仍属少数。

Gartner高级总监分析师Anushree Verma表示："事实上，99%的组织在将AI智能体投入生产之前根本不进行任何评估。"

Verma指出，行业下一个竞争优势的关键，与其说在于推理模型的进步，不如说在于组织在部署前对AI智能体进行仿真与压力测试的能力。

"智能体AI的下一个竞争护城河，并不在于推理模型的复杂程度或底层架构，而在于训练环境的深度与真实性——尤其是通过智能体仿真来支撑关键任务场景的部署。"她说道。

Gartner预测，到2029年，在受监管行业中超过75%未引入智能体仿真机制而设计的特定领域智能体，将无法实现预期价值。

Forrester则认为，企业正在向行为评估方向迈进，但大多数组织尚未将其纳入正式的生产环境要求。

Forrester首席分析师Biswajeet Mahapatra表示："大多数企业仍处于中间阶段，行为评估的应用参差不齐，尚未被视为正式的生产准入门槛。"

Forrester数据显示，逾45%的组织已在使用AI智能体，另有25%正处于试点阶段，但由于治理机制不成熟、运营规范不足，许多组织在规模化落地时仍面临困难。

"总体来看，行为评估正变得越来越重要，但对大多数组织而言，它仍是一种临时性或工具驱动的做法，而非贯穿整个生命周期的标准化发布门控机制。"Mahapatra说道。

微软表示，ASSERT采用大语言模型作为评判者，在公司内部验证中，模型生成的评估结果与人工审核人员的一致率达到80%至90%。

Mahapatra认为，这一一致性水平有助于实现大规模AI测试的自动化，但不应将其视为独立的治理机制。

"与人工审核者80%至90%的一致率表明两者高度对齐，但作为治理或合规的独立控制手段仍不够充分，"他表示。

他建议，企业应建立分层监督机制：由AI在规模层面负责评估AI，同时由人工在高风险、受监管或存在模糊性的场景中保留监督职责。此外，买家还需警惕偏差、一致性问题，以及对单一模型同时承担生成与评估角色的过度依赖。

微软以MIT开源许可证发布了ASSERT，允许各组织对框架进行审查、修改，并将其集成到现有AI开发工作流中。

然而，Mahapatra指出，开源并不能消除围绕评估中立性的质疑。

"以MIT许可证开源确实降低了厂商锁定风险，并提升了跨模型生态的互操作性，"他说，"但这并不能完全消除信任或利益冲突方面的疑虑，因为原始厂商仍然影响着评估标准、评分逻辑以及可接受行为定义的编码方式。"

他建议，企业不应仅依赖单一评估框架，而应将AI系统与多种评估方法进行交叉验证，并保留对内部评估策略的自主掌控权。

Q&A

Q1：ASSERT框架是什么？它主要解决什么问题？

A：ASSERT是微软开源的一款AI评估框架，全称为"自适应规范驱动的评估与回归测试评分系统"。它的核心能力是将自然语言写成的需求文档、产品规范或治理文件，自动转化为可执行的测试用例、评估场景和评分报告，帮助企业在将AI智能体部署至生产环境之前进行系统性验证，解决传统通用基准测试无法针对特定业务场景进行评估的痛点。

Q2：ASSERT的评估准确率怎么样？能替代人工审核吗？

A：微软内部验证显示，ASSERT以大语言模型作为评判者，其评估结果与人工审核人员的一致率达到80%至90%。这一水平有助于大规模自动化测试，但分析师认为不足以作为独立的治理控制手段。建议企业采用分层监督机制，AI负责规模化评估，人工则在高风险或模糊场景中保留监督权，不宜完全依赖单一工具替代人工审核。

Q3：企业目前在AI智能体评估方面的整体现状如何？

A：根据Gartner数据，目前99%的组织在将AI智能体投入生产之前不进行任何评估。Forrester数据则显示，超过45%的组织已在使用AI智能体，但行为评估仍以临时性、工具驱动为主，尚未成为标准化的发布门控流程。Gartner预测，到2029年，受监管行业中超过75%未引入智能体仿真机制的特定领域智能体将无法交付预期价值。

来源：InfoWorld

0赞

好文章，需要你的鼓励

微软开源智能体AI评估框架ASSERT，助力企业生产前验证

来源：InfoWorld

2026

06/18

13:25

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Pramaana Labs获2700万美元融资，将形式化验证引入AI

XDOF：机器人训练数据领域的新兴基础设施公司融资7000万美元

美国人越来越怀疑AI，但使用率却创新高

AI浪潮下CIO精力耗竭困境及应对之道

汇丰银行与谷歌云达成AI合作协议，计划部署超200个AI应用场景

摩托罗拉解决方案推出 Assist AI，全面提升公共安全响应能力

Everpure推出通用数据智能平台，弥合AI数据鸿沟

AMD收购MEXT，将预测性内存优化技术纳入AI基础设施版图

MSD与Protillion达成逾5.1亿美元AI药物研发合作

LTX Trainer：打造属于你自己的AI视频模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会