微软发布ASSERT工具：用文字描述即可生成AI行为测试

微软发布开源框架ASSERT（自适应规范驱动的评估与回归测试工具），帮助开发者更便捷地测试AI系统在特定应用场景中的行为是否符合预期。开发者只需用自然语言描述AI模型的目标、策略或预期行为，ASSERT便会自动生成结构化测试用例并对结果评分，同时记录AI系统的执行路径，便于排查问题。该工具支持在开发、部署及持续监控阶段使用，填补了通用评估工具在应用场景定制化方面的不足。

AI研究人员和实验室在评估AI模型方面取得了长足进展，涵盖安全合规性、奉承倾向以及与预期目标的一致性等多个维度。然而，企业和开发者面临着一项新的具体需求：如何确保AI系统在其特定产品或服务场景中的行为符合预期。

为了简化这一测试流程，微软于近日正式推出了ASSERT工具。ASSERT全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing，即自适应规范驱动的评估与回归测试评分框架。

微软表示，这一开源框架借助AI技术，能够将对目标、策略或预期行为的高层次自然语言描述，转化为完整且可评分的测试方案，从而简化特定应用场景下AI行为的评估过程。

ASSERT的工作流程如下：接收对AI模型预期行为和策略的自然语言描述，将其转化为一套结构化的可接受与不可接受行为规范，进而自动生成问题场景和测试用例，并在目标系统上运行，最终对结果进行评分。此外，该框架还能记录AI系统的完整执行路径，包括中间步骤和工具调用情况，帮助开发者定位故障发生的具体位置。

开发者也可以根据需要提供系统上下文、可用工具和约束条件，进一步自定义评估的覆盖范围。

举例来说，开发者可以为一个文档研究类AI智能体设定以下规则：不得向公司外部人员发送邮件、机密信息仅限C级高管查阅、在回答时须结合上下文给出简洁摘要。ASSERT将依据这些规则，持续生成测试用例，验证系统是否始终遵守上述规定。

微软表示，对于那些需要根据具体应用场景、产品策略和工具环境来规范AI行为的场景，通用型评估方案往往力不从心，而ASSERT正是为填补这一空白而设计的。

微软负责任AI部门首席产品官Sarah Bird表示："我们发现，评估对于做出正确决策至关重要。如果你不了解AI系统的行为方式，就很难判断它是否达到了组织的要求……我们的经验表明，要构建一个真正值得信赖的系统，就需要对大量针对具体应用的维度进行评估。"

Bird还指出，ASSERT可应用于系统开发阶段、部署上线后，乃至持续的日常监控场景。

此次发布恰逢AI行业的一场深刻变革。随着模型能力的不断提升，研究人员越来越重视可重复测试与回归检验机制。斯坦福大学的HELM、MLCommons的AILuminate，以及METR等评估机构，也相继推出了用于衡量模型在不同条件下行为表现的基准测试体系。

Q&A

Q1：微软ASSERT工具是什么？它能解决什么问题？

A：ASSERT是微软推出的一款开源AI行为评估框架，全称为自适应规范驱动的评估与回归测试评分框架。它能够将开发者用自然语言描述的AI行为预期和策略规则，自动转化为结构化测试用例，并对AI系统的实际表现进行评分。它主要解决的是通用评估工具无法覆盖特定应用场景的问题，帮助开发者确认AI系统是否按照产品需求运行。

Q2：ASSERT是如何生成测试用例的？

A：ASSERT的流程分为几个步骤：首先接收开发者输入的自然语言行为描述，将其转化为可接受与不可接受行为的结构化规范；然后基于这些规范自动生成问题场景和测试用例；接着在目标AI系统上运行这些测试并对结果评分；同时还会记录AI系统的执行路径，包括中间步骤和工具调用，方便开发者排查问题。

Q3：ASSERT在什么阶段可以使用？

A：根据微软负责任AI部门首席产品官Sarah Bird的介绍，ASSERT可以在三个阶段使用：系统开发阶段、部署上线之后，以及持续的日常监控过程中。这意味着它不仅是一次性的测试工具，还可以作为长期监控AI系统行为合规性的基础设施。

来源：Techcrunch

0赞

好文章，需要你的鼓励

微软发布ASSERT工具：用文字描述即可生成AI行为测试

来源：Techcrunch

2026

06/03

15:09

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Ubuntu 26.04：Canonical为智能体时代打造的AI操作系统

微软Work IQ：押注智能体优先的企业IT新时代

Salesforce收购Informatica六个月后，CIO们该知道什么

AI重塑招聘优先级，H-1B签证开发者面临更严峻就业市场

DuckDuckGo在谷歌AI搜索改版后持续走红，iPhone用户增势尤为突出

Perplexity Computer新功能：本地与云端模型智能协同分配任务

微软CEO：计算平台正从操作系统与应用转向智能体时代

谷歌 Phone 应用推出基于 RCS 的 Android 虚假来电检测功能

六月 Android 更新：Quick Share 扩展兼容 AirDrop、AI 加持 Play Books 等新功能，Android 17 即将到来

Gemini覆盖层迎来动态配色升级，新增"屏幕内容"功能整合

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会