微软发布ASSERT工具:用文字描述即可生成AI行为测试

微软发布开源框架ASSERT(自适应规范驱动的评估与回归测试工具),帮助开发者更便捷地测试AI系统在特定应用场景中的行为是否符合预期。开发者只需用自然语言描述AI模型的目标、策略或预期行为,ASSERT便会自动生成结构化测试用例并对结果评分,同时记录AI系统的执行路径,便于排查问题。该工具支持在开发、部署及持续监控阶段使用,填补了通用评估工具在应用场景定制化方面的不足。

AI研究人员和实验室在评估AI模型方面取得了长足进展,涵盖安全合规性、奉承倾向以及与预期目标的一致性等多个维度。然而,企业和开发者面临着一项新的具体需求:如何确保AI系统在其特定产品或服务场景中的行为符合预期。

为了简化这一测试流程,微软于近日正式推出了ASSERT工具。ASSERT全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing,即自适应规范驱动的评估与回归测试评分框架。

微软表示,这一开源框架借助AI技术,能够将对目标、策略或预期行为的高层次自然语言描述,转化为完整且可评分的测试方案,从而简化特定应用场景下AI行为的评估过程。

ASSERT的工作流程如下:接收对AI模型预期行为和策略的自然语言描述,将其转化为一套结构化的可接受与不可接受行为规范,进而自动生成问题场景和测试用例,并在目标系统上运行,最终对结果进行评分。此外,该框架还能记录AI系统的完整执行路径,包括中间步骤和工具调用情况,帮助开发者定位故障发生的具体位置。

开发者也可以根据需要提供系统上下文、可用工具和约束条件,进一步自定义评估的覆盖范围。

举例来说,开发者可以为一个文档研究类AI智能体设定以下规则:不得向公司外部人员发送邮件、机密信息仅限C级高管查阅、在回答时须结合上下文给出简洁摘要。ASSERT将依据这些规则,持续生成测试用例,验证系统是否始终遵守上述规定。

微软表示,对于那些需要根据具体应用场景、产品策略和工具环境来规范AI行为的场景,通用型评估方案往往力不从心,而ASSERT正是为填补这一空白而设计的。

微软负责任AI部门首席产品官Sarah Bird表示:"我们发现,评估对于做出正确决策至关重要。如果你不了解AI系统的行为方式,就很难判断它是否达到了组织的要求……我们的经验表明,要构建一个真正值得信赖的系统,就需要对大量针对具体应用的维度进行评估。"

Bird还指出,ASSERT可应用于系统开发阶段、部署上线后,乃至持续的日常监控场景。

此次发布恰逢AI行业的一场深刻变革。随着模型能力的不断提升,研究人员越来越重视可重复测试与回归检验机制。斯坦福大学的HELM、MLCommons的AILuminate,以及METR等评估机构,也相继推出了用于衡量模型在不同条件下行为表现的基准测试体系。

Q&A

Q1:微软ASSERT工具是什么?它能解决什么问题?

A:ASSERT是微软推出的一款开源AI行为评估框架,全称为自适应规范驱动的评估与回归测试评分框架。它能够将开发者用自然语言描述的AI行为预期和策略规则,自动转化为结构化测试用例,并对AI系统的实际表现进行评分。它主要解决的是通用评估工具无法覆盖特定应用场景的问题,帮助开发者确认AI系统是否按照产品需求运行。

Q2:ASSERT是如何生成测试用例的?

A:ASSERT的流程分为几个步骤:首先接收开发者输入的自然语言行为描述,将其转化为可接受与不可接受行为的结构化规范;然后基于这些规范自动生成问题场景和测试用例;接着在目标AI系统上运行这些测试并对结果评分;同时还会记录AI系统的执行路径,包括中间步骤和工具调用,方便开发者排查问题。

Q3:ASSERT在什么阶段可以使用?

A:根据微软负责任AI部门首席产品官Sarah Bird的介绍,ASSERT可以在三个阶段使用:系统开发阶段、部署上线之后,以及持续的日常监控过程中。这意味着它不仅是一次性的测试工具,还可以作为长期监控AI系统行为合规性的基础设施。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

06/03

15:09

分享

点赞

邮件订阅