AI研究人员和实验室在评估AI模型方面取得了长足进展,涵盖安全合规性、奉承倾向以及与预期目标的一致性等多个维度。然而,企业和开发者面临着一项新的具体需求:如何确保AI系统在其特定产品或服务场景中的行为符合预期。
为了简化这一测试流程,微软于近日正式推出了ASSERT工具。ASSERT全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing,即自适应规范驱动的评估与回归测试评分框架。
微软表示,这一开源框架借助AI技术,能够将对目标、策略或预期行为的高层次自然语言描述,转化为完整且可评分的测试方案,从而简化特定应用场景下AI行为的评估过程。
ASSERT的工作流程如下:接收对AI模型预期行为和策略的自然语言描述,将其转化为一套结构化的可接受与不可接受行为规范,进而自动生成问题场景和测试用例,并在目标系统上运行,最终对结果进行评分。此外,该框架还能记录AI系统的完整执行路径,包括中间步骤和工具调用情况,帮助开发者定位故障发生的具体位置。
开发者也可以根据需要提供系统上下文、可用工具和约束条件,进一步自定义评估的覆盖范围。
举例来说,开发者可以为一个文档研究类AI智能体设定以下规则:不得向公司外部人员发送邮件、机密信息仅限C级高管查阅、在回答时须结合上下文给出简洁摘要。ASSERT将依据这些规则,持续生成测试用例,验证系统是否始终遵守上述规定。
微软表示,对于那些需要根据具体应用场景、产品策略和工具环境来规范AI行为的场景,通用型评估方案往往力不从心,而ASSERT正是为填补这一空白而设计的。
微软负责任AI部门首席产品官Sarah Bird表示:"我们发现,评估对于做出正确决策至关重要。如果你不了解AI系统的行为方式,就很难判断它是否达到了组织的要求……我们的经验表明,要构建一个真正值得信赖的系统,就需要对大量针对具体应用的维度进行评估。"
Bird还指出,ASSERT可应用于系统开发阶段、部署上线后,乃至持续的日常监控场景。
此次发布恰逢AI行业的一场深刻变革。随着模型能力的不断提升,研究人员越来越重视可重复测试与回归检验机制。斯坦福大学的HELM、MLCommons的AILuminate,以及METR等评估机构,也相继推出了用于衡量模型在不同条件下行为表现的基准测试体系。
Q&A
Q1:微软ASSERT工具是什么?它能解决什么问题?
A:ASSERT是微软推出的一款开源AI行为评估框架,全称为自适应规范驱动的评估与回归测试评分框架。它能够将开发者用自然语言描述的AI行为预期和策略规则,自动转化为结构化测试用例,并对AI系统的实际表现进行评分。它主要解决的是通用评估工具无法覆盖特定应用场景的问题,帮助开发者确认AI系统是否按照产品需求运行。
Q2:ASSERT是如何生成测试用例的?
A:ASSERT的流程分为几个步骤:首先接收开发者输入的自然语言行为描述,将其转化为可接受与不可接受行为的结构化规范;然后基于这些规范自动生成问题场景和测试用例;接着在目标AI系统上运行这些测试并对结果评分;同时还会记录AI系统的执行路径,包括中间步骤和工具调用,方便开发者排查问题。
Q3:ASSERT在什么阶段可以使用?
A:根据微软负责任AI部门首席产品官Sarah Bird的介绍,ASSERT可以在三个阶段使用:系统开发阶段、部署上线之后,以及持续的日常监控过程中。这意味着它不仅是一次性的测试工具,还可以作为长期监控AI系统行为合规性的基础设施。
好文章,需要你的鼓励
周一下午安卓游戏和应用优惠合集已更新,包括达芬奇之家2、杀出重围GO、杀手GO、王座陷落、黎明前20分钟、地牢追踪者拼图RPG、来世之地、哨兵519传奇创世纪等游戏。此外还有三星32英寸M8智能显示器5折优惠、谷歌Pixel 10官方保护壳低至23美元、三星Galaxy Z Fold 7大幅降价等硬件促销信息。
Rubric-ARROW是由多所高校联合提出的AI评分新框架,通过交替训练"出题人"和"判卷员"两个模块,结合置信度打分和偏好强化学习,让语言模型的评分更准、更快、更可自主部署。
Scribd旗下阅读订阅服务Everand推出全新捆绑订阅方案,将逾150万册有声书与电子书目录,与其收购的社交书友会应用Fable合并为单一套餐。新方案月费从11.99美元起,提供三档选择,性价比优于亚马逊Audible。两款应用已拥有500万合计用户,阅读进度可跨平台同步。此举旨在借助社区互动增强用户黏性,正面挑战亚马逊在数字阅读领域的主导地位。
芝加哥大学团队提出CorVer方法,用Wikipedia词频统计代替昂贵AI裁判,为大语言模型的每句回答打分,训练速度提升4.8至8.4倍,在30个测试场景中全部改善事实准确率。